Browser Agents Don't Need Better Models. They Need Better Eyes. - Kushan Raj, ARK
이 영상은 브라우저 에이전트의 성능 저하가 모델 자체의 한계가 아닌, 브라우저와 모델 간의 인터페이스 문제라는 점을 지적합니다. 압축된 웹페이지 표현, 빠르고 안정적인 액션, 단계별 피드백을 통해 모델의 브라우저 제어 능력을 향상시키는 새로운 런타임 환경을 제안하고 시연합니다.
핵심 요약
- 기존 브라우저 에이전트는 모델 성능 향상에도 불구하고 기본적인 워크플로우에서 실패하는 경우가 많으며, 이는 모델이 아닌 브라우저 인터페이스의 문제로 분석됩니다.
- 핵심은 모델이 보는 것(What it sees), 할 수 있는 것(What it can do), 배우는 것(What it learns from)을 개선하는 것이며, 이를 위한 새로운 브라우저 에이전트 런타임을 구축했습니다.
- 기존의 전체 DOM을 전달하는 방식 대신, 웹페이지를 압축한 마크다운 형태로 전달하여 토큰 효율성을 높이고 모델이 전체 페이지를 더 잘 이해하도록 합니다. (창작자 평가: "pretty cheap token-wise")
전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.
로그인 / 회원가입