Your Agent Is Wasting Tokens and You Don't Know It - Erik Hanchett, AWS
이 영상은 AI 에이전트의 토큰 비용을 절감하기 위한 5가지 실용적인 방법을 제시합니다. 프롬프트 캐싱, 모델 라우팅, 도구 결과 오프로딩, 도구 루프 제한, 대화 기록 트리밍을 통해 비용을 절감하면서도 성능 저하는 최소화할 수 있습니다.
핵심 요약
- 시스템 프롬프트, 도구 프롬프트 및 메시지를 캐싱하여 첫 호출 이후 보내는 데이터를 줄일 수 있습니다.
- 작업의 복잡성에 따라 Claude Haiku와 같은 저렴한 모델과 Claude Sonnet과 같은 고급 모델을 라우팅하여 비용을 최적화할 수 있습니다.
- 대규모 도구 결과를 로컬 또는 클라우드에 저장하고 요약하여 에이전트 컨텍스트에 반복적으로 추가되는 것을 방지합니다.
전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.
로그인 / 회원가입