본문 바로가기
Your Agent Failed in Prod. Good Luck Reproducing It. - Tisha Chawla & Susheem Koul, Microsoft

Your Agent Failed in Prod. Good Luck Reproducing It. - Tisha Chawla & Susheem Koul, Microsoft

AIAI Engineer· 2026-06-29

본 영상은 AI 에이전트가 프로덕션 환경에서 발생시키는 재현 불가능한 오류를 디버깅하기 위한 '레코드 및 리플레이' 패턴을 소개합니다. Chronicle이라는 자체 개발 도구를 통해 LLM 호출, 도구 실행, 메모리 접근 등의 모든 상태 변화를 기록하고, 이를 기반으로 오류 발생 시점을 정확하게 재현하여 근본 원인을 분석하는 방법을 시연합니다.

핵심 요약

  • AI 에이전트의 프로덕션 오류는 재현이 어렵고, 표준 로그로는 원인 파악이 불가능하여 디버깅에 큰 어려움을 겪습니다. ([00:00])
  • 모델의 온도(temperature)를 0으로 설정하는 것만으로는 비결정적 오류를 해결할 수 없으며, GPU 비결정성, 부동 소수점 연산, 배치 불변성, Mixture of Experts(MoE) 라우팅 등 근본적인 시스템 수준의 비결정성이 존재합니다. ([02:30])
  • 중요한 것은 모델의 출력 비트 단위 결정성이 아니라, 시스템이 동일한 상태 전환을 수행하는 '리플레이 가능성(replayability)'입니다. ([05:30])

전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.

로그인 / 회원가입