본문 바로가기
Tokenize Time: Inside the Interaction Model Architecture.

Tokenize Time: Inside the Interaction Model Architecture.

AIPrompt Engineering· 2026-05-13

Thinking Machines은 시간 자체를 200ms 마이크로 턴으로 토큰화하는 새로운 상호작용 모델 아키텍처를 발표했습니다. 이 기술은 기존의 멀티 컴포넌트 음성 시스템과 달리, 텍스트, 오디오, 비디오를 동시에 처리하며 실시간에 가까운 응답과 일관된 대화 관리를 가능하게 합니다.

핵심 요약

  • Thinking Machines의 새로운 상호작용 모델은 시간 자체를 200ms 마이크로 턴으로 토큰화하여 텍스트, 오디오, 비디오를 동시에 처리하며 실시간에 가까운 상호작용을 가능하게 합니다. (창작자 평가: "genuinely impressive" / "really changing the way we interact with computers")
  • 기존의 음성-음성 시스템은 VAD, STT, LLM, TTS 등 여러 컴포넌트를 조합했지만, 새로운 모델은 단일 통합 아키텍처로 이를 대체합니다. (창작자 평가: "very different approach")
  • 이 "시간 토큰화"는 즉각적인 대화 관리, 사용자의 의도 파악, 그리고 영상에서의 슬루칭 감지 같은 구체적인 상황 인식을 지원합니다.

전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.

로그인 / 회원가입