China's Models No Longer Need Western Hardware
Meituan은 NVIDIA GPU나 Google TPU 없이 1.6조 개의 매개변수를 가진 LongCat 2.0 모델을 훈련했습니다. 이 모델은 n-gram 임베딩, 최적화된 희소 어텐션, 추측 디코딩 등 혁신적인 기술을 사용하여 장기적인 컨텍스트 처리 비용을 절감하고 성능을 향상시킵니다.
핵심 요약
- Meituan은 1.6조 개의 매개변수를 가진 LongCat 2.0 모델을 NVIDIA GPU나 Google TPU 없이 훈련했으며, 이는 AI 하드웨어 의존도를 줄이는 중요한 진전입니다.
- 모델 크기(매개변수)와 컴퓨팅 작업량 사이의 균형을 맞추기 위해, 기존의 전문가 수를 늘리는 대신 n-gram 임베딩을 사용하여 더 많은 정보를 효율적으로 학습했습니다. (창작자 평가: 단순한 전문가 수 증가보다 효과적)
- 기존의 희소 어텐션 방식의 병목 현상을 해결하기 위해, LongCat은 예측 가능한 청크로 메모리를 읽고, 여러 계층에 걸쳐 캐싱하며, 거친-단계를 먼저 확인하는 방식으로 어텐션 헬퍼를 최적화했습니다.
전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.
로그인 / 회원가입