Running LLMs on your iPhone: 40 tok/s Gemma 4 with MLX — Adrien Grondin, Locally AI

Name: Running LLMs on your iPhone: 40 tok/s Gemma 4 with MLX — Adrien Grondin, Locally AI
Uploaded: 2026-04-20T21:53:25
Duration: 10 min 51 s
Channel: AI Engineer
Description: 이 영상은 Apple Silicon 기반 기기에서 Gemma 4 모델을 로컬로 실행하는 방법을 안내합니다. MLX 프레임워크와 MLX Swift LM 라이브러리를 사용하여 iPhone, iPad, Mac에서 40토큰/초 이상의 속도로 LLM을 구동하는 방법을 시연합니다.

AIAI Engineer· 2026-04-20

이 영상은 Apple Silicon 기반 기기에서 Gemma 4 모델을 로컬로 실행하는 방법을 안내합니다. MLX 프레임워크와 MLX Swift LM 라이브러리를 사용하여 iPhone, iPad, Mac에서 40토큰/초 이상의 속도로 LLM을 구동하는 방법을 시연합니다.

핵심 요약

MLX는 Apple Silicon에 최적화된 Apple의 프레임워크로, iPhone, iPad, Mac에서 LLM을 효율적으로 실행할 수 있게 합니다.
Gemma 4 모델은 Google에서 개발했으며, MLX Swift LM을 통해 iOS, macOS, iPadOS 앱에 통합되어 로컬에서 구동 가능합니다.
Hugging Face의 MLX 커뮤니티에서 Gemma 4를 포함한 다양한 모델의 양자화된 가중치를 다운로드할 수 있으며, 4비트~8비트 양자화 버전을 사용하는 것이 좋습니다.

전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.

로그인 / 회원가입