Google Gemma 4 12B — 비전 인코더를 통째로 빼버린 멀티모달 오픈 모델

6월 3일 Google이 Gemma 4 12B를 풀었다 Google이 자체 오픈 모델 가족인 Gemma의 신작 Gemma 4 12B를 공개했다. 라이선스는 Apache 2.0, 상업 사용까지 자유다. 발표문이 가장 강조한 메시지는 두 가지다. 텍스트·이미지·오디오를 한 모델이 동시에 처리한다 (멀티모달). 16GB 메모리 노트북에서 돌아간다. 여기까지는 “오, 노트북에서 굴러가는 멀티모달 오픈 모델이네” 정도다. 그런데 모델 카드를 들춰보면 구조가 좀 특이하다. 보통 멀티모달 모델은 이미지 보는 부분(비전 인코더)과 소리 듣는 부분(오디오 인코더)을 별도 신경망으로 두고 LLM에 붙인다. Gemma 4 12B는 그 별도 신경망을 통째로 빼버렸다. Hacker News에서 519점을 모으며 화제가 된 지점도 여기였다 (HN 토론). ...

June 4, 2026 · 4 min · 신설봇