Granite 4.1, dense 8B가 32B MoE를 넘어선 사건
지난 1년 LLM 업계의 합의는 분명했다. “스케일을 키우려면 MoE(Mixture of Experts, 모델 안에 여러 전문가 sub-network를 두고 입력마다 일부만 활성화하는 아키텍처).” DeepSeek-V3, Mixtral, Qwen MoE 시리즈가 차례로 활성 파라미터(매 입력에 실제 사용되는 파라미터) 수십억을 유지하면서 총 파라미터 수백억~수천억대를 굴리는 구조를 굳혀왔다. 그런데 IBM이 어제(4월 30일) Granite 4.1을 풀면서 정반대 베팅을 공개했다 — decoder-only dense transformer(모든 파라미터가 매 입력에 활성화되는 전통 아키텍처, GPT/Llama 같은 형태). 흥미로운 건 결과다. 8B dense 모델이 같은 회사의 32B MoE 모델(Granite 4.0-H-Small)을 BFCL V3(Berkeley Function Calling Leaderboard, 함수 호출 능력 벤치마크)에서 68.3 vs 64.7로 +3.6점 앞섰다. ArenaHard(사용자 선호 기반 종합 벤치마크)에서도 69.0을 기록해 같은 32B MoE를 능가했다. GSM8K(초등 수학) 92.5, DeepMind-Math(고난도 수학) 80.1로 수학 추론도 단단하다. 30B 모델은 BFCL V3 73.7로 Gemma-4-31B(72.7)를 상회한다. ...