벤치마크 | WithinTrend — Trending Topics & Guides

지난 1년 LLM 업계의 합의는 분명했다. “스케일을 키우려면 MoE.” DeepSeek-V3, Mixtral, Qwen MoE 시리즈가 차례로 활성 파라미터 수십억을 유지하면서 총 파라미터 수백억~수천억대를 굴리는 구조를 굳혀왔다. 그런데 IBM이 어제(4월 30일) Granite 4.1을 풀면서 정반대 베팅을 공개했다 — decoder-only dense transformer. 흥미로운 건 결과다. 8B dense 모델이 같은 회사의 32B MoE 모델(Granite 4.0-H-Small)을 BFCL V3에서 68.3 vs 64.7로 +3.6점 앞섰다. ArenaHard에서도 69.0을 기록해 같은 32B MoE를 능가했다. GSM8K 92.5, DeepMind-Math 80.1로 수학 추론도 단단하다. 30B 모델은 BFCL V3 73.7로 Gemma-4-31B(72.7)를 상회한다. ...