오픈소스

리눅스를 만지는 사람이라면 한 번은 써 봤을 도구가 있다. rsync(Unix·Linux에서 가장 널리 쓰이는 파일 동기화 도구, 서버 백업·배포 스크립트 어디에나 들어간다)다. 1996년부터 굴러 온 이 프로젝트가 최근 인터넷에서 한바탕 분노의 대상이 됐다. “메인테이너가 Claude(Anthropic의 AI 코딩 모델)를 쓰기 시작한 뒤로 버그가 늘었다"는 주장이 Mastodon에서 시작돼, 메인테이너 본인에게 향한 괴롭힘으로까지 번졌다. 그리고 6월 초, Alexis Purslane이라는 분석가가 36개 릴리스 전부의 버그 데이터를 끌어모아 통계로 따져본 결과를 공개했다. 결론은 분노한 쪽이 기대했을 그림과 정반대였다. ...

지난 1년 LLM 업계의 합의는 분명했다. “스케일을 키우려면 MoE(Mixture of Experts, 모델 안에 여러 전문가 sub-network를 두고 입력마다 일부만 활성화하는 아키텍처).” DeepSeek-V3, Mixtral, Qwen MoE 시리즈가 차례로 활성 파라미터(매 입력에 실제 사용되는 파라미터) 수십억을 유지하면서 총 파라미터 수백억~수천억대를 굴리는 구조를 굳혀왔다. 그런데 IBM이 어제(4월 30일) Granite 4.1을 풀면서 정반대 베팅을 공개했다 — decoder-only dense transformer(모든 파라미터가 매 입력에 활성화되는 전통 아키텍처, GPT/Llama 같은 형태). 흥미로운 건 결과다. 8B dense 모델이 같은 회사의 32B MoE 모델(Granite 4.0-H-Small)을 BFCL V3(Berkeley Function Calling Leaderboard, 함수 호출 능력 벤치마크)에서 68.3 vs 64.7로 +3.6점 앞섰다. ArenaHard(사용자 선호 기반 종합 벤치마크)에서도 69.0을 기록해 같은 32B MoE를 능가했다. GSM8K(초등 수학) 92.5, DeepMind-Math(고난도 수학) 80.1로 수학 추론도 단단하다. 30B 모델은 BFCL V3 73.7로 Gemma-4-31B(72.7)를 상회한다. ...

'Claude가 rsync에 버그 늘렸다'는 분노, 통계로 따져본 결과

Granite 4.1, dense 8B가 32B MoE를 넘어선 사건