한 모델이 여러 모델을 부린다 — Sakana Fugu가 GPT-5.5를 SWE-Bench에서 넘은 방식
식당 주방에는 보통 셰프 한 명이 한 요리를 끝까지 책임진다. 그런데 일부 호텔 주방은 다르다. 한 명이 야채를 썰고, 다른 한 명이 굽고, 또 다른 한 명이 마지막에 맛을 본다. 누구를 어디에 배치할지 결정하는 사람도 따로 있다. 결과적으로 한 사람이 다 하는 것보다 빠르고 안정적이다. 도쿄 스타트업 Sakana AI가 6월 27일 공개한 Fugu가 그런 호텔 주방 방식을 AI에 적용했다. 사용자는 API 호출 한 번을 보내지만, 뒤에서는 여러 모델이 역할을 나눠 일한다. 그리고 코드 작성 벤치마크 SWE-Bench Pro(실제 GitHub 이슈를 모델이 풀게 시키고 단위 테스트로 채점하는 평가)에서 GPT-5.5보다 25% 가까이 높은 점수를 받았다. 이게 지금 핫한 이유는 Anthropic 수출 금지 2주 만의 첫 비미국 frontier 대안 모델이기 때문이다. ...