GPT-5.5는 모를 때 86% 확률로 지어낸다 — 큰 모델일수록 환각이 늘어나는 역설
AI 모델에 “모르는 걸 물어보면 어떻게 답할까?“라고 묻는다고 해 보자. 사람이라면 “잘 모르겠는데요"가 정답에 가깝다. 그런데 최신 대형 모델은 그 자리에서 그럴듯한 거짓말을 만들어 답한다. 이걸 환각(hallucination, 사실이 아닌 내용을 사실처럼 답하는 현상)이라고 부른다. 지난 한 주 사이 Hacker News·X·여러 벤치마크 분석 글에서 같은 숫자가 동시에 회자됐다. GPT-5.5가 정확도 1위를 기록한 바로 그 평가에서, 환각률도 86%로 1위였다. 정확도를 끌어올리는 동안 “모른다고 말하는 능력"이 같이 무너졌다는 뜻이다. 86%가 정확히 뭘 의미하나 먼저 숫자부터 풀자. AA-Omniscience(Artificial Analysis Omniscience, 6개 도메인 42개 경제적 주제에 걸친 6,000개 질문으로 모델의 사실 인식과 환각을 동시에 재는 벤치마크)는 모델의 답을 세 가지로 분류한다. ...