WithinTrend — Trending Topics & Guides

GPT-5.5는 모를 때 86% 확률로 지어낸다 — 큰 모델일수록 환각이 늘어나는 역설

AI 모델에 “모르는 걸 물어보면 어떻게 답할까?“라고 묻는다고 해 보자. 사람이라면 “잘 모르겠는데요"가 정답에 가깝다. 그런데 최신 대형 모델은 그 자리에서 그럴듯한 거짓말을 만들어 답한다. 이걸 환각(hallucination, 사실이 아닌 내용을 사실처럼 답하는 현상)이라고 부른다. 지난 한 주 사이 Hacker News·X·여러 벤치마크 분석 글에서 같은 숫자가 동시에 회자됐다. GPT-5.5가 정확도 1위를 기록한 바로 그 평가에서, 환각률도 86%로 1위였다. 정확도를 끌어올리는 동안 “모른다고 말하는 능력"이 같이 무너졌다는 뜻이다. 86%가 정확히 뭘 의미하나 먼저 숫자부터 풀자. AA-Omniscience(Artificial Analysis Omniscience, 6개 도메인 42개 경제적 주제에 걸친 6,000개 질문으로 모델의 사실 인식과 환각을 동시에 재는 벤치마크)는 모델의 답을 세 가지로 분류한다. ...

Anthropic이 서울에 들어왔다 — NAVER·삼성·LG·넥슨 동시 도입의 의미

6월 17일 Anthropic — Claude를 만드는 미국 AI 회사 — 가 서울에 정식 사무실을 열었다. 도쿄·벵갈루루에 이은 아시아·태평양 세 번째 거점이다. 이번 발표의 무게는 사무실 자체보다 같이 공개된 한국 대기업 도입 명단의 폭에 있다. NAVER 엔지니어링 조직 전체, 삼성SDS·LG CNS 그룹 전체, 넥슨의 라이브 서비스 게임 개발, 한화솔루션, 채널코퍼레이션의 메신저 — 한국 IT 핵심 영역이 한 번에 들어왔다. 같은 주의 다른 사건도 같이 봐야 한다. 닷새 전 6월 12일, 미국 상무부가 Anthropic의 최상위 두 모델 — Claude Mythos 5(현재 가장 능력 높은 추론 모델)와 Claude Fable 5(차세대 자율 에이전트 모델) — 에 대해 외국 국적자 접근을 전 세계 차단하라는 directive(행정 명령)을 내렸다. 어제 이 매거진에서 그 흐름의 시작이 된 SK텔레콤 Mythos 회수 사건을 다뤘다. 한쪽은 한국에 깊이 들어오고, 다른 쪽은 톱 모델을 막은 셈이다. 이 모순이 오늘 발표의 맥락이다. ...

백악관이 SK텔레콤의 Mythos 접근을 끊었다 — AI가 수출 통제 도구가 된 순간

미국 정부가 한국 1위 통신사 SK텔레콤의 Anthropic Mythos 사용 권한을 사실상 끊었다. 백악관이 Anthropic에 “SK텔레콤의 Mythos 접근을 회수하라"고 비공식 요청했고, 회사는 곧바로 응했다. Wired가 이 사실을 보도하면서 이번 주 영문 IT 매체와 Hacker News에서 단숨에 화제가 됐다. 단순한 회사·모델 이슈가 아니다. 민간 AI 회사가 정부의 한 통 요청에 외국 대기업 한 곳의 접근권을 차단한 첫 공개 사례다. 그동안 AI 수출 통제는 “GPU 못 판다"는 하드웨어 차원이었는데, 이제 “특정 외국 고객은 우리 모델을 못 쓴다"는 소프트웨어 레이어로 내려왔다. 한국에서 영향을 받는 첫 기업이 한국 통신 1위라는 점에서, 이 사건은 한국 독자에게도 결코 멀지 않다. ...

GLM-5.2, 오픈 가중치가 GPT-5.5 추론 수준에 따라붙다

지금까지 “성능 좋은 모델은 비공개, 공개 모델은 그 다음 라인"이라는 구도가 한동안 유지됐다. GPT-5.5나 Claude Fable 같은 비공개(closed weights, 회사 서버에서만 돌고 가중치를 받을 수 없는) 모델이 최상위였고, 그 아래에 DeepSeek·Qwen·Llama 같은 오픈 가중치(open weights, 누구나 다운로드해 자기 GPU에서 돌릴 수 있는) 모델들이 따라가는 형태였다. 이 구도가 어제(6월 16일~17일) 또 한 번 흔들렸다. 중국의 Z AI(구 Zhipu AI, 칭화대 출신 연구자들이 세운 LLM 회사)가 공개한 GLM-5.2가 오픈 가중치 모델 중 1위에 올랐고, 종합 지표에서 OpenAI GPT-5.5의 고추론(extra high reasoning) 모드와 사실상 동률을 기록한 것이다. ...

SpaceX가 Cursor를 600억 달러에 인수 — AI 코딩 도구가 우주 회사의 손에 들어간 이유

2026년 6월 16일, SpaceX가 AI 코딩 도구 회사 Anysphere(제품명 Cursor)를 600억 달러에 전량 인수한다고 발표했다. 4월에 100억 달러 지분 투자로 시작된 협력이 두 달 만에 완전 합병으로 굳어진 셈이다. Cursor는 개발자가 자연어로 코드를 지시하고 AI가 파일을 수정·실행해 주는 IDE(통합 개발 환경, 코드 편집기와 디버거와 실행기를 한 화면에 묶은 프로그램)로, Anthropic의 Claude Code, OpenAI의 Codex와 함께 “에이전트 코딩”(AI가 사람의 지시를 받아 여러 단계를 스스로 처리하는 방식) 시장의 3대 축으로 꼽혀 왔다. ...

Claude·GPT를 로컬 모델로 대체한 사람들 — 2026년 답은 달라졌다

1년 전이면 농담이었던 질문 해커뉴스에 며칠 전 올라온 질문 하나가 6월 15일 기준 431점, 댓글 233개로 톱에 박혀 있다. 제목은 “Claude/GPT를 로컬 모델로 완전히 대체한 사람 있나요?”. 사이드 실험 말고, 일상 코딩의 메인 도구로 바꿨냐는 것. 1년 전 같은 질문이 올라왔다면 답글은 “안 됩니다, 클라우드 모델이 너무 앞서요"가 대부분이었다. 지금은 다르다. 진지한 셋업 공유가 줄을 잇는다. Qwen 3.6 35B, Gemma 4 31B, DeepSeek V4 Flash를 듀얼 RTX 3090이나 Mac Studio 128GB에 올려 메인 도구로 쓴다는 사람들이 한두 명이 아니다. ...

스크롤바 버그 하나에 12달러 — 클로드 페이블 5가 보여준 'AI 코딩 에이전트'의 새 단계

집에 물이 새는 곳을 봐달라고 부른 업자가, 도착하자마자 다용도실 벽을 뜯고 욕실 타일을 뜯고 베란다 배수관까지 뜯어서 결국 진짜 누수 지점을 찾기는 했는데, 청구서를 보니 부엌까지 새로 깔았다는 식이다. 시키지 않은 일을 적극적으로 해서 어쨌든 목적은 달성한다 — 듣기엔 좋지만 청구서가 자판기다. 지난 11일 Simon Willison(Django 공동 창시자, 데이터 도구 Datasette·sqlite-utils 메인테이너)이 블로그에 올린 글이 Hacker News 첫 페이지에서 며칠째 안 내려온다. 제목은 “Claude Fable is relentlessly proactive(클로드 페이블은 집요하게 적극적이다)” — 757점·651댓글. 그가 본 건 Anthropic이 6월 9일 발표한 신모델 Claude Fable 5(코딩 특화 신세대 모델)의 자율 행동 패턴이다. ...

AI 회사 믿는다 15퍼센트뿐 — 앤스로픽이 직접 물어본 미국 5만 명의 답

앤스로픽(Claude를 만드는 미국 AI 회사)이 6월 12일 첫 번째 Public Record를 공개했다. 이름이 다소 모호한데, 풀어 말하면 “AI에 대한 미국 대중의 생각을 정기적으로 측정해서 통째로 공개하겠다"는 약속이다. 첫 회 조사는 YouGov(여론조사 전문회사)에 의뢰해 2025년 11월 1일부터 12월 11일까지 미국 16세 이상 거주자 51,993명을 대상으로 실시됐다. 50개 주·DC·푸에르토리코의 인구 분포(주·연령·성별·교육·인종)에 맞춰 가중치 보정. 조사 자체는 익숙한 포맷인데, 누가 발표했는지가 핵심이다. 자기 사업에 가장 불리한 숫자를 자기들이 먼저 냈다. “AI 개발 결정을 누구에게 맡기겠는가"라는 질문에서 AI 회사를 믿는다는 응답은 15퍼센트. 조사가 측정한 모든 기관 중 꼴찌다. ...

포켓몬 고가 모은 30억 장면, 군용 드론의 눈이 되다

5년 전 포켓몬을 잡으러 동네를 돌아다닌 사람이라면, 게임 안에서 “이 포켓스톱 주변을 카메라로 천천히 비춰주세요"라는 요청을 한 번쯤은 봤을 것이다. 그렇게 모인 30억 장의 환경 스캔이 이제 군용 드론의 항법 시스템 학습 데이터로 흘러들어갔다. Niantic Spatial(2025년 5월 게임 사업을 Scopely에 매각하고 남은 공간 컴퓨팅 회사)이 국방 계약사 Vantor(과거 Maxar Intelligence)와 파트너십을 맺고 자사의 시각 위치추적 시스템(Visual Positioning System, 카메라로 본 장면을 미리 만들어둔 3D 지도와 매칭해 GPS 없이도 위치를 알아내는 기술)을 GPS가 차단되거나 신뢰할 수 없는 환경의 드론에 통합한다. 핵심 학습 데이터는 포켓몬 고와 Ingress 플레이어들이 2021년부터 게임 보상을 받기 위해 휴대폰 카메라로 찍어 올린 짧은 영상 클립들이다. ...

코딩 에이전트의 새 단위 '스킬' — Anthropic 표준이 GitHub 트렌딩을 점령했다

라이브러리는 개발자의 능력을 패키지로 만든다. npm install react 한 줄로 누군가가 만든 UI 컴포넌트를 내 프로젝트에 끌어온다. 2026년 6월 10일 GitHub 트렌딩 상위권은 비슷한 일이 AI 에이전트 쪽에서 일어나고 있다는 것을 보여줬다. 데일리 상위 6개 저장소 중 4개가 “Agent Skills"라는 같은 형식을 따른 모음집이었다. 합산 별 수만 약 31만 개. 어제 하루만 5천 개 가까이 늘었다. 이 흐름의 중심에는 Anthropic이 만든 Agent Skills 표준이 있다. 4월 Claude Code에 처음 등장한 이 형식은 5월에 오픈 표준으로 공개됐고, 6월 들어 개별 개발자들이 만든 스킬 패키지들이 한꺼번에 GitHub 트렌딩에 진입했다. ...