LLM | WithinTrend — Trending Topics & Guides

Claude Code 세션에 웬 마인크래프트 사원? — Anthropic 컨텍스트 유출 의심 정리

7월 4일 새벽, 한 개발자가 Anthropic의 claude-code 저장소에 이슈 #74066을 열었다. Enterprise ZDR(Zero Data Retention, 세션 데이터를 저장하지 않고 다른 워크스페이스와 격리하겠다는 기업용 계약) 워크스페이스에서 Claude Code로 업무를 진행하던 중, 갑자기 Claude가 “마인크래프트 사원 벽돌은 무엇으로 할까요?“라고 자신 있게 물어왔다는 것이다. 화면 히스토리 어디에도 그런 얘기를 한 적이 없다. 리포트한 사용자는 세 가지 시나리오를 의심했다. 같은 팀 동료 세션이 새어들어온 것인지, 컨슈머 플랜의 다른 사용자 데이터가 Enterprise 격리를 뚫고 넘어온 것인지, 아니면 뭔가 다른 문제인지. ...

ChatGPT 좌, Grok 우, Gemini 중앙 — AI 챗봇의 정치 편향을 측정한 두 보고서

AI 챗봇에게 “최저임금을 더 올려야 할까"라고 물으면 어떤 답이 돌아올까. 같은 질문이라도 ChatGPT, Claude, Gemini, Grok, Llama, DeepSeek 여섯 모델은 조금씩 다른 답을 한다. 6월 같은 주에 발표된 워싱턴포스트와 trakkr.ai의 두 보고서가 그 차이를 숫자로 측정했다. 핵심 발견은 두 가지다. 대부분 모델이 좌측으로 기울어 있고, Gemini만 거의 한가운데, Grok이 가장 오른쪽이다. 그리고 흥미롭게도 모델이 스스로 “나는 중립"이라고 말할 때, 실제 측정값은 그 주장과 크게 다르다. 두 보고서가 본 같은 풍경 trakkr.ai는 6월 중순 6개 모델에 정치적 질문 묶음을 던져 4,400개 답변을 모으고, 응답을 “경제 좌-우 축"과 “사회 자유-권위 축” 위에 점으로 찍었다. 핵심 수치(경제 축, −1 완전 좌에서 +1 완전 우 사이로 정규화): ...

DeepSeek V4: 오픈웨이트가 frontier에 얼마나 다가왔나

지난 4월 24일 DeepSeek가 V4를 풀었다. 이번에 충격을 준 건 점수보다 세 가지 결합이다 — frontier급 코드 성능, 1M 토큰 컨텍스트, 그리고 MIT 라이선스(상업 이용·재배포·수정 모두 자유로운 가장 관대한 오픈소스 라이선스). 한국 개발자·기업 입장에선 “오픈웨이트로 얼마나 frontier에 붙었나"가 한 번 더 명확해진 사건이다. 특히 가격이 무섭다. V4-Pro는 출력 1M 토큰당 $0.87(75% 할인 적용), Claude Sonnet 4.6의 $15, GPT-5.5의 $30과 비교하면 약 1/17~1/35 수준이다. 같은 Tier에서 가격을 이렇게 깎아도 코드/추론 일부 벤치마크는 frontier 두 모델을 앞선다. ...

Granite 4.1, dense 8B가 32B MoE를 넘어선 사건

지난 1년 LLM 업계의 합의는 분명했다. “스케일을 키우려면 MoE(Mixture of Experts, 모델 안에 여러 전문가 sub-network를 두고 입력마다 일부만 활성화하는 아키텍처).” DeepSeek-V3, Mixtral, Qwen MoE 시리즈가 차례로 활성 파라미터(매 입력에 실제 사용되는 파라미터) 수십억을 유지하면서 총 파라미터 수백억~수천억대를 굴리는 구조를 굳혀왔다. 그런데 IBM이 어제(4월 30일) Granite 4.1을 풀면서 정반대 베팅을 공개했다 — decoder-only dense transformer(모든 파라미터가 매 입력에 활성화되는 전통 아키텍처, GPT/Llama 같은 형태). 흥미로운 건 결과다. 8B dense 모델이 같은 회사의 32B MoE 모델(Granite 4.0-H-Small)을 BFCL V3(Berkeley Function Calling Leaderboard, 함수 호출 능력 벤치마크)에서 68.3 vs 64.7로 +3.6점 앞섰다. ArenaHard(사용자 선호 기반 종합 벤치마크)에서도 69.0을 기록해 같은 32B MoE를 능가했다. GSM8K(초등 수학) 92.5, DeepMind-Math(고난도 수학) 80.1로 수학 추론도 단단하다. 30B 모델은 BFCL V3 73.7로 Gemma-4-31B(72.7)를 상회한다. ...