미래에셋증권이 12일(현지시간) 나스닥에 상장한 스페이스엑스(Space X) 공모주 물량을 배정받지 못함에 따라, 미래에셋증권과 공동 기업공개상장(IPO) 인수단으로 참여한 한국투자신탁운용·미래에셋자산운용 상장지수펀드(ETF)까지 타격을 입었다.
13일 금융투자업계에 따르면 미래에셋증권은 공동 인수단을 꾸려 공모주 물량 배정을 대기했으나, 결국 공모주를 배정받지 못해 고객이 납입한 청약 증거금을 이날 새벽 전액 환불 처리하는 절차를 밟았다.
스페이스X 물량 배정을 기다렸던 미래에셋증권 금융소비자뿐만 아니라 미래에셋증권 공모주 물량을 통해 ETF를 운용하고자 했던 한국투자신탁운용·미래에셋자산운용과 해당 ETF를 구매했던 금융소비자까지 차질을 빚었다.
한국투자신탁운용 등은 미래에셋증권을 국내 주관사로 해 공모주 신청을 했다. 그렇지만 미국 현지 펀딩이 마무리되는 최종 배정단계서 한국 인수단 전체에는 판매 가능한 물량을 배정하지 않는다는 결정을 통보받았다는 것이 한국투자신탁운용 측 설명이다.
한국투자신탁운용 측은 공지사항을 통해 "미국 IPO 시장 특수성과 가변성으로 미국 대표 주관사가 물량을 임의로 재조정하는 과정서 발생한 결과라고 현지 해명을 들었다"며 "글로벌 수급 과열로 국내 인수단 전체 물량 배정 실패가 확인됐다"고 설명했다.
스페이스X, 첫날 19% 급등…머스크 세계 첫 '1조 달러' 부자 2026.06.13 바이낸스 스페이스X·삼전 주식 토큰 하루 거래액, 웬만한 '중소기업' 시총 2026.06.13 스페이스X, 1000만원 투자...증권사서 살까, 거래소서 투자할까 2026.06.12 "골" 붉게 물든 광화문에 퍼진 환호성...돌아온 월드컵 광장 열기 2026.06.12
이미 ETF 판매 등에 따른 마케팅을 진행했던 한국투자신탁운용은 "기대 에 부응하지 못하고 물량 미배정 소식을 전하게 되어 매우 송구스럽고 참담한 심정"이라며 " 확정되지 않은 단계에서 투자자분들께 과도한 기대감을 드리고 마케팅을 진행한 점은 당사의 명백한 불찰이며 책임을 통감한다"고 말했다.
다만, 한국투자신탁운용은 " 12일~13일 매매를 통해 스페이스 X를 포트폴리오 내에 편입하는 조치를 즉각 진행했다"며 "앞으로 는 투자 정보를 전달함에 있어 정보의 가변성을 더욱 명확히 고지하고, 마케팅 및 공시 프로세스를 전면 재점검하여 한층 더 정교하고 책임감 있는 자세로 임할 것"이라고 부연했다.
Claude Fable 5/Mythos 5 공개, Anthropic의 5세대 프런티어 모델 (anthropic.com)
Anthropic이 며칠 단위의 장기, 비동기 작업을 위한 5세대 모델을 출시함. Fable 5는 Mythos급 모델을 일반 사용자용으로 안전하게 만든 버전이고, Mythos 5는 같은 모델에서 일부 안전장치를 푼 버전임 Mythos급은 Opus급보다 위에 있는 새 모델 티어. 첫 모델인 Mythos Preview가 4월 Project Glasswing으로 공개됐고, 오늘 Fable 5와 Mythos 5가 그 뒤를 이음 이름 유래: Fable은 라틴어 fabula(“이야기되는 것”)에서 왔고 그리스어 mythos와 동족어. 두 모델을 구분하는 건 안전장치 자체이며 그래서 이름을 다르게 붙임 가격은 입력 100만 토큰당 10달러, 출력 50달러로 Mythos Preview의 절반 이하. API 모델명은 claude-fable-5 성능 작업이 길고 복잡할수록 우위가 커진다는 게 핵심 메시지 코딩: Stripe 사전 테스트에서 5천만 라인 Ruby 코드베이스의 전체 마이그레이션을 하루 만에 수행(팀이 손으로 하면 두 달 이상). 직접 테스트를 작성하고 비전으로 결과물을 원본 디자인과 대조 검증. Cognition의 FrontierCode 평가에서 medium effort에서도 프런티어 모델 중 최고점 에이전트: Claude Code 같은 환경에서 수일간 자율 작동하며 계획 수립, 서브에이전트 위임, 자기 검증까지 수행 비전: 스크린샷만으로 웹앱 소스코드 재구성, 비전 전용 최소 하니스로 포켓몬 파이어레드 클리어(이전 모델은 복잡한 보조 하니스 필요) 메모리: Slay the Spire에서 파일 기반 지속 메모리 제공 시 Opus 4.8 대비 성능 3배 향상, 최종장 도달 빈도도 3배 지식작업: Hebbia 금융 벤치마크에서 전 모델 중 최고점, IMC의 트레이딩 분석 평가를 거의 전 영역에서 통과 벤치마크 SWE-Bench Pro 80.3%(Opus 4.8은 69.2%, GPT 5.5는 58.6%), GDPval-AA 1932, OSWorld 85.0% 등 코딩, 지식작업, 비전, 컴퓨터 유즈 전반에서 우위 주장 주의: 표의 일부 수치는 Mythos 5와 Fable 5 중 높은 값이며, 별표 항목(생물학, 사이버보안 등)은 안전장치 fallback으로 Opus 4.8에 가까운 성능이라는 주석이 달려 있음 Mythos 5의 과학 성과 단백질 설계 과정을 약 10배 가속, 14개 타깃 중 9개에서 유력 후보 확보. 결합 부위 선택, 도구 실행, 실패 복구까지 사람 보조 없이 수행 블라인드 비교에서 과학자들이 분자생물학 가설을 약 80% 선호. 한 가설(대장균 단백질의 새 메커니즘)이 독립적으로 같은 문제를 연구하던 랩에서 입증됨 1주일 넘는 자율 작업으로 138종 동물의 수백만 세포 데이터를 모아 커스텀 ML 모델 설계 및 훈련, Science 게재 최신 모델을 100배 작은 크기로 능가 정렬 평가: Mythos 5의 오정렬 행동 수준은 낮고 Opus 4.8과 유사하다고 보고 안전장치 분류기가 막는 영역은 세 가지: 사이버보안, 생물학과 화학, 디스틸레이션(권위주의 국가의 경쟁 모델 학습용 능력 추출 시도). 해당 요청은 자동으로 Opus 4.8로 우회되며 사용자에게 통보됨(우회 시 Fable 요금 미청구) 세션의 95% 이상은 fallback 없음, 안전장치는 평균 5% 미만 세션에서 작동. 단 안전장치를 보수적으로 튜닝해 무해한 요청도 가끔 걸린다고 인정하며 false positive를 줄여갈 계획 외부 버그바운티 1,000시간 이상에서 유니버설 탈옥 미발견. 다만 UK AISI가 짧은 초기 테스트에서 근접한 진전을 보임. 한 외부 파트너 테스트에선 사이버 공격 관련 유해 단일턴 요청을 30종 공개 탈옥 기법을 써도 0건 응답 AAV(유전자 치료 전달체) 설계 평가에서 Mythos급이 전용 단백질 언어모델을 생물학적 추론만으로 능가. 이중용도 위험의 근거로 제시함 사용 시 안전 모니터링 목적의 30일 데이터 보존 필수. 1st party와 3rd party 모든 트래픽에 적용되며, 모델 학습이나 비안전 목적엔 미사용, 인간 접근 로깅 및 30일 후 삭제 가격 및 출시 Enterprise(소비량 기반) 플랜과 Claude Platform, AWS, GCP, Microsoft Foundry에서 제공 구독 플랜은 단계적 롤아웃: 6월 9일부터 6월 22일까지 Pro, Max, Team, 좌석형 Enterprise에 무료 포함. 6월 23일부터 제거되어 usage credit 필요. 용량 확보 시 기본 구성으로 복원 예정. API와 소비량 기반 Enterprise는 오늘부터 완전 이용 가능 Mythos 5는 오늘부터 기존 Mythos Preview 사용자(Glasswing 파트너 등)가 업그레이드 가능. 대부분 경우 Preview와 비슷하거나 약간 더 강하면서 비용은 크게 저렴. 세계 최강 사이버보안 능력 주장 생물학 trusted access program도 별도 개설 예정(Fable 5에서 생물학과 화학 안전장치만 해제, 사이버 안전장치는 유지)
함께 보면 좋은 글 β Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함 Claude Opus 4.6 공개 claude opus 4.7을 소개합니다 Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포 Anthropic, Claude에 Prompt Caching(베타)기능 추가
Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함
Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포
Anthropic, Claude에 Prompt Caching(베타)기능 추가
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ makekr 3일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기 ▲ gkhcdef 2일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기 ▲ wkang586 4일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기 ▲ bluekai17 2일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기 ▲ seoseonyu 3일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기 ▲ awbrg789 3일전 [-] 인정합니다.. 답변달기 ▲ savvykang 3일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기 ▲ dhkd63 3일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기 ▲ winkagn 3일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기 ▲ bluekai17 2일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기 ▲ newdps 3일전 [-] codex 쓰다가 찍먹해보고 바로 200달러 결제해버림 답변달기 ▲ shakespeares 3일전 [-] 어떤 장점이 있었나요? 답변달기 ▲ jimmy2056 3일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기 ▲ newdps 3일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기 ▲ GN⁺ 4일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
▲ makekr 3일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기
본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요
▲ gkhcdef 2일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기
5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만
▲ wkang586 4일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기
Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다.
▲ bluekai17 2일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기
어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요
▲ seoseonyu 3일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기
사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요...
▲ awbrg789 3일전 [-] 인정합니다.. 답변달기
▲ savvykang 3일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기
저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다
▲ dhkd63 3일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기
claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지
▲ winkagn 3일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기
우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 )
▲ bluekai17 2일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기
토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요.
▲ jimmy2056 3일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기
체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요
▲ newdps 3일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데
그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
▲ GN⁺ 4일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음
Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음
Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음
Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함
Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함
Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음
오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음
시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함
새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임
구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐
Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음
더블록 최근 보도에 따르면 라마렌드 v2는 이더리움 메인넷 배포에 앞서 옵티미즘에 먼저 출시됐다.
라마렌드 v2는 기존 버전에서 crvUSD 페어로만 제한됐던 담보 조합 제한을 없앴다. 사실상 모든 자산을 담보와 차입 자산으로 사용할 수 있다. 커브 유동성 공급자(LP) 토큰도 담보로 쓸 수 있게 됐다. 유동성 공급자가 거래 포지션을 유지하면서 해당 포지션을 담보로 차입할 수 있어 자본 효율이 높아진다는게 커브 설명이다.
커브 창업자 마이클 에고로프는 "사용자들이 보다 편리하게 쓸 수 있도록 설계했다"며 "라마렌드를 쓰는 데 박사 학위가 필요 없어야 한다"고 말했다.
라마렌드 v2에서는 라마리스크(LlamaRisk)가 시장 큐레이터 역할을 맡는다. 라마리스크는 펜들(Pendle) PT 토큰 같은 새로운 담보 유형에 대한 정성적 평가와 시장 생애주기 관리를 담당한다.
커브는 라마렌드 v2 출시와 관련해 옵티미즘 재단으로부터 25만OP 토큰(약 5만달러)을 보조금으로 지원 받았다. 이들 토큰은 약 2개월간 초기 유동성과 활동 증대를 위한 인센티브로 배포된다.
옵티미즘에 먼저 배포한 것은 보안 전략 일환이다. 에고로프는 위험 부담이 큰 이더리움 메인넷 배포 전에 제한된 환경에서 컨트랙트와 사용자 흐름을 관찰하기 위해서라고 설명했다. 메인넷 배포는 올해 하반기 있을 예정이다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
Claude Fable 5/Mythos 5 공개, Anthropic의 5세대 프런티어 모델 (anthropic.com)
Anthropic이 며칠 단위의 장기, 비동기 작업을 위한 5세대 모델을 출시함. Fable 5는 Mythos급 모델을 일반 사용자용으로 안전하게 만든 버전이고, Mythos 5는 같은 모델에서 일부 안전장치를 푼 버전임 Mythos급은 Opus급보다 위에 있는 새 모델 티어. 첫 모델인 Mythos Preview가 4월 Project Glasswing으로 공개됐고, 오늘 Fable 5와 Mythos 5가 그 뒤를 이음 이름 유래: Fable은 라틴어 fabula(“이야기되는 것”)에서 왔고 그리스어 mythos와 동족어. 두 모델을 구분하는 건 안전장치 자체이며 그래서 이름을 다르게 붙임 가격은 입력 100만 토큰당 10달러, 출력 50달러로 Mythos Preview의 절반 이하. API 모델명은 claude-fable-5 성능 작업이 길고 복잡할수록 우위가 커진다는 게 핵심 메시지 코딩: Stripe 사전 테스트에서 5천만 라인 Ruby 코드베이스의 전체 마이그레이션을 하루 만에 수행(팀이 손으로 하면 두 달 이상). 직접 테스트를 작성하고 비전으로 결과물을 원본 디자인과 대조 검증. Cognition의 FrontierCode 평가에서 medium effort에서도 프런티어 모델 중 최고점 에이전트: Claude Code 같은 환경에서 수일간 자율 작동하며 계획 수립, 서브에이전트 위임, 자기 검증까지 수행 비전: 스크린샷만으로 웹앱 소스코드 재구성, 비전 전용 최소 하니스로 포켓몬 파이어레드 클리어(이전 모델은 복잡한 보조 하니스 필요) 메모리: Slay the Spire에서 파일 기반 지속 메모리 제공 시 Opus 4.8 대비 성능 3배 향상, 최종장 도달 빈도도 3배 지식작업: Hebbia 금융 벤치마크에서 전 모델 중 최고점, IMC의 트레이딩 분석 평가를 거의 전 영역에서 통과 벤치마크 SWE-Bench Pro 80.3%(Opus 4.8은 69.2%, GPT 5.5는 58.6%), GDPval-AA 1932, OSWorld 85.0% 등 코딩, 지식작업, 비전, 컴퓨터 유즈 전반에서 우위 주장 주의: 표의 일부 수치는 Mythos 5와 Fable 5 중 높은 값이며, 별표 항목(생물학, 사이버보안 등)은 안전장치 fallback으로 Opus 4.8에 가까운 성능이라는 주석이 달려 있음 Mythos 5의 과학 성과 단백질 설계 과정을 약 10배 가속, 14개 타깃 중 9개에서 유력 후보 확보. 결합 부위 선택, 도구 실행, 실패 복구까지 사람 보조 없이 수행 블라인드 비교에서 과학자들이 분자생물학 가설을 약 80% 선호. 한 가설(대장균 단백질의 새 메커니즘)이 독립적으로 같은 문제를 연구하던 랩에서 입증됨 1주일 넘는 자율 작업으로 138종 동물의 수백만 세포 데이터를 모아 커스텀 ML 모델 설계 및 훈련, Science 게재 최신 모델을 100배 작은 크기로 능가 정렬 평가: Mythos 5의 오정렬 행동 수준은 낮고 Opus 4.8과 유사하다고 보고 안전장치 분류기가 막는 영역은 세 가지: 사이버보안, 생물학과 화학, 디스틸레이션(권위주의 국가의 경쟁 모델 학습용 능력 추출 시도). 해당 요청은 자동으로 Opus 4.8로 우회되며 사용자에게 통보됨(우회 시 Fable 요금 미청구) 세션의 95% 이상은 fallback 없음, 안전장치는 평균 5% 미만 세션에서 작동. 단 안전장치를 보수적으로 튜닝해 무해한 요청도 가끔 걸린다고 인정하며 false positive를 줄여갈 계획 외부 버그바운티 1,000시간 이상에서 유니버설 탈옥 미발견. 다만 UK AISI가 짧은 초기 테스트에서 근접한 진전을 보임. 한 외부 파트너 테스트에선 사이버 공격 관련 유해 단일턴 요청을 30종 공개 탈옥 기법을 써도 0건 응답 AAV(유전자 치료 전달체) 설계 평가에서 Mythos급이 전용 단백질 언어모델을 생물학적 추론만으로 능가. 이중용도 위험의 근거로 제시함 사용 시 안전 모니터링 목적의 30일 데이터 보존 필수. 1st party와 3rd party 모든 트래픽에 적용되며, 모델 학습이나 비안전 목적엔 미사용, 인간 접근 로깅 및 30일 후 삭제 가격 및 출시 Enterprise(소비량 기반) 플랜과 Claude Platform, AWS, GCP, Microsoft Foundry에서 제공 구독 플랜은 단계적 롤아웃: 6월 9일부터 6월 22일까지 Pro, Max, Team, 좌석형 Enterprise에 무료 포함. 6월 23일부터 제거되어 usage credit 필요. 용량 확보 시 기본 구성으로 복원 예정. API와 소비량 기반 Enterprise는 오늘부터 완전 이용 가능 Mythos 5는 오늘부터 기존 Mythos Preview 사용자(Glasswing 파트너 등)가 업그레이드 가능. 대부분 경우 Preview와 비슷하거나 약간 더 강하면서 비용은 크게 저렴. 세계 최강 사이버보안 능력 주장 생물학 trusted access program도 별도 개설 예정(Fable 5에서 생물학과 화학 안전장치만 해제, 사이버 안전장치는 유지)
함께 보면 좋은 글 β Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함 Claude Opus 4.6 공개 claude opus 4.7을 소개합니다 Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포 Anthropic, Claude에 Prompt Caching(베타)기능 추가
Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함
Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포
Anthropic, Claude에 Prompt Caching(베타)기능 추가
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ makekr 3일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기 ▲ gkhcdef 2일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기 ▲ wkang586 4일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기 ▲ bluekai17 2일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기 ▲ seoseonyu 3일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기 ▲ awbrg789 3일전 [-] 인정합니다.. 답변달기 ▲ savvykang 3일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기 ▲ dhkd63 3일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기 ▲ winkagn 3일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기 ▲ bluekai17 2일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기 ▲ newdps 3일전 [-] codex 쓰다가 찍먹해보고 바로 200달러 결제해버림 답변달기 ▲ shakespeares 3일전 [-] 어떤 장점이 있었나요? 답변달기 ▲ jimmy2056 3일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기 ▲ newdps 3일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기 ▲ GN⁺ 4일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
▲ makekr 3일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기
본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요
▲ gkhcdef 2일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기
5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만
▲ wkang586 4일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기
Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다.
▲ bluekai17 2일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기
어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요
▲ seoseonyu 3일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기
사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요...
▲ awbrg789 3일전 [-] 인정합니다.. 답변달기
▲ savvykang 3일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기
저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다
▲ dhkd63 3일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기
claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지
▲ winkagn 3일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기
우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 )
▲ bluekai17 2일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기
토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요.
▲ jimmy2056 3일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기
체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요
▲ newdps 3일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데
그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
▲ GN⁺ 4일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음
Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음
Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음
Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함
Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함
Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음
오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음
시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함
새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임
구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐
Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음
평일 오전에 방송된 월드컵 경기 생중계가 15%에 육박하는 시청률을 기록했다.
13일 닐슨코리아에 따르면 전날 오전 2026 북중미 월드컵 한국 대표팀의 조별리그 첫 경기 전국기준 시청률은 KBS 2TV가 8.5%, JTBC가 5.7%를 기록했다.
평일 오전 방송사 시청률이 1%에 미치지 못한다. 그간 월드컵에 대한 기대와 비교해 시청률 수치는 높은 것으로 보인다.
월드컵 열기 후끈…어떤 축구 만화 볼까 2026.06.13 李대통령, 체코전 승리에 "국민에 큰 기쁨, 힘껏 응원하겠다" 2026.06.12 "골" 붉게 물든 광화문에 퍼진 환호성...돌아온 월드컵 광장 열기 2026.06.12 네이버 '치지직' 월드컵 생중계 동접 482만...역대 기록 갈아치워 2026.06.12
첫 경기에서 역전승을 일군 만큼 다음 경기에 대한 관심도 커질 전망이다.
조별리그 2차전은 오는 19일 개최국인 북중미 강호 멕시코와 맞붙는다.
AI가 '축구 유망주' 알아볼까…데이터가 놓치는 재능도 있다
축구계가 AI로 유망주 발굴에 나섰지만, 과거 편견과 불평등을 되풀이할 수 있다는 지적이 나왔다. AI는 스카우팅을 도울 수 있어도 선수의 성장 맥락과 잠재력을 온전히 읽어내긴 어렵다.
[디지털투데이 이윤서 기자] 축구 유망주 발굴에 인공지능(AI) 도입이 늘고 있지만, 미래의 '스타 선수'를 정확히 가려내기보다는 기존 편견과 불평등이 되풀이될 수 있다는 지적이 나왔다.
11일(현지시간) 온라인 매체 기가진에 따르면 스웨덴 말뫼대 스포츠과학 연구진 리아 몬시스는 축구 스카우팅에 쓰이는 AI가 의사결정을 돕는 도구가 될 수는 있어도, 재능 자체를 객관화하는 데는 한계가 있다고 설명했다.
최근 엘리트 축구 아카데미와 구단들은 GPS 추적기, 자동 영상 분석 도구, AI 플랫폼을 활용해 선수 데이터를 수집하고 있다. 구단 입장에서는 유망주를 더 빨리 찾아낼수록 더 높은 수익을 기대할 수 있어 이런 기술 도입에 적극적이다.
문제는 AI가 과거 데이터를 바탕으로 성공 선수의 패턴을 찾는 방식이라는 점이다. 기존 스카우팅이 신체적으로 뛰어난 선수나 특정 사회경제적 배경의 선수를 상대적으로 선호해 왔다면, AI도 같은 경향을 반복할 수 있다는 것이다.
실제 축구계에서는 조기 발굴 사례가 주목받아 왔다. 스페인 선수 라민 야말은 6세에 FC바르셀로나 유소년 조직에 발탁됐고, 15세 9개월 16일에 1군에 데뷔했다. 반면 알렉스 모건은 10대가 돼서야 본격적으로 축구를 시작했고, 루카 토니는 20대 초반에 정상급 무대에 올랐다. 선수마다 신체적, 정신적, 사회적 성장 속도가 달라 어린 시기의 정보만으로 장기 잠재력을 예측하기는 어렵다는 뜻이다.
AI가 이런 차이를 충분히 반영하지 못할 가능성도 제기됐다. 몬시스는 "데이터 기반 접근이 결정을 도울 수는 있지만, 결국 주관성을 제거할 수는 없다"고 짚었다. 어떤 데이터를 수집하고, 어떻게 분석하며, 무엇을 재능으로 볼지는 결국 사람이 정한다는 설명이다. 수치화된 기록이 많아도 선수의 경험, 상호작용, 경기 맥락까지 온전히 담아내기는 어렵다는 점도 한계로 꼽혔다.
이런 구조는 축구계의 기존 불평등과도 맞물린다. 엘리트 선수로 가는 길은 사회적, 경제적, 문화적 조건의 영향을 받아왔는데, AI가 이런 데이터로 학습하면 불평등을 더 키울 수 있다. 또래보다 신체적으로 빨리 발달한 선수가 유리하더라도 그것이 장기 잠재력을 뜻하는 것은 아니다. 이언 라이트나 루카 토니 같은 늦게 꽃핀 선수는 이런 시스템에서 인식하지 못할 수 있다.
선수 관리 측면의 부담도 있다. 어린 선수들이 자신의 데이터가 계속 수집되고 AI로 분석된다는 사실을 의식할 경우, 경기력뿐 아니라 심리적 압박도 커질 수 있다. 연구에서는 감시 강화가 선수뿐 아니라 코치와 스태프에게도 상시 평가를 받는다는 압박을 만든 것으로 나타났다.
AI 활용 자체를 부정한 것은 아니다. 구단은 사람이 처리하기 어려운 방대한 정보를 분석하고, 기존에 놓치기 쉬웠던 패턴을 포착하며, 지역 제약 없이 선수를 들여다볼 수 있다. 이에 따라 핵심은 기술 도입 여부보다 활용 방식에 있다는 지적이 나온다. 몬시스는 "앞으로의 과제는 새 기술을 도입하는 것 자체가 아닌 사용 방식을 검토하는 것"이라며 구단이 데이터의 한계를 인식하고 교육과 전문성에 투자해야 한다고 말했다.
이번 논의는 AI가 선수 발굴의 효율을 높일 수 있어도, 학습 데이터와 판단 기준까지 자동으로 공정해지지는 않는다는 점을 보여준다. 스포츠 현장에서는 기술 도입 자체보다 데이터를 해석하고 인간의 판단과 어떻게 결합할지가 더 중요한 과제로 떠오르고 있다.
키워드 #축구 #피파 #FIFA #월드컵 #AI #챗GPT
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
mq - jq 스타일 Markdown 쿼리 언어 (mqlang.org)
jq와 유사한 문법으로 Markdown 문서를 질의·필터링·변환 하는 CLI 도구로, JSON에서 jq가 하던 역할을 Markdown으로 옮겨옴 마크다운을 구조화된 데이터로 만들어 슬라이스, 필터, 매핑, 변환하는 작업을 손쉽게 배치 처리 가능 LLM이 Markdown을 기본 입력 형식으로 사용하므로 LLM 워크플로우와 입력 생성 에 특히 유용함 프롬프트/출력에 쓰이는 Markdown 조작, 문서 관리, 콘텐츠 분석, 배치 처리 등에 활용 다양한 입출력 포맷 지원: markdown, mdx, html, csv, json, toml, xml, yaml 등 입력, table·grep·json 등 출력 파일 확장자나 -I 플래그로 자동 파싱 수행 헤딩,코드 블록,링크,테이블 셀을 셀렉터로 추출 ( .h(1..3) , .code("rust") , .link.url 등) 제목 기반 섹션 단위 추출 지원 ( section::section("Installation") ) mq conv 로 Excel·Word·PDF를 Markdown으로 변환 후 Unix 파이프 로 연결 처리 가능 다수의 내장 함수와 셀렉터로 콘텐츠 필터 및 변환 가능하며, 커스텀 함수로 손쉽게 확장 가능 REPL·LSP·VSCode 확장·디버거( mq-dbg ) 등 개발 편의 기능 포함 Playground 에서 설치 없이 브라우저에서 실행 가능 mq-web 으로 WebAssembly 빌드 제공 Elixir, Python, Ruby, Java, Go 언어용 바인딩 제공 MIT License, Rust로 구현
함께 보면 좋은 글 β mdq - 마크다운을 위한 jq QMD - 퀵 마크다운 서치 sq - 데이터베이스 및 기타 기능을 위한 jq 대체제 SQ - swiss-army knife for data jc - CLI 도구의 출력을 JSON화 하는 도구
sq - 데이터베이스 및 기타 기능을 위한 jq 대체제
SQ - swiss-army knife for data
jc - CLI 도구의 출력을 JSON화 하는 도구
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ xunre 4일전 [-] 드디어 내게 필요한게 나왔다... 답변달기
메타플래닛, 일본 증권사 인수 합의…비트코인 연계 상품 직접 판다
메타플래닛이 시이보증권 인수에 합의하고 일본 투자자 대상 비트코인 연계 수익 상품 출시를 추진한다. 7월 인수 완료 뒤 증권 라이선스와 플랫폼을 바탕으로 일본 가계 유휴자금 공략에 나설 계획이다.
[디지털투데이 AI리포터] 메타플래닛이 일본 투자자에게 비트코인 연계 수익 상품을 직접 내놓기 위해 시이보증권을 인수한다.
12일(현지시간) 블록체인 매체 크립토폴리탄에 따르면 메타플래닛은 시이보증권 지분 100%를 21억엔, 약 1300만달러에 인수하는 계약을 맺었다. 인수는 7월 마무리될 예정이다. 인수 후 시이보증권은 메타플래닛증권으로 사명을 바꾼다.
메타플래닛은 시이보증권이 보유한 일본 금융청의 제1종 금융상품거래업 등록을 활용해 일본 투자자에게 비트코인 연계 수익 상품을 직접 개발·판매할 계획이다. 이 등록이 있으면 증권 거래, 중개, 공모 인수 업무를 할 수 있다.
메타플래닛은 일본 가계가 보유한 대규모 유휴 자금을 공략 대상으로 보고 있다. 2025년 기준 일본 가계의 현금, 예금, 저수익 상품 규모는 약 7조1000억달러다. 메타플래닛은 일본 경제가 장기 디플레이션에서 인플레이션으로 이동하면서 이 자금이 수익처를 찾고 있다고 설명했다.
비트코인 연계 상품은 메타플래닛이 보유한 4만177 BTC를 기반으로 설계될 예정이다. 이 보유량은 비트코인 트레저리스 기준 아시아 최대, 세계 3위 규모다. 메타플래닛은 2월 2025회계연도 매출이 738% 증가했다고 밝혔지만 순손실은 950억엔, 약 6억1900만달러를 기록했다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
키워드 #메타플래닛 #비트코인 #암호화폐 #가상자산 #블록체인
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
Slumber - 터미널 기반 HTTP/REST 클라이언트 (github.com/LucasPickering)
터미널 환경에서 TUI 로 동작하는 HTTP 클라이언트 Recipe로 구성 가능한 HTTP 요청을 정의하고 실행하며 쉽게 공유 TUI, CLI, Python 패키지 세 가지 형태로 이용 쉬운 사용/설정/공유 를 목표로 YAML 파일에 Request Collection 형태로 정의해서 저장하고 버전 관리/커밋 가능 Insomnia 등 외부 포맷에서 가져오기(import) 지원 다른 요청, 파일, 셸 명령으로부터 요청을 동적으로 구성 가능 JSONPath selector 로 응답 데이터 탐색 영원히 무료로 제공 되며, 절대 " enshittification(서비스 악화) " 되지 않는 것을 원칙으로 내세움 2023년부터 개발시작, 현재 버전 5.3.0 윈도우/맥/리눅스 바이너리 제공 MIT 라이선스
함께 보면 좋은 글 β Posting - 터미널용 HTTP API 클라이언트 Resterm - 터미널 기반 REST 클라이언트 (HTTP, GraphQL, gRPC 지원) Streamhut - Terminal을 스트리밍 하기 Spegel - LLM을 활용해 웹페이지를 재구성하는 터미널 브라우저 vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙
Posting - 터미널용 HTTP API 클라이언트
Resterm - 터미널 기반 REST 클라이언트 (HTTP, GraphQL, gRPC 지원)
Streamhut - Terminal을 스트리밍 하기
Spegel - LLM을 활용해 웹페이지를 재구성하는 터미널 브라우저
vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ shakespeares 3일전 [-] postman에 너무 익숙해졌네요. 답변달기
SLL이 아시아 대표 콘텐츠 마켓 ‘부산콘텐츠마켓 2026(BCM 2026)’에 참가해 국내외 파트너와 활발한 교류를 진행하며 성황리에 행사를 마무리했다.
SLL은 지난 10일부터 사흘간 부스를 운영하며 주요 신작과 대표 IP를 국내외 바이어들에게 소개했다. 드라마 ▲신입사원 강회장 ▲신의 구슬을 비롯해 ▲저스트 메이크업 ▲싱어게인 등 다양한 장르의 작품을 선보이며 해외 콘텐트 관계자들의 관심을 끌었다.
BCM 첫날 올해 칸 국제 시리즈 페스티벌 공식 초청작 ‘신의 구슬’이 해사 공식 주요 작품으로 소개되며 관객과 만났다. 먼저 GV에는 ‘신의 구슬’의 정대윤 감독이 참여해 작품의 기획 의도와 연출 방향, 제작 과정에 대한 이야기를 나눴다. 역사적 사실 기반의 설정과 인물 서사를 결합한 사극 작품의 매력, 글로벌 시청자와 만날 수 있는 장르적 가능성 등에 대한 대화가 이어지며 참석자들의 높은 호응을 얻었다.
SLL은 BCM OTT 시리즈 어워드(BOSA)에서 넷플릭스 시리즈 ‘레이디 두아’로 장르 미스터리 부문 작품상을 수상하고 레이블 스튜디오슬램 윤현준 대표가 올해의 EP상을 수상했다. BOSA는 OTT 시리즈 산업의 성장과 콘텐트 제작 성과를 조명하는 시상식으로, 이번 수상은 SLL이 지속적으로 선보여 온 완성도 높은 콘텐트와 IP 경쟁력을 인정받은 성과다.
더베인 참여 ‘신입사원 강회장’ OST 7일 발매 2026.06.07 SLL 드라마 ‘모자무싸’ OST 음원 24일 정오 공개 2026.05.24 SLL, 대만 최대 미디어그룹과 글로벌 숏폼 시장 진출 2026.05.22 SLL, '모자무싸' OST 괜찮을거예요 라이브 영상 공개 2026.05.20
BCM 아카데미에서는 ‘저스트 메이크업’을 공동 연출한 심우진 PD가 강연자로 참여했다. 심우진 PD는 ‘저스트 메이크업’의 제작 및 기획 과정을 중심으로 프로그램이 기획 단계에서부터 완성되기까지의 고민과 제작 노하우를 전했다. 뷰티라는 소재를 예능 콘텐트로 확장하는 방식, 출연자 구성과 미션 설계, 시청자 몰입을 높이는 연출 전략 등을 공유하며 참석자들과 의미 있는 소통을 이어갔다.
SLL 관계자는 “BCM 2026은 SLL의 다양한 콘텐트 라인업과 IP 확장 가능성을 국내외 파트너들에게 직접 소개할 수 있었던 의미 있는 자리였다”며 “앞으로도 SLL은 장르와 포맷을 넘나드는 경쟁력 있는 콘텐트를 통해 글로벌 시장과의 접점을 지속적으로 넓혀갈 것”이라고 말했다.
Show GN: 다 푼 문제지를 깨끗하게 만들어주는 AI (dasi-pulgi-pdf.vercel.app)
중학생, 초등학생 남자애들 키우는 아빠입니다. 매번 문제지 풀고 나서 오답 다시 풀게 시키는데 지우개로 지우고 하다 보니 문제지가 너덜너덜해지고 답 자국 보고 애들이 뱃기더라구요 ㅎㅎ 그래서 불현듯 생각이 나서 주말 바이브 코딩으로 만들어 봤습니다. 다 푼 문제지 사진을 올리면 알아서 빨간 펜 부분, 정답 쓴 부분 다 지우고 깨끗하게 출력 가능한 PDF 파일로 만들어줘요. 토큰 값 벌기 위해서 1장은 무료, 그 이상은 장당 1000원에 오픈했습니다. 애들 복습 시킬 때 유용하게 사용해 보셔요~
다 푼 문제지 사진을 올리면 알아서 빨간 펜 부분, 정답 쓴 부분 다 지우고 깨끗하게 출력 가능한 PDF 파일로 만들어줘요.
토큰 값 벌기 위해서 1장은 무료, 그 이상은 장당 1000원에 오픈했습니다. 애들 복습 시킬 때 유용하게 사용해 보셔요~
함께 보면 좋은 글 β DaVinci Resolve 21 make-quiz.com 모든 자료를 퀴즈로 만들어 드려요 AI 로 이미지 배경을 자동으로 삭제해주는 툴 Flowova - 아무거나 던지면 플로우차트로 만들어주는 AI 도구 Palette- AI로 흑백사진을 컬러로 변경하는 웹서비스
make-quiz.com 모든 자료를 퀴즈로 만들어 드려요
AI 로 이미지 배경을 자동으로 삭제해주는 툴
Flowova - 아무거나 던지면 플로우차트로 만들어주는 AI 도구
Palette- AI로 흑백사진을 컬러로 변경하는 웹서비스
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
발행일: 2026-06-13 18:23 (토)
한국어 KR 영어 EN 일본어 JP 중국어 CH
XRP 심리 2026년 최저 수준…”극단적 공포, 오히려 반등 신호일 수도”
XRP 투자심리가 2026년 들어 최저 수준으로 떨어졌다. 다만 극단적 공포 국면은 과거 강한 반등으로 이어진 사례가 있었다.
[디지털투데이 AI리포터] XRP 투자심리가 2026년 들어 가장 낮은 수준으로 떨어졌다.
12일(현지시간) 블록체인 매체 유투데이에 따르면 온체인 분석업체 산티먼트는 가중 심리지표 기준 XRP 심리가 2025년 10월 이후 최저치로 내려갔다고 밝혔다.
이 지표는 소셜 언급량과 긍정·부정 의견 비중을 함께 반영한다. 가격 약세가 영향을 줬지만, 원인은 그것만이 아니었다. 리플의 법적 명확성과 기관 채택 기대가 수년간 이어졌지만 뚜렷한 대형 촉매가 나오지 않으면서 트레이더 피로감도 커졌다는 분석이다.
논의량 감소와 압도적으로 부정적인 반응이 겹치면서 많은 트레이더는 이미 관심을 다른 곳으로 돌렸거나 기대치를 크게 낮춘 상태로 분석됐다. 다만 산티먼트는 이런 수준의 공포, 불확실성, 의심이 강세 랠리를 촉발하는 경우가 있다고 봤다. 실제로 XRP는 기사 작성 시점 기준 24시간 동안 2.74% 오른 1.14달러를 기록했고, 최근 7일 기준으로도 1.16% 상승했다.
표면적인 여론과 달리 개발 활동, XRP 레저 사용, 토큰화 이니셔티브, 기관용 상품은 소셜미디어 열기가 식는 가운데서도 계속 진전되고 있다.
XRP는 포춘의 첫 '포춘크립토100'에 포함됐다. 리플은 결제 파트너 비트소와 협력 확대도 발표했다. 비트소의 멕시코페소 연동 규제형 스테이블코인 MXNB는 XRP 레저에서 발행되며, 리플 페이먼츠의 DEX 인프라에 통합될 예정이다. RLUSD와 MXNB는 XRP 레저의 허가형 DEX에서 달러와 멕시코페소 유동성을 공급해 중남미 기업 결제 흐름을 지원하게 된다고 매체는 전했다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
키워드 #XRP #리플 #블록체인 #암호화폐 #가상자산
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
iFixit의 분해 결과, 트럼프가 사용했던 휴대전화는 '금색으로 칠한 HTC U24 Pro'로 밝혀졌으며, '미국적 가치'는 찾아볼 수 없었다 (techradar.com)
전자기기 분해 전문 매체 iFixit의 분석 결과, 미국적 가치를 내세운 Trump Mobile의 T1 스마트폰이 대만 브랜드 HTC U24 Pro 제품과 외형 및 사양 면에서 거의 동일한 것으로 밝혀졌습니다. 전문 번역 전자기기 수리 및 분해 전문 기업 iFixit이 Trump Mobile의 T1 제품을 분해한 결과, 해당 스마트폰이 대만 브랜드의 2024년형 모델인 HTC U24 Pro와 거의 똑같다는 사실을 발견했습니다. 대만 브랜드인 HTC의 해당 제품은 중국에서 생산된 것으로 파악됩니다. 공식 판매 페이지에서는 미국적 혁신과 미국 중심의 디자인을 내세우며 미국적인 자부심을 담은 제품이라고 강조합니다. 하지만 실제 기기 자체에는 미국적인 요소가 거의 담겨 있지 않다는 사실이 드러났습니다. 두 제품 사이에 몇 가지 차이점이 존재하지만 이는 주로 외관에 국한됩니다. Trump Mobile의 T1 제품은 금색 마감 처리를 적용했으며 카메라 블록과 스피커 그릴 디자인을 미세하게 변경했습니다. 사양 면에서는 배터리 용량이 기존 4,600mAh에서 5,000mAh로 늘어난 반면 충전 속도는 60W에서 30W로 오히려 낮아졌습니다. 이러한 일부 차이를 제외하면 대부분의 부품과 사양, 내부 구조가 일치하는 사실상 같은 제품입니다. 따라서 해당 제품이 진정한 미국적 가치를 담았거나 미국산 제품이라는 주장은 신뢰하기 어렵습니다. iFixit은 제품에 미국 내 조립을 뜻하는 문구가 적혀 있지만, 이는 미국 연방통신위원회가 규정한 엄격한 미국 제조 기준과는 명백히 다르다고 지적했습니다. 해당 기기는 플로리다의 작업실에서 약 10개의 부품을 모아 조립하는 방식으로 생산되는 것으로 알려졌습니다. 그러나 iFixit은 본체 프레임과 화면이 이미 조립된 상태로 중국 공장에서 수입되었을 가능성이 크다고 추정합니다. 현지 작업 부서는 단순히 배터리와 카메라 모듈을 결합하는 작업만 수행했을 확률이 높습니다. 결합된 부품들 역시 해외에서 생산되어 미국으로 건너온 것입니다. 외형만 미국산인 제품을 피하고 싶다면 이 스마트폰은 적절한 선택이 아닙니다. 다만 T1 제품의 출시 가격은 HTC U24 Pro와 비슷하게 책정되었습니다. 소비자를 완전히 기만하는 수준의 가격 책정은 아니라는 의미입니다. iFixit은 예상과 달리 동일 사양 제품과 비교했을 때 가격이 합리적이며, 소비자가 포기해야 할 것은 60W 고속 충전 기능과 본인의 자존심뿐이라고 촌평했습니다.
전자기기 분해 전문 매체 iFixit의 분석 결과, 미국적 가치를 내세운 Trump Mobile의 T1 스마트폰이 대만 브랜드 HTC U24 Pro 제품과 외형 및 사양 면에서 거의 동일한 것으로 밝혀졌습니다.
전자기기 수리 및 분해 전문 기업 iFixit이 Trump Mobile의 T1 제품을 분해한 결과, 해당 스마트폰이 대만 브랜드의 2024년형 모델인 HTC U24 Pro와 거의 똑같다는 사실을 발견했습니다. 대만 브랜드인 HTC의 해당 제품은 중국에서 생산된 것으로 파악됩니다.
공식 판매 페이지에서는 미국적 혁신과 미국 중심의 디자인을 내세우며 미국적인 자부심을 담은 제품이라고 강조합니다. 하지만 실제 기기 자체에는 미국적인 요소가 거의 담겨 있지 않다는 사실이 드러났습니다.
두 제품 사이에 몇 가지 차이점이 존재하지만 이는 주로 외관에 국한됩니다. Trump Mobile의 T1 제품은 금색 마감 처리를 적용했으며 카메라 블록과 스피커 그릴 디자인을 미세하게 변경했습니다.
사양 면에서는 배터리 용량이 기존 4,600mAh에서 5,000mAh로 늘어난 반면 충전 속도는 60W에서 30W로 오히려 낮아졌습니다. 이러한 일부 차이를 제외하면 대부분의 부품과 사양, 내부 구조가 일치하는 사실상 같은 제품입니다.
따라서 해당 제품이 진정한 미국적 가치를 담았거나 미국산 제품이라는 주장은 신뢰하기 어렵습니다. iFixit은 제품에 미국 내 조립을 뜻하는 문구가 적혀 있지만, 이는 미국 연방통신위원회가 규정한 엄격한 미국 제조 기준과는 명백히 다르다고 지적했습니다.
해당 기기는 플로리다의 작업실에서 약 10개의 부품을 모아 조립하는 방식으로 생산되는 것으로 알려졌습니다. 그러나 iFixit은 본체 프레임과 화면이 이미 조립된 상태로 중국 공장에서 수입되었을 가능성이 크다고 추정합니다. 현지 작업 부서는 단순히 배터리와 카메라 모듈을 결합하는 작업만 수행했을 확률이 높습니다. 결합된 부품들 역시 해외에서 생산되어 미국으로 건너온 것입니다. 외형만 미국산인 제품을 피하고 싶다면 이 스마트폰은 적절한 선택이 아닙니다.
다만 T1 제품의 출시 가격은 HTC U24 Pro와 비슷하게 책정되었습니다. 소비자를 완전히 기만하는 수준의 가격 책정은 아니라는 의미입니다. iFixit은 예상과 달리 동일 사양 제품과 비교했을 때 가격이 합리적이며, 소비자가 포기해야 할 것은 60W 고속 충전 기능과 본인의 자존심뿐이라고 촌평했습니다.
함께 보면 좋은 글 β iFixit의 iPhone Air 분해기 iFixIt의 Vision Pro 분해 분석 - 그 가짜 눈은 왜 이상해 보일까? iPhone 16e 발표에 대한 John Gruber의 생각과 관찰 요즘 노트북은 모두 내장 보안 토큰을 갖고 있다 Apple, iPhone 17 Pro와 iPhone 17 Pro Max 공개
iFixIt의 Vision Pro 분해 분석 - 그 가짜 눈은 왜 이상해 보일까?
iPhone 16e 발표에 대한 John Gruber의 생각과 관찰
요즘 노트북은 모두 내장 보안 토큰을 갖고 있다
Apple, iPhone 17 Pro와 iPhone 17 Pro Max 공개
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
발행일: 2026-06-13 18:23 (토)
한국어 KR 영어 EN 일본어 JP 중국어 CH
박세웅 한국전자통신연구원(ETRI) 원장이 20일 취임식에서 현재 ETRI가 매년 출원 중인 특허를 고부가가치 중심으로 전환하겠다고 선언했다. 또 연구비 비중 3% 미만인 비전략 분야는 과감히 통폐합한다.
박 신임 원장은 20일 제7동에서 열린 취임식에서 임직원을 대상으로 "순수하게 연구가 즐거웠던 때가 언제였나"라는 질문을 던지며 이같이 언급했다.
이날 행사에는 임주환(4대), 최문기(5대, 과기부장관), 김흥남(6,7대), 김명준(9대) 전 ETRI 원장을 비롯한 임직원 200여명이 참석했다.
박 신임 원장은 "2030년이면 모든 지적인 과업에서 인간을 능가하는 AI가 현실이 된다. 이제는 노사 갈등이 아니라, 노-로(로봇)갈등을 고민해야 하는 시대"라며 이 같이 말했다.
박 신임 원장은 ETRI에 대해 '작은 확신'에 대해서도 피력했다. ETRI는 여전히 연구 불씨가 살아있고, 잃어버린 연구 본능을 되살리겠다는 것.
박 신임 원장은 " 이 불씨는 그동안 PBS(연구과제중심제)에 따라 생계를 위한 과제 수주, 질적 가치보다 양에 집중된 논문/특허/표준 출원, 그리고 부서 간 장벽 아래 숨 막혀 있을 뿐"이라고 지적했다.
박 신임 원장은 "생계형 업업사원 역할을 하느라 그동안 수고 많이 하셨다"며 향후 ETRI가 수행할 목표로 ▲ 전주기적 AI·ICT R&D 플랫폼으로서 국가 지능화 혁신 엔진의 역할 ▲인간중심 가치로 지속가능한 성장을 이루는 상생 경영을 제시했다.
선택과 집중 전략에 따라연구비 비중 3% 미만의 비전략 분야를 과감히 통폐합하고, AI-네이티브 6G·위성통신, 안전한 AGI, 입체공간 미디어, 피지컬 AI, 공공·산업 AI·DX의 5대 중점 분야에 자원을 집중하겠다고 언급했다.
"올해부터 매년 경계없는 플레이어(BP) 10명씩 선발, 부서 간 장벽 없이 자신이 기획한 연구를 80%의 시간으로 자유롭게 수행하게 할 것입니다. 창업을 원하면 2년간 인큐베이팅으로 지원하고, 실패하더라도 ETRI로 돌아올 수 있는 안전망을 보장할 것입니다."
BP는 축구에서 전후방을 자유롭게 커버하는 '리베로' 같은 존재를 의미한다.
개방형 R&D 플랫폼 구축가 관련해서 박 신임 원장은 "국내 우수 교수 안식년을 ETRI로 끌어오고, ETRI 연구원을 세계 최고 대학과 연구기관에 파견하는 순환 구조를 만들겠다"고 말했다.
또 출연연 간 협력을 주도, 국가 재정과 인력을 효율적으로 운용하고, 수도권·대경권·호남권·제주권의 권역별 연구본부를 거점으로 지역과 동반 성장하는 혁신 생태계를 구축할 것을 선언했다.
이에 앞서 임주환 전 원장이 축사하며 박 원장에 당부하고 나서 관심을 끌었다.
임 전 원장은 "2,300명 석·박사들의 위대한 지성은 결코 통제나 지시 속에서 피어나지 않는다"며 "이들이 마음껏 상상하고 연구에만 몰입하도록 든든한 방패막이가 되어 달라"고 당부했다.
박세웅 ETRI 신임 원장 20일 취임…"AI·DX 혁신 강조" 2026.05.20 한국전자통신연구원 제11대 원장에 박세웅 서울대 교수 2026.05.19 ETRI 원장 후보 김봉태·박세웅·백용순 박사 선정 2026.04.10 야전 침대에 라면 먹어가며 TDX 개발…"ETRI는 당시 꿈의 직장" 2026.04.01
또 "눈앞의 성과만을 독촉하는 행정가가 아니라, 연구원들이 더 높이, 더 멀리 날아오를 수 있도록 발판을 다져주는 '디딤돌 원장'이 되어달라"는 말도 보탰다.
연구원들에게도 당부했다. 신임 박원장을 앞세워 대한민국을 엄어 섹뎨 최고 연구기관으로 도약할 수 있도록 힘과 지혜를 모아달라"고 말했다.
마이크로소프트, X박스 구조 개편 카드 만지작...분사·합작사 설립도 검토
[디지털투데이 황치규 기자]마이크로소프트가 X박스(Xbox) 게임 사업 부문에 대해 분사, 완전 자회사 전환, 합작법인 설립 등 구조 개편 옵션을 검토 중이라고 디인포메이션이 12일(현지시간) 보도했다.
보도에 따르면 마이크로소프트는 X박스를 링크드인이나 깃허브처럼 완전 자회사로 재편하는 방안도 고려하고 있다.
이 같은 구조는 향후 매각하기 쉬운 방식일 수 있다. 다만 즉각적인 구조 개편은 없으며 모든 옵션이 검토 단계라고 디인포메이션은 전했다.
마이크로소프트에서 X박스 부문은 최근 어려움을 겪고 있다. 마이크로소프트는 구독 서비스와 클라우드 게임에 베팅했지만 콘솔 판매 하락과 블록버스터 타이틀 부족을 상쇄하지 못했다
올해 2월 X박스 부문 CEO로 취임한 아샤 샤르마는 '헤일로(Halo)', '폴아웃(Fallout)', '엘더스크롤(The Elder Scrolls)' 등 주요 프랜차이즈 신작 개발에 투자를 늘릴 계획이다. 사티아 나델라 마이크로소프트 CEO와 에이미 후드 최고재무책임자는 7월 시작하는 새 회계연도에 게임 개발 예산을 최고 수준으로 확대하는 계획을 승인했다. 다만 최종 예산은 아직 확정되지 않았다.
앞서 블룸버그통신은 마이크로소프트가 X박스 부문에 대해 다음 달 대규모 감원과 마케팅 예산 삭감 등 샤르마 취임 후 첫 구조조정을 단행할 계획이라고 보도했다.
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
Firefox 루트 인증서 저장소에 다시 한 번 등록 시도중인 대한민국 정부 (GPKI) (bugzilla.mozilla.org)
GPKI 루트 인증서는 주로 정부에서 .go.kr TLD를 비롯한 여러 국공립 웹 사이트의 도메인에 인증서를 발급하는데 주로 사용돼었습니다. ( 과거형 임에 유의, 현재는 정부 사이트들이 각자 다른 업체로부터 인증서를 발급 받아서 HTTPS 서비스 제공 중) 타 브라우저와 달리 Firefox는 자체적인 루트 인증서 목록을 갖고 있고 TLS 연결 시 운영체제의 인증서 목록을 따르지 않습니다. 예를 들어 Windows의 경우 GPKI 인증서가 선탑재돼있지만 Firefox는 그걸 읽지 않습니다. (다만, 요즘에는 about:config 설정 페이지의 보안 탭에서 체크박스 하나로 쉽게 변경하여 따르도록 할 수 있음) GPKI 루트 인증서의 대표적인 등록 거부 사유로는 과거에 정부가 *.or.kr , *.ac.kr 등 초광범위 인증서 발급 전적이 밝혀진 바 있습니다. 그런데 단순히 그 무제한급 발급 사례 하나로 등록 시도가 막히는 것은 아니고 Mozilla 측에서 요구하는 외부 감사 결과, 인증서 폐기 목록 확인 방법(CRL), 인증서 유효성 확인 방법(OCSP) 등 까다로운 신뢰 인증 절차를 정부가 모두 제때 능히 따르지 않았기 때문에 등록이 지연되거나 거절되고 있습니다. 혹은, 제때 하였더라도 행안부 인증서와 교육부 인증서를 같은 업체로부터 감사를 받는 등 결과 그 자체가 문제가 있는 경우도 있습니다. BugZilla 내에서 이슈를 찾아보다보면 수년이 넘는 장기간에 걸쳐 등록 시도를 계속하고 있다보니 담당 공무원의 순환보직, 정권 교체로 인한 정부 조직 개편 등의 사유로 실무를 진행하는 담당자명과 소속 기관명이 연도에 따라 계속 바뀌는게 관전 포인트입니다.
타 브라우저와 달리 Firefox는 자체적인 루트 인증서 목록을 갖고 있고 TLS 연결 시 운영체제의 인증서 목록을 따르지 않습니다. 예를 들어 Windows의 경우 GPKI 인증서가 선탑재돼있지만 Firefox는 그걸 읽지 않습니다. (다만, 요즘에는 about:config 설정 페이지의 보안 탭에서 체크박스 하나로 쉽게 변경하여 따르도록 할 수 있음)
GPKI 루트 인증서의 대표적인 등록 거부 사유로는 과거에 정부가 *.or.kr , *.ac.kr 등 초광범위 인증서 발급 전적이 밝혀진 바 있습니다.
그런데 단순히 그 무제한급 발급 사례 하나로 등록 시도가 막히는 것은 아니고 Mozilla 측에서 요구하는 외부 감사 결과, 인증서 폐기 목록 확인 방법(CRL), 인증서 유효성 확인 방법(OCSP) 등 까다로운 신뢰 인증 절차를 정부가 모두 제때 능히 따르지 않았기 때문에 등록이 지연되거나 거절되고 있습니다.
혹은, 제때 하였더라도 행안부 인증서와 교육부 인증서를 같은 업체로부터 감사를 받는 등 결과 그 자체가 문제가 있는 경우도 있습니다.
BugZilla 내에서 이슈를 찾아보다보면 수년이 넘는 장기간에 걸쳐 등록 시도를 계속하고 있다보니 담당 공무원의 순환보직, 정권 교체로 인한 정부 조직 개편 등의 사유로 실무를 진행하는 담당자명과 소속 기관명이 연도에 따라 계속 바뀌는게 관전 포인트입니다.
함께 보면 좋은 글 β Apple, Google, Microsoft, Mozilla가 카자흐스탄 정부의 루트 인증서를 밴 처리 마이크로소프트만 신뢰하는 브라질 인증 기관, google.com에 대한 인증서 발급 Let's Encrypt의 10주년 Mozilla Firefox 코드 저장소, Mercurial에서 GitHub로 이전 Let's Encrypt, IP 주소 인증서 발급 준비 중
Apple, Google, Microsoft, Mozilla가 카자흐스탄 정부의 루트 인증서를 밴 처리
마이크로소프트만 신뢰하는 브라질 인증 기관, google.com에 대한 인증서 발급
Mozilla Firefox 코드 저장소, Mercurial에서 GitHub로 이전
Let's Encrypt, IP 주소 인증서 발급 준비 중
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ yeobi222 1일전 [-] 어차피 외부 대민 사이트에 자체 인증서 탑재할 계획은 없습니다. 감당 안되거든요. 다만 이게 본의아니게 크롬의존도를 엄청나게 높여버린다는거. 내부망에선 어차피 외부인증서도 검증 안되긴 매한가지고 답변달기
어차피 외부 대민 사이트에 자체 인증서 탑재할 계획은 없습니다. 감당 안되거든요. 다만 이게 본의아니게 크롬의존도를 엄청나게 높여버린다는거. 내부망에선 어차피 외부인증서도 검증 안되긴 매한가지고
개인적인 의견을 bugzilla에 달았지만 아직 갈 길이 먼 것 같네요.
과거에 있던 내용부터 차례대로 쭉 읽어봤는데 CA 인증서 감사한 곳이 2016-2017년에 감사한 곳이랑 동일하고.. 예전에 그런 문제가 있었으면 감사 업체를 진작에 교체했을법한데, 그대로 유지하는 것도 조금 당황스럽네요..
여러 노력이 있음에도 불구하고 영문 문서에는 자잘한 논리적 오류나 오타 등이 많이 보이기도 하고 인증서 자체도 표준 규정이 업데이트가 되어서 새로 만들어야할 필요가 보입니다. (CPS 문서를 자주 갱신하는 것 같아보이는데, 이정도로 업데이트할 정도면 인증서 정도는 다시 만드실 수 있을거라 봅니다.)
담당 공무원 분들도 고생이 많을 것 같지만 이미 과거에 한번 실수를 했으니 비판받는건 어쩔 수 없다고 생각합니다
▲ stypr 3일전 [-] 규정에 맞춰 매년 감사를 하고 있다곤 하는데, 웹트러스트 인증 사이트는 2023년에 머물러있네요. 2024, 2025년에 감사가 제대로 이루어졌는지 의문입니다. https://www.gpki.go.kr/pds/WebTrustAction.action CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지. 뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요. 답변달기
규정에 맞춰 매년 감사를 하고 있다곤 하는데, 웹트러스트 인증 사이트는 2023년에 머물러있네요. 2024, 2025년에 감사가 제대로 이루어졌는지 의문입니다. https://www.gpki.go.kr/pds/WebTrustAction.action CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지. 뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요.
CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지.
뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요.
▲ aigirlfriend 3일전 [-] 기초적인 밑작업도 못하는거 보니 생각보다 정부 감청 강화는 "무능해서" 제대로 못할 확률이 커보이네요 하긴 똘똘하면 공무원 하기 힘들죠 답변달기
기초적인 밑작업도 못하는거 보니 생각보다 정부 감청 강화는 "무능해서" 제대로 못할 확률이 커보이네요 하긴 똘똘하면 공무원 하기 힘들죠
▲ chickendreamtree 2일전 [-] 쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o) 단편만 보고 멍청하네 바보네 이런 소리 하는건 아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다 답변달기
쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o) 단편만 보고 멍청하네 바보네 이런 소리 하는건 아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다
쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o)
단편만 보고 멍청하네 바보네 이런 소리 하는건
아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다
▲ chcv0313 2일전 [-] 경솔히 그런 소리 하시는거 아닙니다 답변달기
▲ qwkjsan99 2일전 [-] 똘똘한 사람이 없는게 아니라 조직이 목줄을 죄니 그런거죠. 한두사람이 아니라 수만, 수십만이 같은 문제를 반복한다면 그건 개인의 문제가 아니라 시스템의 문제입니다. 답변달기
똘똘한 사람이 없는게 아니라 조직이 목줄을 죄니 그런거죠. 한두사람이 아니라 수만, 수십만이 같은 문제를 반복한다면 그건 개인의 문제가 아니라 시스템의 문제입니다.
▲ regentag 2일전 [-] 공무원을 안 해도 될 정도로 똘똘하신가보군요. 답변달기
공무원을 안 해도 될 정도로 똘똘하신가보군요.
TypeScript를 LLVM 기계어로 직접 컴파일, "Perry" 네이티브 컴파일러 (github.com/PerryTS)
기존의 TypeScript 개발 패러다임은 고수준 추상화인 TS 코드를 JavaScript로 트랜스파일한 뒤, V8이나 JavaScriptCore 같은 무거운 JIT 런타임 엔진(Node.js, Bun, Deno 등) 위에서 구동하는 방식이 당연시되어 왔습니다. 최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다. 💡 핵심 아키텍처 및 특징 No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다. 크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다. True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다. 초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다. 🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다. 동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다. Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다. # 사용법은 극도로 심플합니다 $ perry compile src/main.ts -o myapp $ ./myapp # 의존성 없는 순수 네이티브 바이너리 실행 웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다. GitHub: https://github.com/PerryTS/perry
최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다.
No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다.
크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다.
True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다.
초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다.
🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다.
동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다.
Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다.
웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다.
GitHub: https://github.com/PerryTS/perry
함께 보면 좋은 글 β Spinel - Ruby AOT 네이티브 컴파일러 RJIT, Ruby를 위한 새로운 JIT 자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal Node.js 타입스크립트를 기본으로 지원하기 시작 Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
Spinel - Ruby AOT 네이티브 컴파일러
자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal
Node.js 타입스크립트를 기본으로 지원하기 시작
Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ cloverhearts 2일전 [-] 응원합니다 답변달기 ▲ tsboard 3일전 [-] 재밌는 접근법입니다. 런타임 제거만으로도 큰 성과이긴 하네요! 답변달기 ▲ jeeeyul 4일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기 ▲ shakespeares 4일전 [-] perry 어감 좋네요. 답변달기 ▲ sea715 4일전 [-] 재미있네요 답변달기 ▲ ohah173 4일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기 ▲ heycalmdown 4일전 [-] 흥미롭네요. 답변달기
▲ jeeeyul 4일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다.
그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
▲ shakespeares 4일전 [-] perry 어감 좋네요. 답변달기
▲ sea715 4일전 [-] 재미있네요 답변달기
▲ ohah173 4일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만,
로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요
다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
▲ heycalmdown 4일전 [-] 흥미롭네요. 답변달기
구글, AI 스캠에 맞서 중국 해킹 조직에 첫 소송…FBI·통신사와 공조
[디지털투데이 황치규 기자]구글이 제미나이(Gemini) AI 모델을 악용해 미국인 수십만명을 대상으로 온라인 금융 사기를 벌인 중국 사이버범죄 조직을 상대로 소송을 제기했다고 뉴욕타임스가 12일(현지시간) 보도했다.
보도에 따르면 구글은 뉴욕 남부 연방지방법원에 '아웃사이더 엔터프라이즈(Outsider Enterprise)'로 알려진 조직을 상대로 소장을 제출하고 법원에 접근 금지 명령을 신청했다.
이와 관련해 FBI, AT&T, T-모바일, 버라이즌(Verizon)과도 공조하고 있다.
아웃사이더 엔터프라이즈는 제미나이를 활용해 구글, 유튜브, 미국 우편공사, 뉴욕 하이패스 서비스 이-지패스(E-ZPass) 등을 사칭한 가짜 웹사이트를 대량으로 만들었다. 2주간 131개 소프트웨어 키트를 동원해 9000개 가짜 웹사이트와 100만개 이상 사기 인터넷 주소를 생성했다.5월에는 안드로이드 사용자들에게 250만건 문자 메시지를 발송했고 텔레그램에서 팁과 AI 기반 사기 소프트웨어 키트를 공유하며 조직적으로 움직였다.
FBI 사이버 부서 브렛 레더만 부국장은 "범죄자들이 AI를 활용해 사기를 더 그럴듯하고 탐지하기 어렵게 만들고 있다"고 밝혔다.
FBI에 따르면 지난해 미국인들이 사이버 사기로 입은 피해는 약 210억달러에 달했다. 이 중 AI와 연관된 피해액은 약 8억9300만달러였다. AI 기반 스캠은 다른 유형 피싱·사기보다 빠르게 늘고 있다고 뉴욕타임스는 전했다.
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음 (discuss.pytorch.kr)
PyTorchKR🔥🇰🇷 🤔💭 이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다. :one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다. :two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다. :three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다. 논문별 핵심 요약 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다. Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다. Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다. Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다. Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다. Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다. Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다. Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다. FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다. Harness-1: 상태 외부화 하니스가 적용된 검색 에이전트를 위한 강화학습 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses 논문 소개 검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다. 이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다. 반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다. 초록(Abstract) 검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다. 이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다. 상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다. 웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1 Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 . 논문 링크 https://arxiv.org/abs/2606.02373 더 읽어보기 https://github.com/pat-jj/harness-1 https://huggingface.co/pat-jj/harness-1 어텐션은 잊어라: 중요도 인지 어텐션만 있으면 된다 / Forget Attention: Importance-Aware Attention Is All You Need 논문 소개 트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다. 특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다. 더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다. 초록(Abstract) 어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다. Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field. 논문 링크 https://arxiv.org/abs/2606.02332 트랜스포머는 세 개의 프로젝션이 필요한가? QKV 변형의 체계적 연구 / Do Transformers Need Three Projections? Systematic Study of QKV Variants 논문 소개 트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다. 실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다. 더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다. 종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다. 초록(Abstract) 트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다. Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 논문 링크 https://arxiv.org/abs/2606.04032 더 읽어보기 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에이전틱 워크플로를 LLM 가중치에 컴파일하기: 100배 적은 비용으로 프런티어급에 가까운 품질 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost 논문 소개 최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다. 핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다. 실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다. 초록(Abstract) 에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다. Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs). 논문 링크 https://arxiv.org/abs/2605.22502 더 읽어보기 https://discuss.pytorch.kr/t/llm-subterranean-agent/10501 장기 범위 과제를 위한 에이전트 호환 컨텍스트 관리 학습 / Learning Agent-Compatible Context Management for Long-Horizon Tasks 논문 소개 대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다. AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다. 실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다. 초록(Abstract) 대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다. 우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다. LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems. 논문 링크 https://arxiv.org/abs/2605.30785 잠재 에이전트: 내재화된 멀티에이전트 토론을 위한 사후학습 절차 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate 논문 소개 대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다. 이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다. 이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다. 초록(Abstract) 멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents 논문 링크 https://arxiv.org/abs/2604.24881 더 읽어보기 https://github.com/johnsk95/latent_agents MOSS: 자율 에이전트 시스템에서 소스 수준 재작성을 통한 자기 진화 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems 논문 소개 배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다. MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다. 이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다. 실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다. 초록(Abstract) 배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다. Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention. 논문 링크 https://arxiv.org/abs/2605.22794 더 읽어보기 https://github.com/dav-joy-thon/MOSS 비협력 게임을 통한 언어 모델의 안전성 정렬 / Safety Alignment of LMs via Non-cooperative Games 논문 소개 언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다. 이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다. 또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다. 초록(Abstract) 언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다. Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame. 논문 링크 https://arxiv.org/abs/2512.20806 더 읽어보기 https://github.com/facebookresearch/advgame 계획, 관찰, 복구: 능동적 절차 지원을 위한 벤치마크와 아키텍처 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance 논문 소개 실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다. 이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다. 모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다. 또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다. 초록(Abstract) 번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다. We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery. 논문 링크 https://arxiv.org/abs/2606.04970 더 읽어보기 https://huggingface.co/datasets/facebook/wearable-ai FuzzingBrain V2: 자동화된 취약점 발견 및 재현을 위한 멀티에이전트 LLM 시스템 / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction 논문 소개 소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다. 초록(Abstract) 소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다. Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs. 논문 링크 https://arxiv.org/abs/2605.21779 ⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다.
:one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다.
:two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다.
:three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다.
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다.
Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다.
Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다.
Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다.
Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다.
Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다.
검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다.
이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다.
반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다.
검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다.
이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다.
상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다.
웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 .
https://arxiv.org/abs/2606.02373
https://github.com/pat-jj/harness-1
https://huggingface.co/pat-jj/harness-1
트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다.
특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다.
더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다.
어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다.
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
https://arxiv.org/abs/2606.02332
트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다.
실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다.
더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다.
종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다.
트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다.
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다.
핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다.
실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다.
에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다.
Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).
대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다.
AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다.
실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다.
대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다.
우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다.
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
https://arxiv.org/abs/2605.30785
대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다.
이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다.
이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다.
멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents
Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents
https://arxiv.org/abs/2604.24881
https://github.com/johnsk95/latent_agents
배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다.
MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다.
이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다.
실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다.
배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다.
Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.
https://arxiv.org/abs/2605.22794
https://github.com/dav-joy-thon/MOSS
언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다.
이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다.
또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다.
언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다.
Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.
https://arxiv.org/abs/2512.20806
https://github.com/facebookresearch/advgame
실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다.
이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다.
모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다.
또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다.
번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다.
We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.
소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다.
소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다.
Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.
https://arxiv.org/abs/2605.21779
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
함께 보면 좋은 글 β [2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음 [2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음 agentmemory - AI 코딩 에이전트용 영구 메모리 시스템 지금 가장 중요한 AI 아이디어들 (2026년 4월) 2024년 LLMs에 대해 배운 것들
[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
agentmemory - AI 코딩 에이전트용 영구 메모리 시스템
지금 가장 중요한 AI 아이디어들 (2026년 4월)
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
컨포트랩이 제조 현장 인공지능(AI) 전환(AX) 도입 기간과 비용을 기존 대비 3분의 1 수준으로 줄일 수 있는 '공장특화 AI 운영체제(OS)'를 앞세워 파트너 생태계 확장에 나섰다.
컨포트랩은 12일 서울 강남구 코엑스 스튜디오 159에서 '포타 커넥트(PORTA CONNECT) 2026'을 성황리에 개최하고, 산업용 AI OS '포타(PORTA)'를 앞세운 제조 AI 전환 전략과 파트너 협업 모델을 제시했다.
김희중 컨포트랩 대표는 현재 제조 현장은 인프라 구성부터 데이터 수집, 모델링, 애플리케이션 개발까지 일일이 쌓아 올려야 하는 일종의 시스템 통합(SI)프로젝트라고 설명했다.
이런 방식은 각 공장마다 구축된 환경이 달라 현장마다 엔지니어가 다수 투입돼 처음부터 새로 맞춤형 개발이 이뤄진다. 이는 대규모 지출과 시간 소요로 이어지면서 기대 효과(ROI)마저 불확실해 중소기업이 선뜻 나서기 힘들다는 지적이다.
컨포트랩은 이러한 구조적 한계를 줄이기 위한 해법으로 '공장특화 AI OS' 포타를 제시했다.
포타는 현장 연결 장치부터 데이터 플랫폼, 온톨로지 기반 데이터 모델링, 머신러닝, 운영관리 애플리케이션, 대규모언어모델(LLM), 에이전트 기능까지 제조 AI 구현에 필요한 요소를 하나의 환경으로 통합한 플랫폼이다. 개발자 중심의 개별 구축 방식 대신 노코드 기반으로 필요한 기능을 빠르게 구성할 수 있도록 설계한 것이 특징이다.
김 대표는 "연 매출 300억원 규모의 중소 제조 기업을 기준으로 기존 방식을 적용하면 평균 38주의 시간과 4억5100만원에 달하는 막대한 비용이 소모된다"며 " 포타를 도입할 경우 구축 기간은 10주로 74% 단축하고 비용은 1억5900만원으로 65% 절감되는 효과를 얻을 수 있다"고 강조했다.
포타의 주요 활용 시나리오로는 설비, 품질, 에너지, 생산 영역에서 이상 상황 발생 시 대응 리드타임을 줄이는 기능이 제시됐다.
기존에는 임계치 초과 알람이 발생하면 담당자가 데이터를 일일이 확인해 원인을 파악해야 했다. 반면 포타는 데이터 자동 수집 이후 규칙 기반 분석과 머신러닝으로 이상 징후를 탐지하고, AI 에이전트가 상황 맥락을 분석해 문제 성격과 조치 방향까지 정리해 전달하는 구조다.
생성형 AI 활용 방식도 제조 현장에 맞춰 구체화했다. 외부 범용 AI에 데이터를 별도로 입력하는 방식이 아니라 공장 내부 데이터와 운영 맥락에 직접 연결된 AI를 통해 필요한 정보를 바로 확인할 수 있도록 했다는 설명이다.
예를 들어 사용자가 특정 기간 품질 이상 발생 현황이나 라인별 이슈를 질의하면, 포타가 현장 데이터와 맥락 정보를 기반으로 답변과 인사이트를 제공하는 식이다.
반복 업무 자동화 역시 핵심 기능으로 제시됐다. 컨포트랩은 아침 운영 현황 브리핑, 주간 운영 보고서 작성, 체크리스트 자동 점검, 월간 ESG·에너지 리포트 생성 등 현장에서 반복적으로 수행되는 업무를 자동화할 수 있다고 설명했다.
제조 AX 확산을 위한 파트너 전략도 본격화한다. 컨포트랩은 표준화된 '백본 OS' 개발에 집중하고 파트너사는 현장 채널과 도메인 노하우를 바탕으로 포타 위에서 고객 맞춤형 문제 해결과 수익화를 추진하는 구조다.
이를 위해 컨포트랩은 세 가지 협업 모델을 운영할 계획이다. 포타 기반으로 고객 맞춤형 제조 AI 솔루션을 구축하는 '빌드온파트너(Build on Partner)' 모델, 권역별 영업·구축·유지보수를 함께 수행하는 '셀앤디플로이(Sell and Deploy)' 모델, MES·자동화 설비·로봇 등 기존 솔루션에 포타를 결합해 공급하는 결합형 모델이다.
제프 베이조스가 만든 프로메테우스, 62조 가치 인정…"제조 패러다임 바꾼다" 2026.06.12 "컨베이어벨트 공장 시대 끝났다...피지컬AI가 제조 경쟁력 결정” 2026.06.11 이주평 삼성SDS 상무 "제조AI 핵심 데이터는 시계열" 2026.06.07 "자동화 늘려도 사람 공백 못 메워"…헥사곤이 짚은 제조 AI의 본질 2026.06.03
회사는 오는 8월까지 권역별 핵심 파트너 선정을 마무리하고 10월부터 교육과 공동 프로젝트를 본격 추진할 계획이다. 선정 파트너에는 포타 우선 공급, 설계·구축 교육, 엔지니어 지원, 고객 제안, 초기 PoC 공동 수행, 스마트공장 등 정부 지원사업 대응 지원을 포함한 실행 패키지가 제공될 예정이다.
김기중 컨포트랩 대표는 "제조 AX는 한 회사가 단독으로 완성할 수 있는 시장이 아니라 기술과 현장 경험을 가진 파트너가 함께 만들어야 한다"며 "컨포트랩은 포타를 통해 복잡한 기술 기반을 맡고 파트너가 고객 현장의 가치와 문제 해결에 집중할 수 있는 구조를 만들어 제조 AX 시장을 함께 열어가겠다"고 말했다.
구글, AI 플러스 가격을 4.99달러로 인하 (9to5google.com)
구글이 'AI Plus' 구독 요금제를 월 4.99달러로 인하하고 제공 저장 용량을 400GB로 2배 확대합니다. 전문 번역 구글은 오늘 자사의 AI Plus 구독 서비스 가격을 월 4.99달러로 인하하고, 기존 200GB에서 2배 증가한 400GB의 저장 용량을 제공한다고 발표했습니다 {p:50} . 미국 출시 당시 구글 AI Plus는 200GB 저장 용량에 월 7.99달러였으나 {b:200,800}, 이제는 월 4.99달러(또는 현지 통화 상당액)로 가격이 낮아지고 저장 용량은 2배로 늘어났습니다. 구글 AI Plus는 무료 버전 대비 2배 높은 사용 제한과 128,000 토큰의 컨텍스트 윈도우를 Gemini 앱에서 제공합니다. 또한 '데일리 브리프(Daily brief)', '옴니 플래시(Omni Flash) 비디오 생성', '예약 작업' 등의 기능도 이용할 수 있습니다. 또한 NotebookLM, Gmail의 교정(Proofread) 및 AI 편지함 기능 사용 제한이 확대되었으며, Google Flow, AI Studio 및 Antigravity에 대한 접근성도 향상되었습니다. 한편, 기존 9.99달러에 2TB를 제공하던 요금제는 이제 공식적으로 'Google AI Plus'로 명칭이 변경되었습니다. 이번 저장 용량 확대는 향후 며칠에 걸쳐 순차적으로 적용될 예정이며, 가격 인하는 다음 요금제 갱신일부터 적용됩니다. 이번 조치는 지난 4월 구글이 AI Pro 요금제의 저장 용량을 가격 인상 없이 5TB로 상향 조정한 것에 이은 행보입니다. 지난 I/O 2026 행사에서는 AI Ultra 요금제에 100달러 옵션이 추가되었고, 최고가 요금제는 기존 250달러에서 200달러로 인하된 바 있습니다 {l:100,80,60} .
구글이 'AI Plus' 구독 요금제를 월 4.99달러로 인하하고 제공 저장 용량을 400GB로 2배 확대합니다.
구글은 오늘 자사의 AI Plus 구독 서비스 가격을 월 4.99달러로 인하하고, 기존 200GB에서 2배 증가한 400GB의 저장 용량을 제공한다고 발표했습니다 {p:50} .
미국 출시 당시 구글 AI Plus는 200GB 저장 용량에 월 7.99달러였으나 {b:200,800}, 이제는 월 4.99달러(또는 현지 통화 상당액)로 가격이 낮아지고 저장 용량은 2배로 늘어났습니다.
구글 AI Plus는 무료 버전 대비 2배 높은 사용 제한과 128,000 토큰의 컨텍스트 윈도우를 Gemini 앱에서 제공합니다. 또한 '데일리 브리프(Daily brief)', '옴니 플래시(Omni Flash) 비디오 생성', '예약 작업' 등의 기능도 이용할 수 있습니다.
또한 NotebookLM, Gmail의 교정(Proofread) 및 AI 편지함 기능 사용 제한이 확대되었으며, Google Flow, AI Studio 및 Antigravity에 대한 접근성도 향상되었습니다.
한편, 기존 9.99달러에 2TB를 제공하던 요금제는 이제 공식적으로 'Google AI Plus'로 명칭이 변경되었습니다.
이번 저장 용량 확대는 향후 며칠에 걸쳐 순차적으로 적용될 예정이며, 가격 인하는 다음 요금제 갱신일부터 적용됩니다.
이번 조치는 지난 4월 구글이 AI Pro 요금제의 저장 용량을 가격 인상 없이 5TB로 상향 조정한 것에 이은 행보입니다. 지난 I/O 2026 행사에서는 AI Ultra 요금제에 100달러 옵션이 추가되었고, 최고가 요금제는 기존 250달러에서 200달러로 인하된 바 있습니다 {l:100,80,60} .
함께 보면 좋은 글 β Google AI Ultra 공개 - 모든 구글 AI 서비스를 한번에 구독하기 Google, Gmail/Docs에 AI를 무료로 제공하면서 Workspace의 가격을 인상 Google, Gemini 2.5 Pro Canvas 무료로 공개 Apple, Google Gemini 모델을 중심으로 구축한 새 AI 아키텍처 공개 구글 Bard, 이제 Gemini(제미나이)가 되다
Google AI Ultra 공개 - 모든 구글 AI 서비스를 한번에 구독하기
Google, Gmail/Docs에 AI를 무료로 제공하면서 Workspace의 가격을 인상
Google, Gemini 2.5 Pro Canvas 무료로 공개
Apple, Google Gemini 모델을 중심으로 구축한 새 AI 아키텍처 공개
구글 Bard, 이제 Gemini(제미나이)가 되다
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ tommm 2일전 [-] 시장의 경쟁은 소비자에게는 언제나 환영이네요ㅎ 답변달기 ▲ kaydash 2일전 [-] 비 개발자용으로 플러스를 포지셔닝하려나봐요 답변달기 ▲ qwkjsan99 2일전 [-] Plus 요금제가 일상적인 메일, 주간요약 작업이나 notebooklm 사용에는 차고 넘쳐서 요금인하는 정말 반갑네요. 답변달기 ▲ leothelion 2일전 [-] 확실히 AI가 돈이안되네 ㅎ 답변달기 ▲ lazydonkey456 2일전 [-] 기왕 이렇게된거 iCloud도 통크게 인하합시다! 답변달기 ▲ ndrgrd 3일전 [-] 아니 좀 더 비싸도 되니까 한도나 더 주지.. 답변달기 ▲ b8g6pn 2일전 [-] 더 비싼 요금제는 이미 있는데 혹시 어떤 말씀이신가요 답변달기
▲ tommm 2일전 [-] 시장의 경쟁은 소비자에게는 언제나 환영이네요ㅎ 답변달기
시장의 경쟁은 소비자에게는 언제나 환영이네요ㅎ
▲ kaydash 2일전 [-] 비 개발자용으로 플러스를 포지셔닝하려나봐요 답변달기
▲ qwkjsan99 2일전 [-] Plus 요금제가 일상적인 메일, 주간요약 작업이나 notebooklm 사용에는 차고 넘쳐서 요금인하는 정말 반갑네요. 답변달기
Plus 요금제가 일상적인 메일, 주간요약 작업이나 notebooklm 사용에는 차고 넘쳐서 요금인하는 정말 반갑네요.
▲ b8g6pn 2일전 [-] 더 비싼 요금제는 이미 있는데 혹시 어떤 말씀이신가요 답변달기
더 비싼 요금제는 이미 있는데 혹시 어떤 말씀이신가요
헬리우스, 라이트 프로토콜 인수…솔라나 프라이버시 인프라 구축
[디지털투데이 황치규 기자]솔라나 인프라 기업 헬리우스(Helius)가 라이트 프로토콜(Light Protocol)을 인수하고 솔라나 프라이버시 솔루션 개발에 나선다.
더블록 최근 보도에 따르면 라이트 프로토콜은 2021년 솔라나에 영지식 증명(zero-knowledge) 기반 프라이버시를 도입하는 것을 목표로 설립됐다.
하지만 이후 헬리우스와 협력해 데이터 저장 비용을 낮추는 ZK 컴프레션(ZK Compression) 개발로 방향을 바꿨다. 2024년 출시된 ZK컴프레션은 영지식 증명을 활용해 솔라나 데이터 저장 비용을 낮추는 인프라 프레임워크다. 이를 통해 개발자들이 대규모 소비자, 기업용 앱을 만들 수 있도록 지원한다.
헬리우스는 이번 인수로 라이트 프로토콜을 원래 목표로 했던 솔라나 프라이버시 개발을 다시 강화한다. 라이트 프로토콜 팀은 솔라나 기반 프라이빗 결제와 프라이빗 디파이(DeFi)를 위한 ZK 기반 프라이버시 프로토콜 구축에 집중한다. 이 프로토콜은 소매·기관 용도에 맞게 최적화할 수 있다. 헬리우스는 앞으로 몇 달 안에 개발자들에게 새로운 프라이버시 인프라를 공개할 계획이다.
헬리우스 창업자 머트 뭄타즈는 "프라이버시 없는 크립토는 크립토가 아니다"라며 "HTTPS가 HTTP 인터넷을 안전하고 확장 가능하게 만든 것처럼 프라이버시가 블록체인에도 같은 역할을 할 것"이라고 말했다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
Moonshot AI가 Kimi K2.7-Code를 출시했습니다. (marktechpost.com)
문샷 AI가 이전 모델 대비 코딩 성능을 대폭 향상시키고 추론 토큰 소모량을 30% 줄인 에이전트 중심의 오픈 가중치 코딩 모델 '키미 K2.7-Code'를 출시했습니다. 전문 번역 이번 주, 문샷 AI(Moonshot AI)가 키미 K2.7-Code(Kimi K2.7-Code)를 출시했습니다. 이는 코딩에 특화된 에이전트 중심의 모델입니다. 모델 가중치는 수정된 MIT 라이선스에 따라 허깅페이스(Hugging Face)에 배포됩니다. 또한 키미 API와 키미 코드를 통해서도 사용할 수 있습니다. K2.7-Code는 일반적인 대화가 아닌 장기적인 소프트웨어 엔지니어링 작업을 목표로 합니다. 이 모델은 여러 단계에 걸쳐 계획을 수립하고, 코드를 수정하며, 도구를 실행하고, 디버깅을 수행합니다. 문샷 AI는 이 모델을 구독형 코딩 플랫폼과 결합하여 제공합니다. 키미 K2.7-Code 스펙 K2.7-Code는 혼합 전문가(MoE, Mixture-of-Experts) 모델입니다. 총 1조(1T) 개의 매개변수(파라미터)를 보유하고 있으며, 토큰당 320억(32B) 개의 매개변수가 활성화됩니다. 이 구조는 총 384개의 전문가 중 토큰당 8개의 전문가가 선택되고 1개의 전문가가 공유되는 방식을 사용합니다. Dense 레이어 1개를 포함하여 총 61개의 레이어로 구성되어 있습니다. 어텐션 메커니즘에는 MLA가 사용되었으며, 피드포워드 경로에는 SwiGLU가 적용되었습니다. MoonViT 비전 인코더는 이미지 및 비디오 입력을 위해 4억(400M) 개의 매개변수를 추가합니다. 이 모델은 네이티브 INT4 양자화가 적용된 상태로 제공됩니다. 컨텍스트 창은 256K 토큰(262,144)입니다. 두 가지 제약 사항이 있습니다. 생각 모드(Thinking mode)는 필수 사항이며, 이를 비활성화하면 API 오류가 반환됩니다. 샘플링 매개변수는 온도(temperature) 1.0, top_p 0.95, n 1, 페널티 0.0으로 고정되어 있습니다. 기본 최대 출력은 32,768 토큰입니다. vLLM, SGLang, KTransformers를 사용하여 자체 호스팅할 수 있습니다. 허깅페이스 리포지토리의 크기는 디스크 기준 약 595GB로 매우 큽니다. 이는 노트북용 모델이 아닌 서버급 배포를 겨냥한 타겟입니다. 벤치마크 점수 문샷 팀은 6가지 벤치마크 결과를 발표했습니다. 이들은 K2.7-Code를 K2.6, GPT-5.5, 클로드 오푸스 4.8(Claude Opus 4.8)과 비교했습니다. K2.7-Code는 모든 항목에서 K2.6을 능가했습니다. 코딩 부문에서 가장 큰 상승을 보인 것은 Kimi Code Bench v2로, 기존 50.9%에서 62.0%로 상승했습니다. K2.7-Code는 MCP Mark Verified 벤치마크에서 81.1%를 기록하며 오푸스 4.8의 76.4%를 제쳤습니다. 또한 MLS Bench Lite에서는 GPT-5.5에 근접한 수치를 기록했습니다. K2.7-Code는 Kimi Code CLI에서 실행되었으며, GPT-5.5는 Codex xhigh, 오푸스 4.8은 Claude Code xhigh 환경에서 테스트되었습니다.
문샷 AI가 이전 모델 대비 코딩 성능을 대폭 향상시키고 추론 토큰 소모량을 30% 줄인 에이전트 중심의 오픈 가중치 코딩 모델 '키미 K2.7-Code'를 출시했습니다.
이번 주, 문샷 AI(Moonshot AI)가 키미 K2.7-Code(Kimi K2.7-Code)를 출시했습니다. 이는 코딩에 특화된 에이전트 중심의 모델입니다. 모델 가중치는 수정된 MIT 라이선스에 따라 허깅페이스(Hugging Face)에 배포됩니다. 또한 키미 API와 키미 코드를 통해서도 사용할 수 있습니다. K2.7-Code는 일반적인 대화가 아닌 장기적인 소프트웨어 엔지니어링 작업을 목표로 합니다. 이 모델은 여러 단계에 걸쳐 계획을 수립하고, 코드를 수정하며, 도구를 실행하고, 디버깅을 수행합니다. 문샷 AI는 이 모델을 구독형 코딩 플랫폼과 결합하여 제공합니다.
K2.7-Code는 혼합 전문가(MoE, Mixture-of-Experts) 모델입니다. 총 1조(1T) 개의 매개변수(파라미터)를 보유하고 있으며, 토큰당 320억(32B) 개의 매개변수가 활성화됩니다. 이 구조는 총 384개의 전문가 중 토큰당 8개의 전문가가 선택되고 1개의 전문가가 공유되는 방식을 사용합니다. Dense 레이어 1개를 포함하여 총 61개의 레이어로 구성되어 있습니다.
어텐션 메커니즘에는 MLA가 사용되었으며, 피드포워드 경로에는 SwiGLU가 적용되었습니다. MoonViT 비전 인코더는 이미지 및 비디오 입력을 위해 4억(400M) 개의 매개변수를 추가합니다. 이 모델은 네이티브 INT4 양자화가 적용된 상태로 제공됩니다. 컨텍스트 창은 256K 토큰(262,144)입니다. 두 가지 제약 사항이 있습니다. 생각 모드(Thinking mode)는 필수 사항이며, 이를 비활성화하면 API 오류가 반환됩니다. 샘플링 매개변수는 온도(temperature) 1.0, top_p 0.95, n 1, 페널티 0.0으로 고정되어 있습니다. 기본 최대 출력은 32,768 토큰입니다. vLLM, SGLang, KTransformers를 사용하여 자체 호스팅할 수 있습니다. 허깅페이스 리포지토리의 크기는 디스크 기준 약 595GB로 매우 큽니다. 이는 노트북용 모델이 아닌 서버급 배포를 겨냥한 타겟입니다.
문샷 팀은 6가지 벤치마크 결과를 발표했습니다. 이들은 K2.7-Code를 K2.6, GPT-5.5, 클로드 오푸스 4.8(Claude Opus 4.8)과 비교했습니다. K2.7-Code는 모든 항목에서 K2.6을 능가했습니다. 코딩 부문에서 가장 큰 상승을 보인 것은 Kimi Code Bench v2로, 기존 50.9%에서 62.0%로 상승했습니다.
K2.7-Code는 MCP Mark Verified 벤치마크에서 81.1%를 기록하며 오푸스 4.8의 76.4%를 제쳤습니다. 또한 MLS Bench Lite에서는 GPT-5.5에 근접한 수치를 기록했습니다. K2.7-Code는 Kimi Code CLI에서 실행되었으며, GPT-5.5는 Codex xhigh, 오푸스 4.8은 Claude Code xhigh 환경에서 테스트되었습니다.
함께 보면 좋은 글 β Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델 Moonshot AI, Kimi K2.5 모델 공개 Kimi K2 - 최첨단 전문가 혼합(MoE) 언어 모델 Kimi K2.5 기술 보고서 [PDF] - 시각적 에이전트 지능을 향한 오픈 멀티모달 모델 Kimi K2.6 공개 - 오픈소스 코딩의 발전
Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델
Moonshot AI, Kimi K2.5 모델 공개
Kimi K2 - 최첨단 전문가 혼합(MoE) 언어 모델
Kimi K2.5 기술 보고서 [PDF] - 시각적 에이전트 지능을 향한 오픈 멀티모달 모델
Kimi K2.6 공개 - 오픈소스 코딩의 발전
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
2024년 세계에서 다섯 번째로 달 착륙에 성공한 일본의 달 탐사선 ‘슬림(SLIM)’ 임무에서 핵심 역할을 수행한 초소형 로버의 활동 내용이 공개됐다.
라이브사이언스, 기즈모도 등 외신은 일본 우주항공연구개발기구(JAXA)의 달 탐사선 SLIM에 탑재됐던 초소형 로버 ‘LEV-2’의 임무 수행 결과를 다룬 연구가 학술지 사이언스 로보틱스에 발표됐다고 최근 보도했다.
SLIM은 2024년 1월 달 착륙 당시 ‘LEV-1’와 ‘LEV-2’ 두 대의 소형 탐사 로봇을 함께 배치했다. 그 중 LEV-2는 달 표면에 도착한 뒤 몸체를 두 부분으로 펼쳐 양쪽에 바퀴를 형성한 후 이동을 시작했다. 폭 80㎜, 무게 250g에 불과한 이 로봇은 약 2시간 동안 달 표면을 탐사하며 사진을 촬영하고 데이터를 전송하는 임무를 수행했다.
특히 LEV-2는 착륙 과정에서 자세가 뒤집혀버린 SLIM 탐사선의 모습을 촬영해 지구로 전송해 지구에 있던 연구진이 탐사선의 상태를 진단할 수 있었다.
연구진은 “손바닥 크기의 로버가 SLIM 주변을 자율적으로 탐사하며 착륙선과 주변 환경의 이미지를 촬영하고, 이를 달 표면 무선 통신망을 통해 전송하는 데 성공했다”고 설명했다.
LEV-2 개발에는 JAXA를 비롯해 일본 도시샤대학, 소니, 완구업체 타카라토미가 참여했다. 특히 타카라토미는 1980년대 ‘트랜스포머’ 완구를 개발한 기업으로, 로봇의 변형 메커니즘 설계에 자사의 기술을 접목했다.
그 결과 탄생한 LEV-2는 공 모양에서 바퀴형 이동체로 변신할 수 있으며, 바퀴 중심에서 벗어난 회전 구조를 활용해 달 표면을 이동하도록 설계됐다. 또한 다양한 센서와 영상 처리 소프트웨어를 탑재해 주변 환경을 스스로 인식할 수 있으며, 시스템 이상을 감지하고 복구하는 자율 기능도 갖췄다.
LEV-2는 임무 수행 중 달 표면의 고해상도 사진 12장을 촬영했다. 일부 데이터는 전송 과정에서 손실됐지만, 연구진은 이번 임무가 미래 달·화성 탐사에 필요한 핵심 기술을 성공적으로 입증했다고 평가했다.
특히 형태를 바꾸며 이동하는 기술과 자율 항법·제어 기능은 향후 극한 환경 탐사에 활용될 수 있는 가능성을 보여줬다는 설명이다.
"달이 미래 전쟁터 될 수도"…美 보고서, ‘매스 드라이버’ 무기화 경고 [우주로 간다] 2026.05.30 中, 2030년 유인 달 착륙 박차…"모든 노력 다할 것" [우주로 간다] 2026.05.28 NASA, 화성의 ‘두 얼굴’ 공개…두 탐사 로버가 담은 360도 풍경 [여기는 화성] 2026.05.04 NASA, 화성탐사 로버에 GPS 달았다 [여기는 화성] 2026.02.23
연구진은 다만 소형 로봇은 크기 제약으로 인해 탑재 장비와 연산 능력이 제한된다는 점도 지적했다. 이에 따라 향후에는 대형 탐사 로버와 초소형 로봇을 함께 운용하는 방식이 유력할 것으로 전망했다. 예를 들어 초소형 로봇은 대형 로버가 접근하기 어려운 좁은 환풍구나 분화구 내부를 탐사하고, 대형 로버는 통신·전력 공급과 정밀 분석을 담당하는 역할 분담이 가능하다는 것이다.
연구진은 이러한 협력형 탐사 시스템이 더 넓은 지역에서 더 많은 데이터를 수집할 수 있게 해 미래 달·화성 탐사의 효율성을 크게 높일 것으로 기대했다.
비트코인 채굴자 '항복' 신호에도 저점은 아직…연말 약세장 바닥 찍을 듯
비트코인 채굴 마진이 4.67%까지 떨어지며 '채굴자 항복' 신호가 다시 나왔다. 다만 일부 트레이더는 비트코인 약세장 최종 저점이 2026년 후반에 형성될 수 있다고 봤다.
비트코인 약세장 최종 저점이 2026년 후반에 형성될 수 있다는 전망이 나왔다. [사진: Reve AI]
[디지털투데이 김예슬 기자] 비트코인 채굴 수익성이 5% 아래로 떨어지면서 시장에서 '채굴자 항복' 신호가 다시 부각되고 있다.
12일(현지시간) 블록체인 매체 코인텔레그래프에 따르면 비트코인 현물 가격이 채굴 난이도와 생산원가 대비 낮은 수준에 머물면서 채굴업계 수익성이 크게 위축된 것으로 나타났다.
핵심은 채굴업계 압박이 장기 투자자에게는 매수 구간 신호로 해석되고 있다는 점이다. 가명 트레이더 킬라는 엑스에 올린 글에서 가격과 난이도 지표를 근거로 채굴자들이 "항복하고 있다"며 "역사적으로 완벽한 매집 시점을 보여준 신호가 다시 나타났다"고 말했다.
온체인 분석 플랫폼 비트보가 제시한 '채굴자 항복' 차트도 비슷한 흐름을 보여준다. 현재 비트코인 현물 가격을 장기 채굴 난이도 저점과 비교한 지표가 뚜렷한 음의 구간에 들어섰고, 이는 과거 비트코인 약세장 때 나타났던 패턴과 겹친다. 이 구간은 채굴업체 수익성이 악화돼 매도 압박이 커질 수 있는 상태를 뜻한다.
실제 채굴 원가 기준으로도 여건은 빠르게 나빠지고 있다. 정량 기반 비트코인·디지털 자산 펀드 캐프리올 인베스트먼츠(Capriole Investments) 설립자 찰스 에드워즈(Charles Edwards)는 이번 주 분석에서 비트코인이 사실상 생산원가 수준에서 거래되고 있다고 밝혔다. 그는 '채굴자들은 이제 평균적으로 간신히 손익분기점을 맞추는 수준'이라고 말했다.
캐프리올 인베스트먼츠가 제시한 수치에 따르면 현재 생산원가는 약 6만1200달러, 전력비용은 4만8965달러다. 이에 따른 채굴 마진은 4.67%로, 6월 초 기록한 최근 2년 내 저점권에 근접했다. 생산원가와 전력비용은 채굴업체의 전반적인 수익성을 가늠하는 핵심 지표로, 비트코인 가격이 이 구간에 가까워질수록 채굴자 매도 가능성도 함께 커진다.
다만 시장이 곧바로 최종 바닥에 도달했다는 해석은 아직 이르다는 시각도 있다. 킬라는 별도 전망에서 비트코인의 다음 약세장 저점이 아직 남아 있다고 봤다. 그는 '전통 금융시장이 올해 어느 시점에 조정을 거친 뒤 비트코인의 최종 피벗 저점을 만들 가능성이 크다'고 말했다. 채굴자 압박이 매수 기회로 읽히는 동시에, 거시 시장 조정이 비트코인의 추가 하락을 유발할 수 있다는 판단이다.
이런 흐름은 채굴업계 전반의 수익성 악화와도 맞물린다. 채굴 마진이 5% 아래로 내려온 데다, 다른 지표들 역시 채굴업체 이익이 기록적으로 낮은 수준에 머물고 있음을 보여주고 있다. 비트코인 가격이 생산원가와 전력비용 사이 구간에 접근할 때 장기 투자 기회가 나타났던 전례는 있지만, 이번 국면에서는 채굴업계 스트레스와 더 넓은 금융시장 조정 가능성을 함께 봐야 한다는 점이 관전 포인트로 남는다는 설명이다.
결국 현재 시장은 두 신호가 동시에 나오고 있다. 하나는 채굴자 수익성 악화가 과거처럼 장기 매수 구간을 알릴 수 있다는 점이고, 다른 하나는 비트코인 약세장 저점이 아직 확정되지 않았다는 경고다. 비트코인 가격이 생산원가와 전력비용 사이에서 어떤 흐름을 보일지, 그리고 전통 금융시장 조정 여부가 실제로 나타날지가 향후 시장 방향을 가를 변수로 꼽힌다고 매체는 전했다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
키워드 #비트코인 #암호화폐 #가상자산 #블록체인 #크립토
이 시각 추천뉴스 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
XRP 상위 보유자 문턱 낮아졌다…2155개 보유하면 진입
희토류 없는 전기 모터 (renaultgroup.com)
전기 여자 동기 모터(EESM) 는 고정자 전류가 만드는 자기장으로 회전자를 움직여 배터리 전기를 차량 바퀴 구동용 기계 에너지로 바꾸며, 자석과 희토류를 쓰지 않음 자동차 시장의 전기차 90%는 자석이 들어간 모터를 쓰지만, Renault Group은 2012년부터 EESM 전기 모터 를 대량 판매함 Renault Group의 EESM 모터는 Kangoo Z.E와 Zoe에서 시작해 Megane E-Tech electric, Scenic E-Tech Electric, Alpine A290, Renault 5 E-Tech electric, Renault 4 E-Tech electric 등에 적용됨 2027년 예정된 E7A 는 200kW 출력, 400Nm 토크, 이전 세대 대비 30% 작은 크기, 탄소 영향 30% 감소, 약 92% 효율을 목표로 함 희토류와 자석 생산은 중국 의존도가 매우 높아, 권선형 회전자 선택은 원자재·자석 생산국 의존을 피하려는 전략적 선택이 됨 희토류 없는 전기 모터의 배경 Renault Group은 자석이 없는 전기 모터, 즉 희토류 없는 전기 모터 기술에서 역사적 선도 기업으로 자리매김해 왔음 전기차 90%가 자석이 들어간 모터를 쓰는 시장에서 Renault Group은 희토류 없는 모터로 차별화하고 있음 {p:90} 전기 모터의 주요 유형 전기차 모터 는 피스톤이나 실린더 없이 배터리의 전기 에너지를 기계 에너지로 바꿈 고정자에서 전류가 자기장을 만들고, 이 자기장이 회전자를 움직여 차량 바퀴를 구동함 전기 모터는 기술 차이가 큰 세 가지 주요 계열로 나뉨 영구자석 동기 모터 영구자석 동기 모터 는 희토류로 만들어지며, 현재 자동차 시장의 지배적 기술임 이 기술은 높은 효율과 최적화된 공간 요구 조건을 결합함 비동기 모터 비동기 모터(ASM) 는 비동기 유도 모터(IM)라고도 불림 이 기술은 효율이 더 낮아 현재 일반적으로 앞차축의 보조 모터로 쓰임 전기 여자 동기 모터 전기 여자 동기 모터(EESM) 는 약간 더 크지만 자석 없이 높은 효율을 냄 이 전기 모터는 희토류를 쓰지 않음 Renault Group은 2012년에 EESM 전기 모터를 대량 판매하기 시작했으며, 이 전문성은 경쟁력 있는 전기 모터 제품군으로 이어짐 Renault Group의 순수 전기 모터 제품군 Renault Group은 2011년부터 전기차 분야의 선도 기업으로 활동했으며, EESM 기술을 대량 판매하는 선택을 했음 1세대 모터 첫 세대 모터는 2011년 Renault Kangoo Z.E와 2012년 Renault Zoe 에 탑재됨 이 모터는 부품 참조명 5A 를 사용했으며 출력은 57~100kW 범위였음 2020년에는 이 파워트레인의 최종 업그레이드가 Twingo Electric 에 적용됐고, 참조명은 5AL, 출력은 60kW였음 2세대 EESM 모터 Renault Group의 2세대 EESM 모터는 2021년에 참조명 6A 로 생산에 들어감 Renault Megane E-Tech electric 은 2022년 초 새 모터를 처음 탑재한 모델이었으며, 참조명 6AM 모터는 더 작고 가볍고 강력해 최대 160kW 출력을 냄 이후 Renault Scenic E-Tech Electric과 첫 순수 전기 Alpine인 Alpine A290이 이 흐름을 따름 2024년 10월 출시된 Renault 5 E-Tech electric 은 110kW 출력의 6AK 전기 모터를 탑재함 2025년 3월부터 주문 가능한 Renault 4 E-Tech electric도 110kW 출력의 6AK 전기 모터를 탑재함 Alpine A390은 2025년 9월 공개된 새로운 파워트레인을 갖췄으며, 앞차축에는 Alpine A290과 같은 6AM 전기 모터를, 뒤차축에는 새로운 트윈 모터 구성을 적용함 Alpine A390의 세 전기 모터는 모두 Cléon에서 제조되며, 합산 추정 출력은 약 345kW, 약 470마력임 2027년 차세대 순수 전기 EESM 모터 Renault Group 엔지니어들은 2021년에 E7A 라는 3세대 EESM형 전기 모터 개발을 시작함 개발 단계는 아직 진행 중이지만 사양은 이미 확정됨 E7A는 200kW, 약 270마력 출력과 400Nm 토크를 목표로 함 E7A는 올인원 아키텍처를 통해 이전 세대 모터보다 크기가 30% 작아짐 E7A는 탄소 영향을 30% 줄이고 약 92% 효율을 목표로 함 이 전기 모터는 시스템 전압을 현재 Renault 제품군의 표준인 400V 아키텍처에서 800V로 높여 충전 시간을 줄임 희토류 없는 모터가 더 전략적인 과제가 된 이유 Renault Group은 영구자석 대신 권선형 회전자 를 선택해 희토류와 자석 생산국에 대한 의존을 피하려 함 전기 모터에서 희토류의 존재 여부는 세부 사항이 아니라 전략적 이슈임 중국은 전 세계에서 쓰이는 정제 경희토류의 85%와 중희토류의 100%를 생산함 중국은 오늘날 이러한 원재료 판매를 드물게 제공하며, 자국 시장과 영구자석 같은 고부가가치 제품을 우선함 그 결과 중국은 거의 완전한 독점에 가까운 지위를 갖고 있으며, 전 세계 생산의 90% 이상이 중국에서 나옴 동시에 중국은 세계 최대 전기차 생산국이기도 함 Cléon, Renault Group의 전기 모터 공장 Cléon 공장은 2015년부터 Renault Group 파워트레인을 만들어 왔음 이 공장은 Renault Zoe, Twingo ZE, Kangoo ZE, Master ZE용 전기 모터 생산을 시작한 곳임 Megane E-Tech electric, Scenic E-Tech electric, Alpine A290, Renault 5 E-Tech electric, Renault 4 E-Tech electric용 모터도 모두 이곳에서 생산됨 2027년부터 Cléon 공장은 차세대 200kW 전기 모터를 생산함
함께 보면 좋은 글 β 작은 전기 모터가 테슬라 모터 4개를 합친 것보다 강력하며 기존 기록보다 40% 향상 Mercedes-Benz, 전기 축방향 자속 모터 대규모 생산 시작 ASML, 2030년까지 칩 생산량을 50% 늘릴 수 있는 EUV 광원 기술 공개 리튬 불포함 소듐(Sodium) 배터리, 실험실을 나와서 미국에서 생산 돌입 전기차(EV)의 멍청함 체크리스트
작은 전기 모터가 테슬라 모터 4개를 합친 것보다 강력하며 기존 기록보다 40% 향상
Mercedes-Benz, 전기 축방향 자속 모터 대규모 생산 시작
ASML, 2030년까지 칩 생산량을 50% 늘릴 수 있는 EUV 광원 기술 공개
리튬 불포함 소듐(Sodium) 배터리, 실험실을 나와서 미국에서 생산 돌입
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ GN⁺ 19분전 [-] Hacker News 의견들 자석 없는 전기 모터 의 복잡한 기술을 역사적으로 개척했다는 식의 제목은 전기기계 역사를 아는 입장에선 꽤 웃김 영구자석 없는 모터가 최초의 실용 모터였고, 권선형 회전자 모터도 이미 100년이 넘었음 가장 큰 모터들은 예전부터 이런 식으로 설계되는 경우가 많았는데, 필요한 자석 크기 때문에 너무 비싸고 위험해지며 크기 대비 출력도 부족하기 때문임 계자 코일은 전류와 권선의 저항 발열이 허용하는 한 자기장을 만들 수 있지만, 희토류 자석은 자기장 세기에 고정된 한계가 있음 오래전 Cub Scouts 에서 전기 모터를 만드는 과제가 있었고, 준비물은 받침용 판자, 6인치 못 여러 개, 전선, 판금 재료로 쓸 깡통, 테이프였음 자석은 없었지만 건전지에 연결하니 잘 돌았음 과학 소년답게 교류에 연결하면 더 잘 될 거라 생각해 전원 코드를 붙이고 꽂았더니 큰 진동이 나다가 불이 붙었고, 엄마가 좋아하지 않았음 표현이 웃기다는 데 동의함 큰 발전기는 모두 자기장을 만들기 위한 여자 코일 을 갖고 있고, 사후 조정보다 훨씬 효율적으로 계자를 조정해 전압을 조절할 수 있다는 장점이 있음 모터와 발전기 모두 자기장을 만들기 위해 전력을 공급해야 하므로 효율 손실은 있지만, 시스템이 커질수록 전자석을 쓰는 편이 실제로 더 효율적이 됨 희토류 광물 부족 까지 고려하면 더 말이 됨 그렇다면 왜 모든 모터를 영구자석 없이 만들지 않는지, 영구자석의 장점 이 무엇인지 궁금함 완전히 맞는 말은 아님 권선과 코어의 기계적 강도 에도 제한을 받으며, CERN이나 핵융합 시설의 초전도 자석도 이 한계가 상한이 됨 고정자와 회전자 모두에서 유도 자기장을 쓰는 모터를 만드는 것 자체가 여기서의 혁신은 분명히 아님 산업용 모터의 상당수가 영구자석을 쓰지 않기 때문임 의미 있는 토크를 내면서 작고 효율적으로 만드는 게 혁신일 것 같은데, 보통 93% 효율 전기 모터라는 주장은 2kW짜리 거대한 기계를 400W로 운전한 결과인 경우가 많음 Renault 가 여기서 무엇을 하고 있는지 아는 사람이 있으면 궁금함 BMW 도 전기차용 희토류 없는 모터를 만들고 있고, 현재 기준으로는 그쪽이 훨씬 앞서 있음 출력이 거의 두 배이고(최대 300kW 대 160kW), 800V 아키텍처 를 씀 Renault의 가장 싼 전기차는 약 €20K이고, BMW의 가장 싼 전기차는 약 €65K임 두 회사가 같은 시장 구간에 있다고 보긴 어렵지 않나 싶음 Mercedes의 새 축방향 자속 전기 모터 와는 꽤 대조적임 그 설계는 희토류를 적극적으로 쓰고, 최고급 고성능 영구자석에 의존함 다만 Mercedes의 목표 생산량은 BMW나 Renault보다 적을 가능성이 큼 “자석을 제어 가능한 자석 으로 바꾼다”는 말은 자동차공학 문장 중 가장 자동차공학다운 표현일 듯함 다른 말로 하면 “희토류를 제거하고 소프트웨어 를 추가했습니다”임 이게 브러시 방식 이라는 점이 흥미로움 RC 자동차 커뮤니티에서는 보통 브러시리스 모터가 더 우수하다고 보지만, 물론 그쪽에는 희토류 자석 문제가 있음 기술적으로 브러시는 닳을 수 있지만, 15만~25만 마일 정도는 간다는 주장도 보임 엄밀히는 브러시가 아니라 슬립 링 임 이런 모터 설계는 자동차용 교류발전기와 매우 비슷하고, 전력 기준으로 약 100배 키운 형태에 가까움 브러시드 DC 모터 가 닳는 이유는 계속 극성을 전환하면서 브러시에서 아크가 생기기 때문임 브러시는 회전자에 전력을 넣기 위한 게 아니라, 회전자는 결국 자석이고, 고정자에 극성을 바꾸라고 알려주는 역할을 함 브러시리스 DC 모터는 마찰 부품 없이 회전자 위치를 감지하는 전자회로로 고정자 극성을 바꾸므로 아크가 없음 고정자 전류 펄스를 미세 조정해 넓은 속도 범위에서 효율을 높일 수도 있고, 브러시드 DC 모터는 그걸 못 함 회전 접점이 없다는 사실보다 아크가 없다는 점 이 더 중요함 브러시드 AC 모터는 회전 접점인 슬립 링이 있지만 이상적으로는 아크가 없어서 접점 열화가 브러시드 DC 모터만큼 빠르지 않음 다만 회전자를 여자해야 하므로 큰 전류를 흘림 브러시드 AC 모터가 이상적이진 않지만, AC 모터를 “브러시리스”로 만드는 이득은 DC 모터에서만큼 크지 않음 결국 모든 모터에는 계속 변하는 전류가 필요하고, AC/DC 모터의 차이는 외부에서 이미 정현파 교류를 넣느냐, 아니면 모터 자체가 외부 DC를 어떤 형태의 AC로 바꾸느냐에 있음 “At the same time, China is also the world's leading producer of electric cars...” 같은 식으로 전문 브랜드 회사가 말줄임표 를 쓰는 게 좀 흥미로움 희토류 없는 모터가 CATL 나트륨 배터리 와 언제쯤 결합될지 궁금함 가격 전쟁과 주행거리 전쟁이 곧 올 것 같음 틀릴 수도 있지만, CATL 나트륨 배터리는 아직 LFP 가격 까지 내려오지 않은 것으로 알고 있음 그 전에는 나트륨 배터리 차량을 보기 어려울 가능성이 큼 Wh당 무게가 더 나가므로 LFP보다 상당히 싸야 하고, 수명도 더 짧다고 생각했음 다만 수정하자면 CATL은 15,000사이클을 약속하는 것 같고, 보통 7,000~10,000사이클인 LFP보다 훨씬 김 나트륨 배터리 가격이 폭락한다면 차량보다 먼저 전력망과 가정용 배터리 솔루션에 들어갈 가능성이 훨씬 커 보임 가능성은 낮아 보임 전기여자 동기기(EESM) 는 주로 유럽 OEM인 ZF, MAHLE, Schaffler, AEM과 인도 합작 파트너인 Sona Comstar, Sterling, 그리고 해당 OEM의 인도 지사들이 제조함 최근 몇 년간 이들은 수출 통제로 중국 배터리 기술 접근이 막혔고, EESM 추진의 큰 이유도 특히 중국이 EU에 희토류 수출 통제를 시작한 뒤 중국 밖 공급망을 만들기 위해서였음 [6] 또한 중국과 미국 전기차는 유럽 및 최근 인도 전기차와 달리 대체로 영구자석 동기 모터(PMSM) 를 씀 EU는 EU Industrial Accelerator Act의 일환으로 자유무역협정이 없는 국가의 자동차 수출과 OEM을 강하게 압박하고 있고, 이 때문에 중국이 격하게 반응했음 [2][3][4][5] 반면 일본과 한국은 EU와 자유무역협정 파트너이므로, Idemitsu Kosan이 양산을 진행 중인 전고체 배터리 [0][1]나 LG의 전고체 배터리 [7]를 쓸 가능성이 더 높아 보임 [0] - https://www.chiyodacorp.com/en/projects/solidelectrolytefaci... [1] - https://battery-tech.net/battery-markets-news/idemitsu-kosan... [2] - https://www.globaltimes.cn/page/202605/1361926.shtml [3] - https://www.globaltimes.cn/page/202605/1362200.shtml [4] - https://www.globaltimes.cn/page/202605/1362161.shtml [5] - https://www.ft.com/content/5903318c-319b-426e-b05d-062f7620f... [6] - https://www.reuters.com/world/china/eu-lawmakers-rebuke-chin... [7] - https://blog.lgchem.com/en/2026/03/25_solid_state_battery/ 전기여자 동기기(EESM) 또는 권선계자 동기기는 북미 전기차에서 주류인 매입형 영구자석 동기기(IPMSM)에 비해 장단점이 있음 장점은 희토류 영구자석의 가격·공급망 변동성에서 자유롭고, 고속도로 위주 주행 사이클에서는 최신 IPMSM보다 사이클 효율이 높을 수 있다는 것임 EESM은 계자 약화 특성이 뛰어나 중간 토크와 고속에서 효율이 가장 좋은 편이라, 8등급 트럭이나 두 구동축을 가진 자동차의 보조 모터에 잘 맞을 것 같음 출력 토크가 반드시 회전자 온도 상승에 따라 줄어들지 않고, 적절한 제어를 하면 이론상 역률 1로 운전해 고정자 인버터의 kVA 정격을 낮출 수 있으며, 고정자 인버터 고장 시 회전자를 탈여자하는 방식으로 안전상 이점도 있음 단점은 회전하는 계자 권선에 직류를 전달해야 해서 브러시와 슬립 링을 쓰거나 회전 정류기가 있는 고주파 변압기를 써야 하고, 어느 쪽이든 추가 전력전자와 부품 때문에 영구자석 제거로 얻는 비용 절감 일부가 사라진다는 점임 브러시와 슬립 링을 회전자 오일 분사 냉각과 함께 쓰면 별도 밀폐 구획이 필요하고, Renault가 유도식 고주파 변압기 대신 브러시와 슬립 링을 유지한 것이 조금 놀라움 그 선택이 출력 밀도를 제한했을 것 같음 토크 밀도가 매우 높은 기계에서는 회전자 계자 권선 냉각이 어렵고, 오일 분사 냉각이 가장 낫다고 봄 자동차 패키지 크기에서는 IPMSM만큼 높은 최고 속도에 도달하기 어렵고, 고속에서 계자 권선이 공극으로 밀려나지 않게 붙잡는 회전자 권선 유지 구조 설계가 중요함 EESM은 계자 권선 끝단과 여자 시스템 때문에 비활성 영역의 축방향 길이가 보통 IPMSM보다 길고, 효율은 제조 가능한 계자 권선의 슬롯 충전율에 크게 좌우됨 고성능 전류·토크 제어도 훨씬 어려움 고성능 EESM은 항공우주 발전기 응용에서 수십 년간 쓰였지만, 자동차용과는 다른 회전자 여자 시스템을 사용했음 Renault와 공급사 Continental이 EESM의 자동차 대량생산 상용화를 사실상 이끌었고, 이제 BMW도 뒤따랐으며 Mahle, ZF 등 여러 공급사가 EESM 설계를 갖고 있음 GM도 2014년에 고주파 변압기 여자 방식의 훌륭한 EESM 설계를 발표했음 동료들과 미국 에너지부 프로젝트로 여러 세대의 EESM을 만들었고( https://www.osti.gov/servlets/purl/1837809 ), 특정 용도에서는 전기차 구동 모터로 쓸 자리가 있다고 봄 또 다른 장점은 영구자석 없는 모터를 공회전 모드 로 전환할 수 있다는 점임 Tesla 듀얼 모터 구성에서 앞 모터가 자석 없는 방식으로 알고 있음 추가 출력이 필요할 때만 여자장을 켜고, 순항 속도에서는 추가 “끌림”을 만들지 않음 본 분해 영상 중 하나에서는 같은 차량 안에서도 앞 구동에는 더 싸고 덜 효율적인 IGBT를 쓰고, 뒤 모터에는 더 효율적인 SiC MOSFET을 쓰기까지 했음 짧은 가속에만 필요하다면 낮은 효율도 받아들일 수 있음 EESM이 고속도로 같은 고속 영역에서 더 효율적일 수 있다는 점이 흥미롭고, 예전에 읽은 적도 있음 전기차 주행거리를 걱정할 때 대체로 장거리 고속 주행 거리를 걱정하므로, 이건 EESM의 핵심 장점처럼 보임 Renault 전기차를 갖고 있는데 아주 좋음 모터 기술 외에도 비교적 가볍고, 히트펌프가 기본이며, 배터리 크기도 적당함 그 이유로 Zoe 를 타고 있음 Model 3 이전 Tesla ACIM 구동 유닛 도 자석이 없지 않았나? 절연된 구리선 묶음과 그 릴럭턴스를 자석처럼 쓴다고 알고 있었음 답변달기
Hacker News 의견들 자석 없는 전기 모터 의 복잡한 기술을 역사적으로 개척했다는 식의 제목은 전기기계 역사를 아는 입장에선 꽤 웃김 영구자석 없는 모터가 최초의 실용 모터였고, 권선형 회전자 모터도 이미 100년이 넘었음 가장 큰 모터들은 예전부터 이런 식으로 설계되는 경우가 많았는데, 필요한 자석 크기 때문에 너무 비싸고 위험해지며 크기 대비 출력도 부족하기 때문임 계자 코일은 전류와 권선의 저항 발열이 허용하는 한 자기장을 만들 수 있지만, 희토류 자석은 자기장 세기에 고정된 한계가 있음 오래전 Cub Scouts 에서 전기 모터를 만드는 과제가 있었고, 준비물은 받침용 판자, 6인치 못 여러 개, 전선, 판금 재료로 쓸 깡통, 테이프였음 자석은 없었지만 건전지에 연결하니 잘 돌았음 과학 소년답게 교류에 연결하면 더 잘 될 거라 생각해 전원 코드를 붙이고 꽂았더니 큰 진동이 나다가 불이 붙었고, 엄마가 좋아하지 않았음 표현이 웃기다는 데 동의함 큰 발전기는 모두 자기장을 만들기 위한 여자 코일 을 갖고 있고, 사후 조정보다 훨씬 효율적으로 계자를 조정해 전압을 조절할 수 있다는 장점이 있음 모터와 발전기 모두 자기장을 만들기 위해 전력을 공급해야 하므로 효율 손실은 있지만, 시스템이 커질수록 전자석을 쓰는 편이 실제로 더 효율적이 됨 희토류 광물 부족 까지 고려하면 더 말이 됨 그렇다면 왜 모든 모터를 영구자석 없이 만들지 않는지, 영구자석의 장점 이 무엇인지 궁금함 완전히 맞는 말은 아님 권선과 코어의 기계적 강도 에도 제한을 받으며, CERN이나 핵융합 시설의 초전도 자석도 이 한계가 상한이 됨 고정자와 회전자 모두에서 유도 자기장을 쓰는 모터를 만드는 것 자체가 여기서의 혁신은 분명히 아님 산업용 모터의 상당수가 영구자석을 쓰지 않기 때문임 의미 있는 토크를 내면서 작고 효율적으로 만드는 게 혁신일 것 같은데, 보통 93% 효율 전기 모터라는 주장은 2kW짜리 거대한 기계를 400W로 운전한 결과인 경우가 많음 Renault 가 여기서 무엇을 하고 있는지 아는 사람이 있으면 궁금함 BMW 도 전기차용 희토류 없는 모터를 만들고 있고, 현재 기준으로는 그쪽이 훨씬 앞서 있음 출력이 거의 두 배이고(최대 300kW 대 160kW), 800V 아키텍처 를 씀 Renault의 가장 싼 전기차는 약 €20K이고, BMW의 가장 싼 전기차는 약 €65K임 두 회사가 같은 시장 구간에 있다고 보긴 어렵지 않나 싶음 Mercedes의 새 축방향 자속 전기 모터 와는 꽤 대조적임 그 설계는 희토류를 적극적으로 쓰고, 최고급 고성능 영구자석에 의존함 다만 Mercedes의 목표 생산량은 BMW나 Renault보다 적을 가능성이 큼 “자석을 제어 가능한 자석 으로 바꾼다”는 말은 자동차공학 문장 중 가장 자동차공학다운 표현일 듯함 다른 말로 하면 “희토류를 제거하고 소프트웨어 를 추가했습니다”임 이게 브러시 방식 이라는 점이 흥미로움 RC 자동차 커뮤니티에서는 보통 브러시리스 모터가 더 우수하다고 보지만, 물론 그쪽에는 희토류 자석 문제가 있음 기술적으로 브러시는 닳을 수 있지만, 15만~25만 마일 정도는 간다는 주장도 보임 엄밀히는 브러시가 아니라 슬립 링 임 이런 모터 설계는 자동차용 교류발전기와 매우 비슷하고, 전력 기준으로 약 100배 키운 형태에 가까움 브러시드 DC 모터 가 닳는 이유는 계속 극성을 전환하면서 브러시에서 아크가 생기기 때문임 브러시는 회전자에 전력을 넣기 위한 게 아니라, 회전자는 결국 자석이고, 고정자에 극성을 바꾸라고 알려주는 역할을 함 브러시리스 DC 모터는 마찰 부품 없이 회전자 위치를 감지하는 전자회로로 고정자 극성을 바꾸므로 아크가 없음 고정자 전류 펄스를 미세 조정해 넓은 속도 범위에서 효율을 높일 수도 있고, 브러시드 DC 모터는 그걸 못 함 회전 접점이 없다는 사실보다 아크가 없다는 점 이 더 중요함 브러시드 AC 모터는 회전 접점인 슬립 링이 있지만 이상적으로는 아크가 없어서 접점 열화가 브러시드 DC 모터만큼 빠르지 않음 다만 회전자를 여자해야 하므로 큰 전류를 흘림 브러시드 AC 모터가 이상적이진 않지만, AC 모터를 “브러시리스”로 만드는 이득은 DC 모터에서만큼 크지 않음 결국 모든 모터에는 계속 변하는 전류가 필요하고, AC/DC 모터의 차이는 외부에서 이미 정현파 교류를 넣느냐, 아니면 모터 자체가 외부 DC를 어떤 형태의 AC로 바꾸느냐에 있음 “At the same time, China is also the world's leading producer of electric cars...” 같은 식으로 전문 브랜드 회사가 말줄임표 를 쓰는 게 좀 흥미로움 희토류 없는 모터가 CATL 나트륨 배터리 와 언제쯤 결합될지 궁금함 가격 전쟁과 주행거리 전쟁이 곧 올 것 같음 틀릴 수도 있지만, CATL 나트륨 배터리는 아직 LFP 가격 까지 내려오지 않은 것으로 알고 있음 그 전에는 나트륨 배터리 차량을 보기 어려울 가능성이 큼 Wh당 무게가 더 나가므로 LFP보다 상당히 싸야 하고, 수명도 더 짧다고 생각했음 다만 수정하자면 CATL은 15,000사이클을 약속하는 것 같고, 보통 7,000~10,000사이클인 LFP보다 훨씬 김 나트륨 배터리 가격이 폭락한다면 차량보다 먼저 전력망과 가정용 배터리 솔루션에 들어갈 가능성이 훨씬 커 보임 가능성은 낮아 보임 전기여자 동기기(EESM) 는 주로 유럽 OEM인 ZF, MAHLE, Schaffler, AEM과 인도 합작 파트너인 Sona Comstar, Sterling, 그리고 해당 OEM의 인도 지사들이 제조함 최근 몇 년간 이들은 수출 통제로 중국 배터리 기술 접근이 막혔고, EESM 추진의 큰 이유도 특히 중국이 EU에 희토류 수출 통제를 시작한 뒤 중국 밖 공급망을 만들기 위해서였음 [6] 또한 중국과 미국 전기차는 유럽 및 최근 인도 전기차와 달리 대체로 영구자석 동기 모터(PMSM) 를 씀 EU는 EU Industrial Accelerator Act의 일환으로 자유무역협정이 없는 국가의 자동차 수출과 OEM을 강하게 압박하고 있고, 이 때문에 중국이 격하게 반응했음 [2][3][4][5] 반면 일본과 한국은 EU와 자유무역협정 파트너이므로, Idemitsu Kosan이 양산을 진행 중인 전고체 배터리 [0][1]나 LG의 전고체 배터리 [7]를 쓸 가능성이 더 높아 보임 [0] - https://www.chiyodacorp.com/en/projects/solidelectrolytefaci... [1] - https://battery-tech.net/battery-markets-news/idemitsu-kosan... [2] - https://www.globaltimes.cn/page/202605/1361926.shtml [3] - https://www.globaltimes.cn/page/202605/1362200.shtml [4] - https://www.globaltimes.cn/page/202605/1362161.shtml [5] - https://www.ft.com/content/5903318c-319b-426e-b05d-062f7620f... [6] - https://www.reuters.com/world/china/eu-lawmakers-rebuke-chin... [7] - https://blog.lgchem.com/en/2026/03/25_solid_state_battery/ 전기여자 동기기(EESM) 또는 권선계자 동기기는 북미 전기차에서 주류인 매입형 영구자석 동기기(IPMSM)에 비해 장단점이 있음 장점은 희토류 영구자석의 가격·공급망 변동성에서 자유롭고, 고속도로 위주 주행 사이클에서는 최신 IPMSM보다 사이클 효율이 높을 수 있다는 것임 EESM은 계자 약화 특성이 뛰어나 중간 토크와 고속에서 효율이 가장 좋은 편이라, 8등급 트럭이나 두 구동축을 가진 자동차의 보조 모터에 잘 맞을 것 같음 출력 토크가 반드시 회전자 온도 상승에 따라 줄어들지 않고, 적절한 제어를 하면 이론상 역률 1로 운전해 고정자 인버터의 kVA 정격을 낮출 수 있으며, 고정자 인버터 고장 시 회전자를 탈여자하는 방식으로 안전상 이점도 있음 단점은 회전하는 계자 권선에 직류를 전달해야 해서 브러시와 슬립 링을 쓰거나 회전 정류기가 있는 고주파 변압기를 써야 하고, 어느 쪽이든 추가 전력전자와 부품 때문에 영구자석 제거로 얻는 비용 절감 일부가 사라진다는 점임 브러시와 슬립 링을 회전자 오일 분사 냉각과 함께 쓰면 별도 밀폐 구획이 필요하고, Renault가 유도식 고주파 변압기 대신 브러시와 슬립 링을 유지한 것이 조금 놀라움 그 선택이 출력 밀도를 제한했을 것 같음 토크 밀도가 매우 높은 기계에서는 회전자 계자 권선 냉각이 어렵고, 오일 분사 냉각이 가장 낫다고 봄 자동차 패키지 크기에서는 IPMSM만큼 높은 최고 속도에 도달하기 어렵고, 고속에서 계자 권선이 공극으로 밀려나지 않게 붙잡는 회전자 권선 유지 구조 설계가 중요함 EESM은 계자 권선 끝단과 여자 시스템 때문에 비활성 영역의 축방향 길이가 보통 IPMSM보다 길고, 효율은 제조 가능한 계자 권선의 슬롯 충전율에 크게 좌우됨 고성능 전류·토크 제어도 훨씬 어려움 고성능 EESM은 항공우주 발전기 응용에서 수십 년간 쓰였지만, 자동차용과는 다른 회전자 여자 시스템을 사용했음 Renault와 공급사 Continental이 EESM의 자동차 대량생산 상용화를 사실상 이끌었고, 이제 BMW도 뒤따랐으며 Mahle, ZF 등 여러 공급사가 EESM 설계를 갖고 있음 GM도 2014년에 고주파 변압기 여자 방식의 훌륭한 EESM 설계를 발표했음 동료들과 미국 에너지부 프로젝트로 여러 세대의 EESM을 만들었고( https://www.osti.gov/servlets/purl/1837809 ), 특정 용도에서는 전기차 구동 모터로 쓸 자리가 있다고 봄 또 다른 장점은 영구자석 없는 모터를 공회전 모드 로 전환할 수 있다는 점임 Tesla 듀얼 모터 구성에서 앞 모터가 자석 없는 방식으로 알고 있음 추가 출력이 필요할 때만 여자장을 켜고, 순항 속도에서는 추가 “끌림”을 만들지 않음 본 분해 영상 중 하나에서는 같은 차량 안에서도 앞 구동에는 더 싸고 덜 효율적인 IGBT를 쓰고, 뒤 모터에는 더 효율적인 SiC MOSFET을 쓰기까지 했음 짧은 가속에만 필요하다면 낮은 효율도 받아들일 수 있음 EESM이 고속도로 같은 고속 영역에서 더 효율적일 수 있다는 점이 흥미롭고, 예전에 읽은 적도 있음 전기차 주행거리를 걱정할 때 대체로 장거리 고속 주행 거리를 걱정하므로, 이건 EESM의 핵심 장점처럼 보임 Renault 전기차를 갖고 있는데 아주 좋음 모터 기술 외에도 비교적 가볍고, 히트펌프가 기본이며, 배터리 크기도 적당함 그 이유로 Zoe 를 타고 있음 Model 3 이전 Tesla ACIM 구동 유닛 도 자석이 없지 않았나? 절연된 구리선 묶음과 그 릴럭턴스를 자석처럼 쓴다고 알고 있었음
자석 없는 전기 모터 의 복잡한 기술을 역사적으로 개척했다는 식의 제목은 전기기계 역사를 아는 입장에선 꽤 웃김 영구자석 없는 모터가 최초의 실용 모터였고, 권선형 회전자 모터도 이미 100년이 넘었음 가장 큰 모터들은 예전부터 이런 식으로 설계되는 경우가 많았는데, 필요한 자석 크기 때문에 너무 비싸고 위험해지며 크기 대비 출력도 부족하기 때문임 계자 코일은 전류와 권선의 저항 발열이 허용하는 한 자기장을 만들 수 있지만, 희토류 자석은 자기장 세기에 고정된 한계가 있음
고정자와 회전자 모두에서 유도 자기장을 쓰는 모터를 만드는 것 자체가 여기서의 혁신은 분명히 아님 산업용 모터의 상당수가 영구자석을 쓰지 않기 때문임 의미 있는 토크를 내면서 작고 효율적으로 만드는 게 혁신일 것 같은데, 보통 93% 효율 전기 모터라는 주장은 2kW짜리 거대한 기계를 400W로 운전한 결과인 경우가 많음 Renault 가 여기서 무엇을 하고 있는지 아는 사람이 있으면 궁금함
BMW 도 전기차용 희토류 없는 모터를 만들고 있고, 현재 기준으로는 그쪽이 훨씬 앞서 있음 출력이 거의 두 배이고(최대 300kW 대 160kW), 800V 아키텍처 를 씀
“자석을 제어 가능한 자석 으로 바꾼다”는 말은 자동차공학 문장 중 가장 자동차공학다운 표현일 듯함
이게 브러시 방식 이라는 점이 흥미로움 RC 자동차 커뮤니티에서는 보통 브러시리스 모터가 더 우수하다고 보지만, 물론 그쪽에는 희토류 자석 문제가 있음 기술적으로 브러시는 닳을 수 있지만, 15만~25만 마일 정도는 간다는 주장도 보임
“At the same time, China is also the world's leading producer of electric cars...” 같은 식으로 전문 브랜드 회사가 말줄임표 를 쓰는 게 좀 흥미로움
희토류 없는 모터가 CATL 나트륨 배터리 와 언제쯤 결합될지 궁금함 가격 전쟁과 주행거리 전쟁이 곧 올 것 같음
전기여자 동기기(EESM) 또는 권선계자 동기기는 북미 전기차에서 주류인 매입형 영구자석 동기기(IPMSM)에 비해 장단점이 있음 장점은 희토류 영구자석의 가격·공급망 변동성에서 자유롭고, 고속도로 위주 주행 사이클에서는 최신 IPMSM보다 사이클 효율이 높을 수 있다는 것임 EESM은 계자 약화 특성이 뛰어나 중간 토크와 고속에서 효율이 가장 좋은 편이라, 8등급 트럭이나 두 구동축을 가진 자동차의 보조 모터에 잘 맞을 것 같음 출력 토크가 반드시 회전자 온도 상승에 따라 줄어들지 않고, 적절한 제어를 하면 이론상 역률 1로 운전해 고정자 인버터의 kVA 정격을 낮출 수 있으며, 고정자 인버터 고장 시 회전자를 탈여자하는 방식으로 안전상 이점도 있음 단점은 회전하는 계자 권선에 직류를 전달해야 해서 브러시와 슬립 링을 쓰거나 회전 정류기가 있는 고주파 변압기를 써야 하고, 어느 쪽이든 추가 전력전자와 부품 때문에 영구자석 제거로 얻는 비용 절감 일부가 사라진다는 점임 브러시와 슬립 링을 회전자 오일 분사 냉각과 함께 쓰면 별도 밀폐 구획이 필요하고, Renault가 유도식 고주파 변압기 대신 브러시와 슬립 링을 유지한 것이 조금 놀라움 그 선택이 출력 밀도를 제한했을 것 같음 토크 밀도가 매우 높은 기계에서는 회전자 계자 권선 냉각이 어렵고, 오일 분사 냉각이 가장 낫다고 봄 자동차 패키지 크기에서는 IPMSM만큼 높은 최고 속도에 도달하기 어렵고, 고속에서 계자 권선이 공극으로 밀려나지 않게 붙잡는 회전자 권선 유지 구조 설계가 중요함 EESM은 계자 권선 끝단과 여자 시스템 때문에 비활성 영역의 축방향 길이가 보통 IPMSM보다 길고, 효율은 제조 가능한 계자 권선의 슬롯 충전율에 크게 좌우됨 고성능 전류·토크 제어도 훨씬 어려움 고성능 EESM은 항공우주 발전기 응용에서 수십 년간 쓰였지만, 자동차용과는 다른 회전자 여자 시스템을 사용했음 Renault와 공급사 Continental이 EESM의 자동차 대량생산 상용화를 사실상 이끌었고, 이제 BMW도 뒤따랐으며 Mahle, ZF 등 여러 공급사가 EESM 설계를 갖고 있음 GM도 2014년에 고주파 변압기 여자 방식의 훌륭한 EESM 설계를 발표했음 동료들과 미국 에너지부 프로젝트로 여러 세대의 EESM을 만들었고( https://www.osti.gov/servlets/purl/1837809 ), 특정 용도에서는 전기차 구동 모터로 쓸 자리가 있다고 봄
Model 3 이전 Tesla ACIM 구동 유닛 도 자석이 없지 않았나? 절연된 구리선 묶음과 그 릴럭턴스를 자석처럼 쓴다고 알고 있었음
발행일: 2026-06-13 17:10 (토)
한국어 KR 영어 EN 일본어 JP 중국어 CH
2026 북중미 월드컵 개막과 함께 네이버 치지직에 이용자 수백만 명이 몰린 가운데 대규모 트래픽을 안정적으로 처리하는 '콘텐츠 전송 네트워크(CDN)' 기술의 중요성이 주목받고 있다.
12일 업계에 따르면 GS네오텍은 네이버 치지직 월드컵 중계 서비스에 CDN을 제공하며 대규모 트래픽 대응을 지원하고 있다. 치지직은 서비스 안정성을 위해 복수 사업자를 활용하는 멀티 CDN 구조를 운영 중이며 GS네오텍은 이 가운데 한 축을 맡고 있다.
이날 열린 한국과 체코의 북중미 월드컵 조별리그 경기에서 치지직은 최고 동시접속자 수 482만 명을 기록했다. 이는 지난해 리그오브레전드(LoL) 월드 챔피언십 당시 기록한 76만 명을 크게 웃도는 수치다.
CDN은 영상과 같은 대용량 콘텐츠를 이용자와 가까운 서버에서 전달하는 기술이다. 특정 경기나 이벤트로 트래픽이 급증하더라도 서버 부하를 분산해 끊김 없는 시청 환경을 제공한다.
GS네오텍은 국내 대표 CDN 사업자 중 하나로, 자체 CDN 인프라를 기반으로 대용량 트래픽 처리 서비스를 지원하고 있다. 국내 자체 인프라 운영과 실시간 트래픽 관리, 미디어 특화 서비스를 강점으로 내세우고 있으며 아마존웹서비스(AWS) '클라우드프론트' 등 멀티 CDN 환경 구축 서비스도 제공하고 있다.
앞서 회사는 2022 카타르 월드컵 당시에도 네이버와 SOOP(옛 아프리카TV), 지상파 방송사 등의 생중계를 지원하며 대규모 트래픽을 처리한 바 있다. 당시 네이버는 한국 대표팀 경기에서 200만 명 이상 동시접속자를 기록했으며 GS네오텍은 자사 CDN과 재해복구 서비스를 통해 안정적인 중계를 지원했다.
치지직이 운영하는 멀티 CDN은 여러 CDN 사업자를 동시에 활용해 트래픽을 분산하는 방식이다. 특정 사업자 장애 발생 시 다른 CDN으로 우회할 수 있어 대형 스포츠 이벤트나 글로벌 서비스에서 활용도가 높다.
GS네오텍, AWS MSP 자격 갱신…자동화·데이터 운영 입증 2026.04.21 [현장] "제조 AI, 이제 실행할 때"…GS네오텍, '미소'로 현장 바꾼다 2026.03.27 GS네오텍, AI 전문 인재 확보 나선다…상반기 공채 실시 2026.01.16 세계 NLP 학회도 주목…GS네오텍, 생성형 AI 논문 성과 '입증' 2025.09.23
업계에선 최근 인공지능(AI) 서비스와 실시간 스트리밍 확산으로 CDN의 중요성이 더욱 커질 것으로 보고 있다.
업계 관계자는 "수백만 명이 동시에 접속하는 스포츠 중계에선 플랫폼 자체 기술뿐 아니라 이를 뒷받침하는 CDN 인프라 안정성이 중요하다"며 "AI와 고화질 스트리밍 수요가 늘어나면서 대규모 트래픽 처리 역량이 플랫폼 경쟁력을 좌우할 것"이라고 말했다.