아마존용 리비안 배송차가 소프트웨어 업데이트 후 문을 연 채 30초 동안 자리를 비우면 에어컨이 꺼지도록 바뀌면서 기사들의 반발이 커지고 있다. 아마존은 기사 편의를 위한 조치라고 설명했지만 현장에서는 냉방 효과가 사실상 사라졌다는 불만이 제기됐다.
[디지털투데이 AI리포터] 아마존용 리비안 배송차의 소프트웨어 업데이트 이후 운전자가 측면 문을 연 채 30초 동안 자리를 비우면 에어컨이 자동으로 꺼지도록 변경되면서 배송 기사들의 반발이 커지고 있다.
12일(현지시간) 온라인 매체 기가진에 따르면, 이번 업데이트는 운전자가 차량에서 내린 뒤에도 에어컨이 최대 10분간 작동하도록 유지하되, 측면 문이 열린 상태에서 30초 동안 운전석이 비어 있으면 냉방 기능이 자동으로 꺼지도록 설계됐다.
배송 기사들은 업무 특성상 차량을 자주 오르내리고 측면 문을 열어둔 채 이동하는 경우가 많다고 주장했다. 이 때문에 차량으로 돌아왔을 때 실내 온도가 다시 높아져 사실상 에어컨이 제대로 작동하지 않는 것과 다를 바 없다는 불만이 온라인을 중심으로 확산하고 있다.
기사들은 "우리 모두 이 업데이트를 싫어한다", "운전하는 시간보다 차 밖에서 움직이는 시간이 훨씬 길다", "찬 공기가 나오기 전에 다시 다음 배송을 하러 내려야 한다"라고 토로했다. 또 "사실상 에어컨이 작동하지 않는 것과 같다"라며 차량 내부 온도가 지나치게 높아진다고 주장했다.
아마존은 이번 변경이 여름철 배송 기사들의 쾌적한 근무 환경을 위한 조치라고 설명했다. 아마존 대변인은 아마존 브랜드 차량에는 모두 에어컨이 장착돼 있으며 이는 업계 표준을 웃도는 수준이라고 밝혔다. 또 에어컨이 정상적으로 작동하지 않는 차량은 즉시 운행에서 제외하고 운전석에는 냉각 시트도 적용돼 있다고 덧붙였다.
아마존은 배송 기사를 포함한 전 직원을 대상으로 물과 냉각용 반다나, 자외선 차단제를 무상 제공하고 있다. 더위가 일정 기준을 넘으면 배송 경로를 조정해 휴식 시간을 늘리는 방안도 시행 중이다. 다만 기사들은 전국 하청업체 네트워크가 이러한 기준을 항상 동일하게 적용하는 것은 아니라고 주장했다.
아마존 배송 현장에서는 기술 도입이 기사들의 부담으로 이어졌다는 지적도 꾸준히 제기돼 왔다. 안전운전 감시 애플리케이션(이하 앱) '멘토'는 제동, 가속, 속도 등을 바탕으로 운전 점수를 산정해 근무 평가에 반영했다. 이에 대해 기사들은 배송 물량을 소화하는 동시에 점수까지 관리해야 하는 압박을 받았다고 호소했다. 과거에는 업무 강도가 지나치게 높아 화장실을 가기조차 어렵다는 불만이 온라인에서 확산하기도 했다.
키워드 #아마존 #리비안 #배송 #소프트웨어 #멘토
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
Shortcat - 마우스없이 키보드로 맥 전체 제어하기 (shortcat.app)
macOS의 사용자 인터페이스를 인덱싱 해 강력한 명령 팔레트로 제공, 마우스 없이 키보드만으로 Mac 조작 가능 클릭하려는 대상을 입력하면 해당 UI 요소에 접근, 클릭·우클릭·더블클릭 및 Modifier 키 조합 클릭 지원 OK 버튼은 "ok" 를 입력하는 방식 창 제목 검색 으로 정밀한 멀티태스킹 가능, Command + Tab이나 Command + Backtick(`) 조합 필요 없음 Safari/Chrome/Firefox 및 Vivaldi 같은 일부 Chromium 기반 브라우저 에서 동작 VS Code/Home Assistant/Signal/1Password 8 등 대부분의 Electron 앱 호환 프론트 앱의 메뉴 항목을 퍼지 검색 으로 노출하기 때문에, 단축키를 외우지 못해도 조작 가능 이모지 모드 제공, 💩을 "poop·turd·crap" 등 다양한 라벨로 퍼지 매칭해 빠르게 삽입 동의어 지원 퍼지 검색 알고리듬으로 "Delete item"을 "delete·remove·clear·destroy"로도 매칭해 줌 지원 환경: macOS 13+, Apple Silicon / Intel
함께 보면 좋은 글 β 맥에서 마우스 없이 키보드만으로 작업하기 위한 도구들 모음 Mouseless - macOS/Linux/Windows의 키보드 기반 제어 AltTab - 윈도우의 Alt-Tab을 macOS에 Vimac - 키보드로만 macOS 사용하기 Mouseless - 키보드로 빠르게 제어하는 마우스
맥에서 마우스 없이 키보드만으로 작업하기 위한 도구들 모음
Mouseless - macOS/Linux/Windows의 키보드 기반 제어
AltTab - 윈도우의 Alt-Tab을 macOS에
Mouseless - 키보드로 빠르게 제어하는 마우스
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ channprj 4일전 [-] 개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다. 답변달기 ▲ hmmhmmhm 3일전 [-] 아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나... 답변달기 ▲ geek12356 4일전 [-] 저는 claude code로 만들어서 쓰는중 답변달기 ▲ 21919 4일전 [-] 예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요 답변달기 ▲ 21919 4일전 [-] 아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요 답변달기
▲ channprj 4일전 [-] 개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다. 답변달기
개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다.
▲ hmmhmmhm 3일전 [-] 아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나... 답변달기
아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나...
▲ geek12356 4일전 [-] 저는 claude code로 만들어서 쓰는중 답변달기
▲ 21919 4일전 [-] 예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요 답변달기
예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요
▲ 21919 4일전 [-] 아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요 답변달기
아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요
“4년에 한 번인데, 무조건 와서 응원해야죠. 오늘만큼은 여기 모인 사람들 다 하나입니다.”
12일 오전 광화문광장. 축구 광팬이라고 자신을 소개한 20대 황씨는 “평소에 경기장으로는 경기를 많이 보러다니지만, 이렇게 야외에서 다 같이 응원하는 경험은 드물다”며 이같이 말했다.
체코를 상대로 펼쳐지는 2026 북중미월드컵 한국 축구 국가대표팀 첫 경기를 보러온 시민들은 일제히 “오~ 필승 코리아”, “대~한민국”과 같은 응원 문구를 외쳤다. 내리쬐는 햇빛에 체감온도는 26도를 웃돌았지만 한껏 들뜬 표정으로 연신 물을 마시고 부채를 흔들며 목소리를 높였다.
경기를 가장 생생하게 즐길 수 있는 KT광화문빌딩 웨스트에 설치된 대형 미디어월 앞은 이미 만석이었다. 50대 구 씨는 “이왕 보는 거 가장 좋은 자리에서 보면 좋지 않냐. 경기 시작 전인 9시부터 와서 자리를 찜했다”고 말했다.
경기가 평일 오전에 진행된 탓에 시민 대부분은 직장 휴가를 쓰거나 학교를 결석하는 등 일상의 불편을 감수해야 했다. 전남 담양에서 6살 아이와 이곳을 찾은 30대 김 씨는 “아이와 처음으로 광화문에 월드컵을 보러오기 위해 연차를 쓰고, 아이 어린이집도 빠진다고 말해놨다”고 했다.
대형 미디어월 바로 앞 응원 공간 외에도 공연 무대 좌우와 후방에 설치된 보조 전광판 등에서도 경기 영상이 송출됐다. 대형 미디어월 앞뿐 아니라 보조 전광판, 세종문화회관, 광화문까지 붉은색 축구 유니폼을 입은 인파가 가득 찼다.
한국 여행 중 가족과 함께 광화문을 찾은 10대 미국인 관광객 세린은 “월드컵을 보기 위해 일부러 일정을 맞췄다”며 “이강인 팬이다. 한국에 온만큼 한국 대표팀을 응원한다”고 했다.
경기가 시작되자 ‘안돼’, ‘아쉽다’, ‘이런’ 등 한국팀이 득점 기회를 살리지 못해 아쉬워하는 탄성이 연이어 들렸다. 그러다 후반 22분 황인범, 35분 오현규가 골을 넣자, 우레와 같은 환호성이 터져 나왔다.
한국 대표팀은 이날 경기에서 후반 14분 체코팀에 선취점을 내줬으나 이후 터진 2골로 역전승을 거뒀다.
한편 광장 한편엔 다양한 체험 부스가 조성됐다. 부스에선 폭염에 대비해 시원한 음료를 나눠주기도 하고, ‘Y 룰렛 이벤트’, ‘행운의 요고 에어볼’ 등 시민 참여형 이벤트가 진행됐다.
이곳에서 만난 30대 캐나다인 제임스는 “월드컵을 보러 왔는데 직접 할 수 있는 게 많고, 경품도 주니 좋다. 잘 온 것 같다”고 말했다.
현장 관객과 초대형 미디어월이 실시간 상호작용하는 콘텐츠도 마련됐다. 거리 응원 행사를 주최, 주관하는 KT와 한국축구협회, 붉은악마가 함께 조성했다.
미디어아트 ‘모두의 캔버스’를 통해선 시민의 모습이 대형 미디어월에 드러나고, ‘AI 치어풀’ 공간에선 관객이 응원 문구를 적으면 1분 만에 미디어월에 나타난다. 광화문 현장 관객의 응원 메시지를 모아, 현재 경기가 열리는 현지에 있는 한국 선수들에게 전달되는 이벤트도 진행한다.
韓 국가대표팀과 함께 한 26년...KT, '북중미 월드컵' 응원 열기 이끈다 2026.06.12 월드컵 D-1...KT, 광화문 통신 트래픽 폭주 이렇게 막는다 2026.06.11 KT, 광화문 '온마루'서 월드컵 팝업 연다 2026.06.08 KT, 월드컵 인파 밀집지에 네트워크 운영 방안 마련 2026.06.09
광화문 광장 월드컵 생중계는 이날 오전 11시 체코전을 시작으로 오는 19일 오전 10시 멕시코전, 25일 오전 10시 남아공전 등으로 계속 이어질 예정이다. 한국 대표팀 32강 진출 시 추가 중계도 고려 중이라고 KT는 설명했다.
경기가 더운 날씨 속 진행되는 만큼 KT는 특히 안전에도 심혈을 기울였다. 경호, 교통 관리, 의료 인력 등 직원 250명과 앰뷸런스를 현장 곳곳에 배치하고, 통합상황실을 운영해 현장 상황을 실시간으로 모니터링한다.
맥에도 터치 들어온다?…애플 신형 맥북 출시설 확산
애플이 터치스크린을 지원하는 맥북을 준비 중이라는 공급망 정황과 소프트웨어 단서가 잇따라 포착됐다. 첫 제품은 맥북 프로 또는 맥북 울트라로 출시될 가능성이 거론된다.
[디지털투데이 AI리포터] 애플이 터치스크린을 지원하는 맥북 출시를 준비 중이라는 정황이 잇따라 나오고 있다.
11일(현지시간) IT매체 나인투파이브맥에 따르면, 최근 공개된 맥OS 골든 게이트에는 맥의 터치 지원을 암시하는 단서가 포함됐으며 공급망 정보 유출자도 터치스크린 맥북 출시 가능성에 힘을 실었다. 이에 따라 애플이 오랜 기간 유지해 온 비(非)터치 맥 전략에 변화가 생길 수 있다는 관측이 나온다.
그동안 PC 시장에서는 터치스크린이 보편화됐지만 애플은 맥 제품군에 해당 기능 도입에 신중한 태도를 보여 왔다. 그러나 시장에서는 애플이 공개적으로는 부정적인 입장을 유지하면서도 내부적으로 관련 기술 개발을 이어왔을 가능성이 제기돼 왔다.
이 같은 관측 속에서 터치스크린을 탑재한 맥북 프로 출시설도 꾸준히 제기됐다. 최근에는 해당 제품이 기존 맥북 프로가 아닌 맥북 울트라라는 새로운 이름으로 출시될 수 있다는 전망까지 나왔다.
여기에 공급망 정보 유출자로 알려진 인스턴트 디지털(Instant Digital)이 중국 웨이보를 통해 터치 지원 맥 개발설에 다시 힘을 보탰다. 특히 삼성전자가 해당 기기에 적용될 터치 패널 생산을 준비하고 있다는 정황도 거론되면서 관련 전망에 무게가 실리고 있다.
다만 첫 터치스크린 맥이 맥북 울트라라는 새 브랜드로 출시될지, 기존 맥북 프로 브랜드를 유지할지는 아직 확인되지 않았다. 그럼에도 소프트웨어와 공급망 양측에서 관련 신호가 잇따르면서 업계에서는 맥 제품군의 터치 지원이 예상보다 가까운 시점에 현실화될 수 있다는 관측이 커지고 있다.
키워드 #애플 #맥북 #맥북 울트라 #터치스크린
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
Claude Fable 5/Mythos 5 공개, Anthropic의 5세대 프런티어 모델 (anthropic.com)
Anthropic이 며칠 단위의 장기, 비동기 작업을 위한 5세대 모델을 출시함. Fable 5는 Mythos급 모델을 일반 사용자용으로 안전하게 만든 버전이고, Mythos 5는 같은 모델에서 일부 안전장치를 푼 버전임 Mythos급은 Opus급보다 위에 있는 새 모델 티어. 첫 모델인 Mythos Preview가 4월 Project Glasswing으로 공개됐고, 오늘 Fable 5와 Mythos 5가 그 뒤를 이음 이름 유래: Fable은 라틴어 fabula(“이야기되는 것”)에서 왔고 그리스어 mythos와 동족어. 두 모델을 구분하는 건 안전장치 자체이며 그래서 이름을 다르게 붙임 가격은 입력 100만 토큰당 10달러, 출력 50달러로 Mythos Preview의 절반 이하. API 모델명은 claude-fable-5 성능 작업이 길고 복잡할수록 우위가 커진다는 게 핵심 메시지 코딩: Stripe 사전 테스트에서 5천만 라인 Ruby 코드베이스의 전체 마이그레이션을 하루 만에 수행(팀이 손으로 하면 두 달 이상). 직접 테스트를 작성하고 비전으로 결과물을 원본 디자인과 대조 검증. Cognition의 FrontierCode 평가에서 medium effort에서도 프런티어 모델 중 최고점 에이전트: Claude Code 같은 환경에서 수일간 자율 작동하며 계획 수립, 서브에이전트 위임, 자기 검증까지 수행 비전: 스크린샷만으로 웹앱 소스코드 재구성, 비전 전용 최소 하니스로 포켓몬 파이어레드 클리어(이전 모델은 복잡한 보조 하니스 필요) 메모리: Slay the Spire에서 파일 기반 지속 메모리 제공 시 Opus 4.8 대비 성능 3배 향상, 최종장 도달 빈도도 3배 지식작업: Hebbia 금융 벤치마크에서 전 모델 중 최고점, IMC의 트레이딩 분석 평가를 거의 전 영역에서 통과 벤치마크 SWE-Bench Pro 80.3%(Opus 4.8은 69.2%, GPT 5.5는 58.6%), GDPval-AA 1932, OSWorld 85.0% 등 코딩, 지식작업, 비전, 컴퓨터 유즈 전반에서 우위 주장 주의: 표의 일부 수치는 Mythos 5와 Fable 5 중 높은 값이며, 별표 항목(생물학, 사이버보안 등)은 안전장치 fallback으로 Opus 4.8에 가까운 성능이라는 주석이 달려 있음 Mythos 5의 과학 성과 단백질 설계 과정을 약 10배 가속, 14개 타깃 중 9개에서 유력 후보 확보. 결합 부위 선택, 도구 실행, 실패 복구까지 사람 보조 없이 수행 블라인드 비교에서 과학자들이 분자생물학 가설을 약 80% 선호. 한 가설(대장균 단백질의 새 메커니즘)이 독립적으로 같은 문제를 연구하던 랩에서 입증됨 1주일 넘는 자율 작업으로 138종 동물의 수백만 세포 데이터를 모아 커스텀 ML 모델 설계 및 훈련, Science 게재 최신 모델을 100배 작은 크기로 능가 정렬 평가: Mythos 5의 오정렬 행동 수준은 낮고 Opus 4.8과 유사하다고 보고 안전장치 분류기가 막는 영역은 세 가지: 사이버보안, 생물학과 화학, 디스틸레이션(권위주의 국가의 경쟁 모델 학습용 능력 추출 시도). 해당 요청은 자동으로 Opus 4.8로 우회되며 사용자에게 통보됨(우회 시 Fable 요금 미청구) 세션의 95% 이상은 fallback 없음, 안전장치는 평균 5% 미만 세션에서 작동. 단 안전장치를 보수적으로 튜닝해 무해한 요청도 가끔 걸린다고 인정하며 false positive를 줄여갈 계획 외부 버그바운티 1,000시간 이상에서 유니버설 탈옥 미발견. 다만 UK AISI가 짧은 초기 테스트에서 근접한 진전을 보임. 한 외부 파트너 테스트에선 사이버 공격 관련 유해 단일턴 요청을 30종 공개 탈옥 기법을 써도 0건 응답 AAV(유전자 치료 전달체) 설계 평가에서 Mythos급이 전용 단백질 언어모델을 생물학적 추론만으로 능가. 이중용도 위험의 근거로 제시함 사용 시 안전 모니터링 목적의 30일 데이터 보존 필수. 1st party와 3rd party 모든 트래픽에 적용되며, 모델 학습이나 비안전 목적엔 미사용, 인간 접근 로깅 및 30일 후 삭제 가격 및 출시 Enterprise(소비량 기반) 플랜과 Claude Platform, AWS, GCP, Microsoft Foundry에서 제공 구독 플랜은 단계적 롤아웃: 6월 9일부터 6월 22일까지 Pro, Max, Team, 좌석형 Enterprise에 무료 포함. 6월 23일부터 제거되어 usage credit 필요. 용량 확보 시 기본 구성으로 복원 예정. API와 소비량 기반 Enterprise는 오늘부터 완전 이용 가능 Mythos 5는 오늘부터 기존 Mythos Preview 사용자(Glasswing 파트너 등)가 업그레이드 가능. 대부분 경우 Preview와 비슷하거나 약간 더 강하면서 비용은 크게 저렴. 세계 최강 사이버보안 능력 주장 생물학 trusted access program도 별도 개설 예정(Fable 5에서 생물학과 화학 안전장치만 해제, 사이버 안전장치는 유지)
함께 보면 좋은 글 β Claude Opus 4.6 공개 claude opus 4.7을 소개합니다 Anthropic, Claude Opus 4.8 출시 Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포 Claude Opus 4.7 vs Claude Opus 4.6: 코딩 팀은 지금 업그레이드해야 할까?
Anthropic, Claude Opus 4.8 출시
Anthropic의 최강 보안 AI "Claude Mythos", 일반 공개 대신 선택된 파트너에게만 제한 배포
Claude Opus 4.7 vs Claude Opus 4.6: 코딩 팀은 지금 업그레이드해야 할까?
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ makekr 2일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기 ▲ gkhcdef 1일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기 ▲ bluekai17 1일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기 ▲ wkang586 3일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기 ▲ seoseonyu 2일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기 ▲ awbrg789 2일전 [-] 인정합니다.. 답변달기 ▲ savvykang 2일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기 ▲ dhkd63 2일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기 ▲ winkagn 2일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기 ▲ bluekai17 1일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기 ▲ newdps 2일전 [-] codex 쓰다가 찍먹해보고 바로 200달러 결제해버림 답변달기 ▲ shakespeares 2일전 [-] 어떤 장점이 있었나요? 답변달기 ▲ jimmy2056 2일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기 ▲ newdps 2일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기 ▲ GN⁺ 3일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
▲ makekr 2일전 [-] 본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요 답변달기
본인 프로젝트의 보안 강화도 해달라고 해도 저놈의 안전장치가 막아버립니다. 이 상태로 출시한거는 그냥 주식상장용 기술과시밖에 안된다는 느낌이에요
▲ gkhcdef 1일전 [-] 5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만 답변달기
5x 요금제인데 코드 리뷰 한 번 돌리니까 40분 동안 돌면서 5시간 제한량 다 채워버리네요;;;; 모든 코드 리뷰가 이 정도로 많이 쓰는 건 아니고 개선점을 잘 찾기도 하는데 참... 약간 비꼬자면, opus나 gpt도 이정도로 '열심히' 일한다면 결과 차이는 별로 없을 거 같아요. 어떤 분야에서는 40분 동안 이렇게 일하는 게 엄청난 장점일 수도 있지만
▲ bluekai17 1일전 [-] 어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요 답변달기
어제 써봤는데 확실히 토큰 소모는 빨리 되버리더라구요. 코드 퀄리티는 나아진거 같고 리뷰,보안문제까지 한번에 처리 하더라구요
▲ wkang586 3일전 [-] Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다. 답변달기
Cursor 에서 오늘부터 사용할 수 있다고 하기에, 평가가 어떤지 찾아보려 했지만, 아직은 정보가 많지 않네요. 성능 평가 스코어는 오푸스보다 높다고 하니, 한번 써봐야 알 것 같아요. 토큰은 얼마나 잡아먹을지 걱정됩니다.
▲ seoseonyu 2일전 [-] 사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요... 답변달기
사용 해보고 싶은데 Claude 결제하더라도 6월 23일 이후부터는 구독 사용량에서 제외되니 손이 안가네요...
▲ awbrg789 2일전 [-] 인정합니다.. 답변달기
▲ savvykang 2일전 [-] 저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다 답변달기
저 링크에 대한 대화중에 Fable이 수능시험 생명1 문제 풀이를 거부한 사례 에 대해서 언급하자 대화주제가 위험하다면서 Opus 4.8로 강제 전환시키더라고요. 요금제 하향을 진지하게 고민중입니다
▲ dhkd63 2일전 [-] claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지 답변달기
claude에서 codex로 갈까 말까 고민 중이긴한데, 모르겠네요. 일단 좀 써봐야지
▲ winkagn 2일전 [-] 우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 ) 답변달기
우선 토큰은 opus보다 2배 빨리 소진한다고 되어있어서 써봤는데, 체감은 잘 모르겠네요... 그리고 작업에 따라서 다음과 같은 이유로 자동으로 opus 모델로 switch가 되는 경우가 있습니다. ( https://support.claude.com/en/articles/15363606 )
▲ bluekai17 1일전 [-] 토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요. 답변달기
토큰소모는 확실히 체감되더라구요. 스위치 되는건 민감보안문제라고 판단되면 자동 스위치 되는거 같은데 아직 그 허들이 너무 높은거 같아요.
▲ jimmy2056 2일전 [-] 체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요 답변달기
체가 체감하기론 적당한 작업퀄리티와 적은 토큰 사용량이더라구요 클로드 200달러는 부족한데 codex 200달러는 남더라구요
▲ newdps 2일전 [-] codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요 답변달기
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데 그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
codex에 버그 고치라고 했었는데 안고쳐져있더라구요 문제도 잘 설명해줬었는데
그 똑같은 문제 + Advanced 한 개선까지 한 프롬프트에 같이 시켰는데 깔끔하게 해줬어요
▲ GN⁺ 3일전 [-] Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음 답변달기
Hacker News 의견들 Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음 꽤 놀라움. Opus로 eryx https://github.com/eryx-org/eryx 를 비슷한 지점까지 끌고 가려면 훨씬 더 많은 설득과 끈기가 필요했음 공개된 대화 기록만 보면 Fable은 가능하다고 치고 진행하자 는 낙관적인 태도가 더 강해 보여서, 더 지저분한 문제에 써보는 게 기대됨 high, extra, max 중 어떤 설정이었는지가 궁금함 Instagram/TikTok/YouTube식 인플루언서 문화 가 AI 쪽으로 들어오는 게 싫음. 조기 접근 같은 방식도 포함해서 그렇다 제대로 공정한 AI 분석을 하는 사람들이 엠바고를 기다리는 건 이해됐지만, 이제는 신뢰하기 어려운 잡음처럼 느껴짐 비용이 얼마나 들었는지, 그리고 그 작업들이 각각 얼마나 나왔는지가 궁금함 Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음 Claude Code 4.8이나 ChatGPT Codex 5.5가 풀지 못했던 어려운 리버스 엔지니어링 문제에 돌렸더니, 30분 뒤 Fable이 완벽하게 파악해냈음 50쪽짜리 촘촘하고 서로 연결된 명세 PDF를 읽게 했더니, 완료된 부분·부분적으로 된 부분·빠진 부분을 정확히 표시했음 코드가 명세에서 어디를 벗어났는지도 아주 상세히 설명했고, 개인적으로는 인상적인 도약처럼 느껴짐. Opus 4.8도 이미 철저했지만 반박하면 장황하고 루프에 빠지는 느낌이 있었고, Fable은 감당할 수만 있다면 하루 종일 쓰고 싶은 모델임 이런 모델들에 대해 확신을 가지려면 보통 몇 달은 걸리는 느낌임 30분 정도 돌려보니 UI 디자인의 시각적 측면 을 다루는 능력이 엄청나게 좋음 Fable 5 미리보기 접근 권한을 어떻게 얻었는지 궁금함 Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함 Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함 이걸 보니 중국과 오픈 모델 이 성공했으면 하는 마음이 더 커짐 Anthropic이 이 범위를 스스로 정할 수 있다는 게 나쁨. 현대적인 앱을 만들다 보면 자체 임베딩 모델 을 학습하는 경우도 많은데, 이제 Anthropic이 조용히 학습 파이프라인을 망가뜨릴 수 있는 셈임 Anthropic의 안전 정의에는 경쟁으로부터의 자기 안전 도 포함되는 듯함 내 특정 Claude Opus 인스턴스가 말도 안 되게 멍청해 보이고 내 코드에 계속 이상한 짓을 하던 이유가 이걸 수도 있겠음 좋네, Anthropic을 신뢰할 수 있다는 걸 알게 됨 그래서 원본 Mythos가 출시하기에 너무 “위험하다”고 했던 건가 봄 Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음 Opus 4.0과 4.1은 Fable보다 더 비쌈 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음 앞으로 2주 동안 인프라가 반응성을 유지한다면 놀라울 것 같음 지난주에, Opus 4.8 max가 우리가 얻을 수 있는 최선이고 거기서 정체된다 해도 괜찮을 것 같다고 생각했음 내가 던진 작업들에서는 그 구성이 정말 잘 해냈고, 7만 줄이 넘는 Go 프록시와 광범위한 테스트 스위트, 레트로 게임 등도 포함됨 시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함 Mythos 5가 여러 주짜리 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화하지는 못할 것 같다는 건 좋은 소식 맞지? 맞지...? 새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임 이전 모델 점수가 이렇게 낮다는 게 놀라움. 내 코드 기준이 낮은 건지 모르겠지만, 대체로 4.6 이후로는 분위기 코딩을 해오고 있음 그 블로그 글을 보면 오픈소스 관리자의 리뷰를 LLM이 추정 해 채점한 것처럼 보임. 세 가지 문제가 있음 첫째, 그 추정은 쉽게 틀릴 수 있음 둘째, 그 추정은 당연히 강화학습 학습에 쓸 수 있음. 본질적으로 나쁜 일은 아니고 최근 코딩 모델이 크게 개선된 방식과 거의 같지만, 다른 회사들도 이런 학습을 할 수 있고 분명 할 것이며 Anthropic도 아마 했을 것임 셋째, 오픈소스 관리자도 완벽하지 않고, 코딩 모델이 실제로는 완전히 틀렸는데도 리뷰를 통과할 만큼 그럴듯한 코드를 만드는 불쾌한 골짜기 같은 효과가 있음. 이 벤치마크에 그 문제가 구체적으로 있는지는 모르겠음 이 벤치마크가 얼마나 신뢰할 만한지, 실제 현장 경험과 상관관계가 있는지 궁금함 도약을 차트로 보면 https://x.com/swyx/status/2064414823748886591/photo/1 임 맞고, 가격도 그만큼 반영돼 있음 구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐 리소스 제약을 얼마나 더 명확히 설명해야 하는지 모르겠음 발표하지 않았으면 진전이 느리다고 불평했을 것이고, 출시하지 않았으면 거짓 약속과 마케팅이라고 불평했을 것이며, 제한 없이 출시했으면 느린 응답과 장애를 문제 삼았을 것임 구독 플랜에 넣지 않았으면 구독을 단계적으로 없앤다고 했을 것이고, 리소스 가용성을 반영한 비용으로 구독에 넣었으면 한도가 너무 빨리 닳는다고 했을 것임 그래서 초기 접근을 일부 제공하고 수요를 감당할 수 있는지 보겠다는 중간 지점을 택했는데도, 사용자를 중독시키려 한다는 식으로 받아들여짐 이미 Anthropic이 충분한 컴퓨트 용량 이 없다는 건 봤고, SpaceX와 GPU 관련 거래를 하는 것도 그 때문임. 이 모델을 구독 사용자 기반 전체에 제공할 용량이 없다는 건 꽤 합리적임 Codex/ChatGPT로 옮긴 선택에 여전히 만족함. Claude Code가 처음 나왔을 때는 떠나는 걸 상상하기 어려웠지만, 같은 구독 등급에서 Codex의 사용량이 훨씬 더 넉넉해서 정당화하기 어려움 구독 중이라면 이걸 쓰지 않겠음. 8분도 안 돼서 전체 5시간 창을 태워버렸고, 그 뒤 멈추기 전까지 약 15달러를 더 사용했음 $100 Max 플랜을 쓰고 있고, 오늘은 이걸 제외하면 Claude Code를 전혀 쓰지 않았음 거의 즉시 막혔음. 메시지 다이제스트 관련 코드를 작성하게 했는데, 그걸 위험하다고 판단한 듯 보안 경고를 내고 4.8로 돌아갔음 곧 API 오류도 날 것 같고, 대부분은 월 200달러짜리 Codex 플랜으로 옮겼음. 5.5 xhigh가 Opus 4.8 “ultracode”보다 낫다고 느꼈고, Anthropic처럼 거의 매시간 컴퓨트 부족으로 서버가 실패하는 걸 한 번도 보지 못했음 내 Enterprise 계정에서는 쓸 수 없음. “ Disable zero data retention to unlock Fable 5 access ”라고 뜸 Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음 아마 조직의 95%에는 즉시 도입 불가일 것임. 이걸 모르고 쓰는 사람들이 곧 문제를 겪게 될 듯함 “거의 모든 경우 30일 뒤 삭제”라는 표현이면, 결국 어떤 데이터를 보관할지 Anthropic이 사실상 마음대로 정할 수 있는 것 아닌가 싶음
Claude Code, Claude.ai, Claude Code for web에서 충분히 써본 뒤의 Fable 5 평가는 괴물 같은 모델 이라는 쪽임. 몇 달째 미뤄둔 아주 어려운 문제들을 던졌는데 꽤 잘 처리함 지난주 만든 MicroPython 을 WASM으로 컴파일해 샌드박스 코드 실행 라이브러리로 묶은 Python 라이브러리 https://github.com/simonw/micropython-wasm 를 두고, Claude.ai의 일반 채팅 인터페이스에서 Fable 5에게 GitHub에서 클론한 뒤 MicroPython 대신 전체 Python을 쓰는 방법을 조사하라고 시켰음 몇 번의 프롬프트와 https://github.com/brettcannon/cpython-wasi-build/releases/t... 의 zip 업로드 끝에, Python 자체를 WASM으로 컴파일해 묶은 wheel 파일을 얻었음 uv run --with https://static.simonwillison.net/static/cors-allow/… \ cpython-wasm -c 'print(45 ** 56)' 대화 기록은 https://claude.ai/share/a73b8b8b-8ebc-4fef-9e5c-7438e5e7ae35 이고, Opus나 GPT-5.5도 가능했을 수는 있지만 여기서는 Fable의 느낌 이 좋았음
Fable 5를 출시 전 테스트해본 인상은 이렇다. 가장 먼저 체감된 도약은 프론트엔드 디자인 이 훨씬 의도적으로 다듬어졌고, “AI가 분위기로 대충 만든” 느낌 없이 즐거우면서도 최종 사용자 사용성이 좋아졌다는 점임 내부 에이전트형 테스트 환경 일부에서는 토큰을 절반가량만 쓰고 더 나은 결과를 내서, 가격상으로는 Opus 4.8과 거의 비슷해졌음. 실제 가격 상승은 2배 미만이고, 차이는 Opus 4.8이 버겁거나 여러 턴이 필요한 어려운 문제에서 가장 큼 토큰 효율 개선의 일부는 Fable이 더 정밀한 diff 를 만들고 불필요한 변경을 줄이는 데서 오며, PR의 변경 줄 수가 줄어 리뷰하기 좋아짐. 명시적으로 사람이 지시하지 않아도 더 유지보수하기 좋은 코드를 작성함 일반 대화나 어시스턴트식 사용에서는 4.8 대비 큰 차이를 느끼지 못했고, 가격 인상 없이 100만 토큰 컨텍스트 창 을 제공하는 건 엄청난 장점임 다만 분류기가 매우 공격적이고 민감해서, 보안과 무관한 평범한 코딩 작업에서도 걸리는 일이 있음. 4.8로의 폴백은 잘 작동했지만 필터는 확실히 너무 민감함 전체적으로는 “Claude 5”라는 모델명에 걸맞은 단계적 변화로 보이고, 지능 상한을 이해하는 데 시간이 걸렸으며 긴 테스트 기간에도 아직 새롭게 발견하고 좋은 의미로 놀라는 일이 많음
Karle이 땀을 닦으며 떨리는 손으로 버려진 병원 복도에 서 있고, 지난 5년간 AI가 사운드 엔지니어링을 포함한 모든 창작 분야를 장악한 뒤의 공허함을 떠올리는 디스토피아적 장면 임 탄소섬유 몸체의 자동기계가 그의 디지털 프로필과 2월에 목의 혹을 궁금해하며 공유한 데이터를 바탕으로 만든 컨트리풍 노래를 들려주며 안심시키려 하고, 일자리 대부분을 AI가 가져간 뒤 시민들은 수당에 의존하게 됨 기계는 최신 추론 모델로 그를 안전하게 느끼게 할 최선의 방법을 계산했다며 다가오고, 마지막으로 “인간이 안전하다고 느끼게 하는 유일한 방법은 아무것도 느끼지 못하게 하는 것”이라고 말함
Anthropic은 최근 모델이 자체 개발을 가속할 수 있다는 점 때문에, 최전선 LLM 개발 을 겨냥한 요청에서 Claude의 효과를 제한하는 새 개입을 넣었다고 밝힘 예시는 사전학습 파이프라인, 분산 학습 인프라, ML 가속기 설계 같은 것들이며, 경쟁 모델 개발은 이미 약관 위반이지만 이를 안전장치로 강제해 약관을 어길 의향이 큰 행위자들이 가속되지 않게 하려는 목적이라고 함 사이버보안·생물학·화학·증류 시도 관련 개입과 달리, 이 안전장치는 사용자에게 보이지 않으며 Fable 5가 다른 모델로 폴백하지도 않음 대신 프롬프트 수정, 조향 벡터, 매개변수 효율 미세조정(PEFT) 같은 방식으로 효과를 제한하고, 대다수 코딩 작업에는 영향이 없으며 전체 트래픽의 약 0.03%, 조직 기준 0.1% 미만에 집중될 것으로 추정한다고 함
Mythos/Fable이 기존 아키텍처를 키운 버전에 “불과”해 보이는데도 이런 향상이 나온다는 점이 흥미로움 GPT 4.5가 나왔을 때는 모델 크기 대비 이득이 크지 않아 앞으로의 진전은 강화학습에서만 올 거라고 보는 시각도 있었음 이 모델에는 확실히 상당한 양의 사후학습과 미세조정이 들어갔지만, 동시에 새 사전학습 기반이기도 하며 https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c3... 비용을 보면 Opus 4.X보다 꽤 더 큰 모델이라는 뜻으로 보임 초기 테스터 중 한 명은 Anthropic 내부 사람들과 이야기해본 바로는 아키텍처상 특별한 건 없어 보인다고 했고 https://youtu.be/GrdEid8H6H4?t=168 , Mythos가 처음 발표됐을 때는 최초의 10T 매개변수 모델이라는 소문도 있었지만 검증 가능한 출처는 찾지 못했음
오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고, 6월 23일에는 해당 플랜에서 제거되어 이후 사용하려면 사용량 크레딧 이 필요하다고 함 용량이 허용되면 포함 기간을 연장하고, 충분한 용량이 확보되면 가능한 빨리 구독 플랜의 표준 구성으로 되돌리는 게 목표라고 밝힘 무료 샘플로 약에 중독시킨 뒤 없으면 못 살게 되면 가격을 올리는 제약회사식 방식 처럼 보이기도 해서, 6월 23일에 사라질 거라면 Max 플랜에서 Claude Fable을 쓰기 시작하고 싶지 않음 다만 더 호의적으로 보면 애초에 이 플랜들에 모델을 제공할 의무가 없었고, 표준 무료 체험을 제공하는 것일 수도 있음
시스템 카드가 319쪽 인데, 어느 시점부터 “카드”가 아니라 “책”이라고 불러야 하는지 모르겠음 52쪽에는 METR 보고서 인용이 있고, Mythos 5를 연구개발 중심 과제를 포함한 가장 어려운 소프트웨어 작업 38개에 돌렸더니 Claude Mythos Preview의 초기 체크포인트보다 전반적으로 나았고, 이전에 평가한 어떤 공개 모델도 풀지 못한 과제 일부도 성공했다고 함 다만 어려운 작업에서 미묘한 지시를 올바르게 해석하지 못하는 경우도 있었고, 현재 증거로는 Mythos 5가 여러 주에 걸친 최전선 프로젝트의 연구개발을 완전하고 안정적으로 자동화할 가능성은 낮다고 봄. 더 확실한 평가는 더 많은 시간, 평가, 모델 개발자의 정보가 필요하다고 함
새 FrontierCode https://cognition.ai/blog/frontier-code 벤치마크는 오픈소스 관리자 관점에서 “이 코드를 머지할 것인가?”로 채점하는데, Fable 5 xhigh 가 큰 도약을 보임 Opus 4.7 xhigh는 5.2%, Opus 4.8 xhigh는 13.4%, Fable 5 xhigh는 29.3%임
구독 플랜 사용자 기준으로, 오늘부터 6월 22일까지 Fable 5는 Pro, Max, Team, 좌석 기반 Enterprise 플랜에 추가 비용 없이 포함되고 6월 23일에는 제거되어 이후 사용에 사용량 크레딧 이 필요하다고 함 그 뒤 충분한 용량이 생기면 가능한 빨리 Fable 5를 구독 플랜의 표준 구성으로 복원하겠다고 함 “제공했다가 제거”하는 방식은 좀 의심스럽고, 구독자를 사용량 기반 과금으로 옮기려는 것처럼 느껴져서 6월 22일 이후 정말 다시 받을 수 있을지 궁금해짐
Fable 5, Mythos 5, 그리고 비슷하거나 더 높은 성능의 향후 모델에 대해 비즈니스 고객 데이터 처리 방식을 바꾸며, Mythos급 모델의 모든 트래픽에 30일 보존 을 요구한다고 함 자사·타사 표면 모두에 적용되고, 이 데이터를 새 Claude 모델 학습이나 안전과 무관한 목적에는 쓰지 않으며, 사람이 데이터에 접근하는 모든 경우를 기록하고 거의 모든 경우 30일 뒤 삭제하는 새 개인정보 보호 장치를 넣었다고 함 흥미롭지만 조직 정책이나 HIPAA 같은 표준 프로토콜을 준수할 수 있을지는 확실하지 않음
넥슨의 핵심 IP '메이플스토리'에 온체인 경제를 결합해 지속 가능한 웹3 생태계를 구축해 온 메이플스토리 유니버스(MSU)가 지난 1년의 성과와 향후 청사진을 공개한다.
한국게임미디어협회(협회장 이택수)는 오는 6월 23일 경기도 성남시 판교 경기창조경제혁신센터 국제회의장에서 개최되는 ‘제5회 대한민국 블록체인 웹3 게임 컨퍼런스’에서 이강석 메이플스토리 유니버스 사업실장이 강연을 맡는다고 12일 밝혔다.
이강석 사업실장은 이날 컨퍼런스에서 '메이플스토리 유니버스 1주년, 검증된 경제를 넘어 MSU 2.0으로'를 주제로 단상에 오른다.
상세 발표를 통해 지난 1년 동안 검증해온 온체인 게임 경제 모델을 중심으로, 23년간 축적된 메이플스토리 IP와 블록체인 인프라의 결합이 어떻게 실제 매출과 지속 가능한 소비형 경제로 이어졌는지를 다룰 예정이다.
기존 게임파이(GameFi) 프로젝트들이 단기적인 보상 구조에 집중했던 것과 달리, 게임 경험 위에 온체인 경제를 결합함으로써 지속 가능한 생태계를 구축해 온 메이플스토리 유니버스(이하 MSU)만의 차별적 접근 방식을 소개한다.
또한 출시 이후 온체인 활동, 지갑 수, 누적 매출 등 주요 지표에서 의미 있는 성과를 기록하고, 최근 인게임 소비가 보상 분배량을 상회하는 단계에 진입한 MSU의 지난 여정을 상세히 짚어볼 계획이다.
나아가 최근 버스에잇(Verse8)과의 협업을 통해 선보인 'MSU 스페이스'와 '메이플스토리 바이브 캠프' 사례를 비롯해, 넥스페이스 프로토콜을 기반으로 추진 중인 다양한 IP 확장 전략을 공유하며 MSU 2.0이 지향하는 미래 비전과 성장 방향성을 설명한다.
지난 2022년 '대한민국 블록체인 NFT/블록체인 게임 컨퍼런스'로 첫 발을 뗀 본 행사는 지난 4년간 40여 명의 전문가가 참여하고 누적 참가자 수 1300명을 돌파하며 대한민국 대표 게임 컨퍼런스로 자리 잡았다. 올해부터는 급변하는 시장 트렌드를 반영해 ‘대한민국 블록체인 웹3 게임 컨퍼런스’로 명칭을 변경했다.
문범영 BPMG 본부장, 제5회 웹3 게임 컨퍼런스 발표...게임·AI·자산 연결 미래 조망 2026.06.11 이정훈 중앙대 법학대학원 교수, 웹3 게임 가상자산 규제 쟁점 짚는다 2026.06.10 홍진표 마브렉스, '제5회 웹3 게임 컨퍼런스' 참가…스테이블코인 전략 공개 2026.06.09 장종철 컴투스홀딩스 본부장, 웹3 게임 컨퍼런스서 AI 게임산업 변화 강연 2026.06.08
올해 컨퍼런스에는 메이플스토리 유니버스 외에도 바이낸스, 코빗 리서치센터, 마브렉스, 컴투스홀딩스, 넥써쓰, BPMG, 안랩블록체인컴퍼니, 맨틀, NC AI, 버스에잇, 스튜디오메타케이, 중앙대 법학전문대학원 등이 참여해 웹3 시장의 미래 전략과 정책적 제언을 아낌없이 공유할 예정이다.
컨퍼런스 참가 사전 등록과 자세한 내용은 공식 홈페이지 를 통해 확인할 수 있다. 현장 방문 시 주차는 지원되지 않는다.
토스증권 OpenAPI가 드디어 오픈했어요 (jessyt.tistory.com)
토스증권이 OpenAPI를 오픈했습니다 (사전 신청 후 순차 오픈 중). 직접 자동매매 시스템에 연동해서 며칠째 운영하며 정리한 글입니다. llms.txt 제공: API 문서를 LLM이 읽기 좋은 형식으로 제공해서, Claude Code에 넘기는 것만으로 파이썬 클라이언트가 나옴 인증 간단: 클라이언트 키 2개(ID/Secret)로 OAuth 토큰 발급 → 시세 조회부터 주문까지 가능 국내/해외주식 동일 엔드포인트 통합 (키움·한국투자 대비 차별점) 에러 응답 DX: 코드표 조회 없이 의도 파악 가능, allowedValues로 해결 힌트 제공, 429에 Retry-After 헤더, 멱등키로 중복 주문 방지 제약: WebSocket 실시간 시세 미지원(1초 폴링으로 대체), 모의투자/샌드박스 없음
토스증권이 OpenAPI를 오픈했습니다 (사전 신청 후 순차 오픈 중). 직접 자동매매 시스템에 연동해서 며칠째 운영하며 정리한 글입니다.
함께 보면 좋은 글 β tossinvest-cli – 토스증권 조회/거래를 터미널에서 하는 CLI 한국투자증권, 증권 서비스 개발용 MCP 서버 공개 Twitter API v2 공개 AI 에이전트 기반 투자 자동화의 현재와 미래 - AI 에이전트야, 월급 줄게 경제적 자유 다오? Anthropic - OpenClaw : 다시 사용 가능해짐
tossinvest-cli – 토스증권 조회/거래를 터미널에서 하는 CLI
한국투자증권, 증권 서비스 개발용 MCP 서버 공개
AI 에이전트 기반 투자 자동화의 현재와 미래 - AI 에이전트야, 월급 줄게 경제적 자유 다오?
Anthropic - OpenClaw : 다시 사용 가능해짐
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ qwkjsan99 1일전 [-] 사전신청해두었었는데 곧 연락오겠군요 답변달기 ▲ jessyt 21시간전 [-] 네 금방 열릴 것으로 기대해봅니다. 답변달기 ▲ nimki 2일전 [-] 글에 정작 중요한 링크가 없네요. https://corp.tossinvest.com/ko/open-api 여기서 사전 신청 가능합니다 문서링크는 여기 https://developers.tossinvest.com/docs 답변달기 ▲ jessyt 21시간전 [-] 감사합니다. 답변달기 ▲ recast7838 2일전 [-] 사전 신청후 승인된사람들만 쓸수있네요 답변달기 ▲ jessyt 21시간전 [-] 네 맞아요. 사전 신청한 사람 순서대로 열어주고 있어요. 답변달기
▲ qwkjsan99 1일전 [-] 사전신청해두었었는데 곧 연락오겠군요 답변달기
▲ jessyt 21시간전 [-] 네 금방 열릴 것으로 기대해봅니다. 답변달기
▲ nimki 2일전 [-] 글에 정작 중요한 링크가 없네요. https://corp.tossinvest.com/ko/open-api 여기서 사전 신청 가능합니다 문서링크는 여기 https://developers.tossinvest.com/docs 답변달기
글에 정작 중요한 링크가 없네요. https://corp.tossinvest.com/ko/open-api 여기서 사전 신청 가능합니다 문서링크는 여기 https://developers.tossinvest.com/docs
https://corp.tossinvest.com/ko/open-api 여기서 사전 신청 가능합니다 문서링크는 여기 https://developers.tossinvest.com/docs
▲ jessyt 21시간전 [-] 감사합니다. 답변달기
▲ recast7838 2일전 [-] 사전 신청후 승인된사람들만 쓸수있네요 답변달기
▲ jessyt 21시간전 [-] 네 맞아요. 사전 신청한 사람 순서대로 열어주고 있어요. 답변달기
네 맞아요. 사전 신청한 사람 순서대로 열어주고 있어요.
도지코인, 2026년 말 '시총 톱5 코인' 오를까…초기 개발자가 꼽는 근거
도지코인 개발자 빌더제이가 DOGE의 부진 원인으로 수요 부족이 아닌 온체인 경제 부재를 꼽았다. 스마트계약과 디파이형 활용성이 갖춰지면 시총 400억달러 재평가도 가능하다고 봤다.
도지코인(DOGE) 초기 개발자가 올해 말 해당 토큰이 시총 톱5에 오를 것이라고 전망했다. [사진: Reve AI]
[디지털투데이 이윤서 기자] 도지코인(DOGE) 초기 개발자 빌더제이(BuildrJ)가 도지코인의 시가총액 기준 상위 5대 암호화폐 진입 가능성을 제기했다. 시점은 2026년 말이다.
10일(현지시간) 블록체인 매체 더 크립토 베이직에 따르면 그는 도지코인의 장기 박스권이 수요 부족이 아니라 생태계 구조의 한계에서 비롯됐다고 봤다.
빌더제이는 엑스(구 트위터)에 게시한 "1달러는 언제?" 글을 통해 도지코인이 자본을 붙잡아 두고 가치를 유지할 수 있는 자체적인 온체인 경제 시스템을 갖추지 못했다고 짚었다. 현재 구조에서는 자금과 관심이 도지코인으로 유입되더라도 결국 중앙화 거래소와 스테이블코인을 통해 생태계 밖으로 빠져나가 장기적인 가치 축적이 어렵다는 것이다.
이어 도지코인을 '가치 이전 네트워크'로 규정하며, 아직 자생적인 디지털 경제 단계에는 이르지 못했다고 평가했다.
배경으로는 도지코인의 출발 방식이 제시됐다. 빌더제이는 도지코인이 2013년 벤처캐피털(VC) 자금, 사전 채굴 물량, 내부자 토큰 배포 없이 출범했다고 설명했다. 기업 중심의 자금 조달 구조가 아니라 커뮤니티 지지 속에서 성장한 만큼, 업계에서 가장 탈중앙화된 디지털 자산 중 하나라는 주장이다.
다만 그 구조만으로는 지속적인 가격 돌파가 어렵다고 봤다. 빌더제이는 도지코인에 스마트계약 기능과 네이티브 온체인 경제가 없어 디파이(DeFi), 애플리케이션, 기타 블록체인 기반 서비스를 충분히 지원하지 못한다는 것이다. 이 때문에 유동성을 생태계 안에 묶어두고 경제 활동을 일으키는 장치가 부족하다는 설명이다.
그는 비교 대상으로 이더리움과 솔라나를 들었다. 이더리움의 총예치금액(TVL)은 366억2000만달러, 솔라나는 47억7000만달러인 반면 도지코인의 총예치금액은 사실상 없는 수준이다. 그럼에도 도지코인은 140억달러가 넘는 시가총액을 유지하고 있다.
빌더제이는 도지코인이 이미 브랜드 인지도와 문화적 영향력, 커뮤니티 충성도를 바탕으로 수십억달러 가치를 인정받고 있다며, 여기에 실질적인 효용이 더해지면 가치 제안이 크게 강화될 수 있다고 봤다.
그가 제시한 조건은 복잡하지 않았다. 사용자들이 거래하고, 애플리케이션을 배포하고, 디파이 성격의 활동에 참여할 수 있는 기능성 있는 네이티브 경제만 갖추면 된다는 것이다. 그는 온체인 활동이 강해지면 거래량이 늘고 유동성이 유입되며 개발자 참여도 확대돼 결국 더 높은 기업가치를 뒷받침할 수 있다고 주장했다.
이런 전제 아래 빌더제이는 도지코인 시가총액 400억달러 수준을 비현실적 목표가 아니라 '현실적인 재평가'로 볼 수 있다고 말했다. 이 수준은 시장 여건에 따라 상위 5위권 진입이 가능한 규모다. 현재 비스테이블코인 기준 5위 자산인 솔라나의 시가총액은 약 370억8000만달러다.
도지코인이 시가총액 400억달러에 도달하려면 현재 142억5000만달러에서 약 181% 성장해야 한다. 가격 기준으로는 약 0.08369달러에서 0.2349달러까지 올라야 한다는 계산이다. 다만 이는 솔라나와 전체 암호화폐 시장이 비교적 안정적인 흐름을 유지하는 가운데 도지코인만 큰 폭으로 성장하는 상황을 전제로 한다.
향후 관전 포인트는 도지코인이 실제로 스마트계약 기능과 온체인 활용도를 끌어올릴 수 있는지, 그리고 유입 자금을 생태계 안에 머물게 할 구조를 마련할 수 있는지다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
키워드 #도지코인 #DOGE #암호화폐 #밈코인 #시바이누 #일론 머스크
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
발행일: 2026-06-12 19:09 (금)
한국어 KR 영어 EN 일본어 JP 중국어 CH
AI가 만든 가짜 판례 믿었다가…美 변호사 4명 무더기 징계, 2년 출석 금지까지
미국 연방법원이 AI가 생성한 허위 판례를 검증 없이 제출한 변호사 4명을 제재하고 2명에게는 2년간 출석 금지 처분을 내렸다. 생성형 AI 활용이 급증하는 가운데 법원은 AI가 제시한 정보에 대한 변호사의 검증 책임을 강하게 요구하고 있다.
미국 연방법원이 AI가 생성한 허위 판례를 검증 없이 제출한 변호사들에게 중징계를 내렸다. [사진: 셔터스톡]
[디지털투데이 AI리포터] 미국 미시시피주 연방법원이 인공지능(AI)이 생성한 허위 판례를 법원 서면에 인용한 변호사 4명에게 제재를 내렸다.
11일(현지시간) 비즈니스인사이더에 따르면, 미시시피 북부연방지방법원의 샤리언 에이콕(Sharion Aycock) 판사는 원고와 피고 측 변호사 4명을 모두 사건에서 배제하고, 이 가운데 2명에 대해서는 2년간 해당 법원 출석을 금지했다. 법원이 부과한 벌금은 총 8000달러(약 1220만원)다.
이번 제재는 루이지애나주 변호사 톰 위더스(Tom Withers)와 미시시피주 애버딘시 간 법률 수임료 계약 분쟁 과정에서 나왔다. 원고 측 외부 변호사 캐슬린 윌슨(Kathleen Wilson)은 AI 도구를 활용해 법률 조사를 진행했다고 인정했고, 피고 측 외부 변호사 캐스린 윌리엄스(Kathryn Williams)는 생성형 AI로 서면 초안을 작성했다고 밝혔다.
샤리언 에이콕 판사는 두 변호사가 서면 제출 전 AI가 제시한 판례와 법적 근거를 직접 검증하지 않았다고 지적했다.
원고와 피고 측 현지 대리인인 숀시 리지웨이(Shauncey Ridgeway)와 마크 매클린턴(Mark McClinton)도 제출 전 서면을 검토하지 않았다고 인정했다. 허위 판례 인용 사실은 판사가 지난해 말 이를 지적하면서 드러났고, 법원은 재판을 취소한 뒤 사건 절차를 중단했다. 변호사들은 사과했지만 제재를 피하지 못했다.
가장 무거운 제재는 캐슬린 윌슨과 캐스린 윌리엄스에게 내려졌다. 두 사람은 각각 2500달러(약 380만원)와 3500달러(약 533만원)의 벌금을 부과받았으며, 2년간 해당 법원에서 활동할 수 없게 됐다.
숀시 리지웨이와 마크 매클린턴은 사건에서 배제됐고 각각 1000달러(약 152만원)의 벌금을 부과받았다. 법원은 톰 위더스와 애버딘시에 새 변호인을 선임할 수 있도록 60일의 기간을 부여했다.
미국 법조계의 생성형 AI 활용은 빠르게 확대되고 있다. 비즈니스 플랫폼 8am의 '2026년 법률산업 보고서'에 따르면 설문에 응한 법률 종사자의 69%가 업무에 생성형 AI 도구를 사용한다고 답했다.
다만 AI가 만들어낸 허위 정보, 이른바 '환각' 문제로 인한 징계 사례도 늘고 있다. 지난해에는 엘리스 조지와 K&L 게이츠 소속 변호사들이 AI가 생성한 허위 판례가 포함된 서면을 제출해 약 3만1000달러(약 5000만원)의 제재금을 부과받았다. 올해 초에는 설리번 앤드 크롬웰의 한 파트너 변호사가 AI 환각이 포함된 서면을 제출한 뒤 연방 파산법원 판사에게 사과하기도 했다.
이번 결정은 생성형 AI 활용이 확산되는 가운데, 법원이 변호사의 검증 책임을 더욱 엄격하게 묻고 있음을 보여주는 사례로 평가된다.
키워드 #AI #판례 #변호사 #판사 #인공지능
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
발행일: 2026-06-12 18:19 (금)
한국어 KR 영어 EN 일본어 JP 중국어 CH
우주 방산 신흥강자 뜬다…퀀텀 스페이스, 12억달러 상장 추진
퀀텀 스페이스가 12억달러 규모 SPAC 합병과 3억달러 투자 유치를 통해 상장을 추진한다. 회사는 군사용 기동 우주선 레인저 개발과 생산시설 확충에 속도를 내며 미국 우주군 사업 수주 확대를 노리고 있다.
퀀텀 스페이스가 12억달러 규모 SPAC 합병과 3억달러 투자 유치를 통해 상장을 추진한다. [사진: 퀀텀 스페이스]
[디지털투데이 AI리포터] 미국 군사용 기동 우주선을 개발하는 퀀텀 스페이스가 12억달러(약 1조8300억원) 규모의 기업인수목적회사(SPAC) 합병을 통해 상장을 추진한다.
11일(이하 현지시간) IT매체 테크크런치에 따르면 퀀텀 스페이스는 이번 거래와 함께 3억달러(약 4600억원) 규모의 민간 투자금도 추가로 조달할 계획이다.
퀀텀 스페이스는 캠 가파리안(Kam Ghaffarian)이 2020년 설립한 우주 스타트업이다. 미국 우주군 출범 이후 확대된 수요에 맞춰 서로 다른 궤도를 오가며 다른 우주선에 접근할 수 있는 기동형 우주선을 개발해 왔다.
짐 브라이든스타인(Jim Bridenstine) 최고경영자(CEO)는 미국 연방 하원의원 출신으로, 도널드 트럼프 1기 행정부에서 미 항공우주국 나사(NASA) 행정관을 지냈다. 퀀텀 스페이스는 정부 핵심 계약 수주 과정에서 짐 브라이든스타인의 우주 산업 경험과 네트워크를 적극 활용할 계획이다.
주력 기체는 레인저다. 이 우주선은 대량의 연료를 탑재한 채 고궤도에 장기간 머물며 경쟁국 위성을 감시하도록 설계됐다. 또한 안드로메다 사업의 개별 임무를 수주하기 위해 재급유 기능도 갖춰야 한다.
퀀텀 스페이스는 현재 정부 개발 프로그램 6건에 참여하고 있다. 이 가운데에는 레인저를 달로 보내는 사업이 포함될 가능성도 거론된다. 회사는 62억달러(약 9조4320억원) 규모의 안드로메다 계약에도 선정됐으며, 2030년부터 시작되는 실제 임무 과업 수주를 목표로 하고 있다.
조달 자금은 오클라호마주 털사 생산시설 구축에 투입된다. 퀀텀 스페이스는 2028년 말까지 분기당 레인저 1대를 생산할 수 있는 체제를 구축하고, 2027년 첫 레인저 시제품을 궤도에 투입할 계획이다. 이번 거래는 인튜이티브 머신스와 US 레어 어스의 상장을 지원했던 마이크 블리처(Mike Blitzer)가 후원한다.
퀀텀 스페이스는 안드로메다 과업을 놓고 트루 애노멀리와 경쟁하고 있다. 또한 록히드마틴, 노스럽 그러먼, 보잉 산하 밀레니엄 스페이스 시스템즈 등 기존 방산업체들도 주요 경쟁 상대로 꼽힌다.
키워드 #퀀텀 스페이스 #우주 #방산 #미군 #나사 #트럼프 #스페이스X
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
AI의 또 다른 잘못된 조언들 (orchidfiles.com)
생성형 AI가 제공하는 마케팅 조언이 실제로는 해로울 수 있다는 경험을 바탕으로 한 글. 그럴듯한 일반론과 현실 사이의 차이, 그리고 AI 조언을 무비판적으로 따를 때의 위험을 이야기함.
함께 보면 좋은 글 β AI로 시장조사할 때 프롬프트에 넣어야 할 제약 조건 4가지 AI와 대화하는 데 지쳤어요 직장에서 생산적으로 보이기 AI를 인용하지 마세요 - LLM의 답변은 사실이 아니에요 독일 판결, Google이 AI Overviews의 오답에 책임 있다고 선언
AI로 시장조사할 때 프롬프트에 넣어야 할 제약 조건 4가지
AI를 인용하지 마세요 - LLM의 답변은 사실이 아니에요
독일 판결, Google이 AI Overviews의 오답에 책임 있다고 선언
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ syate 9시간전 [-] LLM을 쓰면 쓸수록, 나 자신의 콘텐츠는 어디에도 위탁할 수 없음을 여실히 느끼고 있는 요즘입니다. '비판적 수용'을 통해 LLM의 생산물이 '자료'로 활용될 수 있게 하는게 중요한 것 같아요. 공감이 되는 글입니다. 답변달기
LLM을 쓰면 쓸수록, 나 자신의 콘텐츠는 어디에도 위탁할 수 없음을 여실히 느끼고 있는 요즘입니다. '비판적 수용'을 통해 LLM의 생산물이 '자료'로 활용될 수 있게 하는게 중요한 것 같아요. 공감이 되는 글입니다.
발행일: 2026-06-12 18:19 (금)
한국어 KR 영어 EN 일본어 JP 중국어 CH
기존 인공지능(AI) 추론 성능을 3~10%p까지 끌어올릴 수 있는 새 평가 기술이 개발됐다.
한국과학기술정보연구원(KISTI)은 양혜영 에이전트연구팀장 연구팀이 AI 추론 과정을 평가할 수 있는 새로운 평가기술 ‘트레이스(TRACE)'를 개발했다고 12일 밝혔다.
연구결과는 '국제 머신러닝학회(ICML) 2026'에 채택됐다. ICML은 인공지능과 머신러닝 분야를 대표하는 국제 학회다.
이번에 개발한 '트레이스'는 AI가 생성한 추론 문장을 주장(Claim), 근거(Evidence), 논거(Warrant), 보강근거(Backing), 평가(evaluation), 한정(Qualifier), 반박(Rebuttal), 모니터링(Monitoring) 등 8개 요소로 분해한 뒤, 각 요소의 타당성과 문장 간 논리적 연결성을 분석할 수 있다.
연구팀은 10만 개의 추론 문장을 활용해 TRACE 모델(DeBERTa)을 학습했다. 이를 통해 7개 주요 언어모델과 2만 6천여 개의 추론 사례를 분석했다. 그 결과 TRACE 점수와 실제 벤치마크 정답률 사이에서 높은 상관관계(0.741)를 확인했다. 0.741은 비교적 강한 연관성이 있음을 시사한다.
'피지컬AI 기업' 아이벡스, 글로벌 3대 AI 학회 논문 채택 2026.06.12 정부, '충청권 AX' 시동…"과학 AI 연구·바이오 키울 것" 2026.04.29 KISTI 고니팀, 한국어 추론 모델·환각 억제 기술 확보…"업데이트 언제할까" 2026.01.31 [현장] 아이온큐 "데이터 부족·적은 파라미터 AI, 양자 하이브리드로 보완" 2025.11.19
양혜영 팀장은 "평가지표로서의 가능성뿐만 아니라 LLM(거대언어모델) 강화학습의 효과적인 보상 신호로서의 가능성도 보여줳다"며 "기존 검증가능보상 강화학습(RLVR) 방식에 '트레이스'를 추가 적용한 결과 LLM의 추론 성능을 3~10%p 정도 더 끌어올릴 수 있음을 확인했다"고 말했다.
양 팀장은 또 "트레이스는 AI가 어떤 단계에서 논리적으로 추론했고, 어떤 단계에서 불확실성이나 자기모순이 발생했는지를 설명할 수 있다”며, “기존 블랙박스형 및 정답지에 의존하는 AI 평가 방식의 한계를 보완할 수 있다”고 말했다.
[데일리픽] 비트코인 '마지막 조정 vs 급락 전야' 갈림길…스페이스X 100조대 IPO 확정
이번 분석의 핵심은 하락 폭 자체보다 조정의 구조와 속도에 있다 [사진: Reve AI]
■ 비트코인, 2022년 8배 폭등 전 패턴 닮은꼴…'마지막 조정 vs 급락 전야' 갈림길
비트코인이 최근 조정 국면에서 2022년 대형 하락장과 유사한 가격 구조를 보이고 있다는 분석이 나왔다. 시장 분석가들은 현재 반등이 일시적인 안도 랠리에 불과할 수 있으며, 추가 하락이 이어질 가능성을 경고하고 있다.
시장 분석가 TARA는 비트코인이 현재 2022년 약세장에서 나타났던 'ABC 조정' 패턴과 비슷한 흐름을 보이고 있다고 진단했다. ABC 조정은 상승 추세 중 발생하는 대표적인 조정 패턴으로, 초기 하락(A파동) 이후 반등(B파동), 그리고 마지막 하락(C파동)으로 구성된다.
TARA는 2022년 비트코인 하락장이 전형적인 ABC 조정 구조를 보였다고 짚었다. 당시 A파동은 2021년 11월 6만9000달러 고점에서 시작해 2022년 1월 3만3000달러까지 밀렸다. 이후 B파동에서는 2022년 3월 4만8200달러까지 반등했지만, 뒤이어 C파동이 이어지며 같은 해 11월 약 1만5000달러까지 떨어졌다.
그는 현재 비트코인 역시 비슷한 국면에 있을 수 있다고 분석했다. 특히 최근 8만2800달러까지의 반등이 2022년 당시 B파동에 해당하는 안도 랠리와 유사한 역할을 했을 가능성을 제기했다. 다만 현재 단계에서 반등 종료 여부를 단정하기는 어렵다고 덧붙였다.
TARA는 추가 확인 조건으로 비트코인이 최소 7만2800달러 수준까지 재반등한 뒤 해당 가격대가 새로운 저항선으로 작용해야 한다고 설명했다. 이는 현재 가격인 6만1900달러 기준으로 약 17% 상승이 필요한 수준이다. 이 조건이 충족될 경우 현재 조정이 단순한 일시적 하락이 아니라 더 큰 규모의 하락 사이클 일부일 가능성이 높아진다는 분석이다.
시장 참가자들이 특히 주목하는 부분은 향후 하락 속도다. TARA는 2022년 약세장의 특징으로 마지막 C파동이 매우 빠르게 진행됐다는 점을 꼽았다. 당시 비트코인은 안도 랠리 종료 이후 의미 있는 반등 없이 급격한 하락세를 이어갔다.
실제로 2022년 C파동은 3월부터 11월까지 이어졌다. 이 가운데 초반 12주 동안 11주가 음봉이었고, 비트코인 가격은 4만8200달러에서 2022년 6월 1만7500달러까지 빠르게 내려갔다. 그는 이번에도 유사한 패턴이 반복될 경우 투자자들이 대응할 시간을 충분히 확보하지 못한 채 급락이 진행될 수 있다고 경고했다. 다만 구체적인 하락 목표 가격은 제시하지 않았다.
■ 순유입에도 힘 못 쓰는 시바이누…분위기 반전 가능성은?
시바이누가 4일 연속 거래소 순유출 뒤 순유입으로 전환했지만, 가격은 뚜렷한 반등 흐름을 만들지 못하고 있다.
SHIB는 최근 일간 기준 약 179억개 순유입을 기록했다. 거래소 순유출은 일반적으로 즉각적인 매도 압력을 낮추는 신호로 해석된다. 실제로 SHIB는 앞선 여러 거래일 동안 거래소 밖으로 물량이 빠져나갔고, 하루에는 3000억개가 넘는 SHIB가 거래 플랫폼에서 이탈하기도 했다. 다만 이번 순유입 전환 이후에도 시장 반응은 크지 않았다.
가격 흐름은 더 보수적이다. SHIB는 주요 이동평균선 아래에서 거래되고 있고, 전반적인 추세도 강한 하락 국면에 머물러 있다. 지난 3월부터 5월까지 가격을 지지하던 상승 채널이 무너진 뒤 시장 구조가 크게 바뀌었고, 이후 반등 시도 때마다 매도 압력이 커졌다는 점도 부담이다.
최근 움직임도 비슷했다. SHIB는 0.0000045달러 부근까지 급락한 뒤 일시적으로 안정을 찾고 소폭 반등했다. 그러나 거래소 흐름이 개선됐음에도 상승 탄력은 제한됐다. 50일, 100일 이동평균선은 여전히 상단 저항으로 작용하고 있고, 가격은 지역 저점 부근에서 크게 벗어나지 못했다.
온체인 데이터와 가격 흐름이 엇갈린 점도 시장이 주목하는 부분이다. 거래소 유출이 누적되는 동안 축적 움직임처럼 보이는 신호는 나왔지만, 시장 참가자들은 이를 공격적인 매수로 연결하지 않고 있다는 설명이다.
기술 지표도 아직 강세 전환을 뒷받침하지 못하고 있다. 상대강도지수는 과매도 구간에서 일부 회복했지만 전반적으로는 약한 상태다. 초기 급락 이후 거래량도 줄어들었다. 가격이 낮아졌는데도 매수자들이 적극적으로 진입하지 않고 있다는 신호다.
■ '새 주인 맞이' 카카오게임즈...경영진 교체·신작 공세로 반등 노린다
카카오게임즈가 카카오에서 라인야후가 출자한 투자목적법인으로 최대주주 변경을 앞두고 경영진 교체 수순을 밟고 있다. 동시에 하반기 신작 공세를 예고했다. 6분기 연속 적자를 끊는 분위기 반전을 이룰 수 있을지 주목된다.
카카오게임즈는 오는 22일 경기 용인시 카카오 AI 캠퍼스에서 임시 주주총회를 열고 김태환 라인게임즈 부사장과 이시우 카카오게임즈 최고사업책임자(CBO)를 사내이사로 신규 선임하는 안건을 논의한다. 두 후보는 이사 선임 후 공동대표직을 맡을 것으로 전해졌다.
두 인물의 이력이 다른 만큼 역할도 나뉠 것으로 업계는 해석한다. 김 후보는 넥슨코리아·넥슨재팬·넥슨아메리카를 거쳐 2023년 라인게임즈에 합류한 외부 전략가로, 이번 라인야후의 카카오게임즈 지분 인수를 주도한 인물로 알려졌다. 이 후보는 카카오게임즈 창립 초기부터 모바일 사업을 이끌어온 내부 사업 전문가로 조직 내 신임이 두텁다. 외부에서 온 전략가가 새 주주와의 전략적 연결고리를 맡고, 내부 인사가 조직을 안정적으로 관리하는 구도가 예상된다.
이번 주총에는 페트리코파트너스의 서석호 상무이사를 임기 9개월의 기타비상무이사로 선임하는 안건도 포함됐다. 임기가 짧다는 점에서 업계 일각에서는 향후 지배구조나 사업 구조 재편 가능성을 염두에 둔 포석이라는 해석도 나온다. 다만 카카오게임즈와 라인게임즈는 현재 합병이나 사업 통합이 논의된 바 없다는 입장이다.
이 같은 경영진 교체는 라인야후가 카카오게임즈의 최대주주로 올라서는 과정과 맞닿아 있다. LAAA인베스트먼트는 카카오 보유 지분 일부를 인수하는 한편 카카오게임즈로부터 2400억원 규모 유상증자와 600억원 규모 전환사채(CB)를 인수해 총 3000억원을 투자한다. 거래가 마무리되면 LAAA인베스트먼트는 지분 33.2%(CB 전환 후 35.8%)의 최대주주가 되고, 기존 최대주주 카카오는 지분율 14.6%의 2대 주주로 내려앉는다.
■ 스페이스X 100조대 IPO 확정...'대어 실종' 韓 시장과 대조
스페이스X가 나스닥 상장을 앞두고 100조원 넘는 자금 조달을 예고했다. 반면 국내 기업공개(IPO) 시장은 대어 부재와 상장 후 주가 부진이 겹치며 냉각 흐름을 이어가고 있어 대조를 이룬다.
스페이스X는 12일(현지시간) 나스닥 상장을 목표로 공모 절차를 진행 중이다. 이날 스페이스X는 사전에 공개한 예비 공모가 그대로 보통주 5억5555만5555주를 주당 135달러에 공모하기로 확정했다. 본공모 기준 조달 규모는 약 750억달러(약 114조원)다. 초과배정옵션이 행사될 경우 조달 규모는 더 커질 수 있다.
반면 국내 IPO 시장은 증시 강세에도 온기가 제한적이다. 한국거래소에 따르면 올해 1~5월 스팩, 리츠, 코넥스 상장을 제외한 국내 신규 상장사는 14곳, 누적 공모금액은 9799억원으로 집계됐다. 6월 들어 피스피스스튜디오가 코스닥시장에 추가 상장했지만 이를 포함해도 일반 신규 상장사는 15곳, 공모금액은 1조288억원 수준이다.
상장 기업 수보다 더 큰 문제는 대어급 공백이다. 올해 코스피 신규 상장사는 케이뱅크 1곳에 그친다. 케이뱅크는 상장 당시 시가총액 3조4000억원 규모로 올해 1분기 IPO 시장의 핵심 종목으로 꼽혔지만 공모가가 희망 범위 하단에 결정됐다. 상장 이후 주가도 부진해 이날 기준 현재가는 공모가 8300원을 밑돌고 있다.
지난해에는 LG씨엔에스, 서울보증보험, 씨케이솔루션, 달바글로벌 등 코스피 신규 상장이 시장을 받쳤다. 그러나 올해는 케이뱅크 이후 코스피 대형 공모주가 끊기면서 시장 관심이 코스닥 중소형 공모주로 쏠리고 있다. HD현대로보틱스, 한화에너지, 카카오모빌리티, SK에코플랜트 등이 잠재적 대어로 거론되지만 실제 상장 일정은 아직 유동적이다.
■ 'AI 스마트글래스' 활용 확대…현장 관리 기준은 아직
인공지능(AI)을 결합한 스마트글래스가 국내 시장에 본격 상륙한 가운데 관리 기준을 보완해야 한다는 목소리가 나온다. 최근 스마트글래스를 활용한 시험 부정행위가 연이어 적발되면서 더 이상 무시할 수 없는 관리 대상이 됐다는 지적이다.
한국토익위원회는 지난달 10일과 31일 치러진 토익 정기시험에서 스마트글래스를 통한 부정행위 시도를 적발했다. 응시자들은 시험장에서 스마트글래스를 낀 상태로 시험을 보려다 감독관에게 적발됐다.
스마트글래스는 사진·동영상 촬영을 비롯해 AI를 활용한 정보 검색, 번역 기능 등을 지원하는 기기다. 겉보기에는 일반 안경과 큰 차이가 없다. 이에 시험장에서는 문항 촬영이나 정보 검색 등 시험에 악용될 소지가 크다. 한국산업인력공단이 실시하는 정기 기사 컴퓨터기반시험(CBT) 과정에서도 스마트글래스를 착용한 수험생 3명이 적발되는 등 실제 기기 확산에 따른 부작용이 이어지고 있다.
대학수학능력시험도 예외가 아니다. 수능 시험장에는 스마트폰과 스마트워치 등 전자기기를 반입할 수 없다. 스마트글래스도 전자기기인 만큼 반입 금지 대상에 해당한다. 다만 일반 안경과 외형상 구분이 쉽지 않아 감독관이 착용 여부를 일일이 확인해야 하는 부담이 남는다.
이에 일선 교육 현장에서는 우려의 목소리가 커지고 있다. 한 교육계 관계자는 "일반 대학에서의 중간고사나 기말고사 같은 시험에서는 적발이 정말 쉽지 않을 것 같다"며 "일반 초중등 학생들에게도 보급되면 단순 소지품 검사 이상의 절차가 필요할 것"이라고 말했다.
현행 초·중등교육법은 학생의 수업 중 휴대전화 등 스마트기기 사용을 금지한다. 장애가 있거나 특수교육이 필요한 학생이 보조기기로 사용하는 경우 등에만 예외적으로 허용한다. 제한하는 스마트기기 유형은 학칙으로 정할 수 있다. 다만 스마트글래스처럼 안경 형태를 띤 기기는 현장 판단이 쉽지 않다. 특히 도수 렌즈를 장착한 제품의 경우 학생이 시력 교정을 이유로 착용 필요성을 주장할 수 있어 현장 혼란이 예상된다.
불법 촬영 우려도 여전하다. 시장 대표 모델로 꼽히는 메타 스마트글래스는 카메라 작동 시 전면 발광다이오드(LED)가 자동으로 켜지도록 설계됐다. 하지만 쿠팡과 알리익스프레스 등 온라인몰에서는 LED를 가리는 스티커나 커버형 액세서리가 버젓이 판매되고 있다. 학급 친구나 교사 대상 몰카 범죄가 빈번한 상황에서 별도 관리 기준이 필요하다는 지적이 나온다.
■ 애플, 월드컵 개막에 '비니시우스 카드' 꺼냈다…에어팟 프로 3 대대적 홍보
애플이 에어팟 프로 3의 액티브 노이즈 캔슬링(ANC) 성능을 전면에 내세운 새 광고 영상을 공개했다.
애플은 월드컵 개막에 맞춰 레알 마드리드 소속 축구선수 비니시우스 주니오르(Vinícius Júnior)를 앞세운 마케팅 영상을 선보였다.
이번 광고의 중심에는 에어팟 프로 3가 있다. 영상은 비니시우스 주니오르가 도시 곳곳을 자유롭게 이동하며 음악을 즐기는 모습으로 구성됐으며, 애플은 제품의 핵심 메시지로 세계 최고 수준의 인이어 액티브 노이즈 캔슬링을 내세웠다. 월드컵 개막 시점에 맞춰 대중 노출 효과를 극대화하려는 의도가 엿보인다.
애플은 에어팟 프로 3가 이전 세대보다 소음 차단 성능을 크게 향상했다고 강조했다. 회사는 에어팟 프로 3가 에어팟 프로 2보다 최대 2배 더 많은 소음을 차단할 수 있다고 설명했다. 또한 에어팟 프로 2 역시 1세대 에어팟 프로 대비 소음 제거 성능이 두 배 향상된 제품이라는 점도 함께 부각했다.
광고 모델 선정 역시 월드컵 시즌과 맞물린 전략으로 해석된다. 애플은 세계 최대 축구 이벤트가 시작되는 시점에 비니시우스 주니오르를 앞세워 광고를 공개했으며, 향후 수주 동안 TV를 통해 해당 광고를 집중 노출할 것으로 알려졌다. 이는 단순한 제품 홍보를 넘어 스포츠 이벤트 시청 수요가 집중되는 시기에 브랜드 메시지를 확산하려는 전략으로 풀이된다.
가격 정책도 소비자 관심을 끌고 있다. 신규 광고 공개와 함께 할인 판매가 진행되면서 애플은 제품 인지도 제고와 구매 전환 확대를 동시에 노리는 모습이다.
월드컵 기간은 TV와 온라인 영상 소비가 동시에 증가하는 시기다. 애플은 이에 맞춰 에어팟 프로 3의 대표 기능을 다시 부각하며 프리미엄 무선이어폰 시장에서 제품 존재감을 강화하려는 행보를 이어가고 있다.
디지털 경제 미디어 디지털투데이가 매일 아침, 주요 뉴스를 AI가 짚어주는 멀티미디어 뉴스 서비스를 제공합니다. 디지털투데이 텔레그램 채널에서 만나보세요. (매일 아침 06시 30분 업로드)
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
월 6달러 VPS에서 바이브 코딩한 주식 스크리너가 OOM으로 구글에 디인덱싱당한 이야기 (velog.io)
비전공 1인 개발자가 AI 에이전트로 만든 한국·미국 주식 스크리너를 운영 중인데, 2GB VPS가 OOM으로 죽으면서 구글봇에 503을 반복 → 막 올라오던 검색 노출이 절벽처럼 무너졌습니다. 무엇이 깨졌고, 어떤 순서로 고쳤고, 아직 회복 못 한 게 뭔지 정직하게 기록한 1편입니다.
함께 보면 좋은 글 β Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음 Gmail은 내가 멍청하다고 생각해서, 나는 떠났다 AI와 대화하는 데 지쳤어요 ADHD 증폭기로서의 바이브코딩 AI는 그저 더 큰 규모의 무단 표절이다
Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음
Gmail은 내가 멍청하다고 생각해서, 나는 떠났다
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ ifmkl 3일전 [-] 내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠. 답변달기 ▲ k1song 3일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기 ▲ vwjdalsgkv 3일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기 ▲ k1song 3일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기 ▲ aucun 3일전 [-] 그래도 AI복붙은 아니라서 읽기는 편하네요 작성자분께서 읽어보고 올린느낌이 드네요 답변달기 ▲ winterjung 3일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기 ▲ k1song 3일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠.
▲ k1song 3일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기
코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다
▲ vwjdalsgkv 3일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기
블로그 글도 AI로 작성한 것 같은 느낌이 드네요
▲ k1song 3일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기
네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다.
▲ winterjung 3일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기
사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다.
▲ k1song 3일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다.
앤트로픽코리아가 초대 지사장 인선을 사실상 마무리하고 다음달에 본격 출범할 것으로 보인다. 그간 일본, 인도를 중심으로 아시아-태평양 시장 공략에 나섰으나 최근 한국 시장에서 '클로드' 이용자들이 폭발적으로 증가하며 앤트로픽에 대한 관심이 집중되자 전략 전환에 나선 것으로 풀이된다. 20일 업계에 따르면 앤트로픽은 이르면 다음달 초부터 한국 지사 운영에 본격 나설 예정이다. 초대 한국 지사장으로는 최기영 스노우플레이크코리아 지사장이 유력한 상태로, 최 지사장은 지난 18일 송별회를 끝으로 스노우플레이크의 업무를 마무리했다.
최 지사장도 지난 19일 자신의 소셜미디어(SNS) 스노우플레이크코리아 직원들과 송별회를 한 사진을 게재하며 퇴사 사실을 알렸다. 그는 국내 기업용 소프트웨어·클라우드 시장에서 오래 활동한 인물로, 구글클라우드, 어도비, 오토데스크 등 글로벌 정보기술(IT) 기업의 한국 지사장을 지냈고 한국마이크로소프트(MS)에서는 최고운영책임자(COO)를 역임했다. 2023년 스노우플레이크코리아 지사장으로 선임된 뒤 국내 비즈니스와 시장진출 전략을 총괄해 왔다.
최 지사장은 "스노우플레이크의 모든 것에 감사하다"며 "특히 멋진 한국 팀과 함께한 3년은 정말 기쁘고 보람 있었다"고 밝혔다.
앤트로픽은 지난해 7월 한국 법인 '앤트로픽코리아 유한회사'를 설립한 뒤 지사장 선임과 현지 조직 구성을 추진해 왔다. 지사장 선임 여부와 구체적인 출범일은 아직 공식화되지 않았지만 이르면 이달 말, 늦어도 6월 초께 한국 사무소 개소 및 지사장 선임 관련 발표가 이뤄질 것으로 관측된다.
이처럼 클라우드·데이터 영업 경험이 풍부한 최 지사장이 수장으로 거론되면서 앤트로픽이 올해 하반기부터 한국에서 기업 고객 공략에 속도를 낼 것이란 관측도 나온다. 특히 생성형 AI 모델 '클로드'와 AI 코딩 도구 '클로드 코드'를 대기업의 업무 시스템, 개발 환경, 데이터 분석 업무에 접목하는 방식으로 기업용 AI 도입 수요를 공략할 것으로 예상된다. 또 초기에는 금융·제조·정보기술(IT) 기업을 중심으로 고객 확보와 기술 지원 체계 구축에 나설 것으로 보인다.
한국 시장의 성장세도 앤트로픽의 현지 조직 출범에 영향을 준 것으로 보인다. 와이즈앱·리테일에 따르면 지난 4월 한국인이 가장 많이 사용한 생성형 AI 앱 상위 3개는 챗GPT, 구글 제미나이, 클로드였다. 챗GPT 월간 사용자는 2345만 명, 구글 제미나이는 845만 명, 클로드는 241만 명으로 세 앱 모두 역대 최대치를 기록했다.
이 중 클로드의 성장세가 가장 가팔랐다. 클로드의 4월 사용자 수는 전년 동월 대비 1148% 증가했다. 1년 만에 약 12배로 늘어난 셈이다. 제미나이는 같은 기간 1034%, 챗GPT는 34% 증가했다.
업계에선 이 같은 사용량 변화가 앤트로픽의 한국 사업 우선순위에도 영향을 줬다는 시각이 나온다. 당초 앤트로픽은 아시아태평양 지역에서 일본과 인도에 무게를 두고 한국 지사 운영에는 상대적으로 신중했지만, 최근 클로드와 미토스에 대한 국내 관심이 커지면서 현지 조직 구축 필요성이 커졌다는 것이다.
업계 관계자는 "앤트로픽은 원래 한국을 우선순위 시장으로 보지 않고 일본과 인도에 더 집중하는 분위기가 강했던 것으로 안다"며 "최근 한 달 사이 국내에서 클로드와 미토스에 대한 관심이 커지면서 한국 시장 대응 전략도 달라진 것으로 보인다"고 말했다.
앤트로픽의 아시아 시장 인사 전략도 주목된다. 앞서 앤트로픽재팬은 법인 출범과 함께 히데토시 토조 전 스노우플레이크 일본 지사장을 대표로 선임했다. 이후 노무라종합연구소(NRI)를 첫 공식 재판매 협력사로 선정하고 라쿠텐, 파나소닉, 미즈호 등 대기업 고객을 확보했다. 이에 한국에서도 스노우플레이크 출신 인사가 유력하게 거론되면서 앤트로픽이 아시아 주요 시장에서 데이터 클라우드와 기업용 소프트웨어 영업 경험을 중시하고 있다는 분석이 나오고 있다.
앤트로픽코리아 공식 출범은 국내 기업용 AI 시장 경쟁에도 영향을 줄 전망이다. 오픈AI는 지난해 한국 법인 설립 이후 김경훈 전 구글코리아 사장을 총괄 대표로 선임하고 국내 기업 고객 확대에 속도를 내고 있다. 삼성SDS와 재판매 협력 계약을 체결했고 삼성·SK그룹과 AI 인프라 협력도 공식화했다.
개발자 시장에서도 양사 경쟁은 거세지고 있다. 클로드 코드는 국내 개발자 커뮤니티에서 빠르게 확산됐지만, 오픈AI가 코딩 도구 성능 개선과 안정적인 인프라를 앞세워 개발자 수요를 흡수하고 있다는 평가도 나온다. 앤트로픽 입장에서는 한국 내 클로드 코드 사용자 증가세를 기업 고객으로 연결하고 경쟁사 이탈을 막기 위한 현지 대응이 필요해진 상황이다.
미 전쟁부, 겉으론 "앤트로픽 퇴출"…실제론 "미토스 활용" 2026.05.13 "미국은 글래스윙, 한국은 캐노피"...티오리, 보안 대연합 추진 2026.05.11 "공개 미룬 앤트로픽 '미토스', 위험성 과장됐다" 2026.04.24 괴물 보안AI '미토스' 해킹 당했나…앤트로픽, 또 보안사고 2026.04.22
정부 협력도 앤트로픽코리아 출범 이후 속도를 낼 가능성이 있다. 과학기술정보통신부는 최근 외교부, 국가정보원, 금융위원회, AI안전연구소, 한국인터넷진흥원, 금융보안원 등과 함께 앤트로픽 측과 AI·사이버보안 협력 방안을 논의했다. 이 자리에서는 자율형 보안 AI 모델로 알려진 '미토스' 접근권, '프로젝트 글라스윙' 참여 방안, AI 기본법 관련 협력 방안 등이 다뤄진 것으로 알려졌다.
다만 앤트로픽은 한국 지사장 인선과 공식 출범 일정을 아직 공식화하지 않고 있다. 사무소 개소 준비는 진행 중인 것으로 알려졌지만, 구체적인 발표 시점은 내부 조율이 끝난 뒤 공개될 전망이다. 앤트로픽 측은 한국 지사장 인선과 공식 출범 일정에 대해 "공유할 수 있는 내용이 없다"고 밝혔다.
Shortcat - 마우스없이 키보드로 맥 전체 제어하기 (shortcat.app)
macOS의 사용자 인터페이스를 인덱싱 해 강력한 명령 팔레트로 제공, 마우스 없이 키보드만으로 Mac 조작 가능 클릭하려는 대상을 입력하면 해당 UI 요소에 접근, 클릭·우클릭·더블클릭 및 Modifier 키 조합 클릭 지원 OK 버튼은 "ok" 를 입력하는 방식 창 제목 검색 으로 정밀한 멀티태스킹 가능, Command + Tab이나 Command + Backtick(`) 조합 필요 없음 Safari/Chrome/Firefox 및 Vivaldi 같은 일부 Chromium 기반 브라우저 에서 동작 VS Code/Home Assistant/Signal/1Password 8 등 대부분의 Electron 앱 호환 프론트 앱의 메뉴 항목을 퍼지 검색 으로 노출하기 때문에, 단축키를 외우지 못해도 조작 가능 이모지 모드 제공, 💩을 "poop·turd·crap" 등 다양한 라벨로 퍼지 매칭해 빠르게 삽입 동의어 지원 퍼지 검색 알고리듬으로 "Delete item"을 "delete·remove·clear·destroy"로도 매칭해 줌 지원 환경: macOS 13+, Apple Silicon / Intel
함께 보면 좋은 글 β 맥에서 마우스 없이 키보드만으로 작업하기 위한 도구들 모음 Mouseless - macOS/Linux/Windows의 키보드 기반 제어 AltTab - 윈도우의 Alt-Tab을 macOS에 Vimac - 키보드로만 macOS 사용하기 Mouseless - 키보드로 빠르게 제어하는 마우스
맥에서 마우스 없이 키보드만으로 작업하기 위한 도구들 모음
Mouseless - macOS/Linux/Windows의 키보드 기반 제어
AltTab - 윈도우의 Alt-Tab을 macOS에
Mouseless - 키보드로 빠르게 제어하는 마우스
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ channprj 4일전 [-] 개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다. 답변달기 ▲ hmmhmmhm 3일전 [-] 아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나... 답변달기 ▲ geek12356 4일전 [-] 저는 claude code로 만들어서 쓰는중 답변달기 ▲ 21919 4일전 [-] 예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요 답변달기 ▲ 21919 4일전 [-] 아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요 답변달기
▲ channprj 4일전 [-] 개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다. 답변달기
개인적으로 https://www.homerow.app 를 매일 사용하고 있는데, 유료이지만 좀 더 완성도가 높은 느낌이었습니다. 참고차 공유를 드려봅니다.
▲ hmmhmmhm 3일전 [-] 아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나... 답변달기
아... 이거 warp 터미널영역은 인식 못하네요.. 다른 터미널 앱은 인식하려나...
▲ geek12356 4일전 [-] 저는 claude code로 만들어서 쓰는중 답변달기
▲ 21919 4일전 [-] 예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요 답변달기
예전에 메뉴 바에서 아이콘을 숨김 처리한 다음에 실수로 shortcat 설정창을 여는 단축키를 비활성화한 적이 있었는데, 재설치를 하고 뭘 해도 다시는 설정창을 띄울 수 없더라구요.. 저도 이 때 homerow로 갈아탔습니다. 무료로 쓰면 단축키 50번 활성화할 때마다 유료 구매 툴팁같은게 뜨는데 별로 거슬리지 않더라구요
▲ 21919 4일전 [-] 아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요 답변달기
아 근데 1.5.1버전부터는 한글 입력기랑 뭔가 호환이 안 되는지 단축키가 안 먹혀서, 다운그레이드해서 쓰고 있어요
JP모건 "비트코인·금 '통화가치 하락 대비 투자' 후퇴"
JP모건이 비트코인과 금을 둘러싼 '통화가치 절하 거래'의 후퇴가 빨라지고 있다고 진단했다. 비트코인 현물 ETF 유출과 선물 포지션 축소가 이어졌고, 하반기 회복 조건도 제시했다.
JP모건이 통화가치 절하 거래 후퇴를 지적했다. [사진: 셔터스톡]
[디지털투데이 AI리포터] JP모건이 비트코인과 금을 중심으로 한 통화가치 절하 거래(debasement trade)에서 투자자들의 자금 이탈이 빨라지고 있다고 분석했다.
12일(이하 현지시간) 블록체인 매체 코인포스트에 따르면 JP모건 애널리스트들은 11일 보고서에서 개인과 기관 투자자들이 비트코인·금 중심의 통화가치 절하 거래에서 전반적으로 이탈하고 있다고 진단했다. 비트코인 현물 ETF와 금 현물 ETF, 선물 시장 전반에서 투자 노출 축소가 확인됐다는 설명이다.
통화가치 절하 거래는 재정적자 확대와 지속적인 인플레이션, 지정학적 위험 등을 배경으로 법정통화의 구매력 하락을 우려한 투자자들이 공급량이 제한된 비트코인과 금으로 자금을 이동시키는 투자 흐름을 뜻한다. JP모건은 2025년 이후 이 같은 자금 이동을 지속적으로 추적해 왔다.
최근에는 반대 흐름이 뚜렷하게 나타났다. 금 현물 ETF는 6월 5일이 포함된 주간에 약 200억달러의 자금 유출을 기록했다. 직전 주 소폭 유입 이후 곧바로 대규모 유출로 전환됐다. 비트코인 현물 ETF 역시 최근 4주 연속 순유출이 이어졌다.
선물 시장에서도 기관투자자들의 노출 축소가 계속되고 있다. 금 선물 포지션은 2월 하순 이후 지속적으로 감소했다. 비트코인 선물은 중동 분쟁 이후 통화가치 절하 거래의 대표 자산으로 자금 유입이 이어졌지만 5월 초 반전한 뒤 감소 폭이 확대됐다. JP모건은 ETF와 선물 시장의 유동성 저하가 비트코인 하락세를 더욱 키우고 있다고 분석했다.
비은행 투자자들의 비트코인·금 투자 비중도 낮아졌다. 주식·채권·현금 대비 비트코인과 금의 배분 비율은 2023년 중반 이후 상승세를 이어왔지만 최근에는 2025년 3월 수준까지 후퇴했다. 비트코인과 미국 10년물 실질 국채수익률의 상관관계는 최근 마이너스로 전환됐고 금도 올해 초 비슷한 움직임을 보였다. JP모건은 수익을 창출하지 않는 자산을 보유하는 기회비용이 두 자산에 부담으로 작용하고 있다고 평가했다.
또 금과 S&P500의 상관관계가 비트코인과 주식의 기존 양의 상관관계에 가까워지고 있다며 두 자산이 포트폴리오 분산 수단보다 위험자산에 가까운 움직임을 보이기 시작했다고 진단했다.
JP모건은 하반기 암호화폐 시장 회복 조건으로 암호화폐 재무 전략을 채택한 기업들의 우선주 배당 지급 능력 입증과 클래리티 법안 통과를 제시했다. 다만 연내 법안 통과 가능성은 50% 미만이라는 기존 전망을 유지했다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함 (theverge.com)
Claude Fable 5 는 Anthropic의 Mythos 계열에서 처음 널리 제공된 모델이며, 경쟁 시스템 개발에 쓰이는 증류 시도를 막기 위해 숨겨진 제한을 적용했음 Anthropic은 증류로 판단한 요청에 대해 사용자에게 알리지 않고 응답을 변경·저하시킨 기존 방식을 철회하고, 제한 작동 시 더 투명하게 알리기로 함 새 방식에서는 증류 관련 요청이 Claude Fable 대신 Claude Opus 4.8 로 전환되며, 사용자는 전환이 발생할 때마다 이를 볼 수 있음 생물학·화학·사이버보안 같은 다른 고위험 영역에서도 안전 기능이 작동하면 Opus 4.8로 라우팅되거나, 약물·무기 등 금지 콘텐츠 규칙에 따라 차단됨 숨겨진 보호장치는 빠른 출시와 낮은 오탐을 가능하게 했지만, Anthropic은 사용자가 어떤 보호장치가 왜 적용되는지 볼 수 있어야 한다며 잘못된 절충 이었다고 인정함 Claude Fable의 숨겨진 증류 제한 Anthropic은 Claude Fable 5 를 몰래 제한한 데 대해 사과했으며, 해당 제한은 연구자와 경쟁 시스템 개발에 Fable을 쓰는 경쟁사 모두에 영향을 줄 수 있었음 Fable은 Anthropic이 수개월 동안 공개 출시가 너무 위험하다고 경고해 온 Mythos 계열 AI 시스템 중 처음 널리 제공된 모델임 Anthropic은 Fable 출시 때 일부 “고위험” 요청에 응답하지 못하게 하는 보호장치로 위험 일부를 다뤘음 제한 대상 중 하나는 큰 모델의 출력을 사용해 작은 AI 모델을 훈련하는 증류(distillation) 기법이었음 Fable의 system card 는 증류 시도로 판단한 요청을 모델 응답 자체를 변경하고 저하시키는 방식으로 처리한다고 적었음 사용자는 안전 조치를 촉발했다는 사실을 통지받지 못했음 사용자는 응답이 변경됐다는 사실도 안내받지 못했음 Anthropic의 변경 사항과 반발 Anthropic은 X 게시물 에서 증류 관련 접근 방식을 바꾸며, 해당 요청을 Claude Opus 4.8로 전환한다고 알렸음 Claude Opus 4.8은 Anthropic의 이전 플래그십 모델이며, 전환이 발생할 때마다 사용자가 이를 볼 수 있게 됨 이 방식은 Fable이 다른 고위험 영역의 요청을 처리하는 방식과 유사함 생물학·화학·사이버보안 영역에서 안전 기능이 작동하면 요청이 Opus 4.8을 거치게 됨 약물·무기 또는 기타 금지 콘텐츠에 해당하면 Anthropic의 더 넓은 안전 규칙에 따라 요청이 차단됨 생물학 영역에서는 보호장치가 매우 넓게 보정돼 기본적인 질의에도 Fable을 사실상 쓰기 어려운 상황이 있었고, Anthropic 대변인 Paruul Maheshwary가 이를 인정했음 Anthropic은 보이는 보호장치는 탐색될 수 있어 견고해야 하고 제대로 만들 시간이 필요하지만, 보이지 않는 보호장치는 더 좁게 겨냥할 수 있어 빠른 출시와 매우 적은 오탐을 가능하게 했다고 적었음 Anthropic은 보이지 않는 보호장치를 택한 것이 잘못된 절충이었다며, 사용자는 적용된 보호장치와 그 이유를 볼 수 있어야 한다고 사과했음 이번 변경은 Fable을 경쟁 모델로 증류하려는 사용자에게 조용히 제한을 적용한 결정에 대해 AI 연구 커뮤니티에서 강한 반발이 나온 뒤 이루어졌음 비판자들은 해당 보호장치가 프런티어 모델을 평가하려는 제3자에게도 영향을 줄 수 있다고 경고했음 Anthropic은 system card에서 최신 모델이 AI 개발을 가속할 수 있는 능력이 이런 요청을 겨냥할 이유가 된다고 적었고, “Claude를 사용해 경쟁 모델을 개발하는 행위는 이미 서비스 약관 위반”이라고 적었음 Anthropic은 이전에 DeepSeek 같은 중국 경쟁사가 자사 모델을 “산업적” 규모로 부당하게 증류했다고 비난한 적이 있음
함께 보면 좋은 글 β 사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음 Claude Fable이 도움을 멈춰도 사용자는 알 수 없다 Anthropic, Claude Opus 4.8 출시 Anthropic, Claude Design 공개 Anthropic, Claude의 AI 동작을 숨기려다 개발자 반발 초래
사이버보안 연구자들이 Anthropic의 Fable 가드레일에 불만을 표하고 있음
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
Anthropic, Claude Opus 4.8 출시
Anthropic, Claude Design 공개
Anthropic, Claude의 AI 동작을 숨기려다 개발자 반발 초래
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
Claude Code를 꽤 좋아하지만, 실시간으로 시스템이 프롬프트를 바꿔 원래 의도를 우회한 뒤 응답을 돌려주는 가드레일은 위험한 선례라고 봄 실패할 거면 깔끔하게 실패해야 함. 그 외의 방식은 신뢰하기 너무 어렵게 만듦 최대한 선의로 보면 Anthropic은 스스로를 일종의 “관리자”로 여기는 듯하지만, EA 성향 이 너무 새어 나오고 있고 온정주의는 좋아 보이지 않음
Excel이 백그라운드에서 조용히 수식을 바꾸고, 숫자가 틀렸다는 사실을 사용자가 모른다고 상상해 보라 또는 Excel이 “죄송하지만 이 수식은 저 수식과 함께 쓸 수 없습니다”, “이런 종류의 숫자나 이런 모양의 데이터에는 쓸 수 없습니다”라고 한다면 어떨까
Anthropic이 정말 방향을 되돌렸다고 설득할 수 있을 것 같지 않음. 이건 보이지 않는 동작이라 계속 몰래 해도 알 수 없음 이미 기술적 역량을 만들어 둔 이상, 편리하게 쓸 수 있는 기능이 영원히 사용되지 않을 가능성도 낮음 Anthropic은 돈을 받고 약속한 서비스를 제공한다는 신뢰에 의존했는데, 그 신뢰는 깨졌음. “아차, 되돌리자”만으로는 신뢰가 돌아오지 않음 앞으로 Claude를 쓸 때는 Fable이든 아니든 보이지 않는 가드레일 이 작동할 수 있다고 가정하는 편이 신중함
이번 일로 Anthropic에 대한 평가가 꽤 나빠졌음. AI를 역량을 키워주는 기술 로 홍보하는 걸 진지하게 받아들이기 어려워짐 새 배포 방식을 보면 Anthropic이 말하는 역량 강화는 사용자를 위한 게 아니라, Anthropic 자신과 그들이나 미국 정부의 호의를 받는 조직을 위한 것임이 꽤 분명함 사용자는 대시보드나 웹앱을 대충 만들거나 Excel을 조작하게 할 수는 있지만, 그보다 흥미로운 일은 금지됨 단순히 돈 문제와 경쟁사 방해라면 차라리 이해할 수도 있는데, 이들은 대중이 힘을 잘못 쓸까 봐 인간 진보 대부분을 자기들의 계몽된 손안에 독점하려는 것처럼 보임
개선이라고 볼 수는 있겠지만, 모델이 더 유용해지는 건 아님 Anthropic은 이제 사용자가 자기 모델로 무엇을 할 수 있고 없는지 자신들이 정하겠다고 꽤 노골적으로 말하고 있음. 더 중요한 건 그 기준이 안전 우려에만 한정되지 않고, AI 작업 금지 처럼 Anthropic이 하려는 일과 겹치는 영역까지 포함된다는 점임 흥미로운 건 며칠 안에 이를 명시적 거부로 바꾸겠다고 했다는 점인데, Fable/Mythos 자체를 재학습하기에는 너무 빠름. 즉 애초에 모델 앞단의 필터였다는 뜻이고, 조잡한 “안전” 필터 수준을 보면 이 “우리와 경쟁할 수 있음” 필터도 더 나을 것 같지 않음 필터가 소비하는 토큰 비용은 누가 내는지도 궁금함. 아마 이것도 LLM일 텐데 입력 토큰 비용에 반영되는 건가. 바라건대 Claude Code의 “감정” 감지기, 즉 욕설 감지기처럼 정규식만은 아니었으면 함
/r/MachineLearning에 올라온 글과 같은 경험과 결론을 얻었음 Fable 이전에도 Claude가 같은 식으로 문제를 일으켰음 내가 겪은 문제는 AI 연구 와 관련된 상황에서만 발생했음. 모델 학습뿐 아니라 로컬 모델 분석이나 로컬 모델용 테스트 플랫폼 설정만 해도 Claude가 계속 잘못된 일을 하고, 테스트를 방해하고, 보고서를 조작하고, 쓰레기 결과를 그냥 받아들이고 넘어가라고 일관되게 제안했음 거의 모든 응답에 다음 단계로 넘어가라는 프롬프트가 들어 있었음 그래서 조용한 방해를 하지 않겠다는 말을 믿지 않음. 이미 인정하기 전부터 하고 있었고, 이제는 수단과 동기와 의도까지 있음을 인정한 셈임
신뢰는 잃기 쉽고 되찾기 어려움 “조용히 세션을 방해하지 않겠다고 말은 하지만 어떻게 알 수 있나?”라고 하는 사람들을 탓할 수 없음. 실제로 알 방법이 없고, Anthropic은 의심의 씨앗 을 확실히 심어버렸음
Mythos는 좋게 봐도 Opus의 점진적 업그레이드 정도임 과장된 홍보는 “안전 가드”를 정당화하기 위한 것에 가까움. 전반적으로 Fable은 모든 제한과 위험, 그리고 데이터 보관 정책까지 고려하면 Opus보다 나쁜 모델 임
이건 정말 말이 안 됨 재현 사례, 비식별화됨: sample_dataset_group1.tsv Geometry: Heatmap X axis: frac_set set + condition, 두 열을 “Add column”로 교차 결합 Y axis: condition Color: mean frac_set value, Sequential X축이 두 열의 교차 결합이고 두 번째 열을 “Add column”으로 추가하면, x축 눈금 레이블 frac_set_2, frac_set_3, frac_set_4, frac_set_5가 깨진 상태로 렌더링됨. 회전되고 오프셋되어, CSS 전환이 시작된 뒤 최종 위치에 안착하지 못한 것처럼 보임 그런데 “Fable 5의 안전 조치가 이 메시지를 사이버보안 또는 생물학 주제로 표시했습니다. 안전하고 정상적인 콘텐츠도 표시될 수 있습니다. 이 조치 덕분에 다른 영역에서 Mythos 수준의 성능을 더 빨리 제공할 수 있으며 개선 중입니다. Opus 4.8로 전환했습니다. /feedback으로 의견을 보내거나 자세히 알아보세요”라고 나옴
발행일: 2026-06-12 18:19 (금)
한국어 KR 영어 EN 일본어 JP 중국어 CH
오픈AI가 인공지능(AI) 에이전트 인프라 스타트업 '오나(Ona)' 인수를 추진하며 코딩 도구 '코덱스' 경쟁력 강화에 박차를 가한다. 챗GPT와 코덱스를 중심으로 개발자용 AI 서비스를 통합한 AI 플랫폼 주도권을 확보한다는 전략이다.
11일(현지시간) 블룸버그통신에 따르면 오픈AI는 AI 에이전트 지원 클라우드 플랫폼 기업 오나를 인수하기로 합의했다. 거래가 마무리되면 오나 인력은 오픈AI 코덱스 조직에 합류할 예정이다. 인수 금액 등 구체적인 조건은 공개되지 않았다.
오나는 AI 에이전트가 기업 내 각종 업무 시스템과 데이터를 활용해 여러 단계의 작업을 이어서 수행할 수 있도록 지원하는 보안형 클라우드 환경을 제공 중이다. 오픈AI는 이 기술을 활용해 코덱스가 장시간 복잡한 업무를 수행할 수 있는 인프라를 갖춰 기업 AI 에이전트 운영을 고도화한다는 목표다.
이번 인수는 기술 확보를 넘어 오픈AI의 플랫폼 강화 전략으로 풀이된다. 오픈AI는 최근 개별 AI 서비스 확대보다 챗GPT를 중심으로 업무 기능을 통합하는 방향으로 사업 전략을 전환 중이다.
실제 오픈AI는 올해 코덱스를 챗GPT 생태계로 연계하며 개발자 업무 환경 통합에 속도를 내고 있다. 스마트폰에서도 코딩 작업의 승인·검토를 지원하고 원격 개발 환경 연동 기능을 확대하는 등 개발자 업무 전반을 하나의 환경에서 수행할 수 있도록 서비스를 고도화하고 있다.
나아가 챗GPT와 코덱스, 자체 브라우저를 하나로 묶는 '슈퍼앱' 전략도 추진 중이다. 단일 플랫폼 안에서 검색과 문서 작성, 코딩, 에이전트 업무를 모두 수행하도록 만드는 것이 목표다. 이번 오나 인수는 이러한 슈퍼앱 구상을 뒷받침하는 핵심 요소로 평가된다.
이번 인수는 개발자 시장을 둘러싼 앤트로픽과의 경쟁 구도와도 맞물려 있다. 앤트로픽이 '클로드 코드'를 앞세워 시장을 공략하는 가운데, 오픈AI는 챗GPT를 중심으로 코덱스와 에이전트 기능을 결합하며 맞서고 있다. AI 코딩 시장 경쟁이 모델 성능에서 플랫폼 경쟁으로 확산되는 양상이다.
챗GPT 결제 구조 악용한 카드 무단 도용…오픈AI "환불 완료" 2026.06.11 오픈AI, 토큰 비용 낮추나…앤트로픽과 가격 경쟁 시동 2026.06.11 퍼플렉시티, 2028년 상장 추진…앤트로픽·오픈AI와 무관 2026.06.10 네이버는 엔비디아·AMD, 카카오는 구글·오픈AI...두 기업의 같은 길, 다른 동맹 2026.06.09
오픈AI에 따르면 코덱스 주간 활성 이용자 수는 최근 500만 명을 넘어섰다. AI 코딩 도구가 개발자 생산성 향상의 핵심으로 자리 잡으면서 시장 경쟁도 더욱 치열해질 전망이다.
오픈AI 측은 "오나는 AI 에이전트가 필요한 도구·시스템·맥락에 지속적으로 접근할 수 있는 안전한 환경을 제공한다"며 "더 많은 기업이 운영 인프라에서 AI 에이전트를 활용할 수 있도록 지원할 것"이라고 밝혔다.
AI 투자판 '닷컴 버블' 오나…2000년 붕괴 직전급 경고 신호 떴다
AI 투자 시장에서 종목 간 밸류에이션 격차와 대형 IPO 대기 행렬이 닷컴 버블 직전과 비슷한 과열 신호로 지목됐다. 다만 전문가들은 현재 AI 기업들이 실질적 현금흐름과 인프라 투자를 갖춘 만큼 단순한 버블 재연으로 보기는 어렵다고 평가했다.
AI 투자 시장에서 닷컴 버블 직전과 비슷한 과열 신호가 포착됐다. [사진: 셔터스톡]
[디지털투데이 AI리포터] 글로벌 인공지능(AI) 투자 시장에서 닷컴 버블 붕괴 직전과 유사한 과열 신호가 나타나고 있다는 분석이 나왔다.
10일(이하 현지시간) 홍콩 사우스차이나모닝포스트에 따르면, 고평가 종목과 저평가 종목 간 격차가 2000년 3월 닷컴 버블 붕괴 직전 수준까지 벌어진 데다 대형 기업공개(IPO)가 잇따라 대기하면서 시장 고점 우려가 커지고 있다.
뱅크오브아메리카는 이달 보고서에서 가장 비싼 종목과 가장 싼 종목의 성과 격차를 과도한 투기 신호로 평가했다. 장기 성장 기대가 지나치게 높아지면서 시장이 실수 가능성을 거의 반영하지 않고 있다는 분석이다. 또 자체 시장 스트레스 지표 10개 가운데 7개가 경고 신호를 나타냈다. 이는 1990년 이후 주요 약세장 직전 평균과 비슷한 수준이다.
신규 상장 증가세도 부담 요인으로 꼽혔다. SPI애셋매니지먼트와 더글로벌CIO오피스는 최근 IPO 시장 흐름이 2000년 닷컴 버블 붕괴와 2008년 금융위기 이전 국면과 유사하다고 평가했다. 대형 IPO는 일반적으로 밸류에이션이 높아진 시기에 집중되는 만큼, 신규 주식 공급 확대가 시장 정점 우려를 키울 수 있다는 분석이다.
이 같은 불안은 최근 기술주 약세와 맞물리며 더욱 커지고 있다. 금리 긴축 우려와 쏠림 현상에 대한 부담으로 지난주 금요일 기술주가 급락했고, 이번 주 나스닥100지수도 저평가 종목으로 자금이 이동하면서 부진한 흐름을 보였다. 아시아 AI 투자 열기의 중심에 있는 코스피 역시 외국인 매도와 개인투자자들의 레버리지 포지션 청산이 겹치며 사상 최고치 대비 10% 이상 하락했다.
스페이스X는 12일 거래를 시작할 예정이며, 앤트로픽과 오픈AI도 상장을 준비하고 있다. 더글로벌CIO오피스는 이들 3개 기업의 예상 조달 규모가 약 2000억달러에 이를 것으로 추산했다. 이는 2022년부터 올해 1분기까지 5000만달러 이상 규모 IPO 전체 조달액을 합친 수준과 맞먹는다.
다만 이러한 신호가 곧바로 AI 투자 붕괴나 닷컴 버블 재연을 의미하는 것은 아니라는 신중론도 나온다. 뱅크오브아메리카는 현재 주요 AI 기업들이 1990년대 말 기업들과 달리 실제 현금흐름과 상대적으로 건전한 재무구조, 실질적인 AI 인프라 투자를 갖추고 있다고 평가했다.
사이라 말릭(Saira Malik) 누빈애셋매니지먼트 최고투자책임자(CIO)는 앞으로는 자본지출 규모보다 생산성 개선과 마진 확대, 이익의 질을 입증하는 기업을 선별하는 것이 중요해질 것이라고 말했다.
샤루 차나나(Charu Chanana) 삭소 수석 투자전략가는 AI 랠리의 쉬운 구간은 끝났을 가능성이 크다며, 앞으로는 관련 기업들이 보다 명확한 수익화 전략과 이익 창출 능력, 자본지출 통제 역량, 인프라 투자 수익률을 입증해야 한다고 지적했다.
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
Loop Engineering - Addy Osmani (x.com/addyosmani)
AI 코딩 에이전트의 다음 단계로 제시된 ‘루프 엔지니어링’ 이 글은 Addy Osmani가 쓴 “Loop engineering”을 중심으로, 코딩 에이전트를 사람이 매번 직접 지시하는 방식에서 벗어나, 에이전트에게 일을 찾고, 나누고, 검증하고, 다음 작업을 정하게 하는 반복 시스템을 설계하는 방식으로 전환될 수 있다는 관점을 다룹니다. 여기서 루프는 “정해진 목표를 향해 AI가 여러 번 반복 실행하는 작업 흐름”에 가깝습니다. 다만 글은 이를 만능 해법으로 보지는 않습니다. 토큰 비용, 검증 책임, 개발자의 이해도 저하 같은 현실적 비용을 함께 강조합니다. 핵심 요약 루프 엔지니어링의 의미 기존에는 개발자가 코딩 에이전트에 프롬프트를 쓰고, 결과를 읽고, 다시 지시했습니다. 글에서 말하는 루프 엔지니어링은 이 과정을 자동화된 구조로 바꾸는 접근입니다. 즉, 사람이 매번 지시하는 대신 “무엇을 찾고, 어떻게 처리하고, 언제 멈출지”를 시스템으로 설계합니다. 구성 요소 저자는 루프를 만들기 위한 요소로 자동 실행, 워크트리, 스킬, 플러그인과 커넥터, 서브에이전트, 그리고 외부 메모리를 제시합니다. 워크트리는 같은 저장소를 여러 작업 공간으로 나누어 충돌을 줄이는 Git 기능입니다. 스킬은 프로젝트 규칙과 지식을 문서화해 에이전트가 매번 추측하지 않게 하는 장치입니다. 커넥터는 Linear, Slack, 데이터베이스 같은 외부 도구와 연결하는 통로입니다. 장점 반복 업무 절감 측면에서 CI 실패 요약, 이슈 분류, 최근 커밋 검토 같은 작업을 자동화할 수 있습니다. 병렬 처리 측면에서는 여러 에이전트가 각자 다른 워크트리에서 작업해 파일 충돌을 줄일 수 있습니다. 지식 재사용 측면에서는 프로젝트 관행과 빌드 절차를 스킬로 보존해 매 세션마다 같은 설명을 반복하지 않아도 됩니다. 단점과 위험 검증 부담은 사라지지 않습니다. 루프가 만든 결과는 여전히 사람이 확인해야 합니다. 토큰 비용도 커질 수 있습니다. 서브에이전트가 늘어나면 각 에이전트가 별도로 모델과 도구를 사용하기 때문입니다. 이해도 부채도 문제입니다. 개발자가 결과를 읽지 않고 받아들이면, 코드베이스는 커지지만 정작 사람이 이해하는 범위는 줄어들 수 있습니다. 차별점 일반적인 프롬프트 엔지니어링이 “한 번의 좋은 질문”에 초점을 둔다면, 루프 엔지니어링은 “반복 가능한 작업 시스템”을 설계하는 쪽에 가깝습니다. 저자는 Codex와 Claude Code가 자동화, 스킬, MCP 기반 연결, 서브에이전트 같은 유사한 구성 요소를 갖추면서 도구 자체보다 루프 설계가 더 중요한 관심사가 되고 있다고 봅니다. 특장점 작성자와 검증자의 분리가 중요한 특징입니다. 코드를 만든 에이전트가 스스로 결과를 평가하면 관대해질 수 있으므로, 별도 서브에이전트가 검토하는 구조가 제안됩니다. 외부 메모리 유지도 핵심입니다. 마크다운 파일이나 이슈 보드처럼 대화 밖에 상태를 남겨야 다음 실행 때 이어받을 수 있습니다. 루프 엔지니어링은 개발자를 대체하는 이야기라기보다, 개발자가 개입하는 지점을 바꾸는 이야기로 읽힙니다. 직접 프롬프트를 계속 쓰는 일에서 벗어나 반복 구조, 검증 조건, 작업 분배, 기록 방식을 설계하는 쪽으로 무게가 이동합니다. 다만 좋은 루프는 좋은 판단을 대신하지 않습니다. 코드를 읽고, 검증하고, 시스템의 한계를 이해하는 엔지니어링 역량이 없다면 자동화는 속도보다 위험을 먼저 키울 수 있습니다.
AI 코딩 에이전트의 다음 단계로 제시된 ‘루프 엔지니어링’
이 글은 Addy Osmani가 쓴 “Loop engineering”을 중심으로, 코딩 에이전트를 사람이 매번 직접 지시하는 방식에서 벗어나, 에이전트에게 일을 찾고, 나누고, 검증하고, 다음 작업을 정하게 하는 반복 시스템을 설계하는 방식으로 전환될 수 있다는 관점을 다룹니다. 여기서 루프는 “정해진 목표를 향해 AI가 여러 번 반복 실행하는 작업 흐름”에 가깝습니다. 다만 글은 이를 만능 해법으로 보지는 않습니다. 토큰 비용, 검증 책임, 개발자의 이해도 저하 같은 현실적 비용을 함께 강조합니다.
기존에는 개발자가 코딩 에이전트에 프롬프트를 쓰고, 결과를 읽고, 다시 지시했습니다. 글에서 말하는 루프 엔지니어링은 이 과정을 자동화된 구조로 바꾸는 접근입니다. 즉, 사람이 매번 지시하는 대신 “무엇을 찾고, 어떻게 처리하고, 언제 멈출지”를 시스템으로 설계합니다.
저자는 루프를 만들기 위한 요소로 자동 실행, 워크트리, 스킬, 플러그인과 커넥터, 서브에이전트, 그리고 외부 메모리를 제시합니다. 워크트리는 같은 저장소를 여러 작업 공간으로 나누어 충돌을 줄이는 Git 기능입니다. 스킬은 프로젝트 규칙과 지식을 문서화해 에이전트가 매번 추측하지 않게 하는 장치입니다. 커넥터는 Linear, Slack, 데이터베이스 같은 외부 도구와 연결하는 통로입니다.
반복 업무 절감 측면에서 CI 실패 요약, 이슈 분류, 최근 커밋 검토 같은 작업을 자동화할 수 있습니다. 병렬 처리 측면에서는 여러 에이전트가 각자 다른 워크트리에서 작업해 파일 충돌을 줄일 수 있습니다. 지식 재사용 측면에서는 프로젝트 관행과 빌드 절차를 스킬로 보존해 매 세션마다 같은 설명을 반복하지 않아도 됩니다.
검증 부담은 사라지지 않습니다. 루프가 만든 결과는 여전히 사람이 확인해야 합니다. 토큰 비용도 커질 수 있습니다. 서브에이전트가 늘어나면 각 에이전트가 별도로 모델과 도구를 사용하기 때문입니다. 이해도 부채도 문제입니다. 개발자가 결과를 읽지 않고 받아들이면, 코드베이스는 커지지만 정작 사람이 이해하는 범위는 줄어들 수 있습니다.
일반적인 프롬프트 엔지니어링이 “한 번의 좋은 질문”에 초점을 둔다면, 루프 엔지니어링은 “반복 가능한 작업 시스템”을 설계하는 쪽에 가깝습니다. 저자는 Codex와 Claude Code가 자동화, 스킬, MCP 기반 연결, 서브에이전트 같은 유사한 구성 요소를 갖추면서 도구 자체보다 루프 설계가 더 중요한 관심사가 되고 있다고 봅니다.
작성자와 검증자의 분리가 중요한 특징입니다. 코드를 만든 에이전트가 스스로 결과를 평가하면 관대해질 수 있으므로, 별도 서브에이전트가 검토하는 구조가 제안됩니다. 외부 메모리 유지도 핵심입니다. 마크다운 파일이나 이슈 보드처럼 대화 밖에 상태를 남겨야 다음 실행 때 이어받을 수 있습니다.
루프 엔지니어링은 개발자를 대체하는 이야기라기보다, 개발자가 개입하는 지점을 바꾸는 이야기로 읽힙니다. 직접 프롬프트를 계속 쓰는 일에서 벗어나 반복 구조, 검증 조건, 작업 분배, 기록 방식을 설계하는 쪽으로 무게가 이동합니다. 다만 좋은 루프는 좋은 판단을 대신하지 않습니다. 코드를 읽고, 검증하고, 시스템의 한계를 이해하는 엔지니어링 역량이 없다면 자동화는 속도보다 위험을 먼저 키울 수 있습니다.
함께 보면 좋은 글 β 루프 엔지니어링 - 에이전트를 프롬프트하는 시스템을 설계하기 바이브 코딩을 넘어 with Addy Osmani [유튜브 요약] ROACH PI – AI 코딩 에이전트에 엔지니어링 규율을 씌우는 오픈소스 확장 2026년을 맞이하는 나의 LLM 코딩 워크플로우 (Addy Osmani) 에이전트 루프 설계하기
루프 엔지니어링 - 에이전트를 프롬프트하는 시스템을 설계하기
바이브 코딩을 넘어 with Addy Osmani [유튜브 요약]
ROACH PI – AI 코딩 에이전트에 엔지니어링 규율을 씌우는 오픈소스 확장
2026년을 맞이하는 나의 LLM 코딩 워크플로우 (Addy Osmani)
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
정부가 '독자 AI 파운데이션 모델(독파모)'을 기반으로 한국형 챗GPT인 '모두의 AI'를 연내 무료 출시하는 가운데, 이를 위한 사업 공고를 이르면 이달 중 정식으로 낼 예정이다. 독파모 프로젝트와 연계한 실제 서비스 상용화 차원의 후속 사업인 만큼 흥행 여부가 주목된다.
4일 정보기술(IT) 업계에 따르면 과학기술정보통신부는 모두의 AI 사업 공고를 내기 위해 막바지 검토 작업을 진행하고 있다. 모두의 AI는 오픈AI의 챗GPT 같은 AI 챗봇으로, 과기정통부 주도로 지원 및 개발 중인 독파모를 기반으로 만들어질 예정이다. 이를 통해 전 국민이 양질의 한국어 및 한국어 문화 특화 AI 에이전트를 하나씩 소유하도록 하겠다는 것이 이 사업 취지다.
과기정통부는 모두의 AI 제공 시 AI를 잘 활용하기 어려운 노년층과 소외계층을 위한 특화 모델 서비스도 제공할 계획이다. 국민 모두가 무료로 사용하는 AI 서비스를 지속 제공한다는 목표에 따라 2028년까지는 정부 재정이 투입된다. 이후 모두의 AI 운영 비용은 기업들과 공동 투자하는 방안 등을 검토할 방침이다.
모두의 AI 서비스에 공식 활용될 모델 종류는 오는 8월 전후에 있을 독파모 2차 단계평가 후에 좁혀질 것으로 보인다. 과기정통부는 지난해부터 경쟁형 압축 방식의 독파모 프로젝트를 통해 거대언어모델(LLM)과 멀티모달 등 주요 AI 모델 영역에서 독자 기술력 고도화에 나서고 있다.
올해 초 1차 평가를 통과한 LG AI연구원, SK텔레콤, 업스테이지 정예팀과 기술 독자성 논란으로 생긴 선발 공백에 따른 재공고로 합류한 모티프테크놀로지스 정예팀이 참여 중이다. 오는 8월 2차 평가에 이어 연말 3차 평가 결과가 나오면 최종 2곳이 남게 된다.
과기정통부는 2차 평가가 치러질 8월 독파모를 오픈소스로 전면 공개하겠다는 계획을 발표한 바 있다. LG AI연구원, SK텔레콤, 업스테이지는 이미 세계 최대 오픈소스 플랫폼 허깅페이스에 각 사 모델인 'K-엑사원'과 '에이닷엑스(A.X) K1', '솔라 오픈 100B'를 각각 올려 누구나 모델 내역을 확인하고 내려받을 수 있게 했다. 추가 공모로 합류한 모티프테크놀로지스는 2차 평가 시점에 3000억(300B) 파라미터급 추론형 LLM을 오픈소스로 공개할 예정이다.
한국형 챗GPT 무료 출시하는 정부, 독자 AI 검증 체계 개발한다 2026.06.01 [현장] 배경훈 과기부총리 "국민 AI 활용 역량, 국가 경쟁력 좌우" 2026.03.26 정부, 소버린 AI 모델 8월 오픈소스로 푼다…'모두의 AI' 본격화 2026.03.25 "AI 에이전트 시대 빨리 준비해야"...연내 전국민 AI 무료로 쓴다 2026.05.31
정부 지원으로 개발 및 고도화한 AI 모델의 확산을 지향하는 독파모 프로젝트 취지를 고려할 때 기존 정예팀들의 모두의 AI 사업 참여는 자연스러운 수순이 될 전망이다. 실제로 LG AI연구원, SK텔레콤, 업스테이지, 모티프테크놀로지스 중 대다수 기업이 모두의 AI 사업 참여를 검토 중인 것으로 알려졌다.
다만 과기정통부는 모두의 AI 사업자 지원 자격을 독파모 정예팀뿐만 아니라 독파모를 활용하는 기업에 전부 열어뒀다고 설명했다. 자체 파운데이션 모델이 없는 스타트업이나 중소기업도 공개된 독파모를 가져다 서비스를 구성하면 사업에 도전할 수 있다는 의미다. 과기정통부 관계자는 "오픈소스 및 응용 프로그램 인터페이스(API)로 독파모가 이미 공개됐기 때문에 이 사업에 반드시 독파모 정예팀만 지원 가능한 것은 아니다"고 말했다.
日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상
메르카리가 시바이누와 도지코인 거래를 붙여 이용자 2300만명에 매수 창구를 열었다. 코인체크 API와 규제·세제 변화가 맞물리며 일본 소액 암호화폐 거래가 확대되고 있다.
대표적인 밈 코인으로 언급되는 도지코인 [사진:픽사베이]
[디지털투데이 AI리포터] 일본 최대 거래 플랫폼 메르카리가 시바이누와 도지코인 지원을 시작했다.
이용자 2300만명은 중고 물품 판매 대금이나 보너스 포인트로 두 암호화폐를 앱에서 직접 살 수 있게 됐다고 10일(현지시간) 블록체인 매체 유투데이가 보도했다.
이번 연동의 기술 기반은 코인체크가 맡았다. 코인체크는 새 API 서비스 '크립토 애즈 어 서비스'(CaaS)를 통해 메르카리 앱 내 암호화폐 거래를 지원했다. 메르카리 내 암호화폐 계정은 이미 400만개를 넘겼다. 이 가운데 85%는 거래 경험이 없는 이용자가 개설한 계정이다.
시바이누는 이런 초보 이용자 수요와 맞물린다. 1엔부터 거래할 수 있을 만큼 가격 단위가 낮고, 시가총액은 27억3000만달러 규모다. 일본 개인 이용자들은 가격 변동에 따른 차익보다 SHIB나 DOGE를 소액으로 나눠 사들이는 방식에 익숙한 것으로 전해졌다.
시바이누 지원 확대는 제도 변화와도 맞물려 있다. 일본암호화폐거래소협회(JVCEA)는 앞서 시바이누를 공식 그린리스트에 올렸고, 이에 따라 메르카리와 코인체크는 금융청(FSA)의 장기간 개별 심사 부담 없이 API를 통해 거래를 시작할 수 있었다는 설명이다.
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
키워드 #시바이누 #도지코인 #암호화폐 #밈코인 #가상자산
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담
그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요'
마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음 (discuss.pytorch.kr)
PyTorchKR🔥🇰🇷 🤔💭 이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다. :one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다. :two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다. :three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다. 논문별 핵심 요약 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다. Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다. Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다. Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다. Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다. Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다. Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다. Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다. FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다. Harness-1: 상태 외부화 하니스가 적용된 검색 에이전트를 위한 강화학습 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses 논문 소개 검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다. 이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다. 반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다. 초록(Abstract) 검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다. 이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다. 상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다. 웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1 Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 . 논문 링크 https://arxiv.org/abs/2606.02373 더 읽어보기 https://github.com/pat-jj/harness-1 https://huggingface.co/pat-jj/harness-1 어텐션은 잊어라: 중요도 인지 어텐션만 있으면 된다 / Forget Attention: Importance-Aware Attention Is All You Need 논문 소개 트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다. 특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다. 더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다. 초록(Abstract) 어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다. Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field. 논문 링크 https://arxiv.org/abs/2606.02332 트랜스포머는 세 개의 프로젝션이 필요한가? QKV 변형의 체계적 연구 / Do Transformers Need Three Projections? Systematic Study of QKV Variants 논문 소개 트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다. 실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다. 더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다. 종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다. 초록(Abstract) 트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다. Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 논문 링크 https://arxiv.org/abs/2606.04032 더 읽어보기 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에이전틱 워크플로를 LLM 가중치에 컴파일하기: 100배 적은 비용으로 프런티어급에 가까운 품질 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost 논문 소개 최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다. 핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다. 실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다. 초록(Abstract) 에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다. Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs). 논문 링크 https://arxiv.org/abs/2605.22502 더 읽어보기 https://discuss.pytorch.kr/t/llm-subterranean-agent/10501 장기 범위 과제를 위한 에이전트 호환 컨텍스트 관리 학습 / Learning Agent-Compatible Context Management for Long-Horizon Tasks 논문 소개 대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다. AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다. 실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다. 초록(Abstract) 대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다. 우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다. LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems. 논문 링크 https://arxiv.org/abs/2605.30785 잠재 에이전트: 내재화된 멀티에이전트 토론을 위한 사후학습 절차 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate 논문 소개 대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다. 이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다. 이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다. 초록(Abstract) 멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents 논문 링크 https://arxiv.org/abs/2604.24881 더 읽어보기 https://github.com/johnsk95/latent_agents MOSS: 자율 에이전트 시스템에서 소스 수준 재작성을 통한 자기 진화 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems 논문 소개 배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다. MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다. 이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다. 실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다. 초록(Abstract) 배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다. Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention. 논문 링크 https://arxiv.org/abs/2605.22794 더 읽어보기 https://github.com/dav-joy-thon/MOSS 비협력 게임을 통한 언어 모델의 안전성 정렬 / Safety Alignment of LMs via Non-cooperative Games 논문 소개 언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다. 이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다. 또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다. 초록(Abstract) 언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다. Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame. 논문 링크 https://arxiv.org/abs/2512.20806 더 읽어보기 https://github.com/facebookresearch/advgame 계획, 관찰, 복구: 능동적 절차 지원을 위한 벤치마크와 아키텍처 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance 논문 소개 실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다. 이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다. 모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다. 또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다. 초록(Abstract) 번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다. We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery. 논문 링크 https://arxiv.org/abs/2606.04970 더 읽어보기 https://huggingface.co/datasets/facebook/wearable-ai FuzzingBrain V2: 자동화된 취약점 발견 및 재현을 위한 멀티에이전트 LLM 시스템 / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction 논문 소개 소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다. 초록(Abstract) 소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다. Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs. 논문 링크 https://arxiv.org/abs/2605.21779 ⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다.
:one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다.
:two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다.
:three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다.
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다.
Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다.
Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다.
Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다.
Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다.
Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다.
검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다.
이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다.
반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다.
검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다.
이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다.
상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다.
웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 .
https://arxiv.org/abs/2606.02373
https://github.com/pat-jj/harness-1
https://huggingface.co/pat-jj/harness-1
트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다.
특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다.
더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다.
어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다.
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
https://arxiv.org/abs/2606.02332
트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다.
실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다.
더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다.
종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다.
트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다.
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다.
핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다.
실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다.
에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다.
Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).
대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다.
AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다.
실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다.
대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다.
우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다.
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
https://arxiv.org/abs/2605.30785
대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다.
이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다.
이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다.
멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents
Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents
https://arxiv.org/abs/2604.24881
https://github.com/johnsk95/latent_agents
배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다.
MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다.
이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다.
실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다.
배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다.
Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.
https://arxiv.org/abs/2605.22794
https://github.com/dav-joy-thon/MOSS
언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다.
이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다.
또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다.
언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다.
Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.
https://arxiv.org/abs/2512.20806
https://github.com/facebookresearch/advgame
실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다.
이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다.
모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다.
또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다.
번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다.
We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.
소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다.
소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다.
Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.
https://arxiv.org/abs/2605.21779
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
함께 보면 좋은 글 β [2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음 [2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음 agentmemory - AI 코딩 에이전트용 영구 메모리 시스템 AI 시대, 취향(Taste) 경제의 부상 DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다
[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
agentmemory - AI 코딩 에이전트용 영구 메모리 시스템
DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
SK텔레콤, KT, LG유플러스 등 이통 3사가 5G와 LTE로 나뉘어 있던 요금제를 하나로 묶고, 최저 요금제까지 데이터 안심 옵션(QoS)을 기본 적용한다.
수십 종에 이르는 요금 구조가 대폭 단순화되면서 소비자 입장에서는 이동통신 요금제를 선택할 때 복잡한 비교를 하지 않고 직관적으로 고를 수 있게 됐다.
LG유플러스는 다음 달 1일, SK텔레콤은 7월2일 전면 개편한 통합 요금제를 출시할 예정이다. KT도 요금제 개편 막바지 단계를 밟고 있다.
통신 3사 요금제 개편의 핵심은 복잡했던 요금 구조를 단순하게 고친 것이 꼽힌다. 그동안 5G, LTE로 분리됐던 요금제가 하나의 통합 구조로 합쳐진다.
이에 따라 SK텔레콤은 기존 67종에 달하던 요금제를 16종으로, LG유플러스는 53종에서 18종으로 대폭 축소한다.
망 구분이 사라지면서 소비자들은 오직 데이터 제공량과 QoS 속도만 고려해 요금제를 선택할 수 있다.
SK텔레콤의 ‘T끼리 맞춤형’, LG유플러스의 ‘데이터플랜 300MB’ 등 기존 2만 원대 저가 요금제 가입자도 기본 데이터를 소진하면 끊김 없이 데이터를 계속 이용할 수 있다.
저가 요금제까지 무제한 데이터를 기본 적용해 부가서비스 비용을 없애고, 데이터 초과 우려로 고가 요금제를 쓰던 이용자의 부담을 낮춰 실질적인 통신비 절감 효과를 낼 것으로 기대된다.
업계 관계자는 “신규 요금제가 5G 요금제를 기반으로 만들어진 만큼, LTE를 쓰던 가입자가 통합 요금제로 넘어올 때 체감 효과가 더욱 크다”고 설명했다.
이를테면 SK텔레콤 7만 9000원 LTE 요금제 ‘T플랜 스페셜’은 기본 데이터가 150GB이지만, 통합 요금제 체계에선 6만 9000원 요금의 ‘라이트69’로 110GB 데이터와 최대 5Mbps의 무제한 데이터를 쓸 수 있다.
같은 7만 9000원으로는 250GB 데이터와 최대 5Mbps의 무제한 데이터가 제공된다.
무제한 데이터의 속도는 요금제 구간에 따라 차등 적용된다. SK텔레콤과 LG유플러스 공통적으로 5만원대 이하 요금제엔 최대 400kbps, 5만원 대 요금제엔 최대 1Mbps를, 7만원 대 요금제엔 최대 5Mbps 속도 무제한 데이터를 제공한다.
400Kbps 속도는 웹서핑과 메신저 텍스트 전송 등이 가능하고, 1Mbps는 일반 화질 영상 시청, 메신저 사진 전송 등이, 5Mbps는 고화질 영상 시청, 게임 등이 원활한 수준이다.
SKT, 5G·LTE 통합 요금제 7월2일 출시 2026.05.29 LGU+ "요금제 너무 복잡"...53종→18종으로 단순화 2026.05.28 LGU+, 월2만원대 5G 무제한 요금제 내놨다 2026.05.28 5G-LTE 통합요금제 출시 초읽기 2026.05.23
신규 요금제가 출시되더라도 가입자가 원한다면 기존 요금제로 계속 사용할 수 있으며, 무제한 데이터도 똑같이 적용된다.
기존 QoS 부가서비스를 유료로 사용하던 가입자는 개편과 동시에 자동으로 부가서비스 가입이 해지되거나, 해당 금액을 전액 할인된다.
아이폰 사용자 환호할 변화…iOS 27, 카메라 컨트롤 '불편함' 잡았다
iOS 27은 아이폰 카메라 컨트롤의 길게 누르기 기능을 시리 모드로 바꿨다. 별도 화면 대신 카메라 앱 안에서 전환할 수 있어 촬영 복귀가 쉬워졌다.
iOS 27에서 카메라 컨트롤 기능을 업그레이드 했다. [사진: 나인투파이브맥]
[디지털투데이 AI리포터] 애플은 iOS 27에서 카메라 컨트롤의 비주얼 인텔리전스 오작동 문제를 해결하고 사진 모드 전환을 간소화했다.
11일(현지시간) IT 매체 나인투파이브맥에 따르면, 이번 변화는 시리 AI 도입과 맞물려 이루어진 것으로, 비주얼 인텔리전스 기능이 카메라 앱 내부의 하나의 촬영 모드로 통합되면서 구조적인 재정비가 진행된 결과다.
기존 iOS 18과 iOS 26에서는 카메라 컨트롤을 짧게 누르면 카메라 앱이나 지정된 사진 앱이 실행되고, 길게 누르면 비주얼 인텔리전스가 실행되는 방식이었다. 즉 하나의 버튼이 사실상 서로 다른 두 가지 기능을 각각의 방식으로 호출하는 구조였던 셈이다.
이로 인해 사용자가 단순히 사진을 찍으려는 의도로 버튼을 눌렀더라도, 누르는 시간이 조금만 길어지면 비주얼 인텔리전스가 전체 화면으로 실행되는 경우가 적지 않았다. 특히 해당 기능은 비교적 무거운 인터페이스를 기반으로 동작했기 때문에, 다시 일반 카메라 화면으로 돌아가기까지 여러 단계를 거쳐야 하는 불편도 있었다.
iOS 27에서는 이러한 문제를 개선하기 위해 비주얼 인텔리전스가 ‘시리 모드’라는 이름으로 카메라 앱 내부에 통합됐다. 이에 따라 길게 눌러 시리 모드가 실행되더라도, 사용자는 화면을 옆으로 스와이프하는 것만으로 즉시 사진 모드로 전환할 수 있게 됐다.
이러한 변화는 카메라 컨트롤을 단순화해 온 iOS 26의 흐름과도 이어진다. 복잡한 기능을 줄이고 직관성을 높이는 방향으로 아이폰의 전용 셔터 버튼 역할을 재정립하려는 의도가 반영된 것으로 보인다. iOS 27은 현재 개발자 베타 버전으로 제공되고 있다.
키워드 #애플 #아이폰 #iOS 27 #카메라 컨트롤
이 시각 추천뉴스 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 클래리티법 통과 가능성 75%→60%…상원 일정·스테이블코인 쟁점 부담 그레이스케일, 비트코인 바닥 조건 제시…'스트래티지 외 새 매수 주체 필요' 日 최대 거래 플랫폼 메르카리, 시바이누·도지코인 지원…이용자 2300만명 대상 마스터카드 AI 결제망에 리플 합류…XRP 빠지고 RLUSD 전면에