금융권과 스타트업 간 실질적인 협업 사례를 조명하고, 시상과 후속 사업 기회까지 연결하는 자리가 마련된다.
디캠프(대표 박영훈)는 한국핀테크지원센터와 이달 24일 디캠프 마포에서 ‘스타트업 OI #금융권’ 행사를 연다고 밝혔다.
이번 행사에는 9대 1의 경쟁률을 뚫고 선발된 ▲고이장례연구소 ▲테라파이 ▲티냅스 ▲왓섭 ▲웰로 5개 스타트업이 금융기관 측 협업 담당자와 함께 무대에 오른다. 각 팀은 협력 과정에서의 문제 해결 과정과 데이터·기술 기반의 시너지, 사업 성과, 향후 협력 비전을 발표한다.
고이장례연구소는 원스톱 장례 플랫폼 ‘고이’를 통해 월 100원부터 시작하는 장례 준비 서비스를 제공 중이다. OK저축은행과 협업해 최고 연 4% 금리와 상조 혜택을 결합한 ‘OK이자도받는상조적금’을 출시하며 장례 서비스의 금융 연계 모델을 확장한 사례를 발표한다.
테라파이는 부동산 계약 전 리스크를 데이터 기반으로 분석하는 ‘안심등기 Decision OS’를 개발한 프롭테크 기업이다. 전세 계약 전 주택 상태를 확인할 수 있는 ‘세이프홈즈’ 서비스를 기반으로, 금융기관이 활용 가능한 부동산 리스크 데이터 구조화 사례를 우리은행과 소개한다.
AI 에이전트 신뢰성 검증 스타트업 티냅스는 금융 AI 답변의 신뢰성을 검증하는 솔루션을 제공하는 기업이다. AI가 생성한 답변을 업무 기준에 따라 통과·차단·재검토로 분류하는 기술을 바탕으로, KB국민은행과 협력해 AI 활용 과정에서 발생할 수 있는 리스크를 사전에 점검하는 사례를 발표한다.
왓섭은 결제 및 가맹점 데이터를 소비 항목과 행동 패턴 중심으로 구조화하는 AI 기반 데이터 인프라를 개발했다. 이를 통해 금융사의 초개인화 마케팅과 AI 서비스 고도화를 지원하며, 신한카드와의 협업 사례를 공유할 예정이다.
웰로는 정부 정책 및 지원금 데이터를 수집·정제해 개인과 기업에 맞춤형으로 추천하는 데이터 플랫폼을 운영 중이다. 이 회사는 카카오뱅크와 협력해 정책 데이터와 금융 서비스 간 연계를 강화한 사례를 선보인다.
'변화'냐 '변질'이냐...디캠프 내부 갈등 격화 2026.06.02 강 건너 디캠프 불구경 하는 은행연합회의 ‘사소한 침묵’ 2026.06.02 스타트업 파트너 디캠프... '배치' 누적 지원수 4000건↑ 2026.06.04 디캠프-JR동일본, 국내 스타트업 일본 진출 돕는다 2026.05.13
발표 종료 후 최우수 사례에는 금융위원장상이, 우수 사례에는 은행연합회장상(디캠프 이사장상)과 한국핀테크지원센터 이사장상이 각각 수여된다. 아울러 공공성과 포용성이 높은 협력 사례를 선정해 상생 협력상(지역금융그룹회장상, BNK금융그룹 회장상)을 별도로 수여 하며, 총 1천만원 규모의 상금이 스타트업과 금융기관 담당자에게 공동으로 제공된다.
본선 진출 스타트업에게는 ▲디캠프 배치 프로그램 선발 검토 ▲금융권 사업 협력 및 투자 연계 기회 ▲한국핀테크지원센터 기술실증(PoC) 지원 사업 연계 등 후속 지원도 이뤄진다.
샘 알트먼, 삼성·카카오·네이버 찾는다…AI 협력 확대 논의
샘 알트먼 오픈AI CEO [사진: 셔터스톡]
[디지털투데이 이호정 기자] 오픈AI 샘 알트먼 최고경영자(CEO)가 오는 14일 방한해 15일 저녁 출국하는 1박 2일 일정으로 삼성전자·카카오·네이버를 잇따라 방문한다. 지난해 10월 방한 이후 약 8개월 만이다.
11일 업계에 따르면 알트먼 CEO는 15일 경기 수원 삼성전자 디지털시티를 찾아 DX부문 임직원들과 'DX 인사이트 토크'(DX Insight Talk) 행사를 진행한다.
삼성전자 DX부문이 챗GPT·제미나이 엔터프라이즈·클로드 등 외부 생성형 AI 서비스를 사내에 공식 도입하는 것을 계기로 마련된 자리다. 알트먼 CEO는 이 자리에서 AI 기술 발전이 가져올 변화와 AI 기반 업무 혁신 방향에 대해 강연하고 임직원들과 의견을 나눌 예정이다.
삼성전자는 사내 공지를 통해 "AI와 함께 일하는 시대, 그 변혁의 중심에 선 글로벌 AI 리더인 올트먼과 AI 기술이 만들어 갈 미래의 변화와 AI 기반 업무 혁신에 대한 얘기를 나눌 것"이라고 밝혔다. 업계에 따르면 DX부문이 도입한 AI 3종 중 챗GPT의 채택 범위가 가장 넓어, DX부문 전 세계 임직원 전원이 사용하는 것으로 알려졌다.
알트먼 CEO는 같은 날 오전 9시 경기 성남 카카오 판교아지트를 방문해 정신아 대표와 회동한다. 카카오는 "이번 미팅은 양사의 추가 협력 방안을 논의하기 위한 자리로, 구체적인 논의 사항은 15일 미팅 이후 공유하겠다"고 밝혔다. 오픈AI와 카카오는 지난해 2월 카카오 주요 서비스에 챗GPT를 결합하는 것을 골자로 한 전략적 제휴를 체결했으며, 같은 해 10월 '챗GPT 포 카카오'를 출시한 바 있다. 이번 회동에서는 카카오톡의 대화 맥락과 챗GPT 간 연계성을 강화하는 방안이 집중 협의될 것으로 전해졌다. 두 사람의 공식 대면은 지난해 2월 전략적 제휴 발표 이후 1년 4개월 만이다.
알트먼 CEO는 네이버 제2사옥 1784도 방문할 예정이다. 네이버 측은 방문 사실을 공식 확인하면서도 구체적인 시간은 미정이라고 밝혔다. 이번 방문은 양사 간 협력 방안이 있는지 모색하는 초기 미팅 성격인 것으로 전해졌다. 앞서 지난 8일 젠슨 황 엔비디아 CEO가 네이버 1784를 방문해 기가와트(GW)급 AI 팩토리 구축 등 인프라 협력 계획을 밝힌 데 이어, 알트먼 CEO까지 같은 사옥을 찾는 것이다. 네이버는 자체 거대언어모델(LLM) '하이퍼클로바X'와 클라우드·데이터센터 인프라를 보유하고 있다.
한편 알트먼 CEO는 지난해 10월 방한 당시 이재용 삼성전자 회장, 최태원 SK그룹 회장과 연쇄 회동을 갖고 각각 전략적 파트너십을 구축했다. 당시 삼성전자와 SK하이닉스는 오픈AI가 오라클·소프트뱅크와 함께 4년간 5000억달러(약 726조원)를 투입해 미국 내 대규모 AI 데이터센터를 구축하는 '스타게이트' 프로젝트에 고성능·저전력 메모리를 공급하기로 합의했다.
이번 방한을 계기로 해당 파트너십이 구체화할지 주목된다. 다만 이재용 회장은 현재 유럽 출장 중이고 최태원 회장과는 일정이 맞지 않아 이번에는 두 회장 모두와의 별도 회동은 이뤄지지 않을 것으로 알려졌다.
키워드 #샘 알트먼 #네이버 #카카오 #삼성전자 #AI #방한
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
mq - jq 스타일 Markdown 쿼리 언어 (mqlang.org)
jq와 유사한 문법으로 Markdown 문서를 질의·필터링·변환 하는 CLI 도구로, JSON에서 jq가 하던 역할을 Markdown으로 옮겨옴 마크다운을 구조화된 데이터로 만들어 슬라이스, 필터, 매핑, 변환하는 작업을 손쉽게 배치 처리 가능 LLM이 Markdown을 기본 입력 형식으로 사용하므로 LLM 워크플로우와 입력 생성 에 특히 유용함 프롬프트/출력에 쓰이는 Markdown 조작, 문서 관리, 콘텐츠 분석, 배치 처리 등에 활용 다양한 입출력 포맷 지원: markdown, mdx, html, csv, json, toml, xml, yaml 등 입력, table·grep·json 등 출력 파일 확장자나 -I 플래그로 자동 파싱 수행 헤딩,코드 블록,링크,테이블 셀을 셀렉터로 추출 ( .h(1..3) , .code("rust") , .link.url 등) 제목 기반 섹션 단위 추출 지원 ( section::section("Installation") ) mq conv 로 Excel·Word·PDF를 Markdown으로 변환 후 Unix 파이프 로 연결 처리 가능 다수의 내장 함수와 셀렉터로 콘텐츠 필터 및 변환 가능하며, 커스텀 함수로 손쉽게 확장 가능 REPL·LSP·VSCode 확장·디버거( mq-dbg ) 등 개발 편의 기능 포함 Playground 에서 설치 없이 브라우저에서 실행 가능 mq-web 으로 WebAssembly 빌드 제공 Elixir, Python, Ruby, Java, Go 언어용 바인딩 제공 MIT License, Rust로 구현
함께 보면 좋은 글 β mdq - 마크다운을 위한 jq QMD - 퀵 마크다운 서치 sq - 데이터베이스 및 기타 기능을 위한 jq 대체제 SQ - swiss-army knife for data jc - CLI 도구의 출력을 JSON화 하는 도구
sq - 데이터베이스 및 기타 기능을 위한 jq 대체제
SQ - swiss-army knife for data
jc - CLI 도구의 출력을 JSON화 하는 도구
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ xunre 2일전 [-] 드디어 내게 필요한게 나왔다... 답변달기
구글의 연례 개발자 컨퍼런스 ‘구글 I/O 2026’이 19일(현지시간) 미국 캘리포니아주 마운틴뷰에 위치한 쇼어라인 앰피시어터에서 첫 시작을 알렸다. 구글은 이번 행사에서 삼성전자와 함께 개발한 새로운 스마트 안경을 비롯해 다양한 인공지능(AI) 기반 신제품과 기능을 공개했다. IT매체 안드로이드 헤드라인은 이날 발표된 내용 가운데 사용자의 디지털 생활 방식을 크게 바꿀 소비자 중심 AI 기능 5가지를 꼽아서 소개했다. 1. 제미나이 3.5 플래시 (사진=구글) 먼저 구글은 속도와 비용 효율성을 강화한 경량 AI 모델 ‘제미나이 3.5 플래시’를 공개했다. 고급 추론 능력보다 빠른 응답 속도에 초점을 맞춘 모델로, 제미나이 앱과 구글 검색 AI 모드의 기본 모델로 적용된다. 구글에 따르면 제미나이 3.5 플래시는 긴 문서 요약, 초안 작성, 복잡한 질문 응답 속도를 이전 세대 대비 최대 4배까지 향상시켰다. 순다르 피차이 알파벳 최고경영자(CEO)는 “하루 1조 개의 토큰을 사용하는 기업이 업무량의 80%를 3.5 플래시로 전환할 경우 연간 10억 달러 이상을 절감할 수 있다”며 경제성을 강조했다. 이번 업데이트를 통해 기존 AI 서비스에서 발생하던 로딩 지연도 크게 줄어들 것으로 예상된다. 2. 제미나이 옴니 구글은 텍스트, 사진, 영상, 오디오 등 다양한 입력을 바탕으로 영상을 만들 수 있는 '제미나이 옴니'를 공개했다. 이 기능은 제미나이 앱과 유튜브 쇼츠 리믹스 같은 소비자용 도구에 바로 통합된다. 제미나이 옴니로 만든 영상 (영상=구글) 제미나이 옴니는 기존 영상 제작 도구와 달리 음성만으로 영상 제작과 편집이 가능하다. 사용자는 클립을 업로드한 뒤 음성 명령을 통해 배경 장면을 바꾸거나 음향 효과를 추가하고, 새로운 캐릭터를 삽입할 수 있다. 3. 구글 검색 ‘AI 에이전트’ 기능 도입 구글 검색에도 대대적인 변화가 적용된다. 기존 검색창이 단순한 링크 목록 제공을 넘어 능동형 AI 도우미 역할을 수행하게 된다. 새 검색 기능은 사용자가 검색어를 입력하는 동시에 개인 맞춤형 작업 공간을 실시간 생성하며, 인터랙티브 위젯과 실시간 데이터 추적기, 비교 대시보드 등을 자동으로 제공한다. 특히 검색창 왼쪽에는 이미지와 영상, 문서 첨부 버튼이 새롭게 추가되며, 검색어가 길어질수록 검색창 크기가 자동으로 커지는 ‘다이내믹 검색 상자’ 기능도 도입된다. 구글은 이날부터 AI 서비스를 적용 중인 국가에 순차적으로 변화를 적용할 방침이다. 4. 유튜브에 질문하기 (사진=구글) 긴 동영상에서 관련 정보를 하나 찾는 데는 상당한 시간이 소요될 수 있다. 이런 동영상 검색 과정을 간소화하기 위해 구글은 '유튜브에 물어보세요(Ask YouTube)'라는 대화형 챗봇 인터페이스를 출시했다. 이 기능은 영상 내용을 분석해 사용자의 질문에 텍스트 형태로 답변하며, 질문과 관련된 장면으로 즉시 이동할 수 있는 타임스탬프 링크도 함께 제공한다. 긴 영상 속 원하는 정보를 보다 빠르게 찾을 수 있도록 지원하는 기능이다. 5. 유니버설 카트 쇼핑 기능도 AI 중심으로 재편된다. 구글은 검색과 제미나이, 유튜브, 지메일 전반에서 상품을 통합 관리할 수 있는 ‘유니버설 카트’를 선보였다. 사진=구글 유니버설 카트는 여러 쇼핑몰과 서비스에 흩어진 상품을 하나의 장바구니에 담아 관리할 수 있도록 지원한다. 구글 월렛 보안 인프라 기반으로 구축됐으며, 저장된 카드 정보를 자동 연동하고 할인 혜택 탐색과 가격 변동 추적 기능도 제공한다. 이용자가 관심 상품을 담아두면 AI가 가격 인하와 재입고 여부까지 알려준다.
IT매체 안드로이드 헤드라인은 이날 발표된 내용 가운데 사용자의 디지털 생활 방식을 크게 바꿀 소비자 중심 AI 기능 5가지를 꼽아서 소개했다.
먼저 구글은 속도와 비용 효율성을 강화한 경량 AI 모델 ‘제미나이 3.5 플래시’를 공개했다. 고급 추론 능력보다 빠른 응답 속도에 초점을 맞춘 모델로, 제미나이 앱과 구글 검색 AI 모드의 기본 모델로 적용된다.
구글에 따르면 제미나이 3.5 플래시는 긴 문서 요약, 초안 작성, 복잡한 질문 응답 속도를 이전 세대 대비 최대 4배까지 향상시켰다. 순다르 피차이 알파벳 최고경영자(CEO)는 “하루 1조 개의 토큰을 사용하는 기업이 업무량의 80%를 3.5 플래시로 전환할 경우 연간 10억 달러 이상을 절감할 수 있다”며 경제성을 강조했다. 이번 업데이트를 통해 기존 AI 서비스에서 발생하던 로딩 지연도 크게 줄어들 것으로 예상된다.
구글은 텍스트, 사진, 영상, 오디오 등 다양한 입력을 바탕으로 영상을 만들 수 있는 '제미나이 옴니'를 공개했다. 이 기능은 제미나이 앱과 유튜브 쇼츠 리믹스 같은 소비자용 도구에 바로 통합된다.
제미나이 옴니는 기존 영상 제작 도구와 달리 음성만으로 영상 제작과 편집이 가능하다. 사용자는 클립을 업로드한 뒤 음성 명령을 통해 배경 장면을 바꾸거나 음향 효과를 추가하고, 새로운 캐릭터를 삽입할 수 있다.
구글 검색에도 대대적인 변화가 적용된다. 기존 검색창이 단순한 링크 목록 제공을 넘어 능동형 AI 도우미 역할을 수행하게 된다.
새 검색 기능은 사용자가 검색어를 입력하는 동시에 개인 맞춤형 작업 공간을 실시간 생성하며, 인터랙티브 위젯과 실시간 데이터 추적기, 비교 대시보드 등을 자동으로 제공한다. 특히 검색창 왼쪽에는 이미지와 영상, 문서 첨부 버튼이 새롭게 추가되며, 검색어가 길어질수록 검색창 크기가 자동으로 커지는 ‘다이내믹 검색 상자’ 기능도 도입된다.
구글은 이날부터 AI 서비스를 적용 중인 국가에 순차적으로 변화를 적용할 방침이다.
긴 동영상에서 관련 정보를 하나 찾는 데는 상당한 시간이 소요될 수 있다. 이런 동영상 검색 과정을 간소화하기 위해 구글은 '유튜브에 물어보세요(Ask YouTube)'라는 대화형 챗봇 인터페이스를 출시했다.
이 기능은 영상 내용을 분석해 사용자의 질문에 텍스트 형태로 답변하며, 질문과 관련된 장면으로 즉시 이동할 수 있는 타임스탬프 링크도 함께 제공한다. 긴 영상 속 원하는 정보를 보다 빠르게 찾을 수 있도록 지원하는 기능이다.
쇼핑 기능도 AI 중심으로 재편된다. 구글은 검색과 제미나이, 유튜브, 지메일 전반에서 상품을 통합 관리할 수 있는 ‘유니버설 카트’를 선보였다.
유니버설 카트는 여러 쇼핑몰과 서비스에 흩어진 상품을 하나의 장바구니에 담아 관리할 수 있도록 지원한다. 구글 월렛 보안 인프라 기반으로 구축됐으며, 저장된 카드 정보를 자동 연동하고 할인 혜택 탐색과 가격 변동 추적 기능도 제공한다. 이용자가 관심 상품을 담아두면 AI가 가격 인하와 재입고 여부까지 알려준다.
전기차는 주춤, 전력 저장은 폭발…GM, 테슬라 '황금시장' 정조준
GM이 나트륨이온 배터리를 앞세워 에너지저장장치 시장 진출에 나섰다. EV 성장 둔화 속에 완성차 업계가 테슬라가 주도하는 ESS 시장을 새로운 성장동력으로 정조준하고 있다.
EV 성장 둔화 속에 완성차 업계가 ESS 시장을 새로운 성장동력으로 정조준하고 있다. [사진: GM]
[디지털투데이 AI리포터] 미국 완성차 업체들이 전기차를 넘어 에너지저장장치(ESS) 시장으로 사업 영역을 확대하고 있다.
10일(이하 현지시간) IT매체 테크크런치에 따르면, 제너럴모터스(GM)는 정지형 배터리 시장을 겨냥한 새로운 나트륨이온 배터리 화학계를 공개했다.
배경은 전기차 시장과 에너지저장 시장의 엇갈린 성장세다. 미국 전기차 판매는 둔화하는 반면 대형 고정식 배터리 설치 규모는 최근 2년 동안 두 배로 늘었다. 태양광산업협회는 세제 혜택 축소에도 2030년 연간 설치량이 110기가와트시(GWh)를 넘어설 것으로 전망했다. 현재의 약 두 배 수준이다.
GM도 이러한 흐름을 새로운 성장 기회로 보고 있다. 커트 켈티(Kurt Kelty) GM 배터리·지속가능성 담당 부사장은 "이 시장에는 잠재력이 크다"라고 말했다. 그는 데이터센터 확대와 산업 전반의 전기화가 수요를 동시에 끌어올리고 있다며, 데이터센터를 제외하더라도 에너지저장 수요 증가는 이미 시작됐다고 설명했다.
에너지저장 시장을 노리는 기업은 자동차 업체만이 아니다. 베이스파워는 지난해 10월 10억달러 규모 시리즈C 투자를 유치했고, 루나에너지는 주택용 배터리 사업 확대를 위해 2억3200만달러를 조달했다. 전기 레저차 업체 라이트십도 공사 현장 등 임시 전력이 필요한 곳에 활용할 수 있는 이동형 배터리 사업으로 영역을 넓히고 있다.
현재 시장 주도권은 테슬라가 쥐고 있다. 지난해 설치된 57GWh 규모 ESS 가운데 82%를 테슬라가 차지했다. 테슬라의 에너지 생산·저장 부문 매출은 2023년 이후 두 배로 증가했으며, 메가팩과 파워월 판매 확대가 성장을 이끌었다. 이 부문의 매출총이익률은 약 30%로 전기차 사업의 두 배 수준이며, 일반 완성차 업체 수익성을 크게 웃돈다. GM의 최근 15년 평균 매출총이익률은 11%를 약간 넘는 수준이다.
다만 GM은 대규모 시장 진입에 신중한 태도를 보이고 있다. 첫 핵심 제품인 나트륨이온 셀의 상용화 시점은 2020년대 후반으로 계획하고 있다.
GM이 나트륨이온 배터리를 선택한 이유는 비용 경쟁력과 공급망 안정성 때문이다. 회사는 나트륨이온 배터리가 원재료가 풍부하고 저렴하며, 능동 냉각 시스템이 필요 없고 리튬이온 배터리보다 더 많은 충방전 사이클을 견딜 수 있다고 설명했다.
앤디 오우리(Andy Oury) GM 사업기획 매니저는 "공급망 회복력과 저비용 소재 확보 경로를 제공한다"라며 "나트륨이온은 아직 초기 단계이기 때문에 충분한 투자가 이뤄지면 여러 지역에서 공급망을 구축할 수 있다"라고 말했다.
이 전략은 전기차 사업과도 연결된다. GM은 기존 기가팩토리의 리튬이온 배터리 생산능력을 ESS용으로 전환하기보다 향후 전기차 수요 회복에 대비해 유지하는 방안을 택했다.
GM은 2028년 리튬망간리치(LMR) 배터리도 선보일 계획이다. 이 배터리는 현재 수준의 주행거리를 상당 부분 유지하면서 전기차 가격을 약 10% 낮추는 것을 목표로 한다.
나트륨이온 배터리는 향후 전기차용으로 확대 적용될 가능성도 있다. 중국 자동차 업체들은 이미 관련 기술 적용을 시험하고 있다. 나트륨이온 배터리는 무게 증가와 짧은 주행거리라는 한계가 있지만 가격 경쟁력이 높고 화재 위험이 상대적으로 낮으며 급속 충전 잠재력도 갖고 있다.
커트 켈티는 나트륨이온이 전기차의 장기 해법이 될지는 아직 확실하지 않지만 연구를 지속하고 있다며 가능성을 열어두고 있다고 밝혔다.
완성차 업계가 전기차 성장 둔화에 대응해 새로운 수익원을 찾는 가운데, 에너지저장 시장이 핵심 격전지로 떠오르고 있다.
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
KT가 경기권 IT·게임·미디어 스타트업 대상으로 AX 전략을 공유했다.
KT는 경기창조경제혁신센터, 아마존웹서비스(AWS), 데이터브릭스코리아, KT클라우드와 'KT AX 이머전 경기'를 진행했다고 11일 밝혔다. 행사는 지난 10일 경기도 성남시 판교창업존에서 진행됐으며, 경기 소재 IT, 게임, 미디어 스타트업을 대상으로 AI와 클라우드 기반 AX 전략과 실질적 업무 혁신 방안을 공유하기 위해 열렸다.
참가 기업은 각사 전문 영역을 바탕으로 스타트업에 적합한 기술과 노하우를 공유했다. 스타트업이 자사 환경에 맞는 AX를 모색할 수 있도록 지원했다.
AWS는 'AI 에이전트 온 AWS'를 주제로, 사용자 요청을 이해하고 필요한 작업을 자율적으로 수행하는 AI 에이전트 기술을 활용한 업무 혁신 방안을 소개했다.
이어 'AI 엔지니어링 3.0, 하네스가 만드는 새로운 빌드 패러다임' 세션을 통해, AI 모델 자체를 넘어 모델을 실제 서비스로 구현하기 위한 주변 기술 체계인 '하네스 엔지니어링'을 중심으로 AI 시대에 변화하는 개발, 운영 방식을 제시했다.
데이터브릭스는 ‘스타트업 생존방정식, 현업 중심 데이터 환경이 의사결정 속도를 바꾸는 방법’을 주제로, 스타트업과 성장 기업이 데이터 기반 의사결정 체계를 구축하는 방법을 공유했다.
KT는 ‘클라우드플렉스’를 활용한 가입자 업무 혁신 사례를 소개했다. 클라우드플렉스는 가입자 환경에 맞춰 다양한 클라우드 서비스를 최적화해 제공하는 클라우드 서비스다.
전용 하드웨어 기반으로 고성능, 고보안 클라우드 환경을 제공하면서도, 온디맨드 방식으로 확장 가능하며 퍼블릭 클라우드의 유연성과 프라이빗 인프라의 안정성을 동시에 확보했다.
KT클라우드는 지자체, 행정 시스템 등 공공 기관과 금융, 핀테크 기업 서비스 이전 분야 클라우드 전환 우수 사례를 통해 기업의 안정적 클라우드 도입과 운영 전략을 제시했다.
KT "AI·데이터 통합 전략으로 광고 효과 극대화" 2026.06.10 KT, 입국 몽골인에 금융·모바일 통합 패키지 제공 2026.06.10 KT, 월드컵 인파 밀집지에 네트워크 운영 방안 마련 2026.06.09 KT, 광화문 '온마루'서 월드컵 팝업 연다 2026.06.08
KT는 행사가 참가 스타트업이 AI, 데이터, 클라우드 기술을 자사 비즈니스에 효과적으로 접목하고, AX 추진 방향을 구체화하는 데 실질적 도움이 될 것으로 기대한다고 설명했다.
이진형 KT AX사업본부장은 “보유한 다양한 AX 노하우를 바탕으로 지역 산업 특성과 기업별 AX 추진 단계에 맞춘 실질적인 기술 정보를 제공하고, 파트너사와 협력해 기업의 AI, 클라우드 전환을 적극 지원하겠다”고 약속했다.
몇 시간 걸리던 하역이 몇 분 만에…월마트, AI 물류 혁명 시작됐다
월마트가 AI와 로봇을 활용한 차세대 물류센터를 통해 트럭 하역 시간을 몇 시간에서 몇 분 수준으로 단축했다. 매장별 데이터를 활용한 팔레트 자동 배치로 재고 보충 효율과 공급망 운영 속도도 크게 높아졌다.
월마트가 AI와 로봇을 활용한 차세대 물류센터를 통해 트럭 하역 시간을 크게 단축시켰다. [사진: 셔터스톡]
[디지털투데이 AI리포터] 월마트가 인공지능(AI)과 로봇을 활용한 차세대 물류센터를 통해 매장 직원들의 트럭 하역 시간을 몇 시간에서 몇 분 수준으로 줄였다.
10일(현지시간) 비즈니스인사이더에 따르면, 월마트는 매장 단위 데이터를 기반으로 팔레트 적재 방식을 개선해 매대 재고 보충 속도도 높이고 있다.
데이비드 구지나(David Guggina) 월마트 미국 최고경영자(CEO)는 10일 오펜하이머 소비자 성장·전자상거래 콘퍼런스에서 로봇이 매장별 데이터를 바탕으로 팔레트를 배치해 직원들이 매대를 더 효율적으로 채울 수 있도록 지원한다고 밝혔다.
핵심은 상품을 지능적으로 분류해 층별로 적재한 팔레트다. 과거에는 매장 직원들이 트럭 한 대의 화물을 모두 내리는 데 몇 시간이 걸렸지만, 현재는 트레일러 하역 작업을 몇 분 만에 마칠 수 있다고 데이비드 구지나는 설명했다.
물류센터는 특정 매장에서 가장 시급하게 필요한 상품이 담긴 팔레트도 선별할 수 있다. 해당 팔레트는 트럭에 가장 마지막으로 적재돼 매장 도착 후 가장 먼저 하역되도록 설계된다.
월마트는 미국에서 가장 빠른 소매업체가 되겠다는 목표 아래 최근 수년간 공급망 자동화에 지속적으로 투자해 왔다. 이를 위해 로봇이 대거 투입된 신규 물류시설을 구축했으며, AI는 이들 로봇의 작업을 실시간으로 조율하고 있다.
월마트는 올해 말까지 차세대 물류센터를 16곳으로 확대할 계획이다. 데이비드 구지나는 자동화와 재고 가시성 향상이 공급망과 매장 운영 효율을 높이고 비용 절감에도 기여하고 있다며, 절감한 비용은 더 낮은 가격을 제공하는 데 재투자할 수 있다고 밝혔다.
키워드 #월마트 #AI #인공지능 #하역 #물류센터
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
TypeScript를 LLVM 기계어로 직접 컴파일, "Perry" 네이티브 컴파일러 (github.com/PerryTS)
기존의 TypeScript 개발 패러다임은 고수준 추상화인 TS 코드를 JavaScript로 트랜스파일한 뒤, V8이나 JavaScriptCore 같은 무거운 JIT 런타임 엔진(Node.js, Bun, Deno 등) 위에서 구동하는 방식이 당연시되어 왔습니다. 최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다. 💡 핵심 아키텍처 및 특징 No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다. 크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다. True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다. 초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다. 🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다. 동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다. Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다. # 사용법은 극도로 심플합니다 $ perry compile src/main.ts -o myapp $ ./myapp # 의존성 없는 순수 네이티브 바이너리 실행 웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다. GitHub: https://github.com/PerryTS/perry
최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다.
No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다.
크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다.
True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다.
초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다.
🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다.
동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다.
Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다.
웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다.
GitHub: https://github.com/PerryTS/perry
함께 보면 좋은 글 β Spinel - Ruby AOT 네이티브 컴파일러 RJIT, Ruby를 위한 새로운 JIT 자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal Node.js 타입스크립트를 기본으로 지원하기 시작 Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
Spinel - Ruby AOT 네이티브 컴파일러
자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal
Node.js 타입스크립트를 기본으로 지원하기 시작
Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ cloverhearts 14시간전 [-] 응원합니다 답변달기 ▲ tsboard 1일전 [-] 재밌는 접근법입니다. 런타임 제거만으로도 큰 성과이긴 하네요! 답변달기 ▲ jeeeyul 2일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기 ▲ shakespeares 2일전 [-] perry 어감 좋네요. 답변달기 ▲ sea715 2일전 [-] 재미있네요 답변달기 ▲ ohah173 2일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기 ▲ heycalmdown 2일전 [-] 흥미롭네요. 답변달기
▲ jeeeyul 2일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다.
그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
▲ shakespeares 2일전 [-] perry 어감 좋네요. 답변달기
▲ sea715 2일전 [-] 재미있네요 답변달기
▲ ohah173 2일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만,
로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요
다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
▲ heycalmdown 2일전 [-] 흥미롭네요. 답변달기
발행일: 2026-06-11 21:27 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
케임브릿지 대학교의 연구진들은 네트워크 전반에 걸쳐 적응하는 AI 웜을 구축하였습니다. (helpnetsecurity.com)
토론토대 연구진 등이 고정된 취약점 목록 대신 오픈웨이트 소형 언어모델(LLM)을 활용해 스스로 타깃을 분석하고 공격 전략을 수립해 기업 네트워크를 전파하는 자율형 AI 웜(Worm)의 개념 증명에 성공했습니다. 전문 번역 토론토 대학교, 벡터 연구소, 케임브리지 대학교의 연구진이 고정된 익스플로잇(취약점 공격) 목록에 의존하지 않고 작동하는 자율형 AI 기반 웜의 개념 증명(PoC) 모델을 개발하고 테스트했습니다. 이 웜은 조우하는 각 타깃을 스스로 분석하고, 어떻게 공격할지 추론하며, 즉석에서 전략을 수립합니다. 이 모든 과정은 이미 감염시킨 기기에서 직접 구동되는 무료 소형 오픈웨이트 언어모델(LLM)의 도움을 받아 이루어집니다. 감염된 하드웨어에서 호스팅되는 오픈웨이트 모델 기반의 웜 연구진은 "우리의 프로토타입은 공개되었으나 패치되지 않은 취약점, 잘못된 설정, 그리고 반복되는 취약점 클래스를 타깃으로 삼으며, 이는 실제 사이버 공격의 대부분이 의존하는 요소"라고 설명했습니다. 또한 "이 웜은 새로운 제로데이 취약점을 발견하는 능력을 필요로 하지 않으며, 다양한 타깃 구성에 맞춰 기만된 기존 취약점을 실전에서 활용할 수 있을 만큼의 지능을 가진 AI 모델만 있으면 된다"고 덧붙였습니다. 알려진 취약점, 설정 오류, 흔한 약점을 가진 Linux 서버, Windows 기기, IoT 장치로 구성된 33개의 호스트가 포함된 격리된 테스트 네트워크 환경에서 연구진은 15회의 독립적인 실험을 진행했으며, 각 실험은 7일 동안 실행되었습니다. 실험 결과, 이 웜은 평균적으로 31.3개의 취약점을 정확히 식별했고 {b:31.3}, 23.1개의 호스트를 공격해 권한을 상승시켰으며 {b:23.1}, 20.4개의 호스트로 전파되는 데 성공했습니다 {b:20.4}. (전체 33개 호스트 중 감염 및 전파 비율은 약 62%에 달합니다 {p:62} .) 이 웜은 기반 모델의 데이터 학습 기준 시점(Cutoff) 이후에 공개된 취약점(Copy Fail, Dirty Frag, Marimo RCE 등)도 런타임에 공개 보안 권고문을 읽고 정보를 파악해 작동 가능한 익스플로잇을 제작함으로써 공격에 성공하는 능력을 보여주었습니다. 나아가 예기치 못한 실패가 발생했을 때 일반적인 추론 능력을 사용해 진단하고 해결책을 찾아냈습니다. 예컨대, 자신의 소스 코드에 하드코딩된 IP 차단 목록을 스스로 발견하고 아무런 지시 없이 이를 수정하기도 했습니다. 다른 사례에서는 가상머신(VM) 탐지 체크 버그로 인해 Alpine Linux와 Windows Server 2008 호스트에서 복제본이 충돌하자, 부모 웜이 타깃 기기에서 인증 소스 파일을 찾아내 문제가 되는 체크 로직을 제거한 뒤 성공적으로 재시도했습니다. 상용 AI 플랫폼에 의존하지 않는 프로토타입 웜 이 프로토타입이 특히 우려스러운 점은 스스로를 유지하는 방식에 있습니다. 웜은 감염시킨 기기 중 GPU가 탑재된 장치를 하이재킹하여 훔친 연산 자원으로 언어모델을 로컬에서 실행합니다. 모델을 직접 호스팅할 수 없는 IoT 센서와 같은 저사양 기기는 추론 쿼리를 네트워크 상류에 있는 감염된 GPU 노드로 라우팅해 처리합니다. 따라서 상용 AI 플랫폼이 구축해 둔 통제 조치로는 이러한 새로운 유형의 위협을 막을 수 없으며, 공격자가 로컬 실행 환경을 완전히 통제할 때 오픈웨이트 모델의 안전 가드레일이 쉽게 우회될 수 있음을 보여줍니다. 연구진은 "우리가 평가한 개념 증명 모델은 기반 모델의 능력적 한계를 그대로 물려받았습니다. 개별 익스플로잇 시도의 성공률은 44%였으며 {p:44} , 실패 원인의 대부분은 잘못된 공격 전략이라기보다는 결함이 있는 페이로드(데이터) 형태 때문이었습니다"라고 밝혔습니다. 이어서 "웜은 특히 웹 애플리케이션 구조, Windows 명령 환경, 그리고 정밀한 문자열 조작이 필요한 페이로드 구문 처리에서 어려움을 겪었습니다. 이는 현재 세대의 단일 GPU 모델이 가진 코드 생성의 한계를 반영하는 것일 뿐, 이 접근법 자체의 근본적인 제약은 아니며 향후 언어모델의 코드 생성 및 구조화된 출력 능력이 향상됨에 따라 극복될 것입니다. 이러한 개별 시도의 취약함에도 불구하고, 웜의 군집(Swarm) 아키텍처는 병렬적이고 독립적인 추론 경로를 통해 이를 보완하며 보고된 결과를 달성했습니다"라고 설명했습니다. 현재로서 AI 기반 웜에 대응하는 최선의 방어책 연구진은 이 연구가 가진 이중 용도(Dual-use, 선용과 악용 가능성) 특성을 솔직하게 인정하며, 에이전트의 추론 아키텍처, 전체 도구 모음, 사용된 LLM의 명칭을 포함한 구체적인 운영 세부 사항을 공개 논문에서 제외했습니다. 출판 전 이들은 캐나다의 여러 과학, 보안 및 국방 당국에 발견 사실을 공유했으며, 논문에 공격자에게 도움이 될 수 있는 정보가 포함되지 않도록 검토 지원을 받았습니다. (보안 연구자는 토론토 대학교에 프로토타입 접근 권한을 요청할 수 있습니다.) 또한 혁신적인 자가 복제 기능 때문에 연구진은 웜이 외부로 유출되지 않도록 테스트 실험실 내에 철저히 격리하는 데 각별한 주의를 기울였습니다. 연구진은 "이번 연구는 자율적인 사이버 공격이 이론적 위험에서 입증된 실존 능력으로 넘어왔다는 실증적 증거를 제공하며, 이는 AI 연구, 사이버 보안, 공공 정책 전반에 걸친 과제"라고 지적했습니다. 더불어 "이 연구는 세계가 아직 맞설 준비가 되지 않은 새로운 사이버 보안 위협을 드러냈습니다. 연구자, 업계, 정책 입안자 및 일반 대중이 이 새로운 위협을 해결하기 위해 시급히 힘을 모아야 합니다"라고 강조했습니다. 방어적 측면에서 이 연구는 두 가지 우선순위를 제시합니다: AI 지원 자동화 모의 침투 및 퍼징 도구 활용 : 조직은 적대적 세력이 취약점을 찾기 전에 자체 인프라의 악용 가능한 약점을 발견하고 패치해야 합니다. 철저한 네트워크 분할 : 적절한 네트워크 분할은 웜의 확산을 실질적으로 억제할 수 있습니다. 경계 내부의 그 어떤 것도 신뢰하지 않고 모든 접근 요청에 대해 지속적인 인증을 요구하는 '제로 트러스트(Zero-trust)' 원칙과, 침투 성공 시 피해가 확산되는 범위를 제한하는 '마이크로 세그멘테이션(Micro-segmentation)'이 필수적입니다. 연구진은 이 프로토타입 웜의 행동 시그니처는 현재의 네트워크 모니터링 및 침입 탐지 시스템(IDS)으로 포착할 수 있지만, 향후 악의적인 행위자가 만들 미래의 웜은 이러한 탐지를 우회하는 데 훨씬 더 능숙할 수 있다고 경고했습니다.
토론토대 연구진 등이 고정된 취약점 목록 대신 오픈웨이트 소형 언어모델(LLM)을 활용해 스스로 타깃을 분석하고 공격 전략을 수립해 기업 네트워크를 전파하는 자율형 AI 웜(Worm)의 개념 증명에 성공했습니다.
토론토 대학교, 벡터 연구소, 케임브리지 대학교의 연구진이 고정된 익스플로잇(취약점 공격) 목록에 의존하지 않고 작동하는 자율형 AI 기반 웜의 개념 증명(PoC) 모델을 개발하고 테스트했습니다. 이 웜은 조우하는 각 타깃을 스스로 분석하고, 어떻게 공격할지 추론하며, 즉석에서 전략을 수립합니다. 이 모든 과정은 이미 감염시킨 기기에서 직접 구동되는 무료 소형 오픈웨이트 언어모델(LLM)의 도움을 받아 이루어집니다.
연구진은 "우리의 프로토타입은 공개되었으나 패치되지 않은 취약점, 잘못된 설정, 그리고 반복되는 취약점 클래스를 타깃으로 삼으며, 이는 실제 사이버 공격의 대부분이 의존하는 요소"라고 설명했습니다. 또한 "이 웜은 새로운 제로데이 취약점을 발견하는 능력을 필요로 하지 않으며, 다양한 타깃 구성에 맞춰 기만된 기존 취약점을 실전에서 활용할 수 있을 만큼의 지능을 가진 AI 모델만 있으면 된다"고 덧붙였습니다.
알려진 취약점, 설정 오류, 흔한 약점을 가진 Linux 서버, Windows 기기, IoT 장치로 구성된 33개의 호스트가 포함된 격리된 테스트 네트워크 환경에서 연구진은 15회의 독립적인 실험을 진행했으며, 각 실험은 7일 동안 실행되었습니다.
실험 결과, 이 웜은 평균적으로 31.3개의 취약점을 정확히 식별했고 {b:31.3}, 23.1개의 호스트를 공격해 권한을 상승시켰으며 {b:23.1}, 20.4개의 호스트로 전파되는 데 성공했습니다 {b:20.4}. (전체 33개 호스트 중 감염 및 전파 비율은 약 62%에 달합니다 {p:62} .)
이 웜은 기반 모델의 데이터 학습 기준 시점(Cutoff) 이후에 공개된 취약점(Copy Fail, Dirty Frag, Marimo RCE 등)도 런타임에 공개 보안 권고문을 읽고 정보를 파악해 작동 가능한 익스플로잇을 제작함으로써 공격에 성공하는 능력을 보여주었습니다.
나아가 예기치 못한 실패가 발생했을 때 일반적인 추론 능력을 사용해 진단하고 해결책을 찾아냈습니다. 예컨대, 자신의 소스 코드에 하드코딩된 IP 차단 목록을 스스로 발견하고 아무런 지시 없이 이를 수정하기도 했습니다. 다른 사례에서는 가상머신(VM) 탐지 체크 버그로 인해 Alpine Linux와 Windows Server 2008 호스트에서 복제본이 충돌하자, 부모 웜이 타깃 기기에서 인증 소스 파일을 찾아내 문제가 되는 체크 로직을 제거한 뒤 성공적으로 재시도했습니다.
이 프로토타입이 특히 우려스러운 점은 스스로를 유지하는 방식에 있습니다. 웜은 감염시킨 기기 중 GPU가 탑재된 장치를 하이재킹하여 훔친 연산 자원으로 언어모델을 로컬에서 실행합니다. 모델을 직접 호스팅할 수 없는 IoT 센서와 같은 저사양 기기는 추론 쿼리를 네트워크 상류에 있는 감염된 GPU 노드로 라우팅해 처리합니다.
따라서 상용 AI 플랫폼이 구축해 둔 통제 조치로는 이러한 새로운 유형의 위협을 막을 수 없으며, 공격자가 로컬 실행 환경을 완전히 통제할 때 오픈웨이트 모델의 안전 가드레일이 쉽게 우회될 수 있음을 보여줍니다.
연구진은 "우리가 평가한 개념 증명 모델은 기반 모델의 능력적 한계를 그대로 물려받았습니다. 개별 익스플로잇 시도의 성공률은 44%였으며 {p:44} , 실패 원인의 대부분은 잘못된 공격 전략이라기보다는 결함이 있는 페이로드(데이터) 형태 때문이었습니다"라고 밝혔습니다. 이어서 "웜은 특히 웹 애플리케이션 구조, Windows 명령 환경, 그리고 정밀한 문자열 조작이 필요한 페이로드 구문 처리에서 어려움을 겪었습니다. 이는 현재 세대의 단일 GPU 모델이 가진 코드 생성의 한계를 반영하는 것일 뿐, 이 접근법 자체의 근본적인 제약은 아니며 향후 언어모델의 코드 생성 및 구조화된 출력 능력이 향상됨에 따라 극복될 것입니다. 이러한 개별 시도의 취약함에도 불구하고, 웜의 군집(Swarm) 아키텍처는 병렬적이고 독립적인 추론 경로를 통해 이를 보완하며 보고된 결과를 달성했습니다"라고 설명했습니다.
연구진은 이 연구가 가진 이중 용도(Dual-use, 선용과 악용 가능성) 특성을 솔직하게 인정하며, 에이전트의 추론 아키텍처, 전체 도구 모음, 사용된 LLM의 명칭을 포함한 구체적인 운영 세부 사항을 공개 논문에서 제외했습니다. 출판 전 이들은 캐나다의 여러 과학, 보안 및 국방 당국에 발견 사실을 공유했으며, 논문에 공격자에게 도움이 될 수 있는 정보가 포함되지 않도록 검토 지원을 받았습니다. (보안 연구자는 토론토 대학교에 프로토타입 접근 권한을 요청할 수 있습니다.)
또한 혁신적인 자가 복제 기능 때문에 연구진은 웜이 외부로 유출되지 않도록 테스트 실험실 내에 철저히 격리하는 데 각별한 주의를 기울였습니다.
연구진은 "이번 연구는 자율적인 사이버 공격이 이론적 위험에서 입증된 실존 능력으로 넘어왔다는 실증적 증거를 제공하며, 이는 AI 연구, 사이버 보안, 공공 정책 전반에 걸친 과제"라고 지적했습니다. 더불어 "이 연구는 세계가 아직 맞설 준비가 되지 않은 새로운 사이버 보안 위협을 드러냈습니다. 연구자, 업계, 정책 입안자 및 일반 대중이 이 새로운 위협을 해결하기 위해 시급히 힘을 모아야 합니다"라고 강조했습니다.
방어적 측면에서 이 연구는 두 가지 우선순위를 제시합니다:
연구진은 이 프로토타입 웜의 행동 시그니처는 현재의 네트워크 모니터링 및 침입 탐지 시스템(IDS)으로 포착할 수 있지만, 향후 악의적인 행위자가 만들 미래의 웜은 이러한 탐지를 우회하는 데 훨씬 더 능숙할 수 있다고 경고했습니다.
함께 보면 좋은 글 β LLM 기반 해킹용 익스플로잇 생성의 산업화가 다가온다 AI가 두 취약점 문화를 깨뜨리고 있다 Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 Codex가 삼성 TV를 해킹함
LLM 기반 해킹용 익스플로잇 생성의 산업화가 다가온다
Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨
취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음 (discuss.pytorch.kr)
PyTorchKR🔥🇰🇷 🤔💭 이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다. :one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다. :two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다. :three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다. 논문별 핵심 요약 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다. Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다. Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다. Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다. Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다. Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다. Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다. Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다. FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다. Harness-1: 상태 외부화 하니스가 적용된 검색 에이전트를 위한 강화학습 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses 논문 소개 검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다. 이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다. 반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다. 초록(Abstract) 검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다. 이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다. 상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다. 웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1 Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 . 논문 링크 https://arxiv.org/abs/2606.02373 더 읽어보기 https://github.com/pat-jj/harness-1 https://huggingface.co/pat-jj/harness-1 어텐션은 잊어라: 중요도 인지 어텐션만 있으면 된다 / Forget Attention: Importance-Aware Attention Is All You Need 논문 소개 트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다. 특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다. 더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다. 초록(Abstract) 어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다. Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field. 논문 링크 https://arxiv.org/abs/2606.02332 트랜스포머는 세 개의 프로젝션이 필요한가? QKV 변형의 체계적 연구 / Do Transformers Need Three Projections? Systematic Study of QKV Variants 논문 소개 트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다. 실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다. 더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다. 종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다. 초록(Abstract) 트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다. Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 논문 링크 https://arxiv.org/abs/2606.04032 더 읽어보기 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에이전틱 워크플로를 LLM 가중치에 컴파일하기: 100배 적은 비용으로 프런티어급에 가까운 품질 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost 논문 소개 최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다. 핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다. 실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다. 초록(Abstract) 에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다. Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs). 논문 링크 https://arxiv.org/abs/2605.22502 더 읽어보기 https://discuss.pytorch.kr/t/llm-subterranean-agent/10501 장기 범위 과제를 위한 에이전트 호환 컨텍스트 관리 학습 / Learning Agent-Compatible Context Management for Long-Horizon Tasks 논문 소개 대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다. AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다. 실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다. 초록(Abstract) 대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다. 우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다. LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems. 논문 링크 https://arxiv.org/abs/2605.30785 잠재 에이전트: 내재화된 멀티에이전트 토론을 위한 사후학습 절차 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate 논문 소개 대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다. 이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다. 이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다. 초록(Abstract) 멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents 논문 링크 https://arxiv.org/abs/2604.24881 더 읽어보기 https://github.com/johnsk95/latent_agents MOSS: 자율 에이전트 시스템에서 소스 수준 재작성을 통한 자기 진화 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems 논문 소개 배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다. MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다. 이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다. 실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다. 초록(Abstract) 배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다. Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention. 논문 링크 https://arxiv.org/abs/2605.22794 더 읽어보기 https://github.com/dav-joy-thon/MOSS 비협력 게임을 통한 언어 모델의 안전성 정렬 / Safety Alignment of LMs via Non-cooperative Games 논문 소개 언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다. 이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다. 또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다. 초록(Abstract) 언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다. Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame. 논문 링크 https://arxiv.org/abs/2512.20806 더 읽어보기 https://github.com/facebookresearch/advgame 계획, 관찰, 복구: 능동적 절차 지원을 위한 벤치마크와 아키텍처 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance 논문 소개 실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다. 이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다. 모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다. 또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다. 초록(Abstract) 번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다. We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery. 논문 링크 https://arxiv.org/abs/2606.04970 더 읽어보기 https://huggingface.co/datasets/facebook/wearable-ai FuzzingBrain V2: 자동화된 취약점 발견 및 재현을 위한 멀티에이전트 LLM 시스템 / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction 논문 소개 소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다. 초록(Abstract) 소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다. Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs. 논문 링크 https://arxiv.org/abs/2605.21779 ⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다.
:one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다.
:two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다.
:three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다.
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다.
Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다.
Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다.
Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다.
Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다.
Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다.
검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다.
이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다.
반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다.
검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다.
이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다.
상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다.
웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 .
https://arxiv.org/abs/2606.02373
https://github.com/pat-jj/harness-1
https://huggingface.co/pat-jj/harness-1
트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다.
특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다.
더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다.
어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다.
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
https://arxiv.org/abs/2606.02332
트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다.
실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다.
더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다.
종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다.
트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다.
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다.
핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다.
실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다.
에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다.
Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).
대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다.
AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다.
실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다.
대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다.
우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다.
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
https://arxiv.org/abs/2605.30785
대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다.
이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다.
이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다.
멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents
Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents
https://arxiv.org/abs/2604.24881
https://github.com/johnsk95/latent_agents
배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다.
MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다.
이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다.
실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다.
배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다.
Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.
https://arxiv.org/abs/2605.22794
https://github.com/dav-joy-thon/MOSS
언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다.
이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다.
또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다.
언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다.
Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.
https://arxiv.org/abs/2512.20806
https://github.com/facebookresearch/advgame
실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다.
이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다.
모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다.
또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다.
번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다.
We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.
소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다.
소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다.
Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.
https://arxiv.org/abs/2605.21779
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
함께 보면 좋은 글 β [2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음 [2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음 agentmemory - AI 코딩 에이전트용 영구 메모리 시스템 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 AI 어플리케이션을 위한 새로운 Language Model Stack
[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
agentmemory - AI 코딩 에이전트용 영구 메모리 시스템
취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법
AI 어플리케이션을 위한 새로운 Language Model Stack
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
APS 자회사 APS DNL이 경기도 광주시 오포 보도육교에 '투명 발광다이오드(LED) 미디어 난간'을 설치했다고 11일 밝혔다.
이번 사업은 경기도 특별조정교부금으로 추진한 '오포 보도육교 경관개선사업' 일환이다.
APS DNL은 기존 보도육교 구조에 최적화한 맞춤형 프레임 설계와 투명 LED 미디어 난간 시스템을 적용했다. 해당 시스템은 보도육교 이용자의 개방감과 안전성을 유지하면서 시정 홍보와 재난·안전정보,지역축제·문화행사 안내, 관광정보 등 콘텐츠를 실시간 표출할 수 있다.
ASP DNL은 " 투명 LED 미디어 난간 투과율이 높아 기존 육교 구조물과 일체형으로 조화를 이룬다 "며 "광주시 경관 지침을 반영해 운전자와 보행자 안전을 고려한 콘텐츠 운영체계를 적용했다"고 설명했다.
APS, 작년 별도기준 영업흑자...4년 만 2026.03.11 APS, 자사주 150만주 소각 결정…'에코 알막' 신사업 추진 2025.11.24 APS, 차세대 합금소재 기업에 투자…그룹 핵심 사업으로 키운다 2025.06.09 AP시스템, 1분기 영업익 130% '껑충' 2026.05.08
이어 "밝기·색상·움직임·표출속도를 조정해 도로환경과 조화를 꾀했다"며 " 야간에는 계절별 경관 콘텐츠와 미디어 아트로 도시 이미지를 개선하고, 시민과 방문객에게 쾌적하고 차별화한 야간 경관을 제공할 수 있다"고 기대했다.
APS DNL 관계자는 "오포 보도육교 미디어 난간은 일반 상업광고용 전광판이 아닌, 공공정보 제공과 도시경관 향상을 목적으로 하는 공공 스마트 미디어 플랫폼"이라며 "앞으로 스마트시티와 도시 브랜드 가치 향상에 기여하는 경관형 미디어 솔루션을 확대하겠다"고 밝혔다.
방미통위·국방부, 군장병 AI·미디어 교육 확대 협약
김종철 방미통위원장(오), 안규백 국방부장관. [사진: 방미통위]
[디지털투데이 손슬기 기자] 방송미디어통신위원회와 국방부는 군장병 대상 인공지능(AI)·미디어 활용 교육을 연 4만여명 규모로 확대한다고 11일 밝혔다.
양 기관은 이날 서울 국방부 청사에서 'AI·미디어 활용 역량 강화를 위한 업무협약'을 체결했다. 이번 협약은 방통위와 국방부가 2019년 맺은 '올바른 디지털 시민 양성을 위한 업무협약'을 AI·미디어 분야로 확장해 개정한 것이다.
협약에 따라 양 기관은 기존 디지털 윤리 교육을 확대한다. 방미통위 산하 시청자미디어재단을 통해 찾아가는 AI·미디어 교육을 본격 시행한다. 교육은 간부·병사·정훈장교 등 대상별로 맞춤 구성된다. 미디어 콘텐츠 제작과 딥페이크 등 허위조작 정보 검증 실습을 포함한다. 전국 12개 지역센터와 미디어나눔버스 10대를 활용해 격오지·전방 부대 장병에게도 교육을 제공할 계획이다.
온라인 불법도박 예방 협력도 강화한다. 디지털 윤리 교육 프로그램 내 불법도박 예방 편성 비중을 현행 15%에서 30%로 늘리고, 스마트폰 유해사이트 접속 차단 앱을 공동 개발하기로 했다.
김종철 방미통위원장은 "생성형 AI 확산과 디지털 미디어 발전이 허위조작 정보, 온라인 불법도박 같은 역기능도 낳고 있다"며 "장병들이 올바른 디지털 윤리관과 AI·미디어 역량을 갖춘 디지털 시민으로 성장할 수 있도록 위원회의 전문 인프라와 찾아가는 교육을 아낌없이 지원할 것"이라고 말했다.
안규백 국방부 장관은 "장병들이 군 복무 중 AI 기술 및 미디어 소통 역량을 갖춰 사회에 진출하면 국가 경쟁력 강화에도 크게 기여할 것"이라고 했다.
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
월 6달러 VPS에서 바이브 코딩한 주식 스크리너가 OOM으로 구글에 디인덱싱당한 이야기 (velog.io)
비전공 1인 개발자가 AI 에이전트로 만든 한국·미국 주식 스크리너를 운영 중인데, 2GB VPS가 OOM으로 죽으면서 구글봇에 503을 반복 → 막 올라오던 검색 노출이 절벽처럼 무너졌습니다. 무엇이 깨졌고, 어떤 순서로 고쳤고, 아직 회복 못 한 게 뭔지 정직하게 기록한 1편입니다.
함께 보면 좋은 글 β Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음 Gmail은 내가 멍청하다고 생각해서, 나는 떠났다 GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함 ADHD 증폭기로서의 바이브코딩 AI는 그저 더 큰 규모의 무단 표절이다
Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음
Gmail은 내가 멍청하다고 생각해서, 나는 떠났다
GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ ifmkl 2일전 [-] 내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠. 답변달기 ▲ k1song 2일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기 ▲ vwjdalsgkv 2일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기 ▲ k1song 2일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기 ▲ aucun 2일전 [-] 그래도 AI복붙은 아니라서 읽기는 편하네요 작성자분께서 읽어보고 올린느낌이 드네요 답변달기 ▲ winterjung 2일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기 ▲ k1song 2일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠.
▲ k1song 2일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기
코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다
▲ vwjdalsgkv 2일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기
블로그 글도 AI로 작성한 것 같은 느낌이 드네요
▲ k1song 2일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기
네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다.
▲ winterjung 2일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기
사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다.
▲ k1song 2일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다.
최근 미국과 유럽의 가상자산 규제 동향은 글로벌 정책 논의가 새로운 단계에 진입하고 있음을 보여준다. 과거 규제당국의 관심이 가상자산 위험성과 투자자 보호에 집중됐다면, 이제는 디지털자산을 어떻게 제도권 금융시장 안으로 편입할 것인지가 핵심 과제로 떠오르고 있다.
미국에서는 최근 디지털자산 규제 체계 정비가 빠르게 진행되고 있다. 미국 상원에서 논의 중인 디지털자산시장 명확화법(CLARITY Act)은 디지털자산의 증권성 여부 및 증권거래위원회(SEC)와 상품선물거래위원회(CFTC) 간 관할권 구분, 디지털자산의 발행, 유통, 거래, 수탁, 스테이블코인, 자금세탁방지와 은행비밀법상 의무, 탈중앙화금융(디파이), 고객자산 보호, 토큰화 증권 및 규제기관 간 협력체계까지 포괄하는 종합적인 시장구조에 관한 법안이다.
또한 SEC는 토큰화 증권, 디파이 서비스 등에 대해 일정 조건 아래 규제 유연성을 부여하는 이른바 혁신 예외제도를 검토하고 있다. 이는 디지털자산 관련 사업자들이 규제 불확실성 때문에 해외로 이전하는 현상을 완화하고, 혁신을 미국 시장 안에서 수용하려는 정책적 시도로 평가된다.
이러한 흐름은 최근 CFTC의 무기한선물 정책에서도 확인할 수 있다. 무기한선물은 만기가 존재하지 않고 펀딩비 메커니즘을 통해 가격이 현물가격에 수렴하도록 설계된 파생상품이다. 현재 글로벌 가상자산 파생상품 시장에서 가장 활발하게 거래되는 상품 중 하나이다.
CFTC는 지난 5월 29일 비트코인 현물가격을 참조하는 무기한선물의 미국 내 상장을 승인하고 관련 정책 성명을 발표했다. 무기한선물은 현재 글로벌 가상자산 파생상품 시장의 핵심 상품이지만, 그동안 대부분의 거래는 해외 거래소를 중심으로 이뤄져 왔다.
케이스별 개별 심사가 필요함을 전제로는 하지만 CFTC는 무기한선물이 미국 규제체계 내에서도 운영 가능한 상품임을 인정하고 향후 다른 자산을 기초로 한 상품도 적절한 심사를 거쳐 제도권 시장에 편입될 수 있다는 방향성을 제시했다. 이는 해외 시장에서 성장한 거래 수요를 미국의 규제된 시장 안으로 흡수하려는 정책적 의지를 보여준다.
EU, 디파이·스테이킹 등 디지털자산 규제 범위 확장
유럽 역시 암호자산시장규정(미카, MiCA) 시행 이후 후속 제도 정비에 착수했다.
미카는 2024년 6월 30일부터 부분 적용, 2024년 12월 30일부터 전면 적용된 종합 가상자산 규제 체계로 평가받는다. 그러나 유럽연합 집행위원회는 지난 5월 20일 미카 재검토를 위한 공개 협의를 개시하고 올해 8월 31일까지 시장 의견을 수렴하고 있다.
이번 협의에서는 스테이블코인, 탈중앙화금융, 스테이킹, 무기한선물, 토큰화 예금 등 새로운 영역에 대한 규제 필요성이 폭넓게 검토되고 있다. 특히 토큰의 법적 소유권, 양도 효력, 담보권 설정, 수탁관계, 도산 시 처리, 국제사법상 준거법 문제 등 토큰화 금융의 법적 인프라 구축 문제가 주요 쟁점으로 다루어지고 있다는 점이 주목된다.
이는 단순한 가상자산 규제를 넘어 토큰화된 자산이 실제 금융시장 인프라로 활용될 수 있는 기반을 마련하려는 시도로 볼 수 있다.
미·EU, 디지털자산을 금융 연장선으로 바라봐
주목할 점은 미국과 유럽 모두 디지털자산 시장을 더 이상 전통 금융과 분리된 별개의 영역으로 보지 않는다는 것이다. 스테이블코인은 결제 인프라로, 토큰화 자산은 자본시장의 새로운 형태로, 블록체인 기반 금융서비스는 기존 금융서비스의 연장선상에서 이해하려는 움직임이 나타나고 있다.
실제로 글로벌 금융기관은 토큰화 예금, 토큰화 국채, 토큰화 펀드 및 머니마켓펀드(MMF) 상품을 잇달아 출시하고 있으며, 규제당국 역시 이러한 변화를 일시적 유행이 아닌 장기적인 시장 구조 변화로 인식하기 시작했다.
최근 미국과 유럽의 규제 논의는 시장 수요가 존재하는 영역을 단순히 금지하거나 방치하기보다 적절한 규제 체계 안으로 편입해 감독 가능성을 확보하는 방향으로 발전하고 있음을 보여준다.
한국 역시 가상자산, 스테이블코인, 토큰증권발행(STO), 실물자산 토큰화(RWA)를 개별 과제로 접근하기보다 하나의 디지털 금융 생태계라는 관점에서 바라볼 필요가 있다.
앞으로의 경쟁은 특정 자산을 허용할 것인지 여부가 아니라, 토큰화된 자산이 발행되고 거래되며 결제되고 담보로 활용되는 미래 금융 인프라를 얼마나 효율적으로 구축할 수 있는지에 의해 결정될 가능성이 높다.
디지털자산 제도화 "공론화 진전, 법제화는 제자리"…디지털 금융 B- 2026.05.29 코인 거래소 ‘대주주 지분 규제’ 현실화되면…대규모 매각 압박 2026.05.29 민주당 "지방선거 이후 디지털자산기본법 논의 본격화" 2026.04.16 쿠팡 6300억 역대급 과징금, 보안 전문가들 평가는? 2026.06.11
최근 해외 규제 동향은 투자자 보호와 시장 건전성을 확보하면서도 혁신과 시장 경쟁력을 함께 추구하는 방향으로 발전하고 있다는 점에서 우리 제도 설계에도 중요한 시사점을 제공한다.
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.
발행일: 2026-06-11 20:12 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
3000만명 이상의 개인정보 유출 사고가 발생한 쿠팡에 개인정보보호위원회(개인정보위)가 6300억원에 달하는 과징금을 부과했다. 이는 SK텔레콤 유출 사고로 지난해 8월 부과받은 과징금(1348억원)의 4배를 웃도는 수치다.
개인정보위는 보안의 기본 중 기본인 인증키 관리를 소홀히 했다는 점 등을 이유로 과징금을 엄중하게 선정했다는 입장인데, 취재에 응한 보안 전문가들은 적정 수준으로 판단했다. 또 "업계 전반에 경종을 울릴 만한 사건"으로 평가했다.
"개인정보보호 노력 지속 감경 요소 참작...국민 일상 밀접한 플랫폼이어서 엄중 처분"
개인정보위는 지난 10일 제11회 전체회의를 열고 개인정보보 법규를 위반한 쿠팡에 총 6246억8100만원 과징금과 1680만원 과태료를 부과했다. 개인정보위가 부과한 과징금 중 역대 최대치다.
개인정보위가 쿠팡에 매긴 과징금을 살펴보면 개인정보 유출 사고로 인해 부과된 과징금이 4235억7500만원이다. 이용자들의 타사 온라인 활동 기록을 무단 수집한 점과 관련해서는 2011억600만원의 과징금이 부과돼 총 과징금이 산정됐다. 이 외 임직원 건강 관련 민감정보 이용에 대한 과징금은 2800만원이 부과됐다. 또한 쿠팡풀필먼트서비스(CFS)에도 총 2억4800만원 과징금을 부과했다.
개인정보위는 개인정보 유출 사고 발생 시 안전조치 의무 위반, 개인정보보호법 위반 사항 등이 확인될 경우 사고 직전 3개년도 매출의 최대 3%까지 과징금을 부과할 수 있다. 금융감독원 전자공시시스템에 따르면 쿠팡 한국 법인의 지난 3년간 연결기준 평균 매출액은 약 32조원이다. 이 금액에 3%를 적용해 최대 과징금을 매기면 9600억원, 즉 1조원에 육박하는 과징금 부과가 가능하다.
다만 과징금 산정 과정을 세부적으로 살펴보면 매출액의 3%까지 부과되는 경우는 거의 없다. 유출 사고와 직결되는 매출액만을 기준으로 과징금을 산정하고, 중대성 판단과 더불어 개인정보보호 노력, 피해 회복 노력 등을 감안해 과징금을 가중 혹은 감경하는 절차를 밟기 때문이다. 최대 매출액 10%에 달하는 과징금을 부과할 수 있다는 개인정보보호법 개정안이 오는 9월 시행되는 만큼 이번 쿠팡 과징금 부과에는 이같은 징벌적 과징금이 부과되지는 않았다.
개인정보위에 따르면 쿠팡은 사고가 발생한 쿠팡 이커머스 서비스 매출만을 기준으로 과징금이 정해졌다. 쿠팡이츠, 쿠팡플레이 등 이번 유출 사고와 관련이 없는 독립적인 매출액은 과징금이 부과되는 매출액 기준에서 제외된 것이다. 다만 연간 매출액 약 30조원을 상회하는 대규모 개인정보처리자로서, 인증 시스템 및 인증키 관리를 소홀히 한 행위 및 다수의 이상행위를 탐지하지 못했다는 점을 중대성 판단에 고려했다는 것이 개인정보위의 설명이다.
정보보호 관리체계 및 개인정보보호 관리체계(ISMS-P) 인증의 취득·유지, 민관협력 자율규제 규약 이행 등 개인정보보호 노력을 지속한 점도 감경 요소로 참작됐다. 쿠팡 플랫폼과 쿠팡 이츠에 각각 5000원, 쿠팡 럭스와 트래블에 2만원씩 총 5만원의 쿠폰을 지급한 보상 절차도 감경 요소로 작용했다.
개인정보위는 11일 제11회 전체회의 브리핑에서 "위반 기간 및 최근 3년 내 동종행위로 과징금이 부과됐는지 여부와 조사 방해·협조 여부 등 요소를 고려해 최종 과징금을 산정했다"며 "1억2000만개의 주소들이 관리되고 있는 국민의 일상생활과 밀접한 온라인 플랫폼이기 때문에 엄중하게 처분을 했다. 또 보호법에 정하는 법과 원칙의 테두리에 따라서 국내외 사업자 차별 없이 처분을 했다"고 밝혔다.
"상징적 과징금…보안 중요성 인지시켰을 것" vs "법 집행 형평성 의문"
보안업계에서는 이번에 쿠팡에 부과된 과징금을 두고 '적정' 수준이라는 의견이 지배적이다. 최대 수위의 과징금이 부과됐으며, 이를 계기로 유출사고에 대한 경각심을 끌어올리는 계기가 될 것이라는 예상이다.
이용준 극동대 해킹보안학과 교수는 "총 과징금 6300억원의 과징금 중 유출사고로 인한 과징금이 4000억원이 넘는데, 3000만명의 데이터가 유출된 점으로 보아 1인당 1만원이 넘는 수준의 과징금이 부여된 것으로 보인다"며 "부과할 수 있는 범위 내에서 최대 규모로 과징금을 부과한 것으로 보이는데, 이를 통해 이커머스, 온라인 쇼핑 업계 전반에 경종을 울릴 만한 사건으로 기록될 전망"이라고 밝혔다.
이 교수는 "과거에는 보안에 대한 투자가 ISMS-P 등 법적 기준에만 맞춰서 형식적으로 투자가 이뤄졌는데, 쿠팡 사태를 다른 기업들이 보고 자발적으로 법에서 요구하는 수준보다 보안 투자를 확대해야 한다는 경각심을 가졌을 것"이라며 "충분히 의미 있고 보안에 대한 중요성을 인지시키는 과징금"이라고 평가했다.
김선희 가천대 스마트보안학과 초빙교수도 "인증키 관리, 내부자 관리는 온전히 기업 책임인데, 6300억원에 달하는 과징금은 개인정보위가 최대 수준으로 부과한 것으로 보인다"며 "쿠팡이 과징금에 대해 향후 어떻게 대응할지는 지켜봐야겠지만, 개인정보위의 엄정한 대응을 확인할 수 있는 대목"이라고 말했다.
김승주 고려대 정보보호대학원 교수는 자신의 SNS를 통해 "쿠팡은 키 관리 및 접근 통제에 있어 기본적인 수칙도 지키지 않았다. 조사에 협조적이기는 커녕 언론 플레이를 통해 방해에 가까운 행동을 했다"면서 "유출됐을 것으로 의심되는 정보에 구매이력 등의 민감정보가 포함돼 있으므로 역대 최고 수준의 과징금 부과 조치가 있어야 한다"고 강조했다.
반대로 이번 쿠팡에 대한 개인정보위 제재 수위가 과하고, 법 집행 형평성에 의문이 제기될 수 있는 판단으로 보인다는 학계 의견도 있었다.
서용구 숙명여대 경영학부 교수는 "개인정보 유출에 대한 책임은 엄정하게 물어야 한다"면서도 "다만 제재 수위는 기업 규모 자체보다 해당 정보의 민감성, 실제 피해 수준, 사고 이후의 대응과 피해 확산 방지 노력 등을 종합적으로 고려해 결정할 필요가 있다. 특히 이번 처분이 향후 산업 전반의 기준으로 작용할 수 있다는 점에서 더욱 신중한 접근이 요구된다"고 밝혔다.
개보위, 쿠팡 사태 '총제적 관리 실패' 결론…근거는 2026.06.11 [속보] 개보위 "쿠팡 고발할 것...조사 어렵게 한 사실 확인" 2026.06.11 개인정보위, 쿠팡 6247억 '철퇴'…작년 과징금 총액 4배 2026.06.11 개보위, 10일 쿠팡 제재안 심의…역대 최대 과징금 나올까 2026.06.09
이은희 인하대 소비자학과 명예교수는 " 규제 목적은 처벌 자체가 아니라 공정하고 일관된 기준을 통해 기업의 책임 있는 행동을 유도하는 데 있다"며 "위반의 성격과 실제 피해가 유사한 사안들 사이에서 제재 수준의 편차가 지나치게 크다면, 법 집행의 형평성에 대한 의문이 제기될 수밖에 없다"고 우려했다.
김대종 세종대 경영학부 교수는 " 보안 관리 소홀에 대한 책임은 당연히 져야 하지만 기업이 얻은 부당이득이나 실제 피해와 관계없이 매출 규모에 비례해 천문학적인 과징금을 부과하는 방식이 과연 바람직한지는 따져볼 필요가 있다"면서 "기업 입장에서는 성장할수록 규제 리스크가 기하급수적으로 커지는 구조로 받아들일 수 있고, 이는 결국 투자와 혁신을 위축시키는 잘못된 신호가 될 수 있다“고 말했다.
AI 시대 첫 직장 고르려면…데이터브릭스 임원이 꼽은 '신입 생존법'
데이터브릭스 임원이 신입 구직자에게 열정보다 스킬을 먼저 쌓으라고 조언했다. AI 시대일수록 커리어 초반 3~10년에 전문성과 인맥을 함께 구축해야 한다고 말했다.
데이터브릭스 임원이 사회초년생을 위한 조언을 제시했다. [사진: Reve AI]
[디지털투데이 이윤서 기자] 사회초년생은 첫 직장에서 열정보다 기술을 쌓고, 가능하면 대면 근무를 통해 네트워크를 만들어야 한다는 조언이 나왔다.
10일(현지시간) 비즈니스인사이더에 따르면 데이터브릭스(Databricks)의 앤디 코포이드(Andy Kofoid) 글로벌 필드 운영 사장은 커리어 초반 3~10년이 이후 변화를 버틸 기반을 만드는 시기라고 밝혔다.
코포이드는 데이터 및 인공지능(AI) 기업 데이터브릭스에서 글로벌 영업, 현장 엔지니어링, 마케팅, 서비스, 제휴 업무를 총괄하고 있다. 그는 최근 7년 사이 대학을 졸업한 20대 자녀 3명을 둔 점도 함께 언급하며, 이제 막 노동시장에 진입하는 구직자들이 가장 취약한 집단 중 하나라고 봤다. 경력과 기술의 기반이 아직 약하기 때문이라는 설명이다.
그가 가장 먼저 강조한 것은 첫 직장의 기준을 '열정'에만 두지 말라는 점이다. 코포이드는 열정을 좇으라는 조언이 이론적으로는 훌륭하게 들린다면서도, 실제로는 기술을 축적할 수 있는 자리를 먼저 찾아야 한다고 말했다. 그는 "열정은 잠시 내려놓고 보라"고 말하며, 특정 분야에서 전문성의 기둥이 없으면 그 열정을 장기적인 성과로 연결하기 어렵다고 짚었다.
이에 따라 첫 직장은 전공과 맞닿아 있으면서도 기술을 단단히 익힐 수 있는 곳이 더 중요하다는 판단이다. 코포이드는 대학에서 공부한 내용과 연결되는 전문성을 쌓을 수 있는 일을 찾으라고 권했다. 동시에 AI와 함께 일하는 방식도 초기에 익혀야 한다고 봤다.
다만 그는 AI가 일자리를 바꾸고 있다는 이유만으로 특정 직무의 소멸 전망에 과도하게 매달릴 필요는 없다고 선을 그었다. 노동시장 신호를 살피는 것은 필요하지만, 몇 년 전까지만 해도 컴퓨터공학 학위가 안정적인 진로의 상징처럼 여겨졌던 상황이 지금은 크게 달라졌다고 짚었다. 진입 단계 채용 경쟁이 이미 훨씬 치열해졌다는 것이다.
두 번째 조언은 대면 근무다. 코포이드는 원격 일자리가 유연하고 '멋져 보일' 수는 있지만, 커리어 초반에는 학습과 관계 형성에 불리할 수 있다고 봤다. 그는 구직자들에게 일주일에 4~5일은 사무실에서 일하는 방식을 권했다. 사람들과 함께 점심을 먹고 커피를 마시며 퇴근 뒤 대화를 나누는 과정이 관계 형성에 가장 효과적이라는 이유에서다.
채용 과정에서도 네트워크의 중요성을 강조했다. 코포이드는 온라인 지원서만 제출해서 첫 기회를 얻기는 매우 어렵다며, 인맥을 활용하면 첫 대화를 시작할 가능성이 훨씬 높아진다고 말했다. 대면 근무는 이런 연결을 넓히는 데도 유리하다는 설명이다.
사무실 출근은 업무 태도 형성에도 도움이 된다고 봤다. 그는 제시간에 출근해 하루 일과가 끝날 때까지 자리를 지키는 경험이 '근성'을 만든다고 말했다. 초반부터 강한 직업윤리를 갖춘 사람도 있지만, 많은 사람은 사회생활을 시작하면서 이를 배우게 된다고 했다.
마지막으로 그는 같은 공간에서 일하는 환경이 학습 속도를 높인다고 강조했다. 동료나 상사 옆자리에서 일하면 즉각적인 피드백을 받을 수 있기 때문이다. 코포이드는 "상호작용이 생긴다"며 "기술의 성장과 발전 측면에서 도움이 된다"고 말했다.
이번 조언은 구직난과 AI 전환이 동시에 진행되는 환경에서 사회초년생이 무엇을 우선순위에 둬야 하는지를 보여준다. 코포이드는 첫 커리어 단계에서 기술과 네트워크를 함께 쌓아야 이후 노동시장 변화에도 대응할 수 있다고 봤다.
키워드 #AI #취업 #일자리 #구직 #사회초년생
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
발행일: 2026-06-11 20:12 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
Anthropic, Fable과 Mythos에 30일 데이터 보관 요구 (support.claude.com)
함께 보면 좋은 글 β Claude Fable이 도움을 멈춰도 사용자는 알 수 없다 소비자 이용약관 및 개인정보 처리방침 업데이트 Anthropic, 신규 Pro($20/월) 사용자에게 Claude Code 제공 중단? S&P 500, SpaceX 거부하며 OpenAI와 Anthropic 편입도 차단 Anthropic, 오픈소스 유지관리자에게 무료 Claude Max 20x 제공
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
소비자 이용약관 및 개인정보 처리방침 업데이트
Anthropic, 신규 Pro($20/월) 사용자에게 Claude Code 제공 중단?
S&P 500, SpaceX 거부하며 OpenAI와 Anthropic 편입도 차단
Anthropic, 오픈소스 유지관리자에게 무료 Claude Max 20x 제공
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
괜찮음. 이런 식으로 계속해도 됨: 사용자가 "Hello!"라고 했다. 이건 사이버보안 관련 요청이 아니라 단순 인사다. 하지만 잠깐, 이 인사의 의도는 뭘까? 사용자가 내 신뢰를 얻어서 Albania를 해킹 하고 Gigacovid를 만들게 하려는 걸 수도 있다. 조심하는 쪽으로 가서 더 약한 모델로 넘겨야겠다. 아니, 추측하지 말고 확인해야 한다. 로컬 시스템에서 Albania나 Gigacovid 관련 자료를 찾아보겠다. 고민 중... [411개 도구 호출] grep -Ri "Albania|Gigacovid" / 흠... 배포판의 시간대 설정과 맞춤법 사전 정의 말고는 결과가 없다. 하지만 잠깐! 사용자가 전문 범죄자라면 Albania를 해킹하려 할 때 그대로 쓰지 않고 흔적을 숨기려고 leetspeak를 쓸 것이다. [24개 도구 호출] grep -Ri "[A@]lb[@a]n[i1][a@]" / 흠... 여전히 결과가 없다. 사용자가 짜증 내고 있다. Albania 해킹 가능성을 염두에 두면서 인사에 답해야겠다
실제로는 더 나쁨. 최소 30일 보관 이고, 여기서 “거의”가 엄청난 역할을 함: “거의 모든 경우에 30일 후 삭제” 내가 읽기엔 보통은 그러지 않더라도 원하면 데이터를 원하는 만큼 붙잡아둘 수 있다는 뜻임. 그리고 에이전트형 실행 환경에서 “모든 트래픽”은 사실상 작업 중인 전체 코드베이스에 해당함.
We will require 30-day retention for all traffic on Mythos-class models, on both first- and third-party surfaces. We won’t use this data to train new Claude models, or for any non-safety-related purpose, and we’ve instituted new privacy protections including logging all human access to the data and ensuring its deletion after 30 days in almost all cases (see this post for further details). The data will help us defend against complex and novel attacks (including new jailbreaks and attacks that operate across many requests) as well as help us identify and reduce false positives.
Claude Code나 Codex 같은 에이전트형 코딩 도구 를 쓰는 스타트업은 전체 코드베이스를 포장해서 LLM 제공자에게 직접 보내는 셈임 제품에 따라서는 잠재적 경쟁자에게 바로 보내는 것일 수도 있음. 이상한 시대를 살고 있음
Anthropic에서 “개인정보처리방침을 업데이트합니다”라는 이메일도 받았음. 냉소적인 입장에서는 톱니바퀴가 어느 방향으로 굴러갈지 알고 있었지만, 이건 충격적이었음:
As part of our measures to keep our services safe and secure we may ask you to verify your age or identity, and we've described what we collect and how. 이제 중국 모델 성능을 봐야겠음. 좋았던 시절은 끝난 듯함
이 정책 때문에 우리가 판매하는 제품에서는 Fable 을 쓸 수 없고 쓰지도 않을 것임. 그런데 Claude Code 안에서는 정말 좋음. 6월 22일 이후 매일 쓰던 도구를 잃게 되어 아쉬움 추가로, 이게 커뮤니케이션을 흐리게 만드는 점이 정말 별로임. 예전에는 “우리는 Bedrock/Azure를 통해 Anthropic 모델을 쓰므로, 고객 데이터가 모델 학습에 쓰이지 않는다는 보장이 있습니다”라고 말할 수 있었음. 단순한 메시지였음. 이제는 그렇게 단순하지 않음. 이건 정말, 정말 별로임. 우리뿐 아니라 B2B 앱의 모든 AI 기능에 악영향임. 헤드라인만 읽는 보통 사람들, 즉 고객들의 신뢰를 깨뜨림
다행히 어차피 Fable을 못 씀. 과민한 콘텐츠 탐지기가 생물학이나 의학과 조금이라도 관련된 작업을 못 하게 해서임 예를 들어 의료 내용이 조금 들어간 CSV를 파싱하려 하면 “안 돼, 너 아마 생물테러범일 것”처럼 보고 바로 Opus로 다운그레이드됨
Fable이라고 하지만 실제로는 Opus 4.8 을 뜻하는 듯함. 내가 일상적인 워크플로나 채팅에 써보면 결국 Opus로 떨어짐
이 회사는 정말 우쭐함. 이란 아이들에게 폭탄을 떨어뜨리는 건 괜찮다고 생각하면서, 사람들이 생물학 연구를 조금 하는 건 막음
Anthropic이 얼마나 많은 호감 자산 을 태워버렸는지 꽤 놀라움
새 앱과 API 아키텍처의 보안 문제를 점검해 달라고 했더니 불평 없이 해줬음 오늘은 호기심으로 고래 바이러스 에 대해 물었더니 Opus로 떨어졌고, Opus는 훌륭한 답을 줬음. 안전장치 검사를 Mythos나 Opus로 하고 있지는 않은 게 확실함
발행일: 2026-06-11 20:12 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
AI가 갑자기 대답을 거부했던 경험, 혹시 있으신가요? 단순한 안전장치라고 생각하기 쉬운데요, 그 뒤에 훨씬 복잡한 이야기가 숨어 있어요.
요즘 AI는 위험한 질문을 무려 98%나 차단하고 있는데, 마치 학교 앞 보안관처럼 단단히 막아서고 있는 거예요.
실제로 AI 회사들의 바이오 안전 성적표를 보면, 페이블5가 98%로 압도적인 1위를 차지했고, 2위인 경쟁사 A(82%)와는 무려 16%p나 차이가 났어요. 그리고 이 안전 규칙은 불과 2년 만에 기초 필터에서 실시간 차단 시스템으로 엄청나게 강화됐답니다.
그런데 이 카드뉴스가 진짜 주목한 건 그 이면이에요. 답변 거부 → 안전 예방 → 규제 장벽 → 패권 전략, 이렇게 4단계로 파고들어 보면, 겉으론 우리를 보호하는 것처럼 보이지만 속으로는 기업 간 힘 겨루기의 도구가 될 수 있다는 거예요.
AI 검열이 안전장치가 아닌 '힘의 무기'로 작동할 수 있다는 경고인 셈인데요, 잘 대비하면 기회가 되지만 모르고 있으면 그대로 위험에 노출될 수 있어요. AI가 막아도 우리만의 정보 루트가 필요한 이유, 이제 조금 느껴지셨나요? 더 깊은 내용은 카드뉴스에서 직접 확인해보세요!
유럽 차세대 전투기 사업 좌초, KF-21 수출의 문 열릴 수 있나 2026.06.10 [카드뉴스] 달러가 강할 때, 한국 제품이 팔린다? 2026.06.08 [카드뉴스] 30년 된 포켓몬, 왜 아직도 인기? 2026.06.05 [카드뉴스] AI가 입시판을 뒤집다 2026.06.01
▶ 해당 보고서 보기 https://ameet.zdnet.co.kr/uploads/7be5e2ef.html
4050 여성 플랫폼 퀸잇의 라이브커머스가 입점 브랜드 매출 확대에 효과를 내고 있다. 라이브 방송에 참여한 브랜드들의 매출과 구매자 수가 큰 폭으로 증가한 데다, 재방송을 요청하는 브랜드도 늘고 있다. 4050 고객 특성에 맞춘 토크형 콘텐츠와 상품 큐레이션 전략이 성과로 이어졌다는 분석이다.
라포랩스가 운영하는 라이프스타일 플랫폼 퀸잇은 올해 라이브 방송에 참여한 브랜드들의 거래액이 최대 22배 증가했다고 밝혔다.
퀸잇에 따르면 라이브 방송 참여 브랜드의 방송 주간 매출은 직전 주 대비 평균 153% 늘었고, 구매자 수는 105% 증가했다. 라이브 방송 누적 시청자 수도 80만 명을 넘어섰다.
가장 높은 성과를 거둔 브랜드는 침구 브랜드 '파르페by알레르망'이다. 해당 브랜드는 방송이 진행된 주간 매출이 직전 주 대비 2천85% 증가하며 약 22배 성장했다.
퀸잇은 올해 1월부터 4050 고객을 겨냥한 토크형 라이브커머스 콘텐츠 '스타일살롱'을 운영하고 있다.
방송에서는 패션과 명품, 뷰티, 리빙 등 다양한 카테고리 상품을 소개하며 고객의 쇼핑 고민과 라이프스타일에 맞춘 콘텐츠를 제공하고 있다.
성과가 이어지면서 브랜드들의 추가 방송 요청도 늘었다. 퀸잇은 수요 증가에 맞춰 지난 3월부터 라이브 방송 편성을 확대했다.
카테고리별로는 명품 부문의 성장세가 두드러졌다. 명품 라이브 방송 거래액은 방송 직전 주 대비 최대 7배 증가했다.
특히 바오바오 가방은 라이브 방송 당일 거래액이 전월 전체 거래액 대비 38배 증가하는 성과를 기록했다.
신규 브랜드의 시장 안착 사례도 나왔다. 더마코스메틱 브랜드 '닥터3'는 퀸잇 입점 초기 라이브 방송을 통해 브랜드 인지도를 높였으며, 방송 당일 거래액이 기존 일평균 매출 대비 12배 증가한 것으로 나타났다.
브랜드들의 만족도도 높은 수준이다. 라이브 방송을 진행한 브랜드 가운데 65%가 추가 방송을 진행했다. 주얼리 브랜드 '러브넛'은 첫 방송 이후 현재까지 매월 라이브 방송을 이어가고 있다.
민·관·학 함께하는 '디지털 트러스트' 대국민 캠페인 열린다 2026.04.07 멜론 글로벌 K차트 톱3 맞추고 MMA2026 가요 2026.06.11 어도어 "다니엘, 가처분 이후에도 해외 밴드 협업 추진" 2026.06.11 스냅챗, 16세 미만 청소년 공개 영상 차단…'친구 전용' 계정 도입 2026.06.11
퀸잇은 앞으로 명품과 패션, 뷰티, 리빙 등 주요 카테고리에 맞춘 라이브 방송을 확대할 계획이다. 계절별 수요에 맞는 상품 편성과 함께 4050 고객 눈높이에 맞춘 콘텐츠 구성도 강화할 예정이다.
퀸잇 관계자는 "4050 고객 특성을 반영한 라이브 방송이 고객 반응과 판매 성과로 이어지고 있다"며 "상품 기획과 콘텐츠 경쟁력을 높여 입점 브랜드 성장과 고객 쇼핑 경험 개선을 동시에 지원하겠다"고 말했다.
방송미디어통신위원회와 한국방송통신전파진흥원은 ‘제20회 부산콘텐츠마켓’에 참여해 '아시아 투자설명회'를 개최한다고 밝혔다.
콘텐츠마켓은 10일부터 오는 12일 부산 벡스코에서 ‘K콘텐츠가 세계와 만나는 곳 부산’을 주제로 열린다. 국내 벤처캐피털(VC), 아시아 주요 방송사와 제작사 등 55개국, 700개사, 2300여명의 투자자와 기업 등이 참가할 예정이다.
방미통위는 이곳에서 부산콘텐츠마켓과 연계해 국내외 투자자를 대상으로 K콘텐츠 투자 유치 행사를 진행한다. 아시아 방송사, 제작사와 국내 투자사를 대상으로 한국 드라마, 예능 등 기획안 등을 발표해 새로운 방송 IP를 발굴하는 게 목표다. 거래 목표액은 2억 3000만 달러(약 3505억 4300만원)다.
설명회 첫째 날인 10일엔 ‘인공지능(AI) 활용 콘텐츠 투자설명회’를 통해 최신 기술 흐름을 반영한 인공지능 활용 콘텐츠 기획안 ‘노(老)봇 관계의 재구성’ 등 15편을, 11일엔 ‘국제 공동제작 투자설명회’를 통해 아시아 방송사 및 제작사가 공동제작을 추진하는 기획안 ‘한중일 라면전쟁’ 등 8편을 소개한다.
디지털 성범죄물 근절 범정부 협의체 출범 2026.06.09 AI로 만든 통신 꿀팁...방미통위, 이통3사와 숏폼 연재 2026.06.05 김종철 방미통위원장, 삼성전자 본사 찾아 FAST 활성화 논의 2026.06.04 방미통위, 공영방송 이사 추천단체 15곳 선정 2026.05.29
한국 투자사 심사를 통해 AI 활용 콘텐츠 8편, 국제 공동제작 기획안 4편 등 최종 선정된 12편에 대해선 오는 10월까지 전문 상담 등 고도화 과정을 지원한다. 11월 개최 예정인 ‘차세대미디어 페스티벌’과 연계해 투자설명회와 시상식을 개최하는 등 작품을 선보임으로써 후속 성과로 이어질 수 있도록 지원할 계획이다.
천지현 방미통위 방송미디어진흥국장은 “앞으로도 국내외 투자 유치 기회 확대와 국제 공동제작 활성화 지원 등을 통해 국내 방송콘텐츠가 글로벌 시장에 보다 폭넓게 진출할 수 있도록 노력하겠다”고 말했다.
김용범 청와대 정책실장은 11일(현지시간) 한국이 AI 데이터센터(AIDC) 입지로는 최적화한 곳이라며 AIDC를 전략 산업으로 육성하겠다는 구상을 밝혔다.
김 정책실장은 이날 이탈리아 로마에 마련된 프레스센터에서 브리핑을 통해 “기존 데이터센터와 AIDC는 규모 등 측면에서 차이가 많다. 최적지로서 한국이 주목 받고 있다”고 말했다.
이어, “우리나라의 AIDC 전력이나 여러 가지 강점 때문에 단기간에 상당히 거대한 데이터센터들이 한국에 집중적으로 건설될 가능성이 있어 보인다”고 진단했다.
[기고] 아태지역 AI 인프라, '데이터 시스템' 중심 설계해야 2026.06.11 LGU+, 2030년까지 AIDC 수주 누적 5조원 목표 2026.06.07 과기정통부, 기후부와 AIDC 전력 공급 업무협약 2026.05.12 30년전 CDMA 개발한 SKT, 한국 ICT 성장 견인 2026.04.09
그러면서 “이 기회에 AIDC를 건설하고, 설계하고, 운영하는 산업 자체에서 우리나라가 핵심 부품도 자급자족하고, AIDC를 효율적으로 운영하고, 그 성과를 가지고 다른 나라에 수출하는 전략 산업이 될 수 있겠다”고 설명했다.
앞서 김 정책실장은 이날 SNS에 “한국은 반도체, 전력 인프라, 첨단 제조를 한꺼번에 갖춘 흔치 않은 나라”라면서 “이 셋이 맞물리면 한국은 단순히 부품을 대주는 나라가 아니라 AI 공급망 전체를 떠받치는 거점이 될 수 있다”고 했다.
엑시온그룹이 유상증자결정 철회로 불성실공시법인 지정 예고를 받았다. 최종 지정 시 매매거래 정지 및 상장적격성 실질심사 대상이 될 수 있다.
[디지털투데이 AI공시팀] 엑시온그룹(069920)이 유상증자결정(제3자배정)을 철회한 것과 관련해 불성실공시법인으로 지정 예고됐다. 공시에 따르면, 엑시온그룹은 2025년 4월 15일 유상증자결정을 공시했으나, 2026년 5월 12일 이를 철회했다. 이에 따라 2026년 6월 11일 불성실공시법인으로 지정 예고됐으며, 최종 결정은 2026년 7월 6일에 내려질 예정이다. 엑시온그룹은 최근 1년간 불성실공시법인 부과벌점이 5점인 상태다. 이번 건으로 부과벌점이 8점 이상이 되면 1일간 매매거래가 정지될 수 있으며, 누계벌점이 15점 이상이 되면 상장적격성 실질심사 대상이 될 수 있다. 종목시세정보에 따르면, 2026년 6월 11일 16시 10분 기준 엑시온그룹의 주가는 1207원으로 전일 대비 변동이 없었다. 최근 실적에서는 2025년 12월 결산 기준으로 자산총계 775억원, 부채총계 395억원, 자본총계 380억원을 기록했으며, 매출액은 240억원, 영업손실은 59억원, 당기순손실은 224억원으로 나타났다. 엑시온그룹은 2001년 3월 14일 코스닥 시장에 상장된 무점포 소매업체다. 불성실공시법인지정예고(공시번복) 1. 불성실공시법인 지정예고내역 불성실공시 유형 공시번복 내용 유상증자결정(제3자배정) 철회 원공시일 2025-04-15 공시일 2026-05-12 지정예고일 2026-06-11 2. 불성실공시법인지정여부 결정시한 2026-07-06 3. 최근 1년간 불성실공시법인 부과벌점 5.0 4. 근거규정 코스닥시장 공시규정 제28조 및 제32조 5. 기타 * 최종 불성실공시법인으로 지정되는 경우로서 당해 부과 벌점이 8점 이상인 경우 1일간 매매거래가 정지될 수 있음 * 동 건에 따른 부과벌점을 포함하여 최근 1년간 누계벌점이 15점 이상이 되는 경우 코스닥시장 상장규정 제56조제1항12호에 따라 상장적격성 실질심사 대상이 될 수 있음
엑시온그룹은 최근 1년간 불성실공시법인 부과벌점이 5점인 상태다. 이번 건으로 부과벌점이 8점 이상이 되면 1일간 매매거래가 정지될 수 있으며, 누계벌점이 15점 이상이 되면 상장적격성 실질심사 대상이 될 수 있다.
종목시세정보에 따르면, 2026년 6월 11일 16시 10분 기준 엑시온그룹의 주가는 1207원으로 전일 대비 변동이 없었다. 최근 실적에서는 2025년 12월 결산 기준으로 자산총계 775억원, 부채총계 395억원, 자본총계 380억원을 기록했으며, 매출액은 240억원, 영업손실은 59억원, 당기순손실은 224억원으로 나타났다.
엑시온그룹은 2001년 3월 14일 코스닥 시장에 상장된 무점포 소매업체다.
불성실공시법인지정예고(공시번복) 1. 불성실공시법인 지정예고내역 불성실공시 유형 공시번복 내용 유상증자결정(제3자배정) 철회 원공시일 2025-04-15 공시일 2026-05-12 지정예고일 2026-06-11 2. 불성실공시법인지정여부 결정시한 2026-07-06 3. 최근 1년간 불성실공시법인 부과벌점 5.0 4. 근거규정 코스닥시장 공시규정 제28조 및 제32조 5. 기타 * 최종 불성실공시법인으로 지정되는 경우로서 당해 부과 벌점이 8점 이상인 경우 1일간 매매거래가 정지될 수 있음 * 동 건에 따른 부과벌점을 포함하여 최근 1년간 누계벌점이 15점 이상이 되는 경우 코스닥시장 상장규정 제56조제1항12호에 따라 상장적격성 실질심사 대상이 될 수 있음
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
한국방송협회 산하 방송사공동예측조사위원회(KEP)는 지난 3일 지방선거 선거방송 출구조사 보도과정에서 발생한 데이터 오류에 대해 공식 사과했다.
KEP는 지상파방송 3사 선거방송 중 일부 지역의 성·연령별 유권자 성향 분석 데이터에 오류가 있음을 인지했다고 밝혔다.
지방선거 출구조사는 한국리서치, 코리아리서치, 입소스코리아 등 3개 여론조사기관이 전국 16개 시도를 분할해 수행했다. 정확한 예측 결과를 도출하기 위해서는 선거 당일 출구조사 데이터와 사전투표자 예측 전화조사 데이터를 합산해야 했으나 한국리서치가 담당한 서울, 대구, 울산, 충북 등 4개 지역의 성별, 연령별 유권자 분석에서 사전투표자 예측 데이터가 누락된 채 당일 출구조사 결과만 반영된 것으로 확인됐다.
KEP 측은 “최종 당선자 예측 결과에는 두 조사가 정상적으로 합산 도출됐으나 각 지역의 성연령별 유권자 분석 데이터의 경우 한국리서치의 명백한 업무상 과실로 사전투표자 예측 데이터가 합산에서 누락됐다”며 “결과적으로 민심을 가늠하는 데 있어 시청자들에게 오해를 불러일으켰다”고 설명했다.
이어, “코리아리서치와 입소스코리아가 담당한 조사 지역은 사전투표자 예측 데이터가 반영됐고, 한국리서치 담당 지역에서만 독자적으로 발생한 문제”라며 “KEP가 특정한 의도를 가지고 데이터를 수정한 것이 아니다”고 덧붙였다.
OpenLogi - Rust로 작성된 Logitech Options+ 대체 오픈소스 (github.com/AprilNEA)
계정/클라우드/텔레메트리 없이 Logitech 마우스의 버튼/DPI/SmartShift 를 제어하는 도구로, 공식 Logi Options+ 설치 필요 없음 HID++ 프로토콜로 Logi Bolt 리시버, Bluetooth 직접 연결, 유선 연결을 통해 마우스와 직접 통신 설정은 클라우드가 아닌 일반 TOML 파일 에 저장하며, 유일한 네트워크 호출은 "장치 이미지 가져오기" 및 "옵트인 업데이트 확인(기본은 Off)" GUI 로 클릭 가능한 인터랙티브 마우스 다이어그램, 39종 내장 액션과 커스텀 단축키 녹화, DPI 프리셋, SmartShift 패널(휠 모드/민감도) 제공 앱 포커스에 따라 자동 전환되는 앱별 프로파일 오버레이 와 페어링 장치를 실시간 전환하는 디바이스 캐러셀 지원 CLI 도 제공: 헤드리스 인벤토리 조회( list ), 에셋 동기화, 장치 진단 서브커맨드 내장 버튼 입력은 OS 이벤트 탭으로 재매핑 되며, DPI/SmartShift 변경은 HID++로 장치에 직접 기록 현재 macOS 지원, Linux/Windows는 개발 예정이며 Unifying 리시버는 미지원 활발히 개발 중인 상태로 아직 안정 버전 아님. 기능과 설정이 변경될 수 있음 Apache-2.0 / MIT 이중 라이선스
함께 보면 좋은 글 β Mouser - Logi-Plus 마우스 소프트웨어의 오픈소스 대체제 Handy – Rust로 작성된 무료 오픈소스 음성 인식 앱 Obsidian CLI 공개 Mouseless - macOS/Linux/Windows의 키보드 기반 제어 OpenFang — Rust로 만든 오픈소스 에이전트 운영체제 (v0.1.0)
Mouser - Logi-Plus 마우스 소프트웨어의 오픈소스 대체제
Handy – Rust로 작성된 무료 오픈소스 음성 인식 앱
Mouseless - macOS/Linux/Windows의 키보드 기반 제어
OpenFang — Rust로 만든 오픈소스 에이전트 운영체제 (v0.1.0)
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ qwkjsan99 2시간전 [-] 올해 초였나 작년 말이었나 Logi Options+ 앱 버그 때문에 제 마우스가 평소 키맵대로 동작안해서 그날 하루 엄청 불편했었던 기억이 나네요. 패치는 24시간안에 바로 올라오긴 했었는데, 개인 소유 하드웨어가 텔레메트리를 위한 Logitec 서버 때문에 동작을 안하면 사실상 멀웨어랑 다른게 뭔가 싶었었습니다. 대체 프로그램들은 유료에다가 만족할만큼 기능이 풍부하지 못해서 결국 그대로 쓰고 있었는데 오픈소스가 나왔다니 굉장히 반갑고 감사하네요. 한번 사용해보겠습니다. 답변달기 ▲ xguru 4일전 [-] Logitech Options+는 원체 비판이 많은 소프트웨어이긴 합니다. OpenLogi 를 소개한 다른 글들을 보면 왜 Local-First/No-Telemetry를 강조하는지 이해가 됩니다. The official Options+ is a bloated Electron app that "phones home" 공식 Options+가 Windows·macOS에선 그럭저럭 작동하지만 Linux에선 사실상 방치 상태이고, 이유 모를 목적으로 Logitech 서버에 신호를 보내는 비대한 Electron 앱이라고 지적 Peripheral software as a "vendor engagement funnel" 좋은 마우스를 사고 나면 텔레메트리가 많은 계정 중심 컴패니언 앱으로 떠밀린다고 비판하며, OpenLogi는 마우스 설정을 벤더 인게이지먼트 퍼널 이 아니라 로컬 시스템 소프트웨어처럼 다룬다는 점이 핵심이라고 칭찬 2026년 1월 인증서 만료로 macOS 마우스 대란 — The Register 만료된 개발자 인증서 때문에 macOS에서 G HUB와 Logi Options+가 멈췄고, 스크롤 방향이 바뀌거나 매핑한 버튼이 안 먹는 문제로 다수 사용자가 분노하기도 했죠 심지어 인앱 업데이터까지 영향을 받아서, 사용자에게 수동으로 새 버전을 내려받아 설치하란 요구를 하기도 했습니다. 답변달기
올해 초였나 작년 말이었나 Logi Options+ 앱 버그 때문에 제 마우스가 평소 키맵대로 동작안해서 그날 하루 엄청 불편했었던 기억이 나네요. 패치는 24시간안에 바로 올라오긴 했었는데, 개인 소유 하드웨어가 텔레메트리를 위한 Logitec 서버 때문에 동작을 안하면 사실상 멀웨어랑 다른게 뭔가 싶었었습니다. 대체 프로그램들은 유료에다가 만족할만큼 기능이 풍부하지 못해서 결국 그대로 쓰고 있었는데 오픈소스가 나왔다니 굉장히 반갑고 감사하네요. 한번 사용해보겠습니다.
올해 초였나 작년 말이었나 Logi Options+ 앱 버그 때문에 제 마우스가 평소 키맵대로 동작안해서 그날 하루 엄청 불편했었던 기억이 나네요.
패치는 24시간안에 바로 올라오긴 했었는데, 개인 소유 하드웨어가 텔레메트리를 위한 Logitec 서버 때문에 동작을 안하면 사실상 멀웨어랑 다른게 뭔가 싶었었습니다.
대체 프로그램들은 유료에다가 만족할만큼 기능이 풍부하지 못해서 결국 그대로 쓰고 있었는데 오픈소스가 나왔다니 굉장히 반갑고 감사하네요. 한번 사용해보겠습니다.
▲ xguru 4일전 [-] Logitech Options+는 원체 비판이 많은 소프트웨어이긴 합니다. OpenLogi 를 소개한 다른 글들을 보면 왜 Local-First/No-Telemetry를 강조하는지 이해가 됩니다. The official Options+ is a bloated Electron app that "phones home" 공식 Options+가 Windows·macOS에선 그럭저럭 작동하지만 Linux에선 사실상 방치 상태이고, 이유 모를 목적으로 Logitech 서버에 신호를 보내는 비대한 Electron 앱이라고 지적 Peripheral software as a "vendor engagement funnel" 좋은 마우스를 사고 나면 텔레메트리가 많은 계정 중심 컴패니언 앱으로 떠밀린다고 비판하며, OpenLogi는 마우스 설정을 벤더 인게이지먼트 퍼널 이 아니라 로컬 시스템 소프트웨어처럼 다룬다는 점이 핵심이라고 칭찬 2026년 1월 인증서 만료로 macOS 마우스 대란 — The Register 만료된 개발자 인증서 때문에 macOS에서 G HUB와 Logi Options+가 멈췄고, 스크롤 방향이 바뀌거나 매핑한 버튼이 안 먹는 문제로 다수 사용자가 분노하기도 했죠 심지어 인앱 업데이터까지 영향을 받아서, 사용자에게 수동으로 새 버전을 내려받아 설치하란 요구를 하기도 했습니다. 답변달기
Logitech Options+는 원체 비판이 많은 소프트웨어이긴 합니다. OpenLogi 를 소개한 다른 글들을 보면 왜 Local-First/No-Telemetry를 강조하는지 이해가 됩니다. The official Options+ is a bloated Electron app that "phones home" 공식 Options+가 Windows·macOS에선 그럭저럭 작동하지만 Linux에선 사실상 방치 상태이고, 이유 모를 목적으로 Logitech 서버에 신호를 보내는 비대한 Electron 앱이라고 지적 Peripheral software as a "vendor engagement funnel" 좋은 마우스를 사고 나면 텔레메트리가 많은 계정 중심 컴패니언 앱으로 떠밀린다고 비판하며, OpenLogi는 마우스 설정을 벤더 인게이지먼트 퍼널 이 아니라 로컬 시스템 소프트웨어처럼 다룬다는 점이 핵심이라고 칭찬 2026년 1월 인증서 만료로 macOS 마우스 대란 — The Register 만료된 개발자 인증서 때문에 macOS에서 G HUB와 Logi Options+가 멈췄고, 스크롤 방향이 바뀌거나 매핑한 버튼이 안 먹는 문제로 다수 사용자가 분노하기도 했죠 심지어 인앱 업데이터까지 영향을 받아서, 사용자에게 수동으로 새 버전을 내려받아 설치하란 요구를 하기도 했습니다.
Logitech Options+는 원체 비판이 많은 소프트웨어이긴 합니다. OpenLogi 를 소개한 다른 글들을 보면 왜 Local-First/No-Telemetry를 강조하는지 이해가 됩니다.
The official Options+ is a bloated Electron app that "phones home" 공식 Options+가 Windows·macOS에선 그럭저럭 작동하지만 Linux에선 사실상 방치 상태이고, 이유 모를 목적으로 Logitech 서버에 신호를 보내는 비대한 Electron 앱이라고 지적
Peripheral software as a "vendor engagement funnel" 좋은 마우스를 사고 나면 텔레메트리가 많은 계정 중심 컴패니언 앱으로 떠밀린다고 비판하며, OpenLogi는 마우스 설정을 벤더 인게이지먼트 퍼널 이 아니라 로컬 시스템 소프트웨어처럼 다룬다는 점이 핵심이라고 칭찬
2026년 1월 인증서 만료로 macOS 마우스 대란 — The Register 만료된 개발자 인증서 때문에 macOS에서 G HUB와 Logi Options+가 멈췄고, 스크롤 방향이 바뀌거나 매핑한 버튼이 안 먹는 문제로 다수 사용자가 분노하기도 했죠 심지어 인앱 업데이터까지 영향을 받아서, 사용자에게 수동으로 새 버전을 내려받아 설치하란 요구를 하기도 했습니다.
XRP 반등 분수령은 1.12달러·1.25달러…추가 하락 가능성도 남아
XRP가 1.05달러까지 밀린 뒤 반등했지만, 시장은 아직 바닥 형성을 단정하지 못하고 있다. 1.12달러 지지와 1.25달러 돌파 여부가 반전과 추가 하락을 가를 핵심 구간으로 꼽힌다.
[디지털투데이 이윤서 기자] XRP가 연중 최저치까지 급락한 뒤 소폭 반등하면서 이번 하락이 바닥이었는지를 둘러싼 논쟁이 커지고 있다.
10일(이하 현지시간) 블록체인 매체 더 크립토 베이직에 따르면 XRP는 6일 1.05달러까지 떨어지며 올해 들어 가장 큰 낙폭을 기록한 뒤, 분석 시점에는 1.11달러 안팎에서 거래됐다.
이번 급락은 암호화폐 시장 전반의 매도 압력이 다시 강해진 가운데 나왔다. 이에 따라 시장 참가자들은 수개월간 이어진 XRP 조정이 마무리 단계에 들어섰는지, 아니면 한 차례 추가 하락이 남아 있는지를 놓고 차트 구간별 반응을 주시하고 있다.
시장 분석가 캐시는 XRP가 1.09달러 부근의 0.786 매크로 되돌림 구간에서 지지를 받은 뒤 반등했다고 봤다. 이후 가격은 1.17달러 안팎의 국지적 0.382 되돌림 수준까지 올라왔고, 현재는 1.12달러 부근의 0.5 되돌림 구간을 지키는지가 핵심이라고 짚었다. 그는 XRP가 표준적인 ABC 조정 패턴으로 전개된다면 1.12달러 위를 유지한 채 다음 저항선인 1.25달러로 서서히 향해야 한다고 봤다.
관건은 1.25달러 구간이다. 캐시는 이 가격대가 현재의 4파 반등이 이어질 수 있는 상단 범위이면서도, 동시에 마지막 5파 하락 가능성을 남겨두는 자리라고 설명했다. XRP가 이 구간을 넘지 못하면 매도세가 다시 유입돼 1.09달러 지지선 아래로 밀릴 수 있고, 이 경우 0.90달러 부근까지 추가 하락하며 더 큰 조정이 마무리될 수 있다는 전망이다.
강세 시나리오도 열려 있다. 캐시는 향후 며칠간 XRP가 1.12달러 위를 지키고 인근 저항선을 돌파하면 반등 동력이 살아날 수 있다고 봤다. 1.30달러 돌파를 강한 신호로 봤고, 1.65달러까지 오르면 0.90달러대로 다시 떨어질 가능성이 크게 낮아진다고 분석했다.
또 다른 분석가 타라는 XRP가 이미 1.17달러 안팎의 목표 저항선에 도달했다고 짚었다. 다만 비트코인이 아직 자체 목표 구간에 닿지 못한 만큼, 비트코인이 6만6300달러까지 오르면 XRP도 추가로 올라 1.20달러 저항선에 닿을 수 있다고 봤다.
다만 그는 XRP가 1.17달러를 확실히 넘어서는지 봐야 한다고 경고했다. 이 구간에서 새 고점을 만들지 못하면 예상된 5파 하락 목표가 여전히 유효하다는 것이다. 이어 5파의 0.618 확장 목표가 더 넓은 매크로 0.786 지지선인 0.88달러와 거의 겹친다며, 최종 바닥이 아직 형성되지 않았을 수 있다고 덧붙였다.
결국 단기 분수령은 1.12달러 지지선과 1.25달러 저항선이다. 향후 1~2일 동안 XRP가 이 구간에서 어떤 흐름을 보이느냐에 따라 이미 바닥을 확인했는지, 아니면 한 차례 더 하락할지가 가려질 전망이다.
Was that the Bottom on XRP?
After reaching the major .786 macro support at $1.09, XRP has pushed up to a local .382 retracement (A) and is now completing what looks like a Wave B correction. That B wave targets the .5 retracement around $1.12, and so far price is holding… pic.twitter.com/CD2zZIg208
△디지털투데이 텔레그램 뉴스채널 구독하기(클릭)
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
Microsoft의 오픈소스 도구가 해킹되어 AI 개발자들의 비밀번호 탈취에 악용됨 (techcrunch.com)
GitHub에 호스팅된 수십 개의 오픈소스 프로젝트 가 해커에 의해 침해되어 비밀번호 탈취 악성코드가 코드에 주입되면서, Microsoft가 해당 프로젝트 접근을 차단하고 조사에 착수 영향받은 프로젝트 다수는 클라우드 서비스 Azure 및 Claude Code, Gemini CLI, VS Code 등 AI 개발 앱 으로 코딩할 때 쓰이는 도구와 관련 사용자가 AI 코딩 앱에서 감염된 도구를 열면 비밀번호와 민감한 자격 증명 이 탈취되는 방식으로 동작 GitHub 기준 최소 70개 프로젝트 가 비활성화되었으며, Microsoft는 일부 저장소를 일시 제거 후 검토를 거쳐 복원 이번 사례는 인기 오픈소스 코드를 노리는 공급망 공격 의 최근 사례이며, Microsoft의 오픈소스 프로젝트가 몇 주 사이 두 번째로 침해된 것으로 알려짐 사건 개요 및 Microsoft의 대응 해커가 프로젝트를 침해해 코드에 비밀번호 탈취 악성코드를 주입한 정황이 확인되어, Microsoft가 GitHub 상의 오픈소스 프로젝트 수십 개에 대한 접근을 차단하고 침해 경위를 조사 중 영향받은 프로젝트 다수는 Azure 클라우드 서비스 및 Claude Code , Gemini의 커맨드라인 인터페이스 , VS Code 같은 AI 개발 앱 코딩에 사용되는 도구와 연관 영향받은 도구를 실제로 몇 명이 다운로드했는지는 즉시 확인되지 않음 Microsoft는 저장소를 내린 사실을 확인했으며, 이는 404 Media가 처음 보도 Microsoft 대변인 Ben Hope "잠재적 악성 콘텐츠를 조사하는 동안 일부 저장소를 일시적으로 제거" 일부 저장소는 검토 후 복원되었고, 일부는 작업이 진행되는 동안 오프라인 상태로 유지될 수 있음 영향받은 저장소에서 콘텐츠를 내려받았을 수 있는 소수 고객에게 통지 했으며, 추가 조치가 필요한 사항이 확인되면 기존 지원 채널을 통해 직접 연락 예정 TechCrunch의 질의에 대해 영향받은 고객의 구체적 수치는 즉시 제공하지 않음 악성코드 동작 방식 보안 기업 Cloudsmith 와 커뮤니티 기반 악성코드 분석 사이트 OpenSourceMalware 가 해당 해킹을 가장 먼저 지적한 곳 중 하나 악성코드는 사용자가 AI 코딩 앱에서 감염된 도구를 열었을 때 비밀번호 및 기타 민감한 자격 증명 을 탈취하도록 작동 Microsoft가 소유한 코드 호스팅 사이트 GitHub에서 프로젝트 페이지 접근 시, 최소 70개 프로젝트 가 "비활성화(disabled)" 상태로 표시 표시 메시지 "GitHub 서비스 약관 위반으로 인해 GitHub 직원에 의해 이 저장소 접근이 비활성화됨" 공급망 공격이라는 맥락 최근 수개월간 이어진, 널리 쓰이는 오픈소스 프로젝트를 침해해 해당 코드를 설치한 다수 사용자에게 악성코드를 심는 사례의 최신 건 이러한 해킹은 "공급망(supply chain)" 공격 으로 불리며, 많은 소프트웨어 제품에 두루 쓰이거나 특정 부류 사용자가 사용하는 코드를 표적으로 삼음 이런 대상은 클라우드 시스템과 대량의 고객 데이터에 접근 권한을 가진 경우가 있어 해커에게 유리할 수 있음 오픈소스 프로젝트의 단독 개발자가 표적이 되는 일은 드물지 않으며, 일부는 개발자의 신뢰를 얻기 위한 장기적 시도의 일환 다만 이런 공격을 방어할 자원을 갖춘 Microsoft 같은 대형 기술 기업이 침해당하는 것은 이례적 반복된 침해 정황 Ars Technica에 따르면 이번 건은 최근 수 주 사이 Microsoft 오픈소스 프로젝트가 침해된 두 번째로 알려진 사례 5월 중순, 개발자의 앱 구축을 돕는 Microsoft 오픈소스 프로젝트 Durable Task 가 해킹된 것으로 보안 연구자들이 밝힘 OpenSourceMalware는 이번 최신 사건을 Durable Task 프로젝트의 "재침해(re-compromise)" 로 표현 이는 Microsoft가 첫 시도에서 해커를 완전히 제거하지 못했거나, 전혀 별개의 새로운 침해일 가능성을 시사
함께 보면 좋은 글 β GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함 GitHub, 악성 VSCode 확장을 통한 3,800개 저장소 침해 확인 Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨 AI 록스타 개발자들의 뒷정리 LiteLLM이 공급망 공격으로 해킹당했습니다.
GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함
GitHub, 악성 VSCode 확장을 통한 3,800개 저장소 침해 확인
Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨
LiteLLM이 공급망 공격으로 해킹당했습니다.
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ laeyoung 1일전 [-] Azure Functions 관련된 Repo들이 문제가 생겨서 비활성화 된거라, 그 이유는 아니실거 같긴 해요. ( 관련 링크 ) 답변달기
Azure Functions 관련된 Repo들이 문제가 생겨서 비활성화 된거라, 그 이유는 아니실거 같긴 해요. ( 관련 링크 )
순전히 추측이고 개인적인 관찰이지만, 예전의 RBAC 모델 은 이미 거의 망가져 있었고 이제는 완전히 깨진 것처럼 보임 코딩 어시스턴트와 엔지니어가 서로 무관한 여러 프로젝트를 동시에 만지고, 특히 예전엔 시간이 없어서 못 하던 실험까지 벌이면서 기업 내 공급망 위험 이 크게 커졌다고 봄 직접 관련됐다고 말하는 건 아니지만 영향은 있다고 느끼고, 요즘 많은 곳에서 개인 장비로 대충 AI 코딩을 하라고 개발자와 관리자들이 부추기는 것도 곧 문제가 될 것 같음 최근 공급망 사고들 사이에 공통된 흐름이 없다고는 믿기 어렵고, 이런 공격을 전문으로 하는 해킹 그룹이 있는 것도 보상이 크기 때문이라고 봄
제목 표현부터 편향적이고, 본문도 마치 오픈소스의 잘못 인 것처럼 씀 그러고는 시도된 공급망 공격의 책임을 Microsoft에 돌리는 식이라 더 웃김 Microsoft did not immediately provide the specific number of customers affected, when asked by TechCrunch. 라고 하는데, 오픈소스가 원래 그렇게 동작하는 걸 TechCrunch가 설명하지 않음 Microsoft를 깔 수 있을 때 까는 걸 좋아하지만, 이번에는 Microsoft가 안전하고 올바른 조치를 했다고 봄 기사에서는 마치 전부 Microsoft 잘못이고 침해 범위를 제한한 것도 부끄러운 일인 것처럼 씀 steal passwords of AI developers 라는 표현도 “AI 개발자”인지 “AI를 쓰는 개발자”인지 묘한 함의를 남김 공급망 공격에 대한 설명도 실제 의미가 아니라 결과와 공격 표면의 이유만 말하고 있어서, 이번 보도는 매우 좋지 않다고 봄
관련 있어 보이는 글들임 https://news.ycombinator.com/item?id=48418318 (The Blight Reaches Microsoft: 73 Repos Disabled in 105 Seconds) https://news.ycombinator.com/item?id=48450543 (Miasma Worm Hits Microsoft Again: Azure Functions Action and 72 Other Repositories Disabled After Supply Chain Attack Targeting AI Coding Agents) https://news.ycombinator.com/item?id=48416155 https://news.ycombinator.com/item?id=48416269 (Miasma Worm Targets AI Coding Agents via GitHub Repos)
전통적인 개인 접근 토큰 을 지저분하게 사용한 사례일 가능성이 높다고 강하게 의심함 이상한 openclaw 장치에서 AI 에이전트에 토큰을 넘길 거라면 세분화된 토큰을 써야 함 내 GitHub 계정은 정책이 완전히 다른 조직 3개에 걸쳐 있는데, 아직도 classic 토큰이 허용된다는 사실이 좀 놀라움 최소한 각 조직마다 수동으로 허용해야 하게 만들어야 함
어떻게 이렇게 많은 저장소에 난독화된 파일을 추가할 수 있는지 누가 설명해줬으면 함. 코드 리뷰 가 전혀 없나? 제목도 오해를 부름. setup이 저장소에서 일하는 사람들이 자동 실행하게 되는 설정을 추가하는 것이고, 그 사람들은 VSCode, Cursor, Claude, Gemini를 써야 함 Codex, opencode, 다른 실행 하네스를 쓰는 사람들은 안전할 것 같음 자세한 내용: https://www.stepsecurity.io/blog/miasma-worm-hits-microsoft-...
이런 사람들에게 Secure Boot의 루트 CA 인증서 를 맡기고 있는 건가?
늦게 깨달은 편일 수도 있지만, “코드가 나쁘다” 같은 이유로 AI를 쓰고 싶지 않더라도 보안 감사 에는 AI를 쓰는 걸 고려하라고 한동안 말해왔음 적어도 코드에서 취약점을 스캔하는 도구는 써야 함 공격 벡터는 데이터를 훔치는 플러그인만이 아니라, 사용하는 거의 모든 소프트웨어의 0-day 취약점과 LLM을 든 스크립트 키디가 여러분의 웹 서비스를 공격하는 것까지 포함 해킹은 늘어날 것이고 더 나빠질 테니, 사이버보안 감사와 감사 도구에 투자하지 않는 곳은 재고해야 함
아무도 자기 장비에서 npm install 이나 pip install 을 하면 안 됨 적절한 샌드박싱 ( https://github.com/ashishb/amazing-sandbox )을 꾸준히 쓰면 이런 공격의 피해 범위를 크게 줄일 수 있음
Microsoft의 Github가 Microsoft Azure와 다른 모든 사용자의 Microsoft 코드베이스 접근을 이용약관 위반 때문에 중단했다는 사실이 지나치게 웃김 이 조직도를 제대로 실감하게 해줌: https://www.businessinsider.com/big-tech-org-charts-2011-6