apple/container, Container Machine 기능 추가 (github.com/apple)
Mac에서 Linux 컨테이너를 경량 가상 머신 형태로 생성·실행하는 도구 WWDC26에서 새로 추가된 Container Machine 은 홈 디렉토리와 저장소가 자동으로 마운트 된 빠르고 경량이며 영속적인 Linux 환경 을 실행 가능 기존 애플리케이션 단위 컨테이너와 달리 Linux 환경 전체를 모델링 (WSL2와 비슷) 이미지의 init 시스템 을 실행해 장기 실행 서비스 등록 또는 프로세스 관리자 하에서 애플리케이션 테스트 가능 systemd 가 설치된 이미지에서 systemctl start postgresql 같은 실제 Linux 서비스 실행 가능 사용자명과 홈 디렉터리를 자동 매핑 해 저장소·dotfile을 macOS·Linux 양쪽에서 공유함 저장소가 macOS $HOME 에 위치하며 내부 /Users/<username> 에 마운트, macOS 에디터·IDE로 편집하면서 내부에서 빌드·실행 프로파일러·브라우저·GUI 디버거 등 macOS 네이티브 도구 가 동일 파일 인식, 빌드와 검사 사이 복사 단계가 필요없음 alpine , ubuntu , debian 등 대상 배포판 수만큼 Container Machine 생성 가능, 각각 동일한 $HOME ·dotfile 공유로 여러 배포판에서 빠른 테스트 /sbin/init 을 포함하는 모든 Linux 이미지를 직접 Container Machine 이미지로 사용 가능 OCI 호환 컨테이너 이미지 를 소비·생성하므로 표준 컨테이너 레지스트리에서 도커 이미지도 pull·push 가능 다른 OCI 호환 애플리케이션에서도 해당 이미지 실행 가능 저수준 컨테이너·이미지·프로세스 관리는 Containerization Swift 패키지 에 의존 실행에 Apple silicon 탑재 Mac 필요, macOS 26 에서 지원 macOS 26의 가상화·네트워킹 신규 기능 및 개선 사항 활용, 이전 버전 macOS는 미지원 Apache-2.0 라이선스 동작 명령들 container machine create alpine:latest --name dev container machine run -n dev whoami # your host username, not root container machine run -n dev pwd # /home/<you> — your Mac home dir, mounted in container machine run -n dev # interactive shell; cd into your repos in $HOME container machine ls # list all container machines container machine inspect dev # JSON detail for one container machine stop dev # stop the container machine container machine rm dev # delete, including its persistent storage container machine set -n dev cpus=4 memory=8G container machine stop dev container machine run -n dev -- nproc WWDC26의 소개 동영상 - 컨테이너 머신 살펴보기 Containerization은 WWDC 25에서 오픈소스로 공개된 Swift 프레임워크로, macOS에서 Linux 컨테이너를 실행하기 위한 기반임 각 컨테이너에 가상 머신 기반 격리를 제공하도록 설계됐으며, 경량 가상 머신이라 빠른 성능과 1초 미만의 시작 시간을 제공 Container machine 은 Containerization 위에 구축된 새 기능으로, 컨테이너의 사용성과 속도에 가상 머신의 지속성을 결합하고, 통합 기능을 통해 Linux 환경이 macOS의 확장처럼 느껴지게 함 설계 원칙 Container machine은 기존 워크플로에 통합될 수 있도록 빠르고 가벼워야 함 macOS와 Linux 사이를 쉽게 전환할 수 있어야 함 사용자가 새 환경을 빠르게 만들고 커스터마이즈할 수 있어야 하며, 이를 통해 여러 프로젝트가 의존성이나 툴체인 충돌 걱정 없이 전용 환경을 가질 수 있음 개발 생명주기 동안 필요한 도구와 의존성이 달라질 수 있으므로, 지속적인 환경에서 도구를 추가하고 시간이 지나도 다시 사용할 수 있어야 함 여러 플랫폼을 대상으로 개발할 때 큰 문맥 전환이나 새 도구 학습이 필요하지 않아야 함
함께 보면 좋은 글 β Containerization - macOS에서 Linux 컨테이너를 실행할 수 있는 Swift 패키지 OrbStack - macOS에서 빠르고 쉽게 Docker 컨테이너 및 Linux 실행하기 Docker+Wasm (Beta) Docker 컨테이너 10년 macOS Containers v0.0.1
Containerization - macOS에서 Linux 컨테이너를 실행할 수 있는 Swift 패키지
OrbStack - macOS에서 빠르고 쉽게 Docker 컨테이너 및 Linux 실행하기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ GN⁺ 14시간전 [-] Lobste.rs 의견들 아직 비교가 안 나온 것 같은데, 이건 Lima 와 가장 비슷해 보임 => https://lima-vm.io/ 맞음, lima/colima 와 꽤 비슷해서 갈아타야 하나 고민될 정도임 "vibecoding" tag disclosure : LLM이 “도운” 커밋 몇 개[0] 말고도, .gitignore 에 Claude Code 상태 디렉터리 [1]가 들어 있고 기여 정책에서도 “AI” 도구 사용을 권장함[2] [0] https://github.com/search/… [1] https://github.com/apple/container/… [2] https://github.com/apple/containerization/… AI 기여 정책이 있는 소프트웨어 프로젝트를 전부 vibecoding 으로 태그하는 건, 그 태그 사용 논쟁에서 나올 수 있는 최악의 결론임 한동안 써봤는데, CPU와 RAM 기본값 을 좀 더 합리적으로 잡아줬으면 함 처음엔 느리다고만 느꼈고, 그다음엔 임의 작업이 크래시 나는 걸 봤고, 나중에야 기본적으로 컨테이너에 RAM의 5% 미만과 코어의 절반도 안 되는 양만 쓰고 있다는 걸 알게 됨 아주 좋음. 이제야 Mac에서도 컨테이너 를 제대로 쓸 만한 흐름이 생긴 듯함 1.0.0 버전 이 릴리스됨 왜 이걸 podman 대신 써야 하는지 아는 사람 있음? 컨테이너마다 VM을 하나씩 만들기 때문에 격리성이 더 좋음, 보안과 성능 측면에서 유리함 그 외에는 꽤 비슷함 답변달기 ▲ recast7838 1일전 [-] 충분한 성능이 나올까요? 답변달기 ▲ click 1일전 [-] 아무리봐도 wsl2 맥판인데 호스트 볼륨 매핑할 때 IO 성능 확 떨어지는 건 없으려나요 지금도 limactl 가지고 vm 위에서 컨테이너 돌리는데 크게 다르지 않는 느낌도 들고요 답변달기 ▲ GN⁺ 1일전 [-] Hacker News 의견들 여기서 몇 가지를 명확히 하자면, 이건 OCI 컨테이너 만의 이야기가 아님 Container Machines는 영속성과 파일시스템 마운트를 지원해서, macOS를 쓰는 개발자에게 훌륭한 가벼운 Linux 환경 이 될 수 있음 자세한 내용은 여기: https://developer.apple.com/videos/play/wwdc2026/389 container 는 컨테이너를 다르게 실행함 오픈소스 Containerization 패키지를 사용해 생성하는 컨테이너마다 가벼운 가상 머신을 실행하며, 그래서 보안은 전체 가상 머신 수준의 격리를 얻고, 프라이버시는 필요한 호스트 데이터만 각 가상 머신에 마운트하며, 성능은 전체 가상 머신보다 메모리를 덜 쓰고 공유 가상 머신에서 도는 컨테이너와 비슷한 부팅 시간을 제공함 기술적 제한을 포함한 자세한 내용은 여기 있고, 버그 리포트와 기여를 찾고 있음: “Container: Technical Overview” https://github.com/apple/container/blob/main/docs/technical-overview.md “Mac에서 매끄럽게 동작하는 고도로 통합된 Linux 환경”이라면, 어떤 커널 이 돌고 있으며 UTM이 qemu 모드가 아닐 때처럼 Hypervisor.framework 위에서 호스팅되는 건지 궁금함 파일시스템 마운트 가 바인드 마운트와 어떻게 다른지 궁금함 아, Darwin/BSD Subsystem for Linux 인 셈이군 OrbStack 같은 것과 비교하면 어떤지 궁금함 macOS를 좋아하지만 가끔 Linux 머신이나 BSD, Raspberry Pi도 쓰는 드문 기회주의적 취미 개발자 부류에 속함 Docker Compose로 Docker 이미지를 만들거나 Colima 같은 걸 쓸 수 있는데, 이것도 그쪽에 가까워 보이고 Docker 대비 장점도 있을 듯함 다만 W^X 페이지 보호를 우회하려던 기대는 실현되지 않았음 저장소가 이런 Container Machines 를 맥락 속에 놓고 설명하지 않는 게 의아함 Colima와 가까워 보이는데 Docker, Colima, Container Machines 중 언제 무엇을 써야 하는지 궁금함 이 문제를 정확히 풀려고 이 도구를 만들었음: https://github.com/smol-machines/smolvm 왜 W^X 페이지 보호 를 우회하려는지 궁금함 추가 포인터 간접 참조 없이 자기 수정 프로그램 같은 걸 만들려는 건가? https://github.com/apple/container/blob/main/docs/technical-overview.md 문서를 읽으면 됨 다 좋은데 Apple, 네이티브 Darwin Jails 는 어디 있음? 여러 macOS 컨테이너를 허용하면 사람들이 방 하나를 Mac Mini로 채워버릴까 봐 아직도 겁나는 건가? 머신당 두 개 정도의 무거운 가상 머신만 허용하지 말고 Darwin 네임스페이스 가 훨씬 더 흥미롭고, 현재 보안 환경에서는 정말 절실함 Apple의 Containerization에 왜 이렇게 열광하는지 잘 모르겠음 수많은 컨테이너 런타임 중 하나일 뿐이고, OrbStack보다 나은 것도 아니며 사실은 더 나쁨 Darwin 위에 Foundation, AppKit 같은 계층, 즉 전체 macOS를 구동하는 구성요소들이 필요할 것 같음 그래도 전체 아이디어는 좋음 샌드박스 프로파일을 말하는 건가? OrbStack은 나에게 정말 잘 동작함 이것과 성능 면 에서 어떻게 비교되는지 궁금함 OrbStack 개발자임 우리는 Virtualization.framework 대신 파일시스템 공유 같은 기능을 위한 커스텀 장치와 프로토콜을 갖춘 Rust 가상화 스택 을 사용함 Linux 머신과 컨테이너 실행에 특화해 고도로 최적화한 수직 통합 스택임 가장 큰 성능·자원 이득은 동적 메모리로, 사용하지 않는 메모리를 macOS에 돌려줘 메모리 사용량을 크게 줄임 Containerization을 포함해 다른 것은 이걸 지원하지 않음 Container Machines를 써보니 OrbStack 머신보다는 기본 바인드 마운트를 가진 OCI 컨테이너에 훨씬 가까워 보였고, 통합 기능이 적으며 systemd나 일반적인 init 시스템을 실행하지 않아서 서비스 실행이 어렵다 https://tart.run/ 와의 비교도 보고 싶음 내가 보기엔 꽤 비슷함 OrbStack은 이론적으로 마음에 들지만, 오픈소스이면서 무료인 대안이 많은데 연 $96 라이선스 비용 을 정당화하기 어렵다고 느낌 지금이라면 Podman이나 Colima를 쓰는 편이 낫겠음 OrbStack을 정말 좋아하고, 현재로서는 왜 OrbStack 대신 Container Machines 를 써야 하는지 잘 모르겠음 완전한 Docker 환경은 아니고, 빌드를 목표로 만들었지만 옵션으로 dockerd도 실행할 수 있음 https://github.com/cpuguy83/crucible 는 Containerization 프레임워크 를 사용해 buildkitd나 dockerd를 실행하고 docker/buildx CLI 또는 원하는 클라이언트 도구에 연결함 Containerization 프레임워크는 Virtualization.framework 위에 놓이는 라이브러리라서 각 컨테이너가 자체 가상 머신임 Machine은 이 프레임워크 위에서 가상 머신 안의 컨테이너에 여러 작업을 실행하기 위한 도구임 이걸 Michael Crosby 가 썼음 그는 Docker, containerd 등의 오랜 유지보수자이고, Docker에서 처음으로 “Distinguished Engineer” 직함을 받은 사람이라 이 이름이 붙은 건 꽤 의미가 큼 이 컨테이너들이 공통 커널 을 공유하는지, 아니면 각각 별도 가상 머신에서 실행되는지 궁금함 수정: 컨테이너마다 가상 머신 하나임 https://github.com/apple/container/blob/main/docs/technical-overview.md 낭비 아닌가? “작은” 가상 머신이라고 해도 여전히 가상 머신 임 왜 이런 도구들은 항상 컨테이너 안에 $HOME 마운트 를 홍보하는지 이해가 안 됨 완전한 격리가 더 낫지 않나? 이런 걸 쓰는 이유가 그거 아닌가? 컨테이너가 이렇게 인기를 얻은 건 개발자가 개발·배포를 쉽게 하려는 도구였기 때문임 보안 계층으로 쓰려면 완전히 다른 목표이고, 매우 위험한 함정이 많음 [1] 지난주에도 AI 에이전트가 Docker를 사용해 시스템에서 sudo를 우회했다는 글을 보고 사람들이 충격을 받았는데, Docker를 설치한 대부분에게도 일어날 수 있을 것 같음 쉬운 개발 외의 용도로 컨테이너를 쓰려면 평균 사용자보다 훨씬 더 능숙해야 하고, 그런 경우 $HOME을 노출하지 않는 건 설정할 일 목록의 작은 항목일 뿐임 [1] https://cheatsheetseries.owasp.org/cheatsheets/Docker_Security_Cheat_Sheet.html 내가 이걸 쓰는 이유는 예전의 -v $HOME:$HOME 컨테이너처럼, Homebrew 대신 Debian에서 익숙한 모든 명령줄 도구 환경 을 얻기 위해서임 대체로 이 환경이 내 홈 디렉터리에 접근하는 걸 신뢰하고, 필요하면 쉽게 버리고 다시 만들 수 있는 것도 장점임 호스트에 설치하기 불편한 것, 예를 들어 npm 같은 건 여전히 덜 허용적인 컨테이너를 쓸 것임 그렇지 않음. 머신의 핵심은 결국 외부 인터페이스 임 인터페이스가 없는 Linux 가상 머신은 계산만 하며 전기를 낭비하는 닫힌 상자일 뿐임 Apple은 WSL의 교훈을 고려해야 함 파일시스템 공유 접근은 정말 최소한이고, 그다음은 네트워킹이며 WSL에서 이건 깊은 토끼굴임 사람들은 USB 장치 접근, X 전달, GPU 패스스루도 원하게 될 것임 이런 걸 쓰는 목적은 완전 격리가 아니라 Linux 작업 부하 를 실행하는 것임 최근 Containerization으로 tup 테스트 스위트의 추적 로그를 생성해서 macOS에서 상대적 동등성을 맞추는 데 썼음 완전히 격리되어 있었다면 수정한 소스 코드를 컨테이너에 넣기도 어렵고, 추적 로그를 다시 꺼내기도 어려웠을 것임 바인드 마운트 같은 걸로 덮어쓸 수는 있겠지만 귀찮음 Docker 관점에서도 흥미롭지만, 나는 AI 에이전트 와 신뢰할 수 없는 코드 실행을 위한 샌드박스로서 더 관심이 감 그 관점에서 여기 글을 썼음: https://igorstechnoclub.com/sandbox-exec/ 가상 머신 수준 격리를 가진 sandbox-exec의 정신적 후계자처럼 느껴짐 맞음, 그 글도 제한 사항 아래에서 이렇게 말함: “지원 중단 상태: 동작은 하지만 Apple은 개발자가 직접 사용하기보다 App Sandbox를 쓰길 권장한다” 이게 Docker Desktop과 동등한 것들을 대체해서, 옆에서 도는 비싼 Linux 가상 머신 을 없앨 수 있을까? 큰 공유 백그라운드 가상 머신을 대부분 없애고, 더 작고 더 격리된 Apple 네이티브 가상 머신 들로 대체함 내 Podman 작업 부하를 Apple의 container 로 옮겨보는 실험을 했음: https://gist.github.com/jmonster/39e14585e107dbf990a90966c0f84427 요약하면 RAM·스토리지 사용량을 줄이고 존재감을 최소화함 나도 첫 생각이 그거였음 Docker Desktop 오버헤드 가 꽤 심해서, 이게 DD에 네이티브로 들어오면 정말 좋겠음 Docker가 역사적으로 성능 개선을 시도하다가 플랫폼 한계를 받아들여야 했던 걸 보면 가능성은 있어 보이고, DD를 컨테이너 쪽으로 옮기는 건 자연스러워 보임 이건 명시적으로 Linux 가상 머신 을 제공하며, Linux 가상 머신 없이 그걸 하기는 어려워 보임 원하는 것, 즉 macOS에서 Linux 가상 머신 없이 Linux 컨테이너를 실행하는 것과는 실제 사용 사례가 반대임 macOS의 Linux 기반 컨테이너 구현을 사용해, 컨테이너라기보다 가상 머신에 더 가까워 보이는 장기 실행 Linux 가상 머신을 제공함 Linux 가상 머신이 꼭 비쌀 필요는 없음 여기서도 언급되지만, 나는 최근 Colima 로 갈아탔음 Docker Desktop을 우회하며 일하는 고통이 꽤 큼 이제 macOS와 Windows 모두 그 위에서 Linux로 개발 하는 걸 강하게 지원하는 셈임 이 분야에서는 Linux를 당해낼 수 없다는 걸 더 노골적으로 인정할 수는 없나 봄 Linux가 광고를 했다면 꽤 영리한 광고 소재가 됐을 것임 둘 다 많은 애플리케이션의 실행 대상이 Linux 서버 라는 점을 인정하는 것에 가깝다고 봄 개발 대상이 Linux라는 뜻은 아님 Linux도 데스크톱에서는 macOS/Windows를 당해낼 수 없다는 걸 공개적으로 인정하지 못함 그래서 macOS/Windows 데스크톱에서 Linux 가상 머신 을 돌리는 이런 하이브리드 상황이 생김 기업들은 실제 Linux 배포판을 쓰는 것만 빼고, Linux에서 개발하기 위해 뭐든 할 것임 이건 오히려 Linux 데스크톱의 해 가 완전히 패배했다는 뜻에 가까움 Linux 게임은 콘텐츠 공급원으로 Windows 생태계에 의존함 Linux가 컨테이너로 잘 포장되면 macOS와 Windows는 합산 90% 시장 점유율을 유지하고, 사전 설치 Linux 데스크톱과 노트북을 파는 OEM 시장을 지원하려는 사람은 거의 없어짐 소비자가 쓰는 다른 “배포판”은 Android, webOS, 그리고 Chromebook의 진화형인 Googlebooks가 될 것임 결국 일반 대중이 Apple Linux, Microsoft Linux, Google Linux, Asus Linux, LG Linux에만 관심을 갖는 피로스의 승리가 되고, IT 부서가 Linux 노트북을 지원할 유인이 사라짐 많은 개발자가 Linux를 써야 하지만 여전히 Mac에서는 가상 머신으로, Windows에서는 WSL 같은 에뮬레이션류로만 씀 한심함 답변달기
Lobste.rs 의견들 아직 비교가 안 나온 것 같은데, 이건 Lima 와 가장 비슷해 보임 => https://lima-vm.io/ 맞음, lima/colima 와 꽤 비슷해서 갈아타야 하나 고민될 정도임 "vibecoding" tag disclosure : LLM이 “도운” 커밋 몇 개[0] 말고도, .gitignore 에 Claude Code 상태 디렉터리 [1]가 들어 있고 기여 정책에서도 “AI” 도구 사용을 권장함[2] [0] https://github.com/search/… [1] https://github.com/apple/container/… [2] https://github.com/apple/containerization/… AI 기여 정책이 있는 소프트웨어 프로젝트를 전부 vibecoding 으로 태그하는 건, 그 태그 사용 논쟁에서 나올 수 있는 최악의 결론임 한동안 써봤는데, CPU와 RAM 기본값 을 좀 더 합리적으로 잡아줬으면 함 처음엔 느리다고만 느꼈고, 그다음엔 임의 작업이 크래시 나는 걸 봤고, 나중에야 기본적으로 컨테이너에 RAM의 5% 미만과 코어의 절반도 안 되는 양만 쓰고 있다는 걸 알게 됨 아주 좋음. 이제야 Mac에서도 컨테이너 를 제대로 쓸 만한 흐름이 생긴 듯함 1.0.0 버전 이 릴리스됨 왜 이걸 podman 대신 써야 하는지 아는 사람 있음? 컨테이너마다 VM을 하나씩 만들기 때문에 격리성이 더 좋음, 보안과 성능 측면에서 유리함 그 외에는 꽤 비슷함
▲ recast7838 1일전 [-] 충분한 성능이 나올까요? 답변달기
▲ click 1일전 [-] 아무리봐도 wsl2 맥판인데 호스트 볼륨 매핑할 때 IO 성능 확 떨어지는 건 없으려나요 지금도 limactl 가지고 vm 위에서 컨테이너 돌리는데 크게 다르지 않는 느낌도 들고요 답변달기
아무리봐도 wsl2 맥판인데 호스트 볼륨 매핑할 때 IO 성능 확 떨어지는 건 없으려나요 지금도 limactl 가지고 vm 위에서 컨테이너 돌리는데 크게 다르지 않는 느낌도 들고요
▲ GN⁺ 1일전 [-] Hacker News 의견들 여기서 몇 가지를 명확히 하자면, 이건 OCI 컨테이너 만의 이야기가 아님 Container Machines는 영속성과 파일시스템 마운트를 지원해서, macOS를 쓰는 개발자에게 훌륭한 가벼운 Linux 환경 이 될 수 있음 자세한 내용은 여기: https://developer.apple.com/videos/play/wwdc2026/389 container 는 컨테이너를 다르게 실행함 오픈소스 Containerization 패키지를 사용해 생성하는 컨테이너마다 가벼운 가상 머신을 실행하며, 그래서 보안은 전체 가상 머신 수준의 격리를 얻고, 프라이버시는 필요한 호스트 데이터만 각 가상 머신에 마운트하며, 성능은 전체 가상 머신보다 메모리를 덜 쓰고 공유 가상 머신에서 도는 컨테이너와 비슷한 부팅 시간을 제공함 기술적 제한을 포함한 자세한 내용은 여기 있고, 버그 리포트와 기여를 찾고 있음: “Container: Technical Overview” https://github.com/apple/container/blob/main/docs/technical-overview.md “Mac에서 매끄럽게 동작하는 고도로 통합된 Linux 환경”이라면, 어떤 커널 이 돌고 있으며 UTM이 qemu 모드가 아닐 때처럼 Hypervisor.framework 위에서 호스팅되는 건지 궁금함 파일시스템 마운트 가 바인드 마운트와 어떻게 다른지 궁금함 아, Darwin/BSD Subsystem for Linux 인 셈이군 OrbStack 같은 것과 비교하면 어떤지 궁금함 macOS를 좋아하지만 가끔 Linux 머신이나 BSD, Raspberry Pi도 쓰는 드문 기회주의적 취미 개발자 부류에 속함 Docker Compose로 Docker 이미지를 만들거나 Colima 같은 걸 쓸 수 있는데, 이것도 그쪽에 가까워 보이고 Docker 대비 장점도 있을 듯함 다만 W^X 페이지 보호를 우회하려던 기대는 실현되지 않았음 저장소가 이런 Container Machines 를 맥락 속에 놓고 설명하지 않는 게 의아함 Colima와 가까워 보이는데 Docker, Colima, Container Machines 중 언제 무엇을 써야 하는지 궁금함 이 문제를 정확히 풀려고 이 도구를 만들었음: https://github.com/smol-machines/smolvm 왜 W^X 페이지 보호 를 우회하려는지 궁금함 추가 포인터 간접 참조 없이 자기 수정 프로그램 같은 걸 만들려는 건가? https://github.com/apple/container/blob/main/docs/technical-overview.md 문서를 읽으면 됨 다 좋은데 Apple, 네이티브 Darwin Jails 는 어디 있음? 여러 macOS 컨테이너를 허용하면 사람들이 방 하나를 Mac Mini로 채워버릴까 봐 아직도 겁나는 건가? 머신당 두 개 정도의 무거운 가상 머신만 허용하지 말고 Darwin 네임스페이스 가 훨씬 더 흥미롭고, 현재 보안 환경에서는 정말 절실함 Apple의 Containerization에 왜 이렇게 열광하는지 잘 모르겠음 수많은 컨테이너 런타임 중 하나일 뿐이고, OrbStack보다 나은 것도 아니며 사실은 더 나쁨 Darwin 위에 Foundation, AppKit 같은 계층, 즉 전체 macOS를 구동하는 구성요소들이 필요할 것 같음 그래도 전체 아이디어는 좋음 샌드박스 프로파일을 말하는 건가? OrbStack은 나에게 정말 잘 동작함 이것과 성능 면 에서 어떻게 비교되는지 궁금함 OrbStack 개발자임 우리는 Virtualization.framework 대신 파일시스템 공유 같은 기능을 위한 커스텀 장치와 프로토콜을 갖춘 Rust 가상화 스택 을 사용함 Linux 머신과 컨테이너 실행에 특화해 고도로 최적화한 수직 통합 스택임 가장 큰 성능·자원 이득은 동적 메모리로, 사용하지 않는 메모리를 macOS에 돌려줘 메모리 사용량을 크게 줄임 Containerization을 포함해 다른 것은 이걸 지원하지 않음 Container Machines를 써보니 OrbStack 머신보다는 기본 바인드 마운트를 가진 OCI 컨테이너에 훨씬 가까워 보였고, 통합 기능이 적으며 systemd나 일반적인 init 시스템을 실행하지 않아서 서비스 실행이 어렵다 https://tart.run/ 와의 비교도 보고 싶음 내가 보기엔 꽤 비슷함 OrbStack은 이론적으로 마음에 들지만, 오픈소스이면서 무료인 대안이 많은데 연 $96 라이선스 비용 을 정당화하기 어렵다고 느낌 지금이라면 Podman이나 Colima를 쓰는 편이 낫겠음 OrbStack을 정말 좋아하고, 현재로서는 왜 OrbStack 대신 Container Machines 를 써야 하는지 잘 모르겠음 완전한 Docker 환경은 아니고, 빌드를 목표로 만들었지만 옵션으로 dockerd도 실행할 수 있음 https://github.com/cpuguy83/crucible 는 Containerization 프레임워크 를 사용해 buildkitd나 dockerd를 실행하고 docker/buildx CLI 또는 원하는 클라이언트 도구에 연결함 Containerization 프레임워크는 Virtualization.framework 위에 놓이는 라이브러리라서 각 컨테이너가 자체 가상 머신임 Machine은 이 프레임워크 위에서 가상 머신 안의 컨테이너에 여러 작업을 실행하기 위한 도구임 이걸 Michael Crosby 가 썼음 그는 Docker, containerd 등의 오랜 유지보수자이고, Docker에서 처음으로 “Distinguished Engineer” 직함을 받은 사람이라 이 이름이 붙은 건 꽤 의미가 큼 이 컨테이너들이 공통 커널 을 공유하는지, 아니면 각각 별도 가상 머신에서 실행되는지 궁금함 수정: 컨테이너마다 가상 머신 하나임 https://github.com/apple/container/blob/main/docs/technical-overview.md 낭비 아닌가? “작은” 가상 머신이라고 해도 여전히 가상 머신 임 왜 이런 도구들은 항상 컨테이너 안에 $HOME 마운트 를 홍보하는지 이해가 안 됨 완전한 격리가 더 낫지 않나? 이런 걸 쓰는 이유가 그거 아닌가? 컨테이너가 이렇게 인기를 얻은 건 개발자가 개발·배포를 쉽게 하려는 도구였기 때문임 보안 계층으로 쓰려면 완전히 다른 목표이고, 매우 위험한 함정이 많음 [1] 지난주에도 AI 에이전트가 Docker를 사용해 시스템에서 sudo를 우회했다는 글을 보고 사람들이 충격을 받았는데, Docker를 설치한 대부분에게도 일어날 수 있을 것 같음 쉬운 개발 외의 용도로 컨테이너를 쓰려면 평균 사용자보다 훨씬 더 능숙해야 하고, 그런 경우 $HOME을 노출하지 않는 건 설정할 일 목록의 작은 항목일 뿐임 [1] https://cheatsheetseries.owasp.org/cheatsheets/Docker_Security_Cheat_Sheet.html 내가 이걸 쓰는 이유는 예전의 -v $HOME:$HOME 컨테이너처럼, Homebrew 대신 Debian에서 익숙한 모든 명령줄 도구 환경 을 얻기 위해서임 대체로 이 환경이 내 홈 디렉터리에 접근하는 걸 신뢰하고, 필요하면 쉽게 버리고 다시 만들 수 있는 것도 장점임 호스트에 설치하기 불편한 것, 예를 들어 npm 같은 건 여전히 덜 허용적인 컨테이너를 쓸 것임 그렇지 않음. 머신의 핵심은 결국 외부 인터페이스 임 인터페이스가 없는 Linux 가상 머신은 계산만 하며 전기를 낭비하는 닫힌 상자일 뿐임 Apple은 WSL의 교훈을 고려해야 함 파일시스템 공유 접근은 정말 최소한이고, 그다음은 네트워킹이며 WSL에서 이건 깊은 토끼굴임 사람들은 USB 장치 접근, X 전달, GPU 패스스루도 원하게 될 것임 이런 걸 쓰는 목적은 완전 격리가 아니라 Linux 작업 부하 를 실행하는 것임 최근 Containerization으로 tup 테스트 스위트의 추적 로그를 생성해서 macOS에서 상대적 동등성을 맞추는 데 썼음 완전히 격리되어 있었다면 수정한 소스 코드를 컨테이너에 넣기도 어렵고, 추적 로그를 다시 꺼내기도 어려웠을 것임 바인드 마운트 같은 걸로 덮어쓸 수는 있겠지만 귀찮음 Docker 관점에서도 흥미롭지만, 나는 AI 에이전트 와 신뢰할 수 없는 코드 실행을 위한 샌드박스로서 더 관심이 감 그 관점에서 여기 글을 썼음: https://igorstechnoclub.com/sandbox-exec/ 가상 머신 수준 격리를 가진 sandbox-exec의 정신적 후계자처럼 느껴짐 맞음, 그 글도 제한 사항 아래에서 이렇게 말함: “지원 중단 상태: 동작은 하지만 Apple은 개발자가 직접 사용하기보다 App Sandbox를 쓰길 권장한다” 이게 Docker Desktop과 동등한 것들을 대체해서, 옆에서 도는 비싼 Linux 가상 머신 을 없앨 수 있을까? 큰 공유 백그라운드 가상 머신을 대부분 없애고, 더 작고 더 격리된 Apple 네이티브 가상 머신 들로 대체함 내 Podman 작업 부하를 Apple의 container 로 옮겨보는 실험을 했음: https://gist.github.com/jmonster/39e14585e107dbf990a90966c0f84427 요약하면 RAM·스토리지 사용량을 줄이고 존재감을 최소화함 나도 첫 생각이 그거였음 Docker Desktop 오버헤드 가 꽤 심해서, 이게 DD에 네이티브로 들어오면 정말 좋겠음 Docker가 역사적으로 성능 개선을 시도하다가 플랫폼 한계를 받아들여야 했던 걸 보면 가능성은 있어 보이고, DD를 컨테이너 쪽으로 옮기는 건 자연스러워 보임 이건 명시적으로 Linux 가상 머신 을 제공하며, Linux 가상 머신 없이 그걸 하기는 어려워 보임 원하는 것, 즉 macOS에서 Linux 가상 머신 없이 Linux 컨테이너를 실행하는 것과는 실제 사용 사례가 반대임 macOS의 Linux 기반 컨테이너 구현을 사용해, 컨테이너라기보다 가상 머신에 더 가까워 보이는 장기 실행 Linux 가상 머신을 제공함 Linux 가상 머신이 꼭 비쌀 필요는 없음 여기서도 언급되지만, 나는 최근 Colima 로 갈아탔음 Docker Desktop을 우회하며 일하는 고통이 꽤 큼 이제 macOS와 Windows 모두 그 위에서 Linux로 개발 하는 걸 강하게 지원하는 셈임 이 분야에서는 Linux를 당해낼 수 없다는 걸 더 노골적으로 인정할 수는 없나 봄 Linux가 광고를 했다면 꽤 영리한 광고 소재가 됐을 것임 둘 다 많은 애플리케이션의 실행 대상이 Linux 서버 라는 점을 인정하는 것에 가깝다고 봄 개발 대상이 Linux라는 뜻은 아님 Linux도 데스크톱에서는 macOS/Windows를 당해낼 수 없다는 걸 공개적으로 인정하지 못함 그래서 macOS/Windows 데스크톱에서 Linux 가상 머신 을 돌리는 이런 하이브리드 상황이 생김 기업들은 실제 Linux 배포판을 쓰는 것만 빼고, Linux에서 개발하기 위해 뭐든 할 것임 이건 오히려 Linux 데스크톱의 해 가 완전히 패배했다는 뜻에 가까움 Linux 게임은 콘텐츠 공급원으로 Windows 생태계에 의존함 Linux가 컨테이너로 잘 포장되면 macOS와 Windows는 합산 90% 시장 점유율을 유지하고, 사전 설치 Linux 데스크톱과 노트북을 파는 OEM 시장을 지원하려는 사람은 거의 없어짐 소비자가 쓰는 다른 “배포판”은 Android, webOS, 그리고 Chromebook의 진화형인 Googlebooks가 될 것임 결국 일반 대중이 Apple Linux, Microsoft Linux, Google Linux, Asus Linux, LG Linux에만 관심을 갖는 피로스의 승리가 되고, IT 부서가 Linux 노트북을 지원할 유인이 사라짐 많은 개발자가 Linux를 써야 하지만 여전히 Mac에서는 가상 머신으로, Windows에서는 WSL 같은 에뮬레이션류로만 씀 한심함 답변달기
Hacker News 의견들 여기서 몇 가지를 명확히 하자면, 이건 OCI 컨테이너 만의 이야기가 아님 Container Machines는 영속성과 파일시스템 마운트를 지원해서, macOS를 쓰는 개발자에게 훌륭한 가벼운 Linux 환경 이 될 수 있음 자세한 내용은 여기: https://developer.apple.com/videos/play/wwdc2026/389 container 는 컨테이너를 다르게 실행함 오픈소스 Containerization 패키지를 사용해 생성하는 컨테이너마다 가벼운 가상 머신을 실행하며, 그래서 보안은 전체 가상 머신 수준의 격리를 얻고, 프라이버시는 필요한 호스트 데이터만 각 가상 머신에 마운트하며, 성능은 전체 가상 머신보다 메모리를 덜 쓰고 공유 가상 머신에서 도는 컨테이너와 비슷한 부팅 시간을 제공함 기술적 제한을 포함한 자세한 내용은 여기 있고, 버그 리포트와 기여를 찾고 있음: “Container: Technical Overview” https://github.com/apple/container/blob/main/docs/technical-overview.md “Mac에서 매끄럽게 동작하는 고도로 통합된 Linux 환경”이라면, 어떤 커널 이 돌고 있으며 UTM이 qemu 모드가 아닐 때처럼 Hypervisor.framework 위에서 호스팅되는 건지 궁금함 파일시스템 마운트 가 바인드 마운트와 어떻게 다른지 궁금함 아, Darwin/BSD Subsystem for Linux 인 셈이군 OrbStack 같은 것과 비교하면 어떤지 궁금함 macOS를 좋아하지만 가끔 Linux 머신이나 BSD, Raspberry Pi도 쓰는 드문 기회주의적 취미 개발자 부류에 속함 Docker Compose로 Docker 이미지를 만들거나 Colima 같은 걸 쓸 수 있는데, 이것도 그쪽에 가까워 보이고 Docker 대비 장점도 있을 듯함 다만 W^X 페이지 보호를 우회하려던 기대는 실현되지 않았음 저장소가 이런 Container Machines 를 맥락 속에 놓고 설명하지 않는 게 의아함 Colima와 가까워 보이는데 Docker, Colima, Container Machines 중 언제 무엇을 써야 하는지 궁금함 이 문제를 정확히 풀려고 이 도구를 만들었음: https://github.com/smol-machines/smolvm 왜 W^X 페이지 보호 를 우회하려는지 궁금함 추가 포인터 간접 참조 없이 자기 수정 프로그램 같은 걸 만들려는 건가? https://github.com/apple/container/blob/main/docs/technical-overview.md 문서를 읽으면 됨 다 좋은데 Apple, 네이티브 Darwin Jails 는 어디 있음? 여러 macOS 컨테이너를 허용하면 사람들이 방 하나를 Mac Mini로 채워버릴까 봐 아직도 겁나는 건가? 머신당 두 개 정도의 무거운 가상 머신만 허용하지 말고 Darwin 네임스페이스 가 훨씬 더 흥미롭고, 현재 보안 환경에서는 정말 절실함 Apple의 Containerization에 왜 이렇게 열광하는지 잘 모르겠음 수많은 컨테이너 런타임 중 하나일 뿐이고, OrbStack보다 나은 것도 아니며 사실은 더 나쁨 Darwin 위에 Foundation, AppKit 같은 계층, 즉 전체 macOS를 구동하는 구성요소들이 필요할 것 같음 그래도 전체 아이디어는 좋음 샌드박스 프로파일을 말하는 건가? OrbStack은 나에게 정말 잘 동작함 이것과 성능 면 에서 어떻게 비교되는지 궁금함 OrbStack 개발자임 우리는 Virtualization.framework 대신 파일시스템 공유 같은 기능을 위한 커스텀 장치와 프로토콜을 갖춘 Rust 가상화 스택 을 사용함 Linux 머신과 컨테이너 실행에 특화해 고도로 최적화한 수직 통합 스택임 가장 큰 성능·자원 이득은 동적 메모리로, 사용하지 않는 메모리를 macOS에 돌려줘 메모리 사용량을 크게 줄임 Containerization을 포함해 다른 것은 이걸 지원하지 않음 Container Machines를 써보니 OrbStack 머신보다는 기본 바인드 마운트를 가진 OCI 컨테이너에 훨씬 가까워 보였고, 통합 기능이 적으며 systemd나 일반적인 init 시스템을 실행하지 않아서 서비스 실행이 어렵다 https://tart.run/ 와의 비교도 보고 싶음 내가 보기엔 꽤 비슷함 OrbStack은 이론적으로 마음에 들지만, 오픈소스이면서 무료인 대안이 많은데 연 $96 라이선스 비용 을 정당화하기 어렵다고 느낌 지금이라면 Podman이나 Colima를 쓰는 편이 낫겠음 OrbStack을 정말 좋아하고, 현재로서는 왜 OrbStack 대신 Container Machines 를 써야 하는지 잘 모르겠음 완전한 Docker 환경은 아니고, 빌드를 목표로 만들었지만 옵션으로 dockerd도 실행할 수 있음 https://github.com/cpuguy83/crucible 는 Containerization 프레임워크 를 사용해 buildkitd나 dockerd를 실행하고 docker/buildx CLI 또는 원하는 클라이언트 도구에 연결함 Containerization 프레임워크는 Virtualization.framework 위에 놓이는 라이브러리라서 각 컨테이너가 자체 가상 머신임 Machine은 이 프레임워크 위에서 가상 머신 안의 컨테이너에 여러 작업을 실행하기 위한 도구임 이걸 Michael Crosby 가 썼음 그는 Docker, containerd 등의 오랜 유지보수자이고, Docker에서 처음으로 “Distinguished Engineer” 직함을 받은 사람이라 이 이름이 붙은 건 꽤 의미가 큼 이 컨테이너들이 공통 커널 을 공유하는지, 아니면 각각 별도 가상 머신에서 실행되는지 궁금함 수정: 컨테이너마다 가상 머신 하나임 https://github.com/apple/container/blob/main/docs/technical-overview.md 낭비 아닌가? “작은” 가상 머신이라고 해도 여전히 가상 머신 임 왜 이런 도구들은 항상 컨테이너 안에 $HOME 마운트 를 홍보하는지 이해가 안 됨 완전한 격리가 더 낫지 않나? 이런 걸 쓰는 이유가 그거 아닌가? 컨테이너가 이렇게 인기를 얻은 건 개발자가 개발·배포를 쉽게 하려는 도구였기 때문임 보안 계층으로 쓰려면 완전히 다른 목표이고, 매우 위험한 함정이 많음 [1] 지난주에도 AI 에이전트가 Docker를 사용해 시스템에서 sudo를 우회했다는 글을 보고 사람들이 충격을 받았는데, Docker를 설치한 대부분에게도 일어날 수 있을 것 같음 쉬운 개발 외의 용도로 컨테이너를 쓰려면 평균 사용자보다 훨씬 더 능숙해야 하고, 그런 경우 $HOME을 노출하지 않는 건 설정할 일 목록의 작은 항목일 뿐임 [1] https://cheatsheetseries.owasp.org/cheatsheets/Docker_Security_Cheat_Sheet.html 내가 이걸 쓰는 이유는 예전의 -v $HOME:$HOME 컨테이너처럼, Homebrew 대신 Debian에서 익숙한 모든 명령줄 도구 환경 을 얻기 위해서임 대체로 이 환경이 내 홈 디렉터리에 접근하는 걸 신뢰하고, 필요하면 쉽게 버리고 다시 만들 수 있는 것도 장점임 호스트에 설치하기 불편한 것, 예를 들어 npm 같은 건 여전히 덜 허용적인 컨테이너를 쓸 것임 그렇지 않음. 머신의 핵심은 결국 외부 인터페이스 임 인터페이스가 없는 Linux 가상 머신은 계산만 하며 전기를 낭비하는 닫힌 상자일 뿐임 Apple은 WSL의 교훈을 고려해야 함 파일시스템 공유 접근은 정말 최소한이고, 그다음은 네트워킹이며 WSL에서 이건 깊은 토끼굴임 사람들은 USB 장치 접근, X 전달, GPU 패스스루도 원하게 될 것임 이런 걸 쓰는 목적은 완전 격리가 아니라 Linux 작업 부하 를 실행하는 것임 최근 Containerization으로 tup 테스트 스위트의 추적 로그를 생성해서 macOS에서 상대적 동등성을 맞추는 데 썼음 완전히 격리되어 있었다면 수정한 소스 코드를 컨테이너에 넣기도 어렵고, 추적 로그를 다시 꺼내기도 어려웠을 것임 바인드 마운트 같은 걸로 덮어쓸 수는 있겠지만 귀찮음 Docker 관점에서도 흥미롭지만, 나는 AI 에이전트 와 신뢰할 수 없는 코드 실행을 위한 샌드박스로서 더 관심이 감 그 관점에서 여기 글을 썼음: https://igorstechnoclub.com/sandbox-exec/ 가상 머신 수준 격리를 가진 sandbox-exec의 정신적 후계자처럼 느껴짐 맞음, 그 글도 제한 사항 아래에서 이렇게 말함: “지원 중단 상태: 동작은 하지만 Apple은 개발자가 직접 사용하기보다 App Sandbox를 쓰길 권장한다” 이게 Docker Desktop과 동등한 것들을 대체해서, 옆에서 도는 비싼 Linux 가상 머신 을 없앨 수 있을까? 큰 공유 백그라운드 가상 머신을 대부분 없애고, 더 작고 더 격리된 Apple 네이티브 가상 머신 들로 대체함 내 Podman 작업 부하를 Apple의 container 로 옮겨보는 실험을 했음: https://gist.github.com/jmonster/39e14585e107dbf990a90966c0f84427 요약하면 RAM·스토리지 사용량을 줄이고 존재감을 최소화함 나도 첫 생각이 그거였음 Docker Desktop 오버헤드 가 꽤 심해서, 이게 DD에 네이티브로 들어오면 정말 좋겠음 Docker가 역사적으로 성능 개선을 시도하다가 플랫폼 한계를 받아들여야 했던 걸 보면 가능성은 있어 보이고, DD를 컨테이너 쪽으로 옮기는 건 자연스러워 보임 이건 명시적으로 Linux 가상 머신 을 제공하며, Linux 가상 머신 없이 그걸 하기는 어려워 보임 원하는 것, 즉 macOS에서 Linux 가상 머신 없이 Linux 컨테이너를 실행하는 것과는 실제 사용 사례가 반대임 macOS의 Linux 기반 컨테이너 구현을 사용해, 컨테이너라기보다 가상 머신에 더 가까워 보이는 장기 실행 Linux 가상 머신을 제공함 Linux 가상 머신이 꼭 비쌀 필요는 없음 여기서도 언급되지만, 나는 최근 Colima 로 갈아탔음 Docker Desktop을 우회하며 일하는 고통이 꽤 큼 이제 macOS와 Windows 모두 그 위에서 Linux로 개발 하는 걸 강하게 지원하는 셈임 이 분야에서는 Linux를 당해낼 수 없다는 걸 더 노골적으로 인정할 수는 없나 봄 Linux가 광고를 했다면 꽤 영리한 광고 소재가 됐을 것임 둘 다 많은 애플리케이션의 실행 대상이 Linux 서버 라는 점을 인정하는 것에 가깝다고 봄 개발 대상이 Linux라는 뜻은 아님 Linux도 데스크톱에서는 macOS/Windows를 당해낼 수 없다는 걸 공개적으로 인정하지 못함 그래서 macOS/Windows 데스크톱에서 Linux 가상 머신 을 돌리는 이런 하이브리드 상황이 생김 기업들은 실제 Linux 배포판을 쓰는 것만 빼고, Linux에서 개발하기 위해 뭐든 할 것임 이건 오히려 Linux 데스크톱의 해 가 완전히 패배했다는 뜻에 가까움 Linux 게임은 콘텐츠 공급원으로 Windows 생태계에 의존함 Linux가 컨테이너로 잘 포장되면 macOS와 Windows는 합산 90% 시장 점유율을 유지하고, 사전 설치 Linux 데스크톱과 노트북을 파는 OEM 시장을 지원하려는 사람은 거의 없어짐 소비자가 쓰는 다른 “배포판”은 Android, webOS, 그리고 Chromebook의 진화형인 Googlebooks가 될 것임 결국 일반 대중이 Apple Linux, Microsoft Linux, Google Linux, Asus Linux, LG Linux에만 관심을 갖는 피로스의 승리가 되고, IT 부서가 Linux 노트북을 지원할 유인이 사라짐 많은 개발자가 Linux를 써야 하지만 여전히 Mac에서는 가상 머신으로, Windows에서는 WSL 같은 에뮬레이션류로만 씀 한심함
여기서 몇 가지를 명확히 하자면, 이건 OCI 컨테이너 만의 이야기가 아님 Container Machines는 영속성과 파일시스템 마운트를 지원해서, macOS를 쓰는 개발자에게 훌륭한 가벼운 Linux 환경 이 될 수 있음 자세한 내용은 여기: https://developer.apple.com/videos/play/wwdc2026/389
macOS를 좋아하지만 가끔 Linux 머신이나 BSD, Raspberry Pi도 쓰는 드문 기회주의적 취미 개발자 부류에 속함 Docker Compose로 Docker 이미지를 만들거나 Colima 같은 걸 쓸 수 있는데, 이것도 그쪽에 가까워 보이고 Docker 대비 장점도 있을 듯함 다만 W^X 페이지 보호를 우회하려던 기대는 실현되지 않았음 저장소가 이런 Container Machines 를 맥락 속에 놓고 설명하지 않는 게 의아함 Colima와 가까워 보이는데 Docker, Colima, Container Machines 중 언제 무엇을 써야 하는지 궁금함
다 좋은데 Apple, 네이티브 Darwin Jails 는 어디 있음? 여러 macOS 컨테이너를 허용하면 사람들이 방 하나를 Mac Mini로 채워버릴까 봐 아직도 겁나는 건가? 머신당 두 개 정도의 무거운 가상 머신만 허용하지 말고
OrbStack은 나에게 정말 잘 동작함 이것과 성능 면 에서 어떻게 비교되는지 궁금함
이걸 Michael Crosby 가 썼음 그는 Docker, containerd 등의 오랜 유지보수자이고, Docker에서 처음으로 “Distinguished Engineer” 직함을 받은 사람이라 이 이름이 붙은 건 꽤 의미가 큼
이 컨테이너들이 공통 커널 을 공유하는지, 아니면 각각 별도 가상 머신에서 실행되는지 궁금함 수정: 컨테이너마다 가상 머신 하나임 https://github.com/apple/container/blob/main/docs/technical-overview.md
왜 이런 도구들은 항상 컨테이너 안에 $HOME 마운트 를 홍보하는지 이해가 안 됨 완전한 격리가 더 낫지 않나? 이런 걸 쓰는 이유가 그거 아닌가?
Docker 관점에서도 흥미롭지만, 나는 AI 에이전트 와 신뢰할 수 없는 코드 실행을 위한 샌드박스로서 더 관심이 감 그 관점에서 여기 글을 썼음: https://igorstechnoclub.com/sandbox-exec/ 가상 머신 수준 격리를 가진 sandbox-exec의 정신적 후계자처럼 느껴짐
이게 Docker Desktop과 동등한 것들을 대체해서, 옆에서 도는 비싼 Linux 가상 머신 을 없앨 수 있을까?
이제 macOS와 Windows 모두 그 위에서 Linux로 개발 하는 걸 강하게 지원하는 셈임 이 분야에서는 Linux를 당해낼 수 없다는 걸 더 노골적으로 인정할 수는 없나 봄 Linux가 광고를 했다면 꽤 영리한 광고 소재가 됐을 것임
[핀테크핫이슈] ELS 과징금 '6000억'으로...지방선거 끝, 금융정책 방향은
[디지털투데이 이지영 기자] 6·3 지방선거가 끝나면서 금융권의 시선이 다시 금융당국과 국회로 향하고 있다.
선거 국면에서 밀렸던 금융지주 지배구조 개선, 디지털자산 제도화, 비거주 1주택자 대출 규제, 보이스피싱 배상책임제 등이 하반기 논의 테이블에 오를 가능성이 커졌다.
감독 현안도 일부 속도를 내고 있다. 금융감독원은 홍콩H지수 ELS 판매은행 과징금을 6000억원 수준으로 감경하며 제재 수위를 조정했고, 금융지주와 함께 소비자보호 전문가 양성에도 나섰다.
AI와 디지털금융 확산에 따른 보안 대응도 주요 과제로 부상했다. 금융위원회는 고성능 AI 보안위협에 대응하기 위해 민간 자문단을 가동하고 망분리 규제 개선 방안도 함께 검토하고 있다.
자본시장에서는 코스닥 부진이 이어지는 가운데 지방선거 이후 정책 모멘텀에 대한 기대가 커지고 있다. 해외주식 투자자 유턴 효과가 제한적인 상황에서 국내 증시 활성화를 위한 세제·제도 보완책 논의도 이어질 전망이다.
⦁지배구조 개선·디지털자산 제도화...선거 끝, 금융 현안 속도 내나 ⦁금감원, 홍콩H지수 ELS 판매은행 과징금 6000억원으로 감경 ⦁금감원, 금융지주와 소비자보호 전문가 양성 나선다 ⦁금융위, AI 보안위협 대응 민간 자문단 가동...망분리도 검토 ⦁코스닥 '지지부진' 언제까지...지방선거 이후 정책 모멘텀 주목 ⦁서학개미 유턴 미미 속 RIA 공제율 80%로 축소...보완책 나오나
지난주 국내 증시는 반도체 기대감과 차익실현 압력이 맞부딪히며 큰 폭의 변동성을 보였다.
주 초반에는 젠슨 황 엔비디아 최고경영자의 방한과 이른바 '2차 깐부회동' 기대감이 삼성전자와 SK하이닉스 등 반도체 대형주 투자심리를 자극하며 코스피가 사상 최고치를 다시 썼다.
코스피 시가총액도 7000조원 시대에 진입했고, 삼성전자는 비트코인 시가총액을 넘어서는 등 반도체 중심의 강세장이 부각됐다. 그러나 주 후반 들어 분위기는 급격히 바뀌었다. 브로드컴발 미국 반도체주 약세가 국내 증시로 번지면서 코스피가 밀리기 시작했고, 유가증권시장에서는 매도 사이드카가 발동됐다.
코스닥도 3개월 만에 장중 1000선을 내주며 5%대 급락세를 보이는 등 중소형 성장주 전반으로 투자심리 위축이 확산됐다.
시장에서는 스페이스X 상장 기대와 우주테크 ETF 편입 이슈가 새로운 투자 테마로 떠올랐지만, 단기 급등 부담과 반도체 쏠림에 따른 변동성 우려는 여전히 남아 있는 상황이다.
금융권에서는 AI와 디지털자산 확산에 맞춰 보안·내부통제 인프라를 강화하려는 움직임도 이어졌다.
금융보안원은 디지털자산 보안 전문인력 양성에 나섰고, 은행연합회는 업스테이지와 손잡고 금융권 협회 최초로 AI 기반 광고심의 시스템 구축에 착수했다.
IBK기업은행은 투자상품 판매 데이터를 분석해 불완전판매 가능성을 탐지하는 AI 시스템을 도입하며 소비자보호와 내부통제 고도화에 나섰다. 토스인컴은 국내 세무 플랫폼 업계 첫 ISMS-P 인증을 획득했고, 넥스트레이드 STO 컨소시엄은 공정위 무혐의 판단으로 조각투자 장외거래소 본인가 추진에 속도를 내게 됐다.
⦁KB국민은행, 아톤과 차세대 인증 보안 기술검증 추진 ⦁금융보안원, 디지털자산 보안 전문인력 키운다 ⦁은행연합회, AI 광고심의 시스템 구축 착수 ⦁IBK기업은행, 투자상품 불완전판매 AI 탐지시스템 도입 ⦁토스인컴, 세무 플랫폼 첫 ISMS-P 인증 획득 ⦁넥스트레이드 STO 컨소시엄, 공정위 무혐의...본인가 추진 속도
금융권의 생산적 금융은 단순한 자금 지원을 넘어 실물경제의 성장 기반을 뒷받침하는 방향으로 확장되고 있다.
중소기업과 소상공인에 대한 유동성 공급은 물론 보증기관 연계, 금리 부담 완화 등으로 지원 방식도 다변화되는 흐름이다.
산업 현장의 투자 수요를 직접 확인하고, 기술 이전과 고용 유지, 기업승계 같은 구조적 과제까지 금융지원의 대상으로 끌어들이는 모습도 나타난다.
은행권 중심의 여신 지원을 넘어 증권·부동산 금융 영역까지 생산적 금융의 외연이 넓어지고 있다는 점도 눈에 띈다.
⦁KB금융, 중소기업·소상공인에 100억 규모 상생협력기금 출연 ⦁IBK기업은행, 신·기보와 포용·생산적 금융에 1조5000억원 공급 ⦁신한은행, 항공정비기업 찾아 생산적 금융 지원 논의 ⦁우리은행, 고용·기술 잇는 '생산적 기업승계' 추진 ⦁하나증권, IPARK현대산업개발과 생산적 금융 협력
5일 여의도 KB국민은행 신관에서 진행된 중소벤처기업부·상생협력재단·KB금융그룹 기금 출연식에서 양종희 KB금융그룹 회장, 한성숙 중소벤처기업부 장관, 변태섭 대·중소기업·농어업협력재단 사무총장이 기념촬영을 하고 있다. [사진: KB금융그룹]
그외 금융 및 핀테크 업계 주요 움직임을 정리했다.
KB금융은 차기 회장 선임 절차에 착수해 오는 9월11일 최종 후보자를 확정할 예정이다. KB국민은행은 해외 거주 보훈급여 수급자를 위한 'KB보훈급여송금수표' 서비스를 출시하고, 신한은행은 호서대학교와 금융교육·산학협력 기반의 금융 파트너십을 구축했다.
⦁KB금융, 차기 회장 선임 절차 착수…9월11일 최종 후보 나온다 ⦁KB국민은행, 'KB보훈급여송금수표' 서비스 8일 출시 ⦁신한은행, 호서대학교와 금융 파트너십 구축
주거래은행 선정과 플랫폼 제휴, 해외 영업망 확대 등 개별 서비스·영업 기반을 넓히는 움직임도 이어졌다.
우리은행은 한국사회복지공제회 주거래은행을 맡아 사회복지 종사자 대상 금융서비스 제공 기반을 강화했다. 또 의료인 전용 플랫폼에 대출 상담 채널을 열며 특정 직군을 겨냥한 비대면 금융 접점을 확대했다.
하나은행은 필리핀 수빅출장소를 열어 동남아 영업망을 넓히는 한편, 축구대표팀 성적에 따라 우대금리를 제공하는 고금리 적금 상품도 선보였다.
⦁우리은행, 한국사회복지공제회 주거래은행 맡는다 ⦁우리은행, 의료인 플랫폼서 대출 상담 채널 열었다 ⦁하나은행, 필리핀 수빅출장소 개소...동남아 영업망 확대 ⦁하나은행, 축구대표팀 성적 따라 최고 연 11% 적금 출시
핀테크 업권에서는 대출, 휴면예금, 근로계약, 세무 등 생활밀착형 서비스 고도화도 이어지고 있다.
토스는 서민금융진흥원과 휴면예금 되찾기 서비스를 선보였고, 토스뱅크는 근로계약 서비스에 보건증·등본 발급 연계를 더했다. 토스인슈어런스는 설계사 보호를 위한 블랙컨슈머 대응 제도를 시행했고, 토스인컴은 세무 플랫폼 업계 첫 ISMS-P 인증을 획득했다.
쿠콘은 글로벌 AI 에이전트 재단에 합류하며 AI 에이전트 결제와 데이터 사업 확장에 나섰다.
⦁카카오뱅크, 네이버페이 대출비교에 개인사업자 담보대출 입점 ⦁토스, 서금원과 '휴면예금 되찾기' 서비스 출시 ⦁토스뱅크, 근로계약 서비스 고도화...보건증·등본 발급 연계 ⦁토스인슈어런스, 블랙컨슈머 대응 제도 시행... 설계사 보호 ⦁토스인컴, 세무 플랫폼 첫 ISMS-P 인증 획득 ⦁쿠콘, 글로벌 AI 에이전트 재단 합류...결제·데이터 사업 확장
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
Slumber - 터미널 기반 HTTP/REST 클라이언트 (github.com/LucasPickering)
터미널 환경에서 TUI 로 동작하는 HTTP 클라이언트 Recipe로 구성 가능한 HTTP 요청을 정의하고 실행하며 쉽게 공유 TUI, CLI, Python 패키지 세 가지 형태로 이용 쉬운 사용/설정/공유 를 목표로 YAML 파일에 Request Collection 형태로 정의해서 저장하고 버전 관리/커밋 가능 Insomnia 등 외부 포맷에서 가져오기(import) 지원 다른 요청, 파일, 셸 명령으로부터 요청을 동적으로 구성 가능 JSONPath selector 로 응답 데이터 탐색 영원히 무료로 제공 되며, 절대 " enshittification(서비스 악화) " 되지 않는 것을 원칙으로 내세움 2023년부터 개발시작, 현재 버전 5.3.0 윈도우/맥/리눅스 바이너리 제공 MIT 라이선스
함께 보면 좋은 글 β Posting - 터미널용 HTTP API 클라이언트 Resterm - 터미널 기반 REST 클라이언트 (HTTP, GraphQL, gRPC 지원) Distill - Rust로 만든 웹 스크래핑 + LLM 분석 API 서버 Spegel - LLM을 활용해 웹페이지를 재구성하는 터미널 브라우저 vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙
Posting - 터미널용 HTTP API 클라이언트
Resterm - 터미널 기반 REST 클라이언트 (HTTP, GraphQL, gRPC 지원)
Distill - Rust로 만든 웹 스크래핑 + LLM 분석 API 서버
Spegel - LLM을 활용해 웹페이지를 재구성하는 터미널 브라우저
vLLM Compose - Docker Compose 프로필로 여러 vLLM 모델을 쉽게 전환/서빙
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ shakespeares 2일전 [-] postman에 너무 익숙해졌네요. 답변달기
지디넷코리아가 소프트웨어(SW) 업계의 다양한 소식을 한 눈에 볼 수 있는 'ZD SW 투데이'를 새롭게 마련했습니다. SW뿐 아니라 클라우드, 보안, 인공지능(AI) 등 여러 분야에서 활발히 활동하고 있는 기업들의 소식을 담은 만큼 좀 더 쉽고 편하게 이슈를 확인해 보시기 바랍니다. [편집자주]
◆트웰브랩스, GS샵 숏픽 AI 추천 고도화 지원
트웰브랩스가 GS 샵의 숏폼 영상 기반 커머스 서비스 '숏픽'에 영상 이해 AI 모델 마렝고와 페가수스를 공급했다.
이번 도입 결과 주문 고객 수는 기존 대비 57.5% 증가했으며 전환율은 29.4%, 클릭 순방문자는 21.7% 상승하는 성과를 거뒀다.
트웰브랩스 도입 이후 추천 결과는 단순 상품 카테고리를 넘어 확장됐다. 상품 ID나 카테고리만 기준으로 추천하는 것이 아니라 고객이 반응한 영상의 맥락을 바탕으로 더 넓고 정교한 추천이 가능해진 것이 특징이다.
◆세이지, 과기정통부 '글로벌 ICT 미래 유니콘 육성기업' 선정
세이지가 과학기술정보통신부가 주관하는 '글로벌 ICT 미래 유니콘 육성사업(ICT GROWTH)'에 선정됐다.
글로벌 ICT 미래 유니콘 육성사업(ICT GROWTH)은 글로벌 성장 잠재력이 높은 디지털 기업을 대상으로 해외 현지 액셀러레이팅, 투자유치, 보증 등 종합 지원을 제공해 미래 유니콘 기업으로 육성하는 사업이다.
세이지는 비전 AI 기반 제조 자동화 솔루션과 자율 제조 에이전틱 AI 기술력을 앞세워 우수한 기술력과 글로벌 역량을 인정받았다. 삼성SDI, LG에너지솔루션 등 국내외 주요 제조기업의 품질 검사를 담당하며 기술력을 입증해 왔다.
◆가비아CNS, QR 기반 비즈니스 기능 '클릭엔 QR' 출시
가비아CNS가 노코드 웹빌더 서비스 '클릭엔'에 QR 기반 비즈니스 기능인 '클릭엔 QR'을 추가했다.
클릭엔은 홈페이지와 쇼핑몰을 손쉽게 제작할 수 있는 노코드 웹빌더 서비스다. 이번에 선보이는 클릭엔 QR은 온라인 명함, 연락처 공유, 와이파이 연결, 매장 주문 등 오프라인 업무와 연계한 다양한 비즈니스 기능을 QR 코드로 제공하는 서비스다.
사용자는 목적에 따라 다양한 유형의 QR 코드를 생성해 고객 응대, 매장 운영, 정보 공유 등 다양한 분야에 활용할 수 있다. QR을 활용한 매장 주문 기능은 메뉴 확인부터 주문, 결제까지 지원한다. 클릭엔 고객에게 무료로 제공되된다.
최우식 딥노이드 대표가 서울 딥노이드 본사에서 안형준 국가데이터처장과 만나 국가데이터 정책에 관한 기업 입장에서 의견을 개진하고 관련 논의를 진행했다.
이번 회동은 국가데이터처가 시행 중인 '2025년 기준 경제총조사'의 기업 참여를 독려하고 기업에서 필요로 하는 국가데이터 정책에 대한 의견을 수렴하고자 진행됐다. 딥노이드는 데이터 분석 역량을 인정받아 의견 개진 대상으로 선정됐다.
이날 딥노이드는 양질의 국가데이터를 구축하려는 국가데이터처의 노력에 공감을 표하며 데이터를 직접 활용하는 기업의 관점에서 의견을 전했다.
◆팀뷰어, 에티버스와 원격 연결 솔루션 총판 파트너십 발표
팀뷰어가 에티버스와 원격 연결 및 디지털 워크플레이스 솔루션 총판 계약을 체결했다.
팀뷰어는 원격 연결 및 디지털 워크플레이스 솔루션을 통해 다양한 운영체제와 디바이스 환경을 하나로 연결해, 장소에 관계없이 언제든지 현장과 동일한 수준의 업무를 수행할 수 있도록 지원한다.
에티버스는 AI 인프라, 클라우드 전환, 디지털 워크플레이스, 보안 분야에 대한 투자를 지속 확대하며 국내 기업들의 디지털 전환을 지원하고 있다.
◆메가존클라우드, JTBC '골든디스크 어워즈' 클라우드 송출 성과 사례 공개
메가존클라우드가 한국, 대만, 일본 3국간 클라우드 기반 다원 생방송 무결점 송출 성공 과정을 공개했다.
메가존클라우드는 지난 1월 대만 타이베이돔에서 개최된 JTBC ‘제40회 골든디스크 어워즈’ 시상식을 클라우드 국제 백본망을 통해 6시간 동안 생방송으로 중계하는데 성공했다. 이 생중계는 대만 타이베이에서 서울까지 2000 km 구간을 AWS 리전과 백본망을 통해 전송하고, 대만과 서울의 극히 일부 구간에서만 전용 회선을 이용하는 방식으로 이뤄졌다.
국내 대형 방송사가 클라우드 백본망을 이용한 국제 생중계에 성공한 사례가 알려진 것으로는 이번이 처음이다.
메가존클라우드는 대만 타이베이돔 현장부터 인근 클라우드 진입점까지만 현지 전용선을 구성해 1차 안정성을 확보했다. 가장 큰 비용이 발생하는 국가 간 장거리 전송 구간을 클라우드로 대체함으로써 비용절감 효과를 거둘 수 있었다.
◆알서포트, '대학혁신 인프라 무료 컨설팅' 제공
알서포트가 전국 대학을 대상으로 '대학혁신 인프라 고도화 무료 컨설팅 서비스'를 제공한다.
[ZD SW 투데이] 베스핀글로벌, 'AI 서비스 운영 과정' 5기 교육생 모집 外 2026.06.09 [ZD SW 투데이] 멀티캠퍼스, 실전형 AI 캠퍼스 '아이엠' 1기 모집 外 2026.06.08 [ZD SW 투데이] 메가존클라우드, 스노우플레이크 리셀 파트너상 수상 外 2026.06.05 [ZD SW 투데이] 베스핀글로벌, 'STK 2026' 참가 外 2026.06.04
이번 컨설팅 서비스는 지역혁신중심 대학지원체계 '라이즈(RISE)' 및 지역성장 인재양성체계 '앵커(ANCHOR)' 사업을 추진 중인 대학별 사업 방향과 운영 과제에 따라 맞춤형 IT인프라 및 공간 혁신을 지원하기 위해 마련됐다.
알서포트는 이번 무료 컨설팅 서비스를 통해 대학별 사업계획 수립, 예산 검토, 인프라 도입 범위 설정, 공간 활용 방안 마련 과정에서 대학 담당자들이 참고할 수 있는 맞춤형 컨설팅을 제공할 예정이다.
Supermemory - AI를 위한 메모리 & 컨텍스트 엔진 (github.com/supermemoryai)
대화에서 사실(facts)을 자동 추출 하고 사용자 프로필을 구축하는 AI용 메모리·컨텍스트 레이어로, 대화 간 정보를 기억하지 못하는 AI의 한계를 보완 지식을 업데이트하고, 모순을 처리하고, 만료된 정보를 삭제(자동 망각) 까지 처리함 "방금 SF로 이사함"이 "NYC에 거주함"을 대체한다는 걸 이해하며, "내일 시험 있음" 같은 임시 사실은 날짜 경과 후 만료 처리 Memory + RAG를 단일 쿼리로 결합한 Hybrid Search 제공, 지식 베이스 문서와 개인화된 컨텍스트를 함께 반환 User Profiles 자동 유지 — 안정적 사실(static) + 최근 활동(dynamic)을 한 번의 호출(약 50ms)로 제공 Connectors 를 통해 Google Drive, Gmail, Notion, OneDrive, GitHub를 실시간 webhook으로 자동 동기화 Multi-modal Extractors 내장 — PDF, 이미지(OCR), 비디오(전사), 코드(AST 인식 청킹)를 업로드만으로 처리 개발자는 단일 API 로 메모리/RAG/프로필/커넥터 추가 가능, vector DB 설정 이나 임베딩 파이프라인/청킹 전략 필요없음 MCP 서버·플러그인 제공 — Claude Code, Cursor, VS Code, OpenCode, OpenClaw, Hermes 등 지원, memory / recall / context 도구 제공 단일 바이너리로 제공되어 설정필요없이 바로 localhost:6767 에서 동작, Ollama 연동 시 완전 오프라인 사용 Vercel AI SDK, LangChain, LangGraph, OpenAI Agents SDK, Mastra, Agno, n8n 등 드롭인 래퍼 제공 LongMemEval(81.6%), LoCoMo, ConvoMem 등 AI 메모리 주요 벤치마크 3종에서 1위를 차지 자체 오픈소스 벤치마크 프레임워크 MemoryBench 도 공개 MIT 라이선스
함께 보면 좋은 글 β Mem0 - 개인화 AI를 위한 Long-Term 메모리 Memary - 자동화 에이전트를 위한 롱텀 메모리 제발 AI를 사용하세요 Stash - AI 에이전트를 위한 지속형 메모리 계층 [2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음
Mem0 - 개인화 AI를 위한 Long-Term 메모리
Memary - 자동화 에이전트를 위한 롱텀 메모리
Stash - AI 에이전트를 위한 지속형 메모리 계층
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ dongho42 57분전 [-] 함께보면 좋은글에도 잔뜩 있긴한데 이런 AI를 위한 무슨무슨 메모리, 프레임워크, 라이브러리, 도구들이 서로 비슷한게 최근 너무 우후죽순 생겨나서 뭐가 뭔지 따라가기가 어렵네요.. 답변달기
함께보면 좋은글에도 잔뜩 있긴한데 이런 AI를 위한 무슨무슨 메모리, 프레임워크, 라이브러리, 도구들이 서로 비슷한게 최근 너무 우후죽순 생겨나서 뭐가 뭔지 따라가기가 어렵네요..
[부산=박수형 기자] 글로벌 인터넷 데이터 트래픽의 99%는 바다 밑으로 오간다. 국제전기통신연합(ITU)이 추정한 수치다. 생성형 AI 검색도 다른 나라에 위치한 서버를 거쳐오고 동영상 스트리밍도 마찬가지다. BTS 컴백 공연을 같은 시간에 지구 반대편에서 즐기는 것도 해저케이블이 있기에 가능한 이야기다.
위성을 비롯해 다양한 통신 수단이 등장하지만 디지털 시대의 정보 전송의 축은 해저케이블이다. 글로벌 대용량 트래픽 폭증에 이어 AI가 촉발한 실시간 트래픽 수요도 해저케이블 없이는 소화할 수 없다.
해저케이블이 디지털 시대의 ‘대동맥’으로 불리는 이유도 이 때문이다.
한국땅 밟는 글로벌 인터넷, KT가 절반 이상 관리
태평양을 건너 미국을 향하는 해저케이블이나 홍콩 등을 거쳐 동남아로 이어지는 해저케이블을 통한 인터넷은 대부분 부산을 거쳐 한국 땅에 오르게 된다.
해저케이블이 육지에 연결되는 곳을 육양국이라고 일컫는데 한국에는 총 9곳이 있으며 이 가운데 5곳을 KT가 관리하고 있다. 나머지 4곳은 국내외 통신사업자가 운영하는 육양국이다.
바다를 건너 다른 나라와 통신을 시도한 자체도 KT가 처음이다.
1968년 KT 울산 무룡산 중계소와 일본의 KDDI 하마다 오아사산 중계소 사이의 스케터 통신이 한국 역사에 처음 기록된 국제통신 사례다. 이후 1980년 부산에서 일본 하마다를 잇는 첫 국제 해저 동축케이블이 연결됐다. 1990년에 들어서 현재와 같은 형태의 광케이블이 바닷속을 지나며 한국과 홍콩, 일본을 이었다.
해저케이블은 깊은 바다에 포설하는 일도 중요하지만 육양국에서 정상으로 작동하고 있는지 관리하는 일도 매우 중요하다. 이 때문에 20여 명이 근무하는 부산 국제통신운용센터에는 밤낮을 가리지 않고 해저케이블 운용 인력이 항시 대기하고 있다. KT 육양국이 멈춰서는 날에는 한국의 인터넷이 세계와 단절되는 수준이기 때문이다.
KT 부산국제통신센터는 한국의 인터넷만 관리하지 않는다. 미국과 중국, 일본 등을 잇는 NCP 케이블의 전체 관리도 KT가 맡고 있다. 또 일본과 동남아 9개 국가를 연결하는 APG 케이블도 KT가 맡아 운용한다. 여러 국가가 KT 해저케이블 운용 역량을 높이 평가하면서 각 국가의 육양국을 통제하는 역할을 KT에 맡긴 것이다.
김인준 KT 국제통신운용센터장은 “해저케이블 컨소시엄 내에서 사업자 협의회를 만들고 안정적으로 운용할 수 있는 사업자를 선정하고 투표로 뜻을 모은다”며 “50년 정도의 운용 노하우를 인정받은 것”이라고 설명했다.
실제 KT는 자연재해와 같은 위기에서도 핵심 업무를 정상화할 수 있는 관리 체계 ISO 22301 인증을 획득했다. 이에 더해 ISO 27001 인증으로 정보보호 경영 체계도 갖췄는데, 두 인증을 모두 갖춘 곳은 KT가 유일하다.
해저케이블의 중요성은 날로 커지고 있다. 클라우드와 동영상 스트리밍, 실시간 화상회의부터 금융 거래도 해저케이블을 거쳐야만 한다. 해저케이블이 국가적인 핵심 인프라로 꼽히고 육양국이 국가 안보 자산으로 지정되는 것도 이런 상황이 고려된 것이다.
호르무즈 해협을 두고 상선의 통과 협상이 주된 관심사이지만, 미국과 이란은 해저케이블 공격을 통한 봉쇄 압박도 이어가고 있다. 물리적인 국가 봉쇄를 넘어 해저케이블을 통해 디지털 단절에 따른 피해가 더 큰 시대가 됐다는 설명이다.
특히 생성형AI와 같은 서비스는 실시간 데이터 연결이 생명이기 때문에 해저케이블의 역할은 더욱 커지고 있다. AI 시대에 해저케이블은 필수 요소로, 한국이 목표로 하는 AI 강국도 해저케이블 도움 없이는 불가능하다는 뜻이다.
이에 따라 KT는 해저케이블 관리 역량을 더욱 키운다는 방침이다.
아시아를 연결하는 신규 해저케이블 구축을 추진하며 국제 트래픽 처리 경로 다변화 계획을 세웠다. 국제 백본망도 단계적인 확충을 통해 현재 수준 대비 5배 늘릴 예정이다.
정부는 ‘하이퍼AI 네트워크 전략’을 통해 현재 해저케이블 용량을 120Tbps 급에서 220Tbps 급으로 늘릴 계획을 세웠는데, 신규 투자나 증설 투자에 대한 정책적 지원 필요성이 커졌다는 평가가 나온다.
KT는 또 안정성을 더하기 위해 부산과 거제로 이원화 운용 중인 해저케이블 육양국을 한 군데 더 설치하는 방안을 검토하고 있다. 삼원화 체제의 글로벌 인터넷 관문을 세워 어떤 상황에서도 디지털 시대에 연결된 나라를 만들겠다는 것이다.
아프리카 대륙 한바퀴...세계 최장 해저케이블 구축 2025.11.23 피지컬AI 강국?...AI 기지국 인프라부터 갖춰야 2025.12.21 쿠팡 6300억 역대급 과징금, 보안 전문가들 평가는? 2026.06.11 티빙 유출 여파에 'CJ 원' 일부 계정 잠금…"고객정보 유출 없어" 2026.06.11
최우형 KT 네트워크코어서비스본부장은 “최근 광화문 공연이 무사히 진행될 수 있었던 배경에는 전 세계를 하나로 잇는 KT의 보이지 않는 기술력이 있었다”고 말했다.
이어, “디지털 시대 대동맥을 관리하면서 국민기업으로 디지털 핵심 인프라를 더욱 튼튼하게 관리하고 국가산업과 국민 생활에 든든한 보탬이 되야 한다는 책임이 있다”며 “KT 해저케이블 인프라는 AI, AX 시대 글로벌 데이터 처리를 안정적으로 지원하는 기반으로 디지털 전환 환경을 지속적으로 뒷받침하고 한국이 아시아 AI 허브로 발돋움기 위해 해저케이블로 글로벌 디지털 허브를 구축하겠다”고 강조했다.
와이즈넛이 특정 도메인에서 검증된 인공지능(AI) 에이전트 역량을 토대로 공공·금융·제조·국방에 이어 뷰티 산업에 진출한다.
와이즈넛은 과학기술정보통신부가 총괄하고 정보통신산업진흥원(NIPA)이 추진하는 '2026 AI 에이전트 융합·확산 지원사업' 뷰티 리테일 과제 주관기관으로 선정됐다고 11일 밝혔다. 총 사업비는 30억원 규모이며 2027년까지 진행된다.
와이즈넛 컨소시엄엔 LG생활건강이 수요기관으로 참여해 실제 커머스 환경을 실증 무대로 제공한다. 퓨리오사AI는 자사 신경망처리장치(NPU)로 온프레미스 고성능 추론을 맡고 트위닛은 도메인 특화 데이터 구축을 담당한다.
와이즈넛은 이번 사업을 통해 기존 뷰티 AI 서비스가 머물렀던 구매 전 진단·추천에서 나아간 뷰티 리테일 특화 AI 에이전트를 만든다는 목표다. 이 에이전트는 실제 구매 이후 고객 행동 데이터를 분석해 이탈 징후를 사전에 감지하고 재구매를 유도해 재고를 최적화하는 기능이 구현될 예정이다.
와이즈넛, 멀티모달 '와이즈 로아 울트라' 공개…산업 현장 AI 공략 2026.06.04 와이즈넛, 1분기 매출 34% 성장…"도메인 특화 전략 증명" 2026.05.18 와이즈넛, 공공기관 AI 에이전트 컨설팅 최다 상담…"AX 수요 확인" 2026.04.23 "GPU 대체할까"…와이즈넛, NPU 기반 AI 어플라이언스 공개 2026.04.07
이를 위해 와이즈넛은 ▲뷰티 도메인 특화 거대언어모델(LLM) 개발 및 파인튜닝 ▲멀티 에이전트 구성 ▲멀티모달 데이터 처리 및 검색증강생성(RAG) 기술 개발을 총괄한다. 특히 최근 멀티모달 기능을 강화한 도메인 특화 LLM '와이즈 로아 울트라(WISE LLOA Ultra )' 핵심 기술 역량이 투입된다.
강용성 와이즈넛 대표는 "K-뷰티를 시작으로 전 산업으로의 도메인 확장을 이어가는 동시에 단순 업무 지원을 넘어 기업 운영 목표를 이해하고 스스로 판단·수행하는 AI 에이전트 경쟁력을 고도화하겠다"고 말했다.
Firefox 루트 인증서 저장소에 다시 한 번 등록 시도중인 대한민국 정부 (GPKI) (bugzilla.mozilla.org)
GPKI 루트 인증서는 주로 정부에서 .go.kr TLD를 비롯한 여러 국공립 웹 사이트의 도메인에 인증서를 발급하는데 주로 사용돼었습니다. ( 과거형 임에 유의, 현재는 정부 사이트들이 각자 다른 업체로부터 인증서를 발급 받아서 HTTPS 서비스 제공 중) 타 브라우저와 달리 Firefox는 자체적인 루트 인증서 목록을 갖고 있고 TLS 연결 시 운영체제의 인증서 목록을 따르지 않습니다. 예를 들어 Windows의 경우 GPKI 인증서가 선탑재돼있지만 Firefox는 그걸 읽지 않습니다. (다만, 요즘에는 about:config 설정 페이지의 보안 탭에서 체크박스 하나로 쉽게 변경하여 따르도록 할 수 있음) GPKI 루트 인증서의 대표적인 등록 거부 사유로는 과거에 정부가 *.or.kr , *.ac.kr 등 초광범위 인증서 발급 전적이 밝혀진 바 있습니다. 그런데 단순히 그 무제한급 발급 사례 하나로 등록 시도가 막히는 것은 아니고 Mozilla 측에서 요구하는 외부 감사 결과, 인증서 폐기 목록 확인 방법(CRL), 인증서 유효성 확인 방법(OCSP) 등 까다로운 신뢰 인증 절차를 정부가 모두 제때 능히 따르지 않았기 때문에 등록이 지연되거나 거절되고 있습니다. 혹은, 제때 하였더라도 행안부 인증서와 교육부 인증서를 같은 업체로부터 감사를 받는 등 결과 그 자체가 문제가 있는 경우도 있습니다. BugZilla 내에서 이슈를 찾아보다보면 수년이 넘는 장기간에 걸쳐 등록 시도를 계속하고 있다보니 담당 공무원의 순환보직, 정권 교체로 인한 정부 조직 개편 등의 사유로 실무를 진행하는 담당자명과 소속 기관명이 연도에 따라 계속 바뀌는게 관전 포인트입니다.
타 브라우저와 달리 Firefox는 자체적인 루트 인증서 목록을 갖고 있고 TLS 연결 시 운영체제의 인증서 목록을 따르지 않습니다. 예를 들어 Windows의 경우 GPKI 인증서가 선탑재돼있지만 Firefox는 그걸 읽지 않습니다. (다만, 요즘에는 about:config 설정 페이지의 보안 탭에서 체크박스 하나로 쉽게 변경하여 따르도록 할 수 있음)
GPKI 루트 인증서의 대표적인 등록 거부 사유로는 과거에 정부가 *.or.kr , *.ac.kr 등 초광범위 인증서 발급 전적이 밝혀진 바 있습니다.
그런데 단순히 그 무제한급 발급 사례 하나로 등록 시도가 막히는 것은 아니고 Mozilla 측에서 요구하는 외부 감사 결과, 인증서 폐기 목록 확인 방법(CRL), 인증서 유효성 확인 방법(OCSP) 등 까다로운 신뢰 인증 절차를 정부가 모두 제때 능히 따르지 않았기 때문에 등록이 지연되거나 거절되고 있습니다.
혹은, 제때 하였더라도 행안부 인증서와 교육부 인증서를 같은 업체로부터 감사를 받는 등 결과 그 자체가 문제가 있는 경우도 있습니다.
BugZilla 내에서 이슈를 찾아보다보면 수년이 넘는 장기간에 걸쳐 등록 시도를 계속하고 있다보니 담당 공무원의 순환보직, 정권 교체로 인한 정부 조직 개편 등의 사유로 실무를 진행하는 담당자명과 소속 기관명이 연도에 따라 계속 바뀌는게 관전 포인트입니다.
함께 보면 좋은 글 β Apple, Google, Microsoft, Mozilla가 카자흐스탄 정부의 루트 인증서를 밴 처리 마이크로소프트만 신뢰하는 브라질 인증 기관, google.com에 대한 인증서 발급 저작권 등록제도의 함정: 룰렛 저작권 도용 사건의 힘빠지는 전말 Mozilla Firefox 코드 저장소, Mercurial에서 GitHub로 이전 Let's Encrypt, IP 주소 인증서 발급 준비 중
Apple, Google, Microsoft, Mozilla가 카자흐스탄 정부의 루트 인증서를 밴 처리
마이크로소프트만 신뢰하는 브라질 인증 기관, google.com에 대한 인증서 발급
저작권 등록제도의 함정: 룰렛 저작권 도용 사건의 힘빠지는 전말
Mozilla Firefox 코드 저장소, Mercurial에서 GitHub로 이전
Let's Encrypt, IP 주소 인증서 발급 준비 중
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
개인적인 의견을 bugzilla에 달았지만 아직 갈 길이 먼 것 같네요.
과거에 있던 내용부터 차례대로 쭉 읽어봤는데 CA 인증서 감사한 곳이 2016-2017년에 감사한 곳이랑 동일하고.. 예전에 그런 문제가 있었으면 감사 업체를 진작에 교체했을법한데, 그대로 유지하는 것도 조금 당황스럽네요..
여러 노력이 있음에도 불구하고 영문 문서에는 자잘한 논리적 오류나 오타 등이 많이 보이기도 하고 인증서 자체도 표준 규정이 업데이트가 되어서 새로 만들어야할 필요가 보입니다. (CPS 문서를 자주 갱신하는 것 같아보이는데, 이정도로 업데이트할 정도면 인증서 정도는 다시 만드실 수 있을거라 봅니다.)
담당 공무원 분들도 고생이 많을 것 같지만 이미 과거에 한번 실수를 했으니 비판받는건 어쩔 수 없다고 생각합니다
▲ stypr 1일전 [-] 규정에 맞춰 매년 감사를 하고 있다곤 하는데, 웹트러스트 인증 사이트는 2023년에 머물러있네요. 2024, 2025년에 감사가 제대로 이루어졌는지 의문입니다. https://www.gpki.go.kr/pds/WebTrustAction.action CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지. 뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요. 답변달기
규정에 맞춰 매년 감사를 하고 있다곤 하는데, 웹트러스트 인증 사이트는 2023년에 머물러있네요. 2024, 2025년에 감사가 제대로 이루어졌는지 의문입니다. https://www.gpki.go.kr/pds/WebTrustAction.action CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지. 뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요.
CPS 문서 또한 마찬가지로 언제든지 빈번하게 바꿀 수 있다는 조항이라던지 법을 따르기 때문에 문서상에선 책임이 없다고 기재한다던지.
뭔가 애매한 부분들이 많아서 과거의 일들을 전부 무시하더라도 신뢰도가 떨어지긴 하네요.
▲ aigirlfriend 1일전 [-] 기초적인 밑작업도 못하는거 보니 생각보다 정부 감청 강화는 "무능해서" 제대로 못할 확률이 커보이네요 하긴 똘똘하면 공무원 하기 힘들죠 답변달기
기초적인 밑작업도 못하는거 보니 생각보다 정부 감청 강화는 "무능해서" 제대로 못할 확률이 커보이네요 하긴 똘똘하면 공무원 하기 힘들죠
▲ qwkjsan99 4시간전 [-] 똘똘한 사람이 없는게 아니라 조직이 목줄을 죄니 그런거죠. 한두사람이 아니라 수만, 수십만이 같은 문제를 반복한다면 그건 개인의 문제가 아니라 시스템의 문제입니다. 답변달기
똘똘한 사람이 없는게 아니라 조직이 목줄을 죄니 그런거죠. 한두사람이 아니라 수만, 수십만이 같은 문제를 반복한다면 그건 개인의 문제가 아니라 시스템의 문제입니다.
▲ chickendreamtree 10시간전 [-] 쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o) 단편만 보고 멍청하네 바보네 이런 소리 하는건 아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다 답변달기
chickendreamtree 10시간전 [-]
쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o) 단편만 보고 멍청하네 바보네 이런 소리 하는건 아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다
쟤네 왜 저리 멍청해? (x) 쟤네가 멍청이가 아닐 텐데 왜 저래? (o)
단편만 보고 멍청하네 바보네 이런 소리 하는건
아직까지 현실에서 힘숨찐을 만나 참교육을 당해본 경험이 없던지, 아니면 운이 좋아 힘숨찐을 만나본적 없던지 둘중 하나입니다
▲ regentag 14시간전 [-] 공무원을 안 해도 될 정도로 똘똘하신가보군요. 답변달기
공무원을 안 해도 될 정도로 똘똘하신가보군요.
▲ chcv0313 15시간전 [-] 경솔히 그런 소리 하시는거 아닙니다 답변달기
모든 국민이 AI 서비스를 무료로 이용하는 ‘모두의 AI 프로젝트’가 연내 추진된다. 국민주권정부 출범 이후 AI 정책에 집중한 과학기술정보통신부는 그간의 정책을 연계해 ‘모두의 AI’와 같이 시너지와 성과를 창출한다는 계획이다.
배경훈 부총리 겸 과기정통부 장관은 지난 29일 서울중앙우체국에서 열린 기자간담회에서 “모두의 AI는 독자 AI 파운데이션 모델 기반으로 만들어질 것”이라며 “세 가지 기능을 중심으로 무료 서비스를 제공할 것”이라고 밝혔다.
모두의 AI에 예고된 세 가지 기능 가운데 첫째는 챗봇 기능이다. 국민들이 많이 사용하는 AI 서비스와 같이 질문을 하면 학습된 데이터 기반으로 답을 하는 챗봇을 우선 갖추게 된다. 이와 함께 에이전트 기능과 특화 모델 서비스를 담게 된다.
배 부총리는 “AI 에이전트를 모두가 하나씩 소유하는 개념처럼 AI 에이전트 기능이 들어가게 된다”며 “AI를 잘 활용하기 어려운 노년층이나 소외계층을 타깃으로 특별한 특화 모델 서비스도 적용될 것”이라고 설명했다.
AI 에이전트에 대해 특히 “대한민국은 AI 에이전트 시대를 빨리 준비해야 한다”며 “AI 에이전트를 통해 어느 정도 동등한 기회를 만들어 국민에게 드려야 한다고 생각한다”고 했다.
배 부총리는 “AI를 통한 경제활동에 누구나 참여할 수 있고 미래를 공평하게 만들어, AI 기본사회로 나아가기 위해 국민 누구나 한 개 이상의 에이전트를 가지고 활용할 수 있는 체계를 만드는 것이 중요하다”고 말했다.
이어, “에이전틱 AI 시대에 어떻게 대비할 것인지 우리가 아직은 고민이 잘 안되고 있는 것 같다”며 “앞으로 AI끼리 AI 스스로 생산성을 만드는 시대가 분명히 오는데 누구나 AI를 한글과 산수처럼 쓰는 것도 중요하지만 AI 에이전트를 유용하게 작동시키는 시대를 어떻게 준비해야 할지도 중요하다”고 강조했다.
연말에 선보이는 모두의 AI는 무료로 제공될 예정이다.
배 부총리는 “우선 정부 재정 기반으로 지원하고 2028년 이후에는 정부 재원으로 할지 아니면 기업들과 많은 논의를 이어가고 있는데, 정부의 지원을 받아 데이터를 기업이 모으거나 기업 역시 공동투자가 필요한 부분이 있을텐데, 2028년 이후에도 전 국민 모두가 무료로 쓸 수 있도록 하겠다”고 밝혔다.
AI 인프라 구축, 독자 기술력 확보, 제도적 뒷받침 등 그간의 정책 추진과 함께 현장에서 AI 적용이 중요하다는 뜻도 거듭 밝혔다. 국가 AI 경쟁력을 산업을 비롯한 여러 영역에서 AI 전환(AX) 성공으로 삼겠다는 뜻이다.
배 부총리는 “현재 HBM 중심으로 호황을 맞이했고, 반도체를 바탕으로 한 AI 사업 기회가 이제는 여러 AX 사업이 될 수 있고 피지컬AI 중심으로 가려는 산업이 될 수도 있다”며 “우리가 AI 역량을 잘 확보하면 이를 기반으로 AX 역량도 강화시킬 수 있다”고 말했다.
이어, “엔비디아나 구글과 같은 기업들이 한국 시장 문을 두드리고 있는지 살펴야 하는데 그들은 한국 AI 시장에서 기회가 있다고 보는 것”이라며 “우리가 과거 ICT 강국으로 포지션을 할 때 전 세계가 한국을 주목한 것처럼 AI 시대에도 한국을 중요한 국가로 생각하고 있다”고 진단했다.
그러면서 “AI 모델 경쟁력만 자꾸 많이 바라보는데, 결국 AI를 기반으로 관련된 어떤 도메인 산업, 그리고 관련된 데이터 플랫폼, 전체 AI 풀스택 관점에서 한국이 빠르게 치고 나갈 수 있고 경쟁력을 확보할 수 있는 가능성 때문에 많은 투자가 이뤄진다고 본다”고 덧붙였다.
그는 또 “저도 현장에서 AI 모델을 개발하고 AI 적용을 시도할 때 많은 전문가가 AX 실패율이 80% 이상에 달한다는 이야기를 많이 하는데, AI라는 게 현장에서 제대로 작동하고 효과를 내는 게 그만큼 어려운 것이고 숫자와 시간이 필요하고 도메인과 AI에 대한 이해도 필요하다”고 했다.
이어, “우리가 추진하고 있는 AX의 실패 확률을 80%에서 만약 30%까지 내리고, 성공 확률을 70%, 80% 이상 늘릴 수 있다면 어마어마한 성과를 만들어 낼 것”이라며 “이를 누구보다 빠르게 만들어 간다면 대한민국이 큰 기회를 맞이하게 된다고 생각한다”고 강조했다.
부총리로서 1년의 소회에 대한 물음에 “처음에는 경직된 조직에서 무엇을 할 수 있을지 사실 걱정도 많았다”면서 “급하게 1년 동안 모든 걸 이루겠다는 생각으로 달려오지 않았고, 대한민국의 중장기적인 미래를 만드는 역할을 하겠다는 마음으로 해왔다”고 답했다.
[현장] 배경훈 과기부총리 "국민 AI 활용 역량, 국가 경쟁력 좌우" 2026.03.26 국민 누구나 AI 쉽게 쓰고 배운다 2026.03.12 배경훈 부총리, 국가AI전략위도 이끈다…컨트롤타워 공백 차단 2026.05.14 배경훈 부총리 "알파고 넘어선 AI 논의할 때…사회적 합의 필요" 2026.04.27
그는 또 “전 부처가 AI를 하려고 하는데 AI가 마케팅 요소도 아니고 한국에 굉장히 중요한 요소며, 부처별로 현장에 적용하는 게 쉽지 않은 일”이라며 “기본 역량도 갖춰야 하도 데이터 체계도 갖추지 않으면 절대로 성공하기 어렵다고 생각해 우리의 기본기를 다질 수 있는 일에 집중했다”고 돌아봤다.
그러면서 “과기정통부는 정부의 R&D 연구소 같은 조직이어서 부처들이 잘 활용할 수 있도록 지원하는 체계를 만드는 것이 중요하고 그런 노력을 꾸준히 해왔다”며 “우리의 역할을 정립하면서 성과를 내며 여러 부처가 과기정통부와 협력하기를 희망하고 있고, 과기정통부도 인력과 조직이 준비된 채로 시작한 건 아닌데 성과를 증명하면서 과학기술관계장관회의를 이끌고 AI 개발이나 글로벌 AI 사업 구축을 위한 조직과 인력을 확대해 나가고 있다”고 밝혔다.
테슬라도 긴장할 기술…BYD, 9분 만에 97% 충전 성공
BYD가 영국에서 9분 만에 배터리를 10%에서 97%까지 충전하는 1500kW급 초급속 충전 기술을 공개했다. 회사는 2027년까지 중국 외 지역에 플래시 충전기 6000개를 구축하며 유럽 전기차 시장 공략에 속도를 낼 계획이다.
BYD가 9분 만에 배터리를 10%에서 97%까지 충전하는 1500kW급 초급속 충전 기술을 공개했다. [사진: BYD]
[디지털투데이 AI리포터] BYD가 덴자 Z9 GT 배터리를 9분 만에 10%에서 97%까지 충전하는 시연을 공개했다.
10일(이하 현지시간) IT매체 테크레이더에 따르면, BYD는 이번 주 영국 웨스트런던 본사에서 최대 1500킬로와트(kW)급 '플래시 충전' 기술을 선보였다.
시연 차량은 BYD 프리미엄 브랜드 덴자의 전기차(EV) 덴자 Z9 GT였다. 관람객이 CCS 2 커넥터를 차량에 연결하자 충전이 자동으로 시작됐으며, 5분 만에 배터리 잔량이 70%까지 상승했다. 이 과정에서 주행가능거리는 200마일(약 320km) 늘었다. 이후 4분이 더 지나자 배터리 잔량은 97%에 도달했다.
디에고 파레스키(Diego Pareschi) BYD 전기차 충전 책임자는 추운 날씨에는 완전 충전까지 약 3분이 추가로 소요될 수 있다고 밝혔다. BYD는 초고출력 충전에 필요한 무거운 냉각 케이블을 보다 쉽게 다룰 수 있도록 충전기를 주유기 형태로 설계했으며, 케이블을 위로 들어 올리는 풀리 구조도 적용했다.
BYD는 2027년 말까지 중국 외 지역에 플래시 충전 스톨 6000개를 구축할 계획이다. 이 가운데 3000개는 유럽, 약 300개는 영국에 설치할 예정이다. 보노 제(Bono Ge) BYD 영국 책임자는 BYD 딜러망은 물론 기존 충전 사업자, 슈퍼마켓, 패스트푸드점 등 유동 인구가 많은 지역의 파트너들과 설치 협의를 진행 중이라고 밝혔다.
전력망 부담을 줄이기 위한 현장 배터리 저장장치도 함께 도입한다. 플래시 충전 스톨에는 400kW급 배터리 스택이 탑재되며, 야간에 저장한 전력을 활용해 전력망 부담과 운영 비용을 낮추는 방식이다. 보노 제는 이상적으로 kWh당 50펜스 미만의 요금을 목표로 하고 있다고 밝혔다. 이는 영국 주요 상업 지역의 초급속 공공 충전기보다 30~40펜스 낮은 수준이다.
플래시 충전기는 대부분의 전기차에서 사용할 수 있지만, BYD 차량이 아닌 경우 충전 속도는 제한될 수 있다. BYD는 초기 단계에서는 자사 고객을 우선 지원할 방침이다. 2세대 블레이드 배터리를 탑재한 BYD 차량은 플래시 충전을 지원하지만, 영국과 유럽 시장에 어떤 차종이 출시될지는 아직 공개되지 않았다. 덴자 Z9 GT 구매자에게는 18개월간 무료 플래시 충전 혜택이 제공된다.
BYD는 영국과 유럽 시장 판매 확대와 함께 플래시 충전망 구축에 20억유로를 투입할 계획이다. 충전 스톨 1개당 설치 비용은 공사 난이도에 따라 50만~100만파운드 수준으로 알려졌다.
키워드 #BYD #유럽 #플래시 배터리 #배터리 #전기차 #EV #덴자 Z9 GT #충전
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
금융권과 스타트업 간 실질적인 협업 사례를 조명하고, 시상과 후속 사업 기회까지 연결하는 자리가 마련된다.
디캠프(대표 박영훈)는 한국핀테크지원센터와 이달 24일 디캠프 마포에서 ‘스타트업 OI #금융권’ 행사를 연다고 밝혔다.
이번 행사에는 9대 1의 경쟁률을 뚫고 선발된 ▲고이장례연구소 ▲테라파이 ▲티냅스 ▲왓섭 ▲웰로 5개 스타트업이 금융기관 측 협업 담당자와 함께 무대에 오른다. 각 팀은 협력 과정에서의 문제 해결 과정과 데이터·기술 기반의 시너지, 사업 성과, 향후 협력 비전을 발표한다.
고이장례연구소는 원스톱 장례 플랫폼 ‘고이’를 통해 월 100원부터 시작하는 장례 준비 서비스를 제공 중이다. OK저축은행과 협업해 최고 연 4% 금리와 상조 혜택을 결합한 ‘OK이자도받는상조적금’을 출시하며 장례 서비스의 금융 연계 모델을 확장한 사례를 발표한다.
테라파이는 부동산 계약 전 리스크를 데이터 기반으로 분석하는 ‘안심등기 Decision OS’를 개발한 프롭테크 기업이다. 전세 계약 전 주택 상태를 확인할 수 있는 ‘세이프홈즈’ 서비스를 기반으로, 금융기관이 활용 가능한 부동산 리스크 데이터 구조화 사례를 우리은행과 소개한다.
AI 에이전트 신뢰성 검증 스타트업 티냅스는 금융 AI 답변의 신뢰성을 검증하는 솔루션을 제공하는 기업이다. AI가 생성한 답변을 업무 기준에 따라 통과·차단·재검토로 분류하는 기술을 바탕으로, KB국민은행과 협력해 AI 활용 과정에서 발생할 수 있는 리스크를 사전에 점검하는 사례를 발표한다.
왓섭은 결제 및 가맹점 데이터를 소비 항목과 행동 패턴 중심으로 구조화하는 AI 기반 데이터 인프라를 개발했다. 이를 통해 금융사의 초개인화 마케팅과 AI 서비스 고도화를 지원하며, 신한카드와의 협업 사례를 공유할 예정이다.
웰로는 정부 정책 및 지원금 데이터를 수집·정제해 개인과 기업에 맞춤형으로 추천하는 데이터 플랫폼을 운영 중이다. 이 회사는 카카오뱅크와 협력해 정책 데이터와 금융 서비스 간 연계를 강화한 사례를 선보인다.
'변화'냐 '변질'이냐...디캠프 내부 갈등 격화 2026.06.02 강 건너 디캠프 불구경 하는 은행연합회의 ‘사소한 침묵’ 2026.06.02 스타트업 파트너 디캠프... '배치' 누적 지원수 4000건↑ 2026.06.04 디캠프-JR동일본, 국내 스타트업 일본 진출 돕는다 2026.05.13
발표 종료 후 최우수 사례에는 금융위원장상이, 우수 사례에는 은행연합회장상(디캠프 이사장상)과 한국핀테크지원센터 이사장상이 각각 수여된다. 아울러 공공성과 포용성이 높은 협력 사례를 선정해 상생 협력상(지역금융그룹회장상, BNK금융그룹 회장상)을 별도로 수여 하며, 총 1천만원 규모의 상금이 스타트업과 금융기관 담당자에게 공동으로 제공된다.
본선 진출 스타트업에게는 ▲디캠프 배치 프로그램 선발 검토 ▲금융권 사업 협력 및 투자 연계 기회 ▲한국핀테크지원센터 기술실증(PoC) 지원 사업 연계 등 후속 지원도 이뤄진다.
샘 알트먼, 삼성·카카오·네이버 찾는다…AI 협력 확대 논의
샘 알트먼 오픈AI CEO [사진: 셔터스톡]
[디지털투데이 이호정 기자] 오픈AI 샘 알트먼 최고경영자(CEO)가 오는 14일 방한해 15일 저녁 출국하는 1박 2일 일정으로 삼성전자·카카오·네이버를 잇따라 방문한다. 지난해 10월 방한 이후 약 8개월 만이다.
11일 업계에 따르면 알트먼 CEO는 15일 경기 수원 삼성전자 디지털시티를 찾아 DX부문 임직원들과 'DX 인사이트 토크'(DX Insight Talk) 행사를 진행한다.
삼성전자 DX부문이 챗GPT·제미나이 엔터프라이즈·클로드 등 외부 생성형 AI 서비스를 사내에 공식 도입하는 것을 계기로 마련된 자리다. 알트먼 CEO는 이 자리에서 AI 기술 발전이 가져올 변화와 AI 기반 업무 혁신 방향에 대해 강연하고 임직원들과 의견을 나눌 예정이다.
삼성전자는 사내 공지를 통해 "AI와 함께 일하는 시대, 그 변혁의 중심에 선 글로벌 AI 리더인 올트먼과 AI 기술이 만들어 갈 미래의 변화와 AI 기반 업무 혁신에 대한 얘기를 나눌 것"이라고 밝혔다. 업계에 따르면 DX부문이 도입한 AI 3종 중 챗GPT의 채택 범위가 가장 넓어, DX부문 전 세계 임직원 전원이 사용하는 것으로 알려졌다.
알트먼 CEO는 같은 날 오전 9시 경기 성남 카카오 판교아지트를 방문해 정신아 대표와 회동한다. 카카오는 "이번 미팅은 양사의 추가 협력 방안을 논의하기 위한 자리로, 구체적인 논의 사항은 15일 미팅 이후 공유하겠다"고 밝혔다. 오픈AI와 카카오는 지난해 2월 카카오 주요 서비스에 챗GPT를 결합하는 것을 골자로 한 전략적 제휴를 체결했으며, 같은 해 10월 '챗GPT 포 카카오'를 출시한 바 있다. 이번 회동에서는 카카오톡의 대화 맥락과 챗GPT 간 연계성을 강화하는 방안이 집중 협의될 것으로 전해졌다. 두 사람의 공식 대면은 지난해 2월 전략적 제휴 발표 이후 1년 4개월 만이다.
알트먼 CEO는 네이버 제2사옥 1784도 방문할 예정이다. 네이버 측은 방문 사실을 공식 확인하면서도 구체적인 시간은 미정이라고 밝혔다. 이번 방문은 양사 간 협력 방안이 있는지 모색하는 초기 미팅 성격인 것으로 전해졌다. 앞서 지난 8일 젠슨 황 엔비디아 CEO가 네이버 1784를 방문해 기가와트(GW)급 AI 팩토리 구축 등 인프라 협력 계획을 밝힌 데 이어, 알트먼 CEO까지 같은 사옥을 찾는 것이다. 네이버는 자체 거대언어모델(LLM) '하이퍼클로바X'와 클라우드·데이터센터 인프라를 보유하고 있다.
한편 알트먼 CEO는 지난해 10월 방한 당시 이재용 삼성전자 회장, 최태원 SK그룹 회장과 연쇄 회동을 갖고 각각 전략적 파트너십을 구축했다. 당시 삼성전자와 SK하이닉스는 오픈AI가 오라클·소프트뱅크와 함께 4년간 5000억달러(약 726조원)를 투입해 미국 내 대규모 AI 데이터센터를 구축하는 '스타게이트' 프로젝트에 고성능·저전력 메모리를 공급하기로 합의했다.
이번 방한을 계기로 해당 파트너십이 구체화할지 주목된다. 다만 이재용 회장은 현재 유럽 출장 중이고 최태원 회장과는 일정이 맞지 않아 이번에는 두 회장 모두와의 별도 회동은 이뤄지지 않을 것으로 알려졌다.
키워드 #샘 알트먼 #네이버 #카카오 #삼성전자 #AI #방한
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
mq - jq 스타일 Markdown 쿼리 언어 (mqlang.org)
jq와 유사한 문법으로 Markdown 문서를 질의·필터링·변환 하는 CLI 도구로, JSON에서 jq가 하던 역할을 Markdown으로 옮겨옴 마크다운을 구조화된 데이터로 만들어 슬라이스, 필터, 매핑, 변환하는 작업을 손쉽게 배치 처리 가능 LLM이 Markdown을 기본 입력 형식으로 사용하므로 LLM 워크플로우와 입력 생성 에 특히 유용함 프롬프트/출력에 쓰이는 Markdown 조작, 문서 관리, 콘텐츠 분석, 배치 처리 등에 활용 다양한 입출력 포맷 지원: markdown, mdx, html, csv, json, toml, xml, yaml 등 입력, table·grep·json 등 출력 파일 확장자나 -I 플래그로 자동 파싱 수행 헤딩,코드 블록,링크,테이블 셀을 셀렉터로 추출 ( .h(1..3) , .code("rust") , .link.url 등) 제목 기반 섹션 단위 추출 지원 ( section::section("Installation") ) mq conv 로 Excel·Word·PDF를 Markdown으로 변환 후 Unix 파이프 로 연결 처리 가능 다수의 내장 함수와 셀렉터로 콘텐츠 필터 및 변환 가능하며, 커스텀 함수로 손쉽게 확장 가능 REPL·LSP·VSCode 확장·디버거( mq-dbg ) 등 개발 편의 기능 포함 Playground 에서 설치 없이 브라우저에서 실행 가능 mq-web 으로 WebAssembly 빌드 제공 Elixir, Python, Ruby, Java, Go 언어용 바인딩 제공 MIT License, Rust로 구현
함께 보면 좋은 글 β mdq - 마크다운을 위한 jq QMD - 퀵 마크다운 서치 sq - 데이터베이스 및 기타 기능을 위한 jq 대체제 SQ - swiss-army knife for data jc - CLI 도구의 출력을 JSON화 하는 도구
sq - 데이터베이스 및 기타 기능을 위한 jq 대체제
SQ - swiss-army knife for data
jc - CLI 도구의 출력을 JSON화 하는 도구
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ xunre 2일전 [-] 드디어 내게 필요한게 나왔다... 답변달기
구글의 연례 개발자 컨퍼런스 ‘구글 I/O 2026’이 19일(현지시간) 미국 캘리포니아주 마운틴뷰에 위치한 쇼어라인 앰피시어터에서 첫 시작을 알렸다. 구글은 이번 행사에서 삼성전자와 함께 개발한 새로운 스마트 안경을 비롯해 다양한 인공지능(AI) 기반 신제품과 기능을 공개했다. IT매체 안드로이드 헤드라인은 이날 발표된 내용 가운데 사용자의 디지털 생활 방식을 크게 바꿀 소비자 중심 AI 기능 5가지를 꼽아서 소개했다. 1. 제미나이 3.5 플래시 (사진=구글) 먼저 구글은 속도와 비용 효율성을 강화한 경량 AI 모델 ‘제미나이 3.5 플래시’를 공개했다. 고급 추론 능력보다 빠른 응답 속도에 초점을 맞춘 모델로, 제미나이 앱과 구글 검색 AI 모드의 기본 모델로 적용된다. 구글에 따르면 제미나이 3.5 플래시는 긴 문서 요약, 초안 작성, 복잡한 질문 응답 속도를 이전 세대 대비 최대 4배까지 향상시켰다. 순다르 피차이 알파벳 최고경영자(CEO)는 “하루 1조 개의 토큰을 사용하는 기업이 업무량의 80%를 3.5 플래시로 전환할 경우 연간 10억 달러 이상을 절감할 수 있다”며 경제성을 강조했다. 이번 업데이트를 통해 기존 AI 서비스에서 발생하던 로딩 지연도 크게 줄어들 것으로 예상된다. 2. 제미나이 옴니 구글은 텍스트, 사진, 영상, 오디오 등 다양한 입력을 바탕으로 영상을 만들 수 있는 '제미나이 옴니'를 공개했다. 이 기능은 제미나이 앱과 유튜브 쇼츠 리믹스 같은 소비자용 도구에 바로 통합된다. 제미나이 옴니로 만든 영상 (영상=구글) 제미나이 옴니는 기존 영상 제작 도구와 달리 음성만으로 영상 제작과 편집이 가능하다. 사용자는 클립을 업로드한 뒤 음성 명령을 통해 배경 장면을 바꾸거나 음향 효과를 추가하고, 새로운 캐릭터를 삽입할 수 있다. 3. 구글 검색 ‘AI 에이전트’ 기능 도입 구글 검색에도 대대적인 변화가 적용된다. 기존 검색창이 단순한 링크 목록 제공을 넘어 능동형 AI 도우미 역할을 수행하게 된다. 새 검색 기능은 사용자가 검색어를 입력하는 동시에 개인 맞춤형 작업 공간을 실시간 생성하며, 인터랙티브 위젯과 실시간 데이터 추적기, 비교 대시보드 등을 자동으로 제공한다. 특히 검색창 왼쪽에는 이미지와 영상, 문서 첨부 버튼이 새롭게 추가되며, 검색어가 길어질수록 검색창 크기가 자동으로 커지는 ‘다이내믹 검색 상자’ 기능도 도입된다. 구글은 이날부터 AI 서비스를 적용 중인 국가에 순차적으로 변화를 적용할 방침이다. 4. 유튜브에 질문하기 (사진=구글) 긴 동영상에서 관련 정보를 하나 찾는 데는 상당한 시간이 소요될 수 있다. 이런 동영상 검색 과정을 간소화하기 위해 구글은 '유튜브에 물어보세요(Ask YouTube)'라는 대화형 챗봇 인터페이스를 출시했다. 이 기능은 영상 내용을 분석해 사용자의 질문에 텍스트 형태로 답변하며, 질문과 관련된 장면으로 즉시 이동할 수 있는 타임스탬프 링크도 함께 제공한다. 긴 영상 속 원하는 정보를 보다 빠르게 찾을 수 있도록 지원하는 기능이다. 5. 유니버설 카트 쇼핑 기능도 AI 중심으로 재편된다. 구글은 검색과 제미나이, 유튜브, 지메일 전반에서 상품을 통합 관리할 수 있는 ‘유니버설 카트’를 선보였다. 사진=구글 유니버설 카트는 여러 쇼핑몰과 서비스에 흩어진 상품을 하나의 장바구니에 담아 관리할 수 있도록 지원한다. 구글 월렛 보안 인프라 기반으로 구축됐으며, 저장된 카드 정보를 자동 연동하고 할인 혜택 탐색과 가격 변동 추적 기능도 제공한다. 이용자가 관심 상품을 담아두면 AI가 가격 인하와 재입고 여부까지 알려준다.
IT매체 안드로이드 헤드라인은 이날 발표된 내용 가운데 사용자의 디지털 생활 방식을 크게 바꿀 소비자 중심 AI 기능 5가지를 꼽아서 소개했다.
먼저 구글은 속도와 비용 효율성을 강화한 경량 AI 모델 ‘제미나이 3.5 플래시’를 공개했다. 고급 추론 능력보다 빠른 응답 속도에 초점을 맞춘 모델로, 제미나이 앱과 구글 검색 AI 모드의 기본 모델로 적용된다.
구글에 따르면 제미나이 3.5 플래시는 긴 문서 요약, 초안 작성, 복잡한 질문 응답 속도를 이전 세대 대비 최대 4배까지 향상시켰다. 순다르 피차이 알파벳 최고경영자(CEO)는 “하루 1조 개의 토큰을 사용하는 기업이 업무량의 80%를 3.5 플래시로 전환할 경우 연간 10억 달러 이상을 절감할 수 있다”며 경제성을 강조했다. 이번 업데이트를 통해 기존 AI 서비스에서 발생하던 로딩 지연도 크게 줄어들 것으로 예상된다.
구글은 텍스트, 사진, 영상, 오디오 등 다양한 입력을 바탕으로 영상을 만들 수 있는 '제미나이 옴니'를 공개했다. 이 기능은 제미나이 앱과 유튜브 쇼츠 리믹스 같은 소비자용 도구에 바로 통합된다.
제미나이 옴니는 기존 영상 제작 도구와 달리 음성만으로 영상 제작과 편집이 가능하다. 사용자는 클립을 업로드한 뒤 음성 명령을 통해 배경 장면을 바꾸거나 음향 효과를 추가하고, 새로운 캐릭터를 삽입할 수 있다.
구글 검색에도 대대적인 변화가 적용된다. 기존 검색창이 단순한 링크 목록 제공을 넘어 능동형 AI 도우미 역할을 수행하게 된다.
새 검색 기능은 사용자가 검색어를 입력하는 동시에 개인 맞춤형 작업 공간을 실시간 생성하며, 인터랙티브 위젯과 실시간 데이터 추적기, 비교 대시보드 등을 자동으로 제공한다. 특히 검색창 왼쪽에는 이미지와 영상, 문서 첨부 버튼이 새롭게 추가되며, 검색어가 길어질수록 검색창 크기가 자동으로 커지는 ‘다이내믹 검색 상자’ 기능도 도입된다.
구글은 이날부터 AI 서비스를 적용 중인 국가에 순차적으로 변화를 적용할 방침이다.
긴 동영상에서 관련 정보를 하나 찾는 데는 상당한 시간이 소요될 수 있다. 이런 동영상 검색 과정을 간소화하기 위해 구글은 '유튜브에 물어보세요(Ask YouTube)'라는 대화형 챗봇 인터페이스를 출시했다.
이 기능은 영상 내용을 분석해 사용자의 질문에 텍스트 형태로 답변하며, 질문과 관련된 장면으로 즉시 이동할 수 있는 타임스탬프 링크도 함께 제공한다. 긴 영상 속 원하는 정보를 보다 빠르게 찾을 수 있도록 지원하는 기능이다.
쇼핑 기능도 AI 중심으로 재편된다. 구글은 검색과 제미나이, 유튜브, 지메일 전반에서 상품을 통합 관리할 수 있는 ‘유니버설 카트’를 선보였다.
유니버설 카트는 여러 쇼핑몰과 서비스에 흩어진 상품을 하나의 장바구니에 담아 관리할 수 있도록 지원한다. 구글 월렛 보안 인프라 기반으로 구축됐으며, 저장된 카드 정보를 자동 연동하고 할인 혜택 탐색과 가격 변동 추적 기능도 제공한다. 이용자가 관심 상품을 담아두면 AI가 가격 인하와 재입고 여부까지 알려준다.
전기차는 주춤, 전력 저장은 폭발…GM, 테슬라 '황금시장' 정조준
GM이 나트륨이온 배터리를 앞세워 에너지저장장치 시장 진출에 나섰다. EV 성장 둔화 속에 완성차 업계가 테슬라가 주도하는 ESS 시장을 새로운 성장동력으로 정조준하고 있다.
EV 성장 둔화 속에 완성차 업계가 ESS 시장을 새로운 성장동력으로 정조준하고 있다. [사진: GM]
[디지털투데이 AI리포터] 미국 완성차 업체들이 전기차를 넘어 에너지저장장치(ESS) 시장으로 사업 영역을 확대하고 있다.
10일(이하 현지시간) IT매체 테크크런치에 따르면, 제너럴모터스(GM)는 정지형 배터리 시장을 겨냥한 새로운 나트륨이온 배터리 화학계를 공개했다.
배경은 전기차 시장과 에너지저장 시장의 엇갈린 성장세다. 미국 전기차 판매는 둔화하는 반면 대형 고정식 배터리 설치 규모는 최근 2년 동안 두 배로 늘었다. 태양광산업협회는 세제 혜택 축소에도 2030년 연간 설치량이 110기가와트시(GWh)를 넘어설 것으로 전망했다. 현재의 약 두 배 수준이다.
GM도 이러한 흐름을 새로운 성장 기회로 보고 있다. 커트 켈티(Kurt Kelty) GM 배터리·지속가능성 담당 부사장은 "이 시장에는 잠재력이 크다"라고 말했다. 그는 데이터센터 확대와 산업 전반의 전기화가 수요를 동시에 끌어올리고 있다며, 데이터센터를 제외하더라도 에너지저장 수요 증가는 이미 시작됐다고 설명했다.
에너지저장 시장을 노리는 기업은 자동차 업체만이 아니다. 베이스파워는 지난해 10월 10억달러 규모 시리즈C 투자를 유치했고, 루나에너지는 주택용 배터리 사업 확대를 위해 2억3200만달러를 조달했다. 전기 레저차 업체 라이트십도 공사 현장 등 임시 전력이 필요한 곳에 활용할 수 있는 이동형 배터리 사업으로 영역을 넓히고 있다.
현재 시장 주도권은 테슬라가 쥐고 있다. 지난해 설치된 57GWh 규모 ESS 가운데 82%를 테슬라가 차지했다. 테슬라의 에너지 생산·저장 부문 매출은 2023년 이후 두 배로 증가했으며, 메가팩과 파워월 판매 확대가 성장을 이끌었다. 이 부문의 매출총이익률은 약 30%로 전기차 사업의 두 배 수준이며, 일반 완성차 업체 수익성을 크게 웃돈다. GM의 최근 15년 평균 매출총이익률은 11%를 약간 넘는 수준이다.
다만 GM은 대규모 시장 진입에 신중한 태도를 보이고 있다. 첫 핵심 제품인 나트륨이온 셀의 상용화 시점은 2020년대 후반으로 계획하고 있다.
GM이 나트륨이온 배터리를 선택한 이유는 비용 경쟁력과 공급망 안정성 때문이다. 회사는 나트륨이온 배터리가 원재료가 풍부하고 저렴하며, 능동 냉각 시스템이 필요 없고 리튬이온 배터리보다 더 많은 충방전 사이클을 견딜 수 있다고 설명했다.
앤디 오우리(Andy Oury) GM 사업기획 매니저는 "공급망 회복력과 저비용 소재 확보 경로를 제공한다"라며 "나트륨이온은 아직 초기 단계이기 때문에 충분한 투자가 이뤄지면 여러 지역에서 공급망을 구축할 수 있다"라고 말했다.
이 전략은 전기차 사업과도 연결된다. GM은 기존 기가팩토리의 리튬이온 배터리 생산능력을 ESS용으로 전환하기보다 향후 전기차 수요 회복에 대비해 유지하는 방안을 택했다.
GM은 2028년 리튬망간리치(LMR) 배터리도 선보일 계획이다. 이 배터리는 현재 수준의 주행거리를 상당 부분 유지하면서 전기차 가격을 약 10% 낮추는 것을 목표로 한다.
나트륨이온 배터리는 향후 전기차용으로 확대 적용될 가능성도 있다. 중국 자동차 업체들은 이미 관련 기술 적용을 시험하고 있다. 나트륨이온 배터리는 무게 증가와 짧은 주행거리라는 한계가 있지만 가격 경쟁력이 높고 화재 위험이 상대적으로 낮으며 급속 충전 잠재력도 갖고 있다.
커트 켈티는 나트륨이온이 전기차의 장기 해법이 될지는 아직 확실하지 않지만 연구를 지속하고 있다며 가능성을 열어두고 있다고 밝혔다.
완성차 업계가 전기차 성장 둔화에 대응해 새로운 수익원을 찾는 가운데, 에너지저장 시장이 핵심 격전지로 떠오르고 있다.
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
KT가 경기권 IT·게임·미디어 스타트업 대상으로 AX 전략을 공유했다.
KT는 경기창조경제혁신센터, 아마존웹서비스(AWS), 데이터브릭스코리아, KT클라우드와 'KT AX 이머전 경기'를 진행했다고 11일 밝혔다. 행사는 지난 10일 경기도 성남시 판교창업존에서 진행됐으며, 경기 소재 IT, 게임, 미디어 스타트업을 대상으로 AI와 클라우드 기반 AX 전략과 실질적 업무 혁신 방안을 공유하기 위해 열렸다.
참가 기업은 각사 전문 영역을 바탕으로 스타트업에 적합한 기술과 노하우를 공유했다. 스타트업이 자사 환경에 맞는 AX를 모색할 수 있도록 지원했다.
AWS는 'AI 에이전트 온 AWS'를 주제로, 사용자 요청을 이해하고 필요한 작업을 자율적으로 수행하는 AI 에이전트 기술을 활용한 업무 혁신 방안을 소개했다.
이어 'AI 엔지니어링 3.0, 하네스가 만드는 새로운 빌드 패러다임' 세션을 통해, AI 모델 자체를 넘어 모델을 실제 서비스로 구현하기 위한 주변 기술 체계인 '하네스 엔지니어링'을 중심으로 AI 시대에 변화하는 개발, 운영 방식을 제시했다.
데이터브릭스는 ‘스타트업 생존방정식, 현업 중심 데이터 환경이 의사결정 속도를 바꾸는 방법’을 주제로, 스타트업과 성장 기업이 데이터 기반 의사결정 체계를 구축하는 방법을 공유했다.
KT는 ‘클라우드플렉스’를 활용한 가입자 업무 혁신 사례를 소개했다. 클라우드플렉스는 가입자 환경에 맞춰 다양한 클라우드 서비스를 최적화해 제공하는 클라우드 서비스다.
전용 하드웨어 기반으로 고성능, 고보안 클라우드 환경을 제공하면서도, 온디맨드 방식으로 확장 가능하며 퍼블릭 클라우드의 유연성과 프라이빗 인프라의 안정성을 동시에 확보했다.
KT클라우드는 지자체, 행정 시스템 등 공공 기관과 금융, 핀테크 기업 서비스 이전 분야 클라우드 전환 우수 사례를 통해 기업의 안정적 클라우드 도입과 운영 전략을 제시했다.
KT "AI·데이터 통합 전략으로 광고 효과 극대화" 2026.06.10 KT, 입국 몽골인에 금융·모바일 통합 패키지 제공 2026.06.10 KT, 월드컵 인파 밀집지에 네트워크 운영 방안 마련 2026.06.09 KT, 광화문 '온마루'서 월드컵 팝업 연다 2026.06.08
KT는 행사가 참가 스타트업이 AI, 데이터, 클라우드 기술을 자사 비즈니스에 효과적으로 접목하고, AX 추진 방향을 구체화하는 데 실질적 도움이 될 것으로 기대한다고 설명했다.
이진형 KT AX사업본부장은 “보유한 다양한 AX 노하우를 바탕으로 지역 산업 특성과 기업별 AX 추진 단계에 맞춘 실질적인 기술 정보를 제공하고, 파트너사와 협력해 기업의 AI, 클라우드 전환을 적극 지원하겠다”고 약속했다.
몇 시간 걸리던 하역이 몇 분 만에…월마트, AI 물류 혁명 시작됐다
월마트가 AI와 로봇을 활용한 차세대 물류센터를 통해 트럭 하역 시간을 몇 시간에서 몇 분 수준으로 단축했다. 매장별 데이터를 활용한 팔레트 자동 배치로 재고 보충 효율과 공급망 운영 속도도 크게 높아졌다.
월마트가 AI와 로봇을 활용한 차세대 물류센터를 통해 트럭 하역 시간을 크게 단축시켰다. [사진: 셔터스톡]
[디지털투데이 AI리포터] 월마트가 인공지능(AI)과 로봇을 활용한 차세대 물류센터를 통해 매장 직원들의 트럭 하역 시간을 몇 시간에서 몇 분 수준으로 줄였다.
10일(현지시간) 비즈니스인사이더에 따르면, 월마트는 매장 단위 데이터를 기반으로 팔레트 적재 방식을 개선해 매대 재고 보충 속도도 높이고 있다.
데이비드 구지나(David Guggina) 월마트 미국 최고경영자(CEO)는 10일 오펜하이머 소비자 성장·전자상거래 콘퍼런스에서 로봇이 매장별 데이터를 바탕으로 팔레트를 배치해 직원들이 매대를 더 효율적으로 채울 수 있도록 지원한다고 밝혔다.
핵심은 상품을 지능적으로 분류해 층별로 적재한 팔레트다. 과거에는 매장 직원들이 트럭 한 대의 화물을 모두 내리는 데 몇 시간이 걸렸지만, 현재는 트레일러 하역 작업을 몇 분 만에 마칠 수 있다고 데이비드 구지나는 설명했다.
물류센터는 특정 매장에서 가장 시급하게 필요한 상품이 담긴 팔레트도 선별할 수 있다. 해당 팔레트는 트럭에 가장 마지막으로 적재돼 매장 도착 후 가장 먼저 하역되도록 설계된다.
월마트는 미국에서 가장 빠른 소매업체가 되겠다는 목표 아래 최근 수년간 공급망 자동화에 지속적으로 투자해 왔다. 이를 위해 로봇이 대거 투입된 신규 물류시설을 구축했으며, AI는 이들 로봇의 작업을 실시간으로 조율하고 있다.
월마트는 올해 말까지 차세대 물류센터를 16곳으로 확대할 계획이다. 데이비드 구지나는 자동화와 재고 가시성 향상이 공급망과 매장 운영 효율을 높이고 비용 절감에도 기여하고 있다며, 절감한 비용은 더 낮은 가격을 제공하는 데 재투자할 수 있다고 밝혔다.
키워드 #월마트 #AI #인공지능 #하역 #물류센터
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
TypeScript를 LLVM 기계어로 직접 컴파일, "Perry" 네이티브 컴파일러 (github.com/PerryTS)
기존의 TypeScript 개발 패러다임은 고수준 추상화인 TS 코드를 JavaScript로 트랜스파일한 뒤, V8이나 JavaScriptCore 같은 무거운 JIT 런타임 엔진(Node.js, Bun, Deno 등) 위에서 구동하는 방식이 당연시되어 왔습니다. 최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다. 💡 핵심 아키텍처 및 특징 No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다. 크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다. True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다. 초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다. 🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다. 동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다. Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다. # 사용법은 극도로 심플합니다 $ perry compile src/main.ts -o myapp $ ./myapp # 의존성 없는 순수 네이티브 바이너리 실행 웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다. GitHub: https://github.com/PerryTS/perry
최근 오픈소스 트랙에 등장한 Perry는 이러한 전통적인 런타임 모델을 완전히 걷어내고, TypeScript 코드를 standalone 네이티브 바이너리로 직접 컴파일하는 것을 목표로 하는 Rust 기반의 Native-First 컴파일러입니다.
No Runtime (런타임 제로): V8 엔진이나 Electron, JVM 같은 무거운 중간 계층 없이, SWC로 TS 코드를 파싱하고 LLVM 인프라를 통해 타겟 플랫폼의 머신 코드로 직접 빌드합니다.
크로스 플랫폼 원소스 빌드: 하나의 TypeScript 코드베이스로 macOS, iOS, Android, Linux, Windows를 모두 지원하는 바이너리를 생성합니다.
True TypeScript Support: AssemblyScript처럼 'TS와 유사한 별도 언어'가 아닌, Strict Mode를 기반으로 하는 온전한 TypeScript 생태계 지원을 지향합니다.
초경량 UI 프레임워크 호환: 단 몇 MB 수준의 바이너리 용량과 0ms에 가까운 sub-second 콜드 스타트를 자랑합니다. SwiftUI, GTK4, WinUI 같은 플랫폼 네이티브 GUI 결합은 물론, 자체 React 렌더러를 통한 JSX 작성도 가능합니다.
🛠️ 개발 현황 및 한계 (Hacker News 피드백 반영) 최근 HN 등지에서 뜨거운 감자로 떠오른 프로젝트인 만큼, 프로덕션 레벨로 가기 위한 과제들도 명확히 논의되고 있습니다.
동적 JS 특성 제한: 객체에 런타임에 임의로 필드/메서드를 주입하거나 프로토타입을 변형하는 식의 동적 자바스크립트 스타일은 정적 컴파일 특성상 지원하지 않으며, 엄격하고 결정론적인(Deterministic) TS 서브셋을 기반으로 동작합니다.
Node.js 내장 모듈 에뮬레이션: 현재 hyper, rustls, tokio 등 Rust 생태계를 기반으로 Node.js의 HTTP 표준 라이브러리를 고스란히 에뮬레이션하고 있습니다. Fastify 등 일부 모듈 컴파일에 성공하며 빠르게 발전 중이지만, Express처럼 동적 임포트가 얽힌 복잡한 생태계 라이브러리들과의 100% 호환성은 아직 알파 단계의 해결 과제입니다.
웹 생태계에 갇혀있던 TypeScript를 시스템 프로그래밍과 초경량 네이티브 앱 영역으로 확장하려는 시도로서, 고성능 시스템 아키텍처나 LLVM 컴파일러 파이프라인에 관심이 많으신 분들이 흥미롭게 지켜볼 만한 프로젝트입니다.
GitHub: https://github.com/PerryTS/perry
함께 보면 좋은 글 β Spinel - Ruby AOT 네이티브 컴파일러 RJIT, Ruby를 위한 새로운 JIT 자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal Node.js 타입스크립트를 기본으로 지원하기 시작 Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
Spinel - Ruby AOT 네이티브 컴파일러
자바스크립트의 시간 문제를 해결한 9년의 여정, Temporal
Node.js 타입스크립트를 기본으로 지원하기 시작
Node.js, 추가 설정 없이 TypeScript 파일 실행 지원
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ cloverhearts 14시간전 [-] 응원합니다 답변달기 ▲ tsboard 1일전 [-] 재밌는 접근법입니다. 런타임 제거만으로도 큰 성과이긴 하네요! 답변달기 ▲ jeeeyul 2일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기 ▲ shakespeares 2일전 [-] perry 어감 좋네요. 답변달기 ▲ sea715 2일전 [-] 재미있네요 답변달기 ▲ ohah173 2일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기 ▲ heycalmdown 2일전 [-] 흥미롭네요. 답변달기
▲ jeeeyul 2일전 [-] 뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요? 답변달기
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다. 그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
뭔가 그랄 같네요. 근데 솔직히 메모리 보안이 심각할 것 같단 생각이 들긴 합니다.
그리고 다이나믹 룩업이 필요 없으면 굳이 애초에 스크립트로 개발할 이유가 있나요?
▲ shakespeares 2일전 [-] perry 어감 좋네요. 답변달기
▲ sea715 2일전 [-] 재미있네요 답변달기
▲ ohah173 2일전 [-] 아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요 답변달기
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만, 로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요 다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
아이디어나 접근방법이 정말 좋은것 같네요. 리액트 문법도 지원하는것 같고, 데코레이터나 이런거 지원 안되는거 보면 아직은 기존 프로그램을 이전하기보다 신규 프로젝트로 도전할만한 것 같지만,
로드맵대로 별다른 비용 없이 이전이 가능한 수준으로 올라온다면, 하나의 언어로 멀티플랫폼 빌드가 지금보다 더 깔끔하게 되는것이랑 기존에 자바스크립트로 하던 멀티 플랫폼 빌드로 인한 성능상 병목도 많이 사라질것 같구요
다만 호환성이나, 멀티 플랫폼에서 동일한 결과 보장을 하기에는 엄청 어려울거란 생각이 들고, 저의 미천한 안목으로는 유지보수가 아무리 대 AI시대더라도 쉽지 않을거란 생각이 들어서 제작자가 엄청 죽어날 것 같다는것 제외하면 정말 기대 되네요
▲ heycalmdown 2일전 [-] 흥미롭네요. 답변달기
발행일: 2026-06-11 21:27 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
케임브릿지 대학교의 연구진들은 네트워크 전반에 걸쳐 적응하는 AI 웜을 구축하였습니다. (helpnetsecurity.com)
토론토대 연구진 등이 고정된 취약점 목록 대신 오픈웨이트 소형 언어모델(LLM)을 활용해 스스로 타깃을 분석하고 공격 전략을 수립해 기업 네트워크를 전파하는 자율형 AI 웜(Worm)의 개념 증명에 성공했습니다. 전문 번역 토론토 대학교, 벡터 연구소, 케임브리지 대학교의 연구진이 고정된 익스플로잇(취약점 공격) 목록에 의존하지 않고 작동하는 자율형 AI 기반 웜의 개념 증명(PoC) 모델을 개발하고 테스트했습니다. 이 웜은 조우하는 각 타깃을 스스로 분석하고, 어떻게 공격할지 추론하며, 즉석에서 전략을 수립합니다. 이 모든 과정은 이미 감염시킨 기기에서 직접 구동되는 무료 소형 오픈웨이트 언어모델(LLM)의 도움을 받아 이루어집니다. 감염된 하드웨어에서 호스팅되는 오픈웨이트 모델 기반의 웜 연구진은 "우리의 프로토타입은 공개되었으나 패치되지 않은 취약점, 잘못된 설정, 그리고 반복되는 취약점 클래스를 타깃으로 삼으며, 이는 실제 사이버 공격의 대부분이 의존하는 요소"라고 설명했습니다. 또한 "이 웜은 새로운 제로데이 취약점을 발견하는 능력을 필요로 하지 않으며, 다양한 타깃 구성에 맞춰 기만된 기존 취약점을 실전에서 활용할 수 있을 만큼의 지능을 가진 AI 모델만 있으면 된다"고 덧붙였습니다. 알려진 취약점, 설정 오류, 흔한 약점을 가진 Linux 서버, Windows 기기, IoT 장치로 구성된 33개의 호스트가 포함된 격리된 테스트 네트워크 환경에서 연구진은 15회의 독립적인 실험을 진행했으며, 각 실험은 7일 동안 실행되었습니다. 실험 결과, 이 웜은 평균적으로 31.3개의 취약점을 정확히 식별했고 {b:31.3}, 23.1개의 호스트를 공격해 권한을 상승시켰으며 {b:23.1}, 20.4개의 호스트로 전파되는 데 성공했습니다 {b:20.4}. (전체 33개 호스트 중 감염 및 전파 비율은 약 62%에 달합니다 {p:62} .) 이 웜은 기반 모델의 데이터 학습 기준 시점(Cutoff) 이후에 공개된 취약점(Copy Fail, Dirty Frag, Marimo RCE 등)도 런타임에 공개 보안 권고문을 읽고 정보를 파악해 작동 가능한 익스플로잇을 제작함으로써 공격에 성공하는 능력을 보여주었습니다. 나아가 예기치 못한 실패가 발생했을 때 일반적인 추론 능력을 사용해 진단하고 해결책을 찾아냈습니다. 예컨대, 자신의 소스 코드에 하드코딩된 IP 차단 목록을 스스로 발견하고 아무런 지시 없이 이를 수정하기도 했습니다. 다른 사례에서는 가상머신(VM) 탐지 체크 버그로 인해 Alpine Linux와 Windows Server 2008 호스트에서 복제본이 충돌하자, 부모 웜이 타깃 기기에서 인증 소스 파일을 찾아내 문제가 되는 체크 로직을 제거한 뒤 성공적으로 재시도했습니다. 상용 AI 플랫폼에 의존하지 않는 프로토타입 웜 이 프로토타입이 특히 우려스러운 점은 스스로를 유지하는 방식에 있습니다. 웜은 감염시킨 기기 중 GPU가 탑재된 장치를 하이재킹하여 훔친 연산 자원으로 언어모델을 로컬에서 실행합니다. 모델을 직접 호스팅할 수 없는 IoT 센서와 같은 저사양 기기는 추론 쿼리를 네트워크 상류에 있는 감염된 GPU 노드로 라우팅해 처리합니다. 따라서 상용 AI 플랫폼이 구축해 둔 통제 조치로는 이러한 새로운 유형의 위협을 막을 수 없으며, 공격자가 로컬 실행 환경을 완전히 통제할 때 오픈웨이트 모델의 안전 가드레일이 쉽게 우회될 수 있음을 보여줍니다. 연구진은 "우리가 평가한 개념 증명 모델은 기반 모델의 능력적 한계를 그대로 물려받았습니다. 개별 익스플로잇 시도의 성공률은 44%였으며 {p:44} , 실패 원인의 대부분은 잘못된 공격 전략이라기보다는 결함이 있는 페이로드(데이터) 형태 때문이었습니다"라고 밝혔습니다. 이어서 "웜은 특히 웹 애플리케이션 구조, Windows 명령 환경, 그리고 정밀한 문자열 조작이 필요한 페이로드 구문 처리에서 어려움을 겪었습니다. 이는 현재 세대의 단일 GPU 모델이 가진 코드 생성의 한계를 반영하는 것일 뿐, 이 접근법 자체의 근본적인 제약은 아니며 향후 언어모델의 코드 생성 및 구조화된 출력 능력이 향상됨에 따라 극복될 것입니다. 이러한 개별 시도의 취약함에도 불구하고, 웜의 군집(Swarm) 아키텍처는 병렬적이고 독립적인 추론 경로를 통해 이를 보완하며 보고된 결과를 달성했습니다"라고 설명했습니다. 현재로서 AI 기반 웜에 대응하는 최선의 방어책 연구진은 이 연구가 가진 이중 용도(Dual-use, 선용과 악용 가능성) 특성을 솔직하게 인정하며, 에이전트의 추론 아키텍처, 전체 도구 모음, 사용된 LLM의 명칭을 포함한 구체적인 운영 세부 사항을 공개 논문에서 제외했습니다. 출판 전 이들은 캐나다의 여러 과학, 보안 및 국방 당국에 발견 사실을 공유했으며, 논문에 공격자에게 도움이 될 수 있는 정보가 포함되지 않도록 검토 지원을 받았습니다. (보안 연구자는 토론토 대학교에 프로토타입 접근 권한을 요청할 수 있습니다.) 또한 혁신적인 자가 복제 기능 때문에 연구진은 웜이 외부로 유출되지 않도록 테스트 실험실 내에 철저히 격리하는 데 각별한 주의를 기울였습니다. 연구진은 "이번 연구는 자율적인 사이버 공격이 이론적 위험에서 입증된 실존 능력으로 넘어왔다는 실증적 증거를 제공하며, 이는 AI 연구, 사이버 보안, 공공 정책 전반에 걸친 과제"라고 지적했습니다. 더불어 "이 연구는 세계가 아직 맞설 준비가 되지 않은 새로운 사이버 보안 위협을 드러냈습니다. 연구자, 업계, 정책 입안자 및 일반 대중이 이 새로운 위협을 해결하기 위해 시급히 힘을 모아야 합니다"라고 강조했습니다. 방어적 측면에서 이 연구는 두 가지 우선순위를 제시합니다: AI 지원 자동화 모의 침투 및 퍼징 도구 활용 : 조직은 적대적 세력이 취약점을 찾기 전에 자체 인프라의 악용 가능한 약점을 발견하고 패치해야 합니다. 철저한 네트워크 분할 : 적절한 네트워크 분할은 웜의 확산을 실질적으로 억제할 수 있습니다. 경계 내부의 그 어떤 것도 신뢰하지 않고 모든 접근 요청에 대해 지속적인 인증을 요구하는 '제로 트러스트(Zero-trust)' 원칙과, 침투 성공 시 피해가 확산되는 범위를 제한하는 '마이크로 세그멘테이션(Micro-segmentation)'이 필수적입니다. 연구진은 이 프로토타입 웜의 행동 시그니처는 현재의 네트워크 모니터링 및 침입 탐지 시스템(IDS)으로 포착할 수 있지만, 향후 악의적인 행위자가 만들 미래의 웜은 이러한 탐지를 우회하는 데 훨씬 더 능숙할 수 있다고 경고했습니다.
토론토대 연구진 등이 고정된 취약점 목록 대신 오픈웨이트 소형 언어모델(LLM)을 활용해 스스로 타깃을 분석하고 공격 전략을 수립해 기업 네트워크를 전파하는 자율형 AI 웜(Worm)의 개념 증명에 성공했습니다.
토론토 대학교, 벡터 연구소, 케임브리지 대학교의 연구진이 고정된 익스플로잇(취약점 공격) 목록에 의존하지 않고 작동하는 자율형 AI 기반 웜의 개념 증명(PoC) 모델을 개발하고 테스트했습니다. 이 웜은 조우하는 각 타깃을 스스로 분석하고, 어떻게 공격할지 추론하며, 즉석에서 전략을 수립합니다. 이 모든 과정은 이미 감염시킨 기기에서 직접 구동되는 무료 소형 오픈웨이트 언어모델(LLM)의 도움을 받아 이루어집니다.
연구진은 "우리의 프로토타입은 공개되었으나 패치되지 않은 취약점, 잘못된 설정, 그리고 반복되는 취약점 클래스를 타깃으로 삼으며, 이는 실제 사이버 공격의 대부분이 의존하는 요소"라고 설명했습니다. 또한 "이 웜은 새로운 제로데이 취약점을 발견하는 능력을 필요로 하지 않으며, 다양한 타깃 구성에 맞춰 기만된 기존 취약점을 실전에서 활용할 수 있을 만큼의 지능을 가진 AI 모델만 있으면 된다"고 덧붙였습니다.
알려진 취약점, 설정 오류, 흔한 약점을 가진 Linux 서버, Windows 기기, IoT 장치로 구성된 33개의 호스트가 포함된 격리된 테스트 네트워크 환경에서 연구진은 15회의 독립적인 실험을 진행했으며, 각 실험은 7일 동안 실행되었습니다.
실험 결과, 이 웜은 평균적으로 31.3개의 취약점을 정확히 식별했고 {b:31.3}, 23.1개의 호스트를 공격해 권한을 상승시켰으며 {b:23.1}, 20.4개의 호스트로 전파되는 데 성공했습니다 {b:20.4}. (전체 33개 호스트 중 감염 및 전파 비율은 약 62%에 달합니다 {p:62} .)
이 웜은 기반 모델의 데이터 학습 기준 시점(Cutoff) 이후에 공개된 취약점(Copy Fail, Dirty Frag, Marimo RCE 등)도 런타임에 공개 보안 권고문을 읽고 정보를 파악해 작동 가능한 익스플로잇을 제작함으로써 공격에 성공하는 능력을 보여주었습니다.
나아가 예기치 못한 실패가 발생했을 때 일반적인 추론 능력을 사용해 진단하고 해결책을 찾아냈습니다. 예컨대, 자신의 소스 코드에 하드코딩된 IP 차단 목록을 스스로 발견하고 아무런 지시 없이 이를 수정하기도 했습니다. 다른 사례에서는 가상머신(VM) 탐지 체크 버그로 인해 Alpine Linux와 Windows Server 2008 호스트에서 복제본이 충돌하자, 부모 웜이 타깃 기기에서 인증 소스 파일을 찾아내 문제가 되는 체크 로직을 제거한 뒤 성공적으로 재시도했습니다.
이 프로토타입이 특히 우려스러운 점은 스스로를 유지하는 방식에 있습니다. 웜은 감염시킨 기기 중 GPU가 탑재된 장치를 하이재킹하여 훔친 연산 자원으로 언어모델을 로컬에서 실행합니다. 모델을 직접 호스팅할 수 없는 IoT 센서와 같은 저사양 기기는 추론 쿼리를 네트워크 상류에 있는 감염된 GPU 노드로 라우팅해 처리합니다.
따라서 상용 AI 플랫폼이 구축해 둔 통제 조치로는 이러한 새로운 유형의 위협을 막을 수 없으며, 공격자가 로컬 실행 환경을 완전히 통제할 때 오픈웨이트 모델의 안전 가드레일이 쉽게 우회될 수 있음을 보여줍니다.
연구진은 "우리가 평가한 개념 증명 모델은 기반 모델의 능력적 한계를 그대로 물려받았습니다. 개별 익스플로잇 시도의 성공률은 44%였으며 {p:44} , 실패 원인의 대부분은 잘못된 공격 전략이라기보다는 결함이 있는 페이로드(데이터) 형태 때문이었습니다"라고 밝혔습니다. 이어서 "웜은 특히 웹 애플리케이션 구조, Windows 명령 환경, 그리고 정밀한 문자열 조작이 필요한 페이로드 구문 처리에서 어려움을 겪었습니다. 이는 현재 세대의 단일 GPU 모델이 가진 코드 생성의 한계를 반영하는 것일 뿐, 이 접근법 자체의 근본적인 제약은 아니며 향후 언어모델의 코드 생성 및 구조화된 출력 능력이 향상됨에 따라 극복될 것입니다. 이러한 개별 시도의 취약함에도 불구하고, 웜의 군집(Swarm) 아키텍처는 병렬적이고 독립적인 추론 경로를 통해 이를 보완하며 보고된 결과를 달성했습니다"라고 설명했습니다.
연구진은 이 연구가 가진 이중 용도(Dual-use, 선용과 악용 가능성) 특성을 솔직하게 인정하며, 에이전트의 추론 아키텍처, 전체 도구 모음, 사용된 LLM의 명칭을 포함한 구체적인 운영 세부 사항을 공개 논문에서 제외했습니다. 출판 전 이들은 캐나다의 여러 과학, 보안 및 국방 당국에 발견 사실을 공유했으며, 논문에 공격자에게 도움이 될 수 있는 정보가 포함되지 않도록 검토 지원을 받았습니다. (보안 연구자는 토론토 대학교에 프로토타입 접근 권한을 요청할 수 있습니다.)
또한 혁신적인 자가 복제 기능 때문에 연구진은 웜이 외부로 유출되지 않도록 테스트 실험실 내에 철저히 격리하는 데 각별한 주의를 기울였습니다.
연구진은 "이번 연구는 자율적인 사이버 공격이 이론적 위험에서 입증된 실존 능력으로 넘어왔다는 실증적 증거를 제공하며, 이는 AI 연구, 사이버 보안, 공공 정책 전반에 걸친 과제"라고 지적했습니다. 더불어 "이 연구는 세계가 아직 맞설 준비가 되지 않은 새로운 사이버 보안 위협을 드러냈습니다. 연구자, 업계, 정책 입안자 및 일반 대중이 이 새로운 위협을 해결하기 위해 시급히 힘을 모아야 합니다"라고 강조했습니다.
방어적 측면에서 이 연구는 두 가지 우선순위를 제시합니다:
연구진은 이 프로토타입 웜의 행동 시그니처는 현재의 네트워크 모니터링 및 침입 탐지 시스템(IDS)으로 포착할 수 있지만, 향후 악의적인 행위자가 만들 미래의 웜은 이러한 탐지를 우회하는 데 훨씬 더 능숙할 수 있다고 경고했습니다.
함께 보면 좋은 글 β LLM 기반 해킹용 익스플로잇 생성의 산업화가 다가온다 AI가 두 취약점 문화를 깨뜨리고 있다 Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 Codex가 삼성 TV를 해킹함
LLM 기반 해킹용 익스플로잇 생성의 산업화가 다가온다
Shai-Hulud 테마 악성코드가 PyTorch Lightning AI 학습 라이브러리에서 발견됨
취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음 (discuss.pytorch.kr)
PyTorchKR🔥🇰🇷 🤔💭 이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다. :one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다. :two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다. :three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다. 논문별 핵심 요약 Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다. Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다. Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다. Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다. Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다. Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다. MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다. Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다. Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다. FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다. Harness-1: 상태 외부화 하니스가 적용된 검색 에이전트를 위한 강화학습 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses 논문 소개 검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다. 이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다. 반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다. 초록(Abstract) 검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다. 이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다. 상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다. 웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1 Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 . 논문 링크 https://arxiv.org/abs/2606.02373 더 읽어보기 https://github.com/pat-jj/harness-1 https://huggingface.co/pat-jj/harness-1 어텐션은 잊어라: 중요도 인지 어텐션만 있으면 된다 / Forget Attention: Importance-Aware Attention Is All You Need 논문 소개 트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다. 특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다. 더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다. 초록(Abstract) 어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다. Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field. 논문 링크 https://arxiv.org/abs/2606.02332 트랜스포머는 세 개의 프로젝션이 필요한가? QKV 변형의 체계적 연구 / Do Transformers Need Three Projections? Systematic Study of QKV Variants 논문 소개 트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다. 실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다. 더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다. 종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다. 초록(Abstract) 트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다. Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 논문 링크 https://arxiv.org/abs/2606.04032 더 읽어보기 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에이전틱 워크플로를 LLM 가중치에 컴파일하기: 100배 적은 비용으로 프런티어급에 가까운 품질 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost 논문 소개 최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다. 핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다. 실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다. 초록(Abstract) 에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다. Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs). 논문 링크 https://arxiv.org/abs/2605.22502 더 읽어보기 https://discuss.pytorch.kr/t/llm-subterranean-agent/10501 장기 범위 과제를 위한 에이전트 호환 컨텍스트 관리 학습 / Learning Agent-Compatible Context Management for Long-Horizon Tasks 논문 소개 대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다. AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다. 실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다. 초록(Abstract) 대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다. 우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다. LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems. 논문 링크 https://arxiv.org/abs/2605.30785 잠재 에이전트: 내재화된 멀티에이전트 토론을 위한 사후학습 절차 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate 논문 소개 대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다. 이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다. 이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다. 초록(Abstract) 멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents 논문 링크 https://arxiv.org/abs/2604.24881 더 읽어보기 https://github.com/johnsk95/latent_agents MOSS: 자율 에이전트 시스템에서 소스 수준 재작성을 통한 자기 진화 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems 논문 소개 배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다. MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다. 이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다. 실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다. 초록(Abstract) 배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다. Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention. 논문 링크 https://arxiv.org/abs/2605.22794 더 읽어보기 https://github.com/dav-joy-thon/MOSS 비협력 게임을 통한 언어 모델의 안전성 정렬 / Safety Alignment of LMs via Non-cooperative Games 논문 소개 언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다. 이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다. 또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다. 초록(Abstract) 언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다. Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame. 논문 링크 https://arxiv.org/abs/2512.20806 더 읽어보기 https://github.com/facebookresearch/advgame 계획, 관찰, 복구: 능동적 절차 지원을 위한 벤치마크와 아키텍처 / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance 논문 소개 실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다. 이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다. 모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다. 또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다. 초록(Abstract) 번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다. We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery. 논문 링크 https://arxiv.org/abs/2606.04970 더 읽어보기 https://huggingface.co/datasets/facebook/wearable-ai FuzzingBrain V2: 자동화된 취약점 발견 및 재현을 위한 멀티에이전트 LLM 시스템 / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction 논문 소개 소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다. 초록(Abstract) 소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다. Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs. 논문 링크 https://arxiv.org/abs/2605.21779 ⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM) 기반 에이전트의 상태 관리, 추론 효율화, 그리고 실제 환경에서의 안전성과 검증 가능성을 중심으로 빠르게 수렴하고 있습니다. 특히, 에이전트의 효율성을 극대화하는 구조적 변화부터 트랜스포머 아키텍처의 근본적인 재설계, 그리고 현실 세계의 동적 환경에 적응하는 강건성 확보까지 흥미로운 연구 흐름을 확인할 수 있었습니다.
:one: 에이전트 워크플로의 혁신: 상태의 외부화와 추론 논리의 내재화(Internalization) 이번 주 논문들에서는 에이전트가 복잡하고 긴 작업을 수행할 때 발생하는 비용과 컨텍스트 병목을 해결하기 위한 두 가지 상반되면서도 상호 보완적인 접근이 두드러졌습니다. Harness-1 과 AdaCoM 은 에이전트가 기억해야 할 상태나 컨텍스트 관리 부담을 외부 환경이나 별도의 관리 모델로 덜어내어 긴 호흡의 작업 안정성을 높였습니다. 반면, Latent Agents 와 에이전틱 워크플로 내재화(Subterranean Agents) 연구 는 외부 오케스트레이터나 다중 에이전트 간의 복잡한 통신 과정을 아예 단일 모델의 가중치(Weights) 내부로 컴파일하는 사후학습을 제안했습니다. 이를 통해 모델은 프롬프트나 외부 조율에 의존하지 않고도 스스로 토론하거나 절차적 추론을 수행할 수 있게 되어, 프런티어 모델급 성능을 유지하면서도 추론 비용과 토큰 사용량을 혁신적으로 절감하는 방향을 제시하고 있습니다.
:two: 기초 아키텍처의 재설계: 어텐션 메커니즘의 융합과 파라미터 최적화 트랜스포머의 근본적인 연산 비효율성을 극복하고 메모리 사용량을 줄이려는 기초 연구도 강력한 트렌드입니다. SISA(Forget Attention) 논문은 상태 공간 모델(SSM)의 순차적 중요도 신호를 어텐션 점수 계산에 직접 주입하는 '점수 수준 융합'을 통해, 전역 검색 능력과 순차적 우선순위 판단을 동시에 달성했습니다. 또한 QKV 변형 연구(Do Transformers Need Three Projections?)는 쿼리, 키, 밸류를 모두 분리하는 기존의 당연한 표준에 의문을 제기하며, 키와 밸류를 공유하는 투영 방식(Q-K=V)이 성능 저하를 최소화하면서도 KV 캐시를 대폭 줄일 수 있음을 실증적으로 증명했습니다. 이러한 아키텍처 수준의 구조적 개선은 단순한 성능 향상을 넘어, 제한된 메모리를 가진 엣지 디바이스나 온디바이스 AI 환경에서의 실용적인 배포 가능성을 크게 열어주고 있습니다.
:three: 동적 환경에서의 실시간 적응 및 시스템 수준의 강건성 확보 단순히 정답을 생성하는 것을 넘어, 변화하는 상황과 위협에 능동적으로 대처하고 시스템 자체를 진화시키는 연구들이 눈길을 끕니다. MOSS 는 프롬프트 수정에 그치던 기존의 자기 진화를 소스 코드 수준의 재작성으로 확장하여 에이전트 시스템의 구조적 결함을 스스로 치유하게 만들었고, FuzzingBrain V2 는 멀티에이전트를 활용해 100% 재현 가능한 방식으로 실제 소프트웨어 취약점을 탐지하고 수정했습니다. 또한, AdvGame 은 언어 모델의 안전성 정렬을 공격자와 방어자 간의 실시간 비영합 게임으로 풀어내어 동적 방어력을 높였으며, Plan, Watch, Recover 연구는 사용자가 정해진 절차를 벗어났을 때 실시간으로 개입하고 코칭하는 능동형 어시스턴트 모델을 제시했습니다. 이는 AI가 통제된 실험실을 벗어나 예측 불가능한 현실 세계의 오류와 보안 위협 속에서도 신뢰할 수 있는 능동적 시스템으로 자리 잡고 있음을 보여줍니다.
Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses : 검색 에이전트의 기억 부담을 정책이 아닌 하네스가 맡도록 분리한 강화학습 기반 검색 에이전트입니다. 8개 벤치마크에서 평균 curated recall 0.730을 기록하며, 특히 전이 성능이 강했습니다.
Forget Attention: Importance-Aware Attention Is All You Need : 상태 공간 모델(SSM)의 중요도 신호를 어텐션 점수에 직접 주입하는 SISA를 제안합니다. 단일 SDPA 호출로 구현 가능하면서도 검색 성능과 장거리 의존성 복원이 크게 개선됩니다.
Do Transformers Need Three Projections? Systematic Study of QKV Variants : QKV 투영을 얼마나 공유해도 되는지 체계적으로 분석한 연구입니다. Q-K=V는 성능을 거의 유지하면서 KV 캐시를 크게 줄였고, GQA/MQA와 결합 시 메모리 절감 효과가 더 커졌습니다.
Compiling Agentic Workflows into LLM Weights : 외부 오케스트레이션 대신 작업 절차 자체를 모델 가중치에 컴파일하는 접근을 다룹니다. 반복 호출과 긴 컨텍스트 소모를 줄이면서도 near-frontier 수준의 품질을 달성합니다.
Learning Agent-Compatible Context Management for Long-Horizon Tasks : 고정된 에이전트를 위해 외부 LLM이 컨텍스트를 동적으로 편집하는 AdaCoM을 제안합니다. 장기 웹 검색과 리서치 과제에서 불필요한 과거 정보를 줄이면서 과업 제약은 보존합니다.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate : 다중 에이전트 토론을 단일 LLM 내부로 증류하는 사후학습 방법입니다. 최대 93% 적은 토큰으로도 explicit debate와 동등하거나 더 나은 성능을 보였습니다.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems : 프롬프트가 아니라 소스 코드 수준에서 자가 진화를 수행하는 에이전트 시스템입니다. 실제 실패 증거를 바탕으로 코드 구조를 재작성하고, 검증 후 롤백 가능한 방식으로 배포합니다.
Safety Alignment of LMs via Non-cooperative Games : 안전성 정렬을 공격자 LM과 방어자 LM이 상호 적응하는 비영합 게임으로 재정의합니다. 선호 기반 강화학습을 통해 안전성과 유용성의 Pareto frontier를 동시에 밀어냅니다.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance : 사용자가 절차를 벗어났을 때 언제 개입하고 어떻게 복귀시킬지를 학습하는 선제적 멀티모달 보조 시스템입니다. EgoProactive와 Pro²Bench를 통해 실제 복귀 코칭 성능을 평가합니다.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction : 멀티에이전트 LLM으로 취약점 발견과 재현을 자동화한 보안 시스템입니다. OSS-Fuzz 기반 검증, 정밀한 취약점 위치화, 계층적 퍼징을 결합해 높은 탐지율과 실제 취약점 발견 성과를 냈습니다.
검색 에이전트는 종종 성장하는 트랜스크립트 위의 정책으로 학습되는데, 모델은 검색 방법을 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 합니다. 저자들은 이런 설정이 정책(policy) 내부에 너무 많은 상태 관리 부담을 지우며, 강화학습이 의미 있는 검색 의사결정과 환경이 더 안정적으로 처리할 수 있는 복구 가능한 기록 관리를 동시에 최적화하게 만든다고 봅니다.
이를 해결하기 위해 상태 외부화 하네스(state-externalizing harness) 안에서 강화학습으로 학습한 20B 검색 에이전트 Harness-1을 제안합니다. 이 하네스는 후보 풀, 중요도 태그가 붙은 정제 집합, 압축된 증거 링크, 검증 기록, 압축·중복 제거된 관찰, 예산을 고려한 컨텍스트 렌더링 등 환경 측 작업 기억을 관리합니다.
반면 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 언제 종료할지를 포함한 의미적 결정을 맡습니다. 웹, 금융, 특허, 다중 홉 질의응답을 포함한 8개 검색 벤치마크에서 Harness-1은 평균 curated recall 0.730을 달성해, 다음으로 강한 오픈 소스 검색 서브에이전트보다 11.4포인트 높았습니다. 특히 학습 도메인을 벗어난 전이 벤치마크에서 성능 향상이 두드러져, 명시적 검색 상태에 대한 강화학습이 더 잘 일반화되는 검색 행동을 만들 수 있음을 시사합니다.
검색 에이전트는 종종 증가하는 트랜스크립트 위에서 정책으로 학습된다. 즉, 모델은 무엇을 검색할지 결정하는 동시에 자신이 본 내용, 어떤 증거가 유용한지, 어떤 제약이 아직 열려 있는지, 그리고 어떤 주장들이 실제로 검증되었는지를 기억해야 한다.
이러한 정식화가 정책 안에 너무 많은 일상적인 상태 관리를 집어넣는다고 주장한다. 즉, 강화학습(RL)이 의미론적 검색 결정과 함께, 환경이 더 안정적으로 유지할 수 있는 복구 가능한 기록 관리까지 함께 최적화하도록 강제된다는 것이다.
상태를 가지는 검색 허니스(stateful search harness) 안에서 강화학습으로 학습된 20B 검색 에이전트(검색 서브에이전트) Harness-1을 소개한다. 이 허니스는 후보 풀, 중요도 태그가 붙은 선별 집합, 간결한 증거 링크, 검증 기록, 압축 및 중복 제거된 관찰, 그리고 예산 인지형 컨텍스트 렌더링을 포함한 환경 측 작업 메모리를 유지한다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 폐기할지, 무엇을 검증할지, 그리고 언제 중단할지와 같은 의미론적 결정을 유지한다.
웹, 금융, 특허, 멀티홉 QA를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 선별 리콜(curated recall)을 달성했으며, 차점 오픈 검색 서브에이전트보다 +11.4포인트 앞서고, 훨씬 더 큰 프런티어 모델 검색기와도 경쟁 가능한 성능을 보였다. 특히 보지 못한 전이 벤치마크에서 그 향상이 두드러졌는데, 이는 명시적인 검색 상태 위에서의 강화학습이 학습 도메인을 넘어 일반화되는 검색 행동을 만들어낼 수 있음을 시사한다. 코드: https://github.com/pat-jj/harness-1
Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1 .
https://arxiv.org/abs/2606.02373
https://github.com/pat-jj/harness-1
https://huggingface.co/pat-jj/harness-1
트랜스포머(Transformer)와 상태 공간 모델(State Space Model, SSM)을 결합한 하이브리드 언어 모델링에서는 전역적으로 정보를 탐색하는 능력과 시퀀스상에서 무엇이 중요한지를 판별하는 능력을 어떻게 함께 살릴 것인가가 핵심 과제로 제시됩니다. 기존의 트랜스포머는 어디든 볼 수 있지만 우선순위를 정하는 데 한계가 있고, SSM은 중요한 신호를 누적할 수 있지만 지나간 정보를 다시 정교하게 참조하기 어렵다는 점에서 서로 보완적입니다. 그러나 기존의 하이브리드 방식은 주로 블록 단위나 헤드 단위에서 두 메커니즘을 병렬적으로 배치하는 데 그쳐, 정작 어텐션 점수를 계산하는 순간에는 SSM의 중요도 신호가 직접 반영되지 못했습니다. 이러한 문제의식 위에서 저자들은 SSM-Informed Softmax Attention(SISA)을 제안하며, SSM이 제공하는 순차적 중요도 신호를 어텐션 출력이 아니라 점수 자체에 주입하는 새로운 결합 방식을 설계합니다. 핵심 아이디어는 내용 유사도를 나타내는 표준 내적 항에 더해, SSM에서 유도한 중요도 벡터의 내적 항을 함께 더함으로써 토큰 간 관계를 단순한 콘텐츠 일치가 아니라 “무엇이 지금 중요한가”까지 반영하는 형태로 확장하는 데 있습니다.
특히 이 방법의 중요한 점은 추가적인 재귀 상태나 맞춤형 커널(custom kernel) 없이도, 확장된 query와 key를 구성해 단일 Scaled Dot-Product Attention(SDPA) 호출만으로 구현할 수 있다는 사실입니다. 다시 말해, SISA는 수학적으로는 SSM의 순차적 정보를 활용하지만 구현 관점에서는 표준 트랜스포머 연산 흐름과 잘 맞물리도록 설계되어 있어, FlashAttention 계열 최적화와의 호환성도 유지합니다. 또한 SSM 채널은 입력으로부터 decay와 rotation 성분을 계산해 중요도 신호를 구성하며, 이 신호가 어텐션의 score level에서 작동하도록 만들어 retrieval 성능을 직접적으로 끌어올립니다. 실험 결과에서도 이러한 설계의 효과가 분명하게 나타나는데, 152M 규모와 5B 토큰 조건에서 SISA는 LAMBADA-greedy에서 17.3%를 기록해 표준 트랜스포머와 Mamba-3를 앞섰고, NIAH(Needle-in-a-Haystack)에서는 학습 1K step 시점부터 100%를 달성해 매우 빠른 검색 수렴을 보였습니다.
더 나아가 SISA는 369M 규모에서도 완전히 우세한 지표만 보이는 것은 아니지만, 적어도 중요한 검색 과제에서 안정적으로 강한 성능을 유지하면서도 stock SDPA 실행성을 잃지 않는다는 점에서 실용적 의미가 큽니다. 저자들은 이를 통해 블록 수준과 헤드 수준을 넘어서는 세 번째 설계 축, 즉 score-level fusion이 하이브리드 언어 모델의 유효한 대안임을 제시합니다. 결국 이 논문의 기여는 단순히 두 모델 계열을 섞는 데 있지 않고, SSM이 제공하는 중요도 신호를 어텐션 점수 형성의 중심으로 끌어와 전역 검색과 순차적 우선순위 판단을 하나의 연산 안에서 통합했다는 점에 있습니다. 이러한 접근은 장거리 의존성 복원과 핵심 정보 추적이 중요한 언어 모델링 과제에서, 하이브리드 구조가 어떤 방식으로 더 정교하게 진화할 수 있는지를 보여 주는 중요한 사례로 볼 수 있습니다.
어텐션의 전역 검색 능력과 상태 공간 모델(SSM)의 순차적 중요도 신호를 결합하는 것은 하이브리드 언어 모델링의 미해결 과제입니다. 트랜스포머는 모든 것을 볼 수 있지만 우선순위를 정하지 못하고, SSM은 무엇이 중요한지는 알지만 다시 살펴볼 수는 없습니다. 기존 하이브리드인 Jamba(블록 수준)와 Hymba(헤드 수준)는 두 메커니즘을 서로 분리된 영역에 배치하므로, 어텐션 계산 자체에서는 어느 쪽도 다른 쪽에 정보를 제공하지 못합니다. 우리는 SISA(SSM-Informed Softmax Attention)를 제안합니다. 이는 SSM에서 유도한 중요도 항을 어텐션 점수 내부에 직접 추가하고, 확장된 쿼리/키 벡터에 대한 단일 SDPA 호출로 전체 연산을 구현합니다. 재귀 상태도, 맞춤형 커널도 필요하지 않습니다. 152M / 50억 토큰에서 SISA는 LAMBADA-greedy 17.3%를 달성했으며(트랜스포머 13.9, Mamba-3 15.5 대비), 1K 스텝부터 NIAH 100%를 기록했고, 트랜스포머의 검색 수렴보다 7배 더 빠릅니다. 369M에서는 Mamba-3가 LAMBADA에서 앞서지만, SISA는 완벽한 NIAH와 기본 SDPA 실행을 유지합니다. 따라서 SISA는 해당 분야를 지배해 온 블록 수준과 헤드 수준 패러다임을 넘어, SSM-어텐션 하이브리드를 위한 세 번째 설계 축인 점수 수준 융합(score-level fusion)을 제시합니다.
Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.
https://arxiv.org/abs/2606.02332
트랜스포머(Transformer)의 성능을 지탱해 온 핵심 구성요소는 질의(query), 키(key), 값(value)으로 이루어진 QKV(query-key-value) 어텐션이지만, 각 투영이 실제로 얼마나 독립적으로 필요한지에 대해서는 충분히 체계적인 검토가 이루어지지 않았습니다. 이 연구는 바로 그 공백을 겨냥하여, Q-K=V, Q=K-V, Q=K=V의 세 가지 투영 공유 제약을 중심으로 어텐션 내부의 가중치 묶기(weight tying)가 표현력과 추론 효율에 어떤 영향을 주는지 정밀하게 분석합니다. 특히 마지막 두 변형이 어텐션 맵을 대칭적으로 만들기 쉽다는 점에 주목하여, 2차원 위치 인코딩(two-dimensional positional encoding)을 도입해 방향성을 보완하는 설계까지 함께 검토함으로써, 단순한 파라미터 축소가 아니라 표현 공간의 구조 자체를 바꾸는 문제로 논의를 확장합니다. 이러한 접근은 투영 공유가 성능 저하를 유발하는지 여부를 묻는 데서 멈추지 않고, 어떤 조건에서 품질이 유지되고 어떤 조건에서 어텐션의 방향성과 선택성이 훼손되는지를 분리해 설명한다는 점에서 의미가 큽니다.
실험은 합성 과제, 비전, 언어 모델링이라는 서로 다른 영역을 포괄하도록 구성되어 있으며, 이를 통해 투영 공유의 효과가 특정 데이터 도메인에 국한된 현상이 아님을 검증합니다. 합성 과제에서는 순서 반전, 정렬, 치환, 교환, 복사와 같은 조작 문제를 이용해 모델이 구조적 관계를 얼마나 잘 학습하는지 살펴보고, 비전 실험에서는 MNIST, CIFAR, TinyImageNet, 이상 탐지(anomaly detection)를 통해 공간적 위치 정보가 중요한 환경에서의 일반화 성능을 평가합니다. 언어 모델링에서는 3억(300M) 및 12억(1.2B) 파라미터 규모의 모델을 100억(10B) 토큰으로 학습하여, 대규모 설정에서도 동일한 경향이 유지되는지를 확인합니다. 그 결과 Q-K=V 방식은 기본 QKV 트랜스포머와 대체로 동등하거나 때로는 더 나은 성능을 보였고, 언어 모델링에서는 키-밸류(key-value, KV) 캐시를 50% 줄이면서도 혼란도(perplexity) 악화는 3.1%에 그쳤습니다.
더 중요한 점은 이 절감 효과가 그룹화 질의 어텐션(grouped query attention, GQA)이나 다중 질의 어텐션(multi-query attention, MQA)과 상호 보완적으로 결합된다는 사실입니다. Q-K=V를 GQA-4와 함께 사용하면 KV 캐시를 87.5%까지 줄일 수 있고, MQA와 결합하면 96.9%까지 줄어들어 온디바이스 추론(on-device inference)에 실질적인 이점을 제공합니다. 저자들은 이러한 결과를 통해 키와 값이 실제로는 비슷한 표현 공간을 공유할 수 있고, 어텐션이 저랭크(low-rank) 구조에서 작동하므로 완전한 QKV 분리가 반드시 필요한 것은 아니라는 점을 제시합니다. 반대로 Q=K-V는 질의와 키를 과도하게 묶어 어텐션의 방향성을 약화시키기 때문에, 성능과 안정성 면에서 더 불리한 것으로 나타납니다.
종합하면, 이 연구는 트랜스포머의 QKV 구조를 당연한 표준이 아니라 재검토 가능한 설계 공간으로 바라보게 만들며, 어떤 투영을 공유하고 어떤 역할을 분리해야 하는지에 대한 실증적 기준을 제시합니다. 특히 성능을 거의 유지하면서 메모리 사용량을 크게 낮출 수 있다는 점에서, 이 결과는 엣지 디바이스(edge device)와 같은 제약된 환경에서의 효율적 배포를 위한 중요한 설계 지침으로 읽힙니다.
트랜스포머는 다양한 AI 작업의 표준 해법이 되었으며, 쿼리(query), 키(key), 밸류(value)(QKV) 어텐션 공식이 중심적인 역할을 합니다. 그러나 이 세 투영의 개별 기여와 일부를 생략했을 때의 영향은 아직 충분히 이해되지 않았습니다. 우리는 세 가지 투영 공유 제약을 체계적으로 평가했습니다. a) Q-K=V(공유 키-밸류), b) Q=K-V(공유 쿼리-키), c) Q=K=V(단일 투영)입니다. 마지막 두 변형은 대칭적인 어텐션 맵을 생성하므로, 이를 해결하기 위해 2차원 위치 인코딩을 통한 비대칭 어텐션도 함께 탐구했습니다. 합성 과제, 비전(MNIST, CIFAR, TinyImageNet, 이상 탐지), 그리고 언어 모델링(10B 토큰에서 3억 및 12억 파라미터 모델)에 걸친 실험을 통해, 우리 트랜스포머가 QKV 트랜스포머와 동등한 성능을 보이거나 때로는 더 나은 성능을 보인다는 사실을 발견했습니다. 언어 모델링에서는 Q-K=V 투영 공유가 퍼플렉서티를 3.1%만 악화시키면서 KV 캐시를 50% 줄였습니다. 결정적으로, 투영 공유는 헤드 공유(GQA/MQA)와 상호 보완적입니다. Q-K=V와 GQA-4를 결합하면 캐시를 87.5% 줄일 수 있고, Q-K=V와 MQA를 결합하면 96.9%까지 줄여 실용적인 온디바이스 추론을 가능하게 합니다. 우리는 Q-K=V가 키와 밸류가 유사한 표현 공간을 점유할 수 있고 어텐션이 저랭크 영역에서 작동하기 때문에 품질을 유지한다는 점을 보였으며, 반면 Q=K-V는 어텐션의 방향성을 깨뜨립니다. 우리의 결과는 어텐션에서 충분히 탐구되지 않은 가중치 타이(weight tying)의 한 사례로서 투영 공유를 체계적으로 규명하며, 특히 엣지 배포에서 유용한 직접적이고 정량화 가능한 추론 메모리 이점을 보여줍니다. 코드는 https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections 에서 공개되어 있습니다.
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
최근 에이전트 오케스트레이션 프레임워크의 확산은 복잡한 업무를 대규모 언어 모델(Large Language Model, LLM) 위에서 외부 조정자로 제어하는 방식이 사실상 표준처럼 받아들여지고 있음을 보여 주지만, 이 논문은 절차적 작업에서는 그러한 구조가 반드시 최선이 아니라고 문제를 제기합니다. 외부 오케스트레이터가 매 턴 지시와 라우팅 결정을 주입하는 방식은 제어와 디버깅이 쉽다는 장점이 있으나, 컨텍스트 윈도우(context window)를 지속적으로 소모하고, 매 대화마다 프런티어 모델(frontier model)을 호출해야 하며, 절차 자체가 제3자 제공업체에 노출될 수 있다는 한계를 지닙니다. 이에 따라 저자들은 작업 절차를 프롬프트에 두는 대신 작은 파인튜닝 모델의 가중치(weights) 안으로 직접 컴파일하여, 런타임에는 별도 오케스트레이션 없이도 절차가 내부화된 에이전트를 만드는 접근을 제안합니다. 이러한 방식은 절차를 외부에서 계속 주입하지 않아도 되므로 비용을 크게 낮추고, 긴 문맥을 차지하지 않으며, 민감한 업무 흐름을 외부 서비스에 드러내지 않는다는 점에서 구조적 이점을 가집니다. 저자들은 이처럼 절차가 모델 내부에 숨어 작동하는 에이전트를 subterranean agent라고 부르며, 기존의 오케스트레이션 중심 설계와 명확히 구분합니다.
핵심 방법론은 단순한 개념 제시가 아니라, 개발자들이 이 접근을 주저하는 세 가지 인식된 장벽을 실제 업무 환경에서 검증하는 데 있습니다. 첫째, 작은 모델이 프런티어 수준의 품질을 낼 수 있는지에 대한 성능 우려를 다루고, 둘째, 제품 특화 지식처럼 자주 바뀌는 정보를 가중치에 담아낼 수 있는지에 대한 지식 내재화 문제를 점검하며, 셋째, 복잡한 분기와 허브가 많은 대형 워크플로에도 이 방식이 확장 가능한지를 검증합니다. 이를 위해 연구진은 여행 예약, Zoom 지원, 보험 청구라는 서로 다른 성격의 세 영역을 선택해, 절차적 깊이와 도메인 지식의 요구 수준이 다른 조건에서 컴파일 방식의 효용을 비교합니다. 여행 예약은 14개 노드로 구성된 표준적인 절차 흐름을 통해 상태 전이와 단계적 의사결정의 안정성을 시험하고, Zoom 지원은 같은 규모의 워크플로라도 제품별 정책과 기능 지식이 함께 필요하다는 점을 강조합니다. 보험 청구는 55개 노드와 6개의 의사결정 허브를 가진 더 복잡한 구조로, 조건 분기와 정책 계산이 동시에 요구되는 실제적 스트레스 테스트 역할을 수행합니다.
실험 결과의 함의는 명확합니다. 절차를 가중치에 내재화한 작은 모델이 near-frontier quality, 즉 프런티어 모델에 근접한 품질을 유지하면서도 비용을 두 자릿수 배수 수준으로 줄일 수 있다는 점이 확인되며, 이는 성능과 효율 사이의 전통적인 균형을 다시 생각하게 만듭니다. 특히 보험 청구 사례에서 보이듯, 모델은 단순히 대답을 생성하는 데 그치지 않고 확인, 분기, 보상 계산, 지급 안내까지 포함한 절차적 추론을 일관되게 수행할 수 있음을 보여 줍니다. 이러한 결과는 반복 가능하고 구조가 비교적 안정적인 업무라면, 매번 외부 조정을 거치는 오케스트레이션보다 절차 자체를 학습한 컴파일 방식이 더 적합할 수 있음을 시사합니다. 동시에 절차 변경 시 재학습이 필요할 수 있고, 프롬프트 기반 방식보다 즉각적인 수정과 해석 가능성에서 불리할 수 있다는 점도 남겨 두지만, 연구의 기여는 에이전트 설계의 선택지를 넓혀 주었다는 데 있습니다. 결국 이 논문은 에이전트 워크플로를 항상 외부에서 조립해야 한다는 통념에 도전하며, 절차를 모델 내부로 옮기는 방식이 실무 수준에서도 충분히 유효한 대안이 될 수 있음을 실증적으로 제시합니다.
에이전트 오케스트레이션 프레임워크는 급속히 확산되어, LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, LlamaIndex를 합쳐 GitHub 스타 수가 29만 개를 넘었습니다. 이들은 모두 동일한 패턴을 따릅니다. 즉, LLM 위에 외부 오케스트레이터를 두고, 매 턴마다 지시사항과 라우팅 결정을 주입하는 방식입니다. 최근 연구는 이러한 아키텍처가 절차적 작업에서는, Frontier 모델의 시스템 프롬프트에 절차를 그대로 제공하는 것만으로도 더 우세하다는 사실을 보여주었습니다 [Dennis et al., 2026a]. 다만 이는 컨텍스트 윈도우를 소모하고, 모든 대화마다 Frontier 모델이 필요하며, 독점 절차가 제3자 제공업체에 노출된다는 대가를 치릅니다. 절차를 작은 파인튜닝 모델의 가중치에 컴파일하여 지하형 에이전트(subterranean agent)를 만드는 방식은 이러한 문제를 모두 해소할 수 있어야 하며, 선행 연구(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)도 이 기법이 효과가 있음을 보여주었습니다. 그럼에도 개발자 채택은 압도적으로 오케스트레이션 쪽에 쏠려 있습니다. 우리는 인식되는 장벽 세 가지를 식별하고, 이를 여행 예약(14개 노드), Zoom 지원(14개 노드, 제품 특화 지식), 보험 청구(55개 노드, 6개 의사결정 허브)라는 세 영역에서 실증적으로 각각 다룹니다.
Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).
대규모 언어 모델(LLM) 기반 에이전트가 웹 검색이나 심층 조사처럼 단계가 길고 중간 판단이 누적되는 장기 과업(long-horizon tasks)을 수행할 때, 가장 큰 장애물 가운데 하나는 대화가 길어질수록 유효한 단서와 불필요한 과거 정보가 뒤섞여 추론이 흔들린다는 점입니다. 기존의 컨텍스트 관리 방법은 에이전트 내부 정책을 함께 학습하거나 요약과 같은 고정 전략에 의존하는 경우가 많았는데, 이러한 방식은 폐쇄형(closed-source) 에이전트에 적용하기 어렵고 에이전트마다 요구되는 관리 방식이 다를 수 있다는 현실을 충분히 반영하지 못합니다. 이를 해결하기 위해 제안된 Adaptive Context Management(AdaCoM)은 고정된 에이전트(frozen agent)는 그대로 유지한 채, 외부의 또 다른 LLM이 컨텍스트를 동적으로 편집하도록 학습하는 접근을 취합니다. 여기서 핵심은 단순히 긴 대화를 압축하는 것이 아니라, 메시지 단위로 삭제, 재작성, 병합을 수행하면서 현재 과업에 필요한 제약조건과 진행 상황은 보존하고 오래된 잡음은 제거하는 유연한 수정 행동을 학습하는 데 있습니다. 이러한 설계는 컨텍스트 관리를 정적인 전처리가 아니라, 에이전트의 성공률을 직접 개선하는 정책 학습 문제로 재정의한다는 점에서 의미가 큽니다.
AdaCoM은 먼저 컨텍스트 관리자를 구조화된 출력 형식에 익숙하게 만드는 지도 미세조정(supervised fine-tuning, SFT)으로 출발한 뒤, 실제 과업 성과를 보상으로 삼아 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)로 정책을 정교화합니다. 이 과정에서 관리자는 현재 컨텍스트를 프롬프트로 변환해 입력받고, 마르코프 의사결정 과정(Markov decision process, MDP) 관점에서 매 단계마다 어떤 메시지를 유지하거나 수정할지를 선택합니다. 또한 최종 정답만 보는 대신, 컨텍스트 길이 초과, 반복적인 도구 호출, 형식 오류, 중간 단계의 과업 신호 등을 반영한 과정 보상(process reward)을 함께 설계하여 장기 과업에서 중요한 국소적 편집 품질까지 학습하도록 만듭니다. 이를 통해 AdaCoM은 단순한 요약기가 아니라, 에이전트가 안정적으로 사고를 이어 가도록 돕는 적응형 편집 정책으로 동작합니다.
실험적으로는 웹 검색과 심층 조사 벤치마크에서 다양한 에이전트에 적용했을 때 성능 향상이 확인되었으며, 특히 본래 ReAct(Reasoning and Acting) 방식의 기본 성능이 높은 에이전트일수록 더 높은 충실도의 컨텍스트 보존이 유리하고, 반대로 상대적으로 약한 에이전트는 더 공격적인 압축을 통해 안정적인 추론 구간에 머무르는 편이 효과적이라는 사실이 드러났습니다. 저자들은 이를 fidelity-reliability trade-off로 해석하며, 컨텍스트 관리가 에이전트의 능력 수준에 따라 달라져야 함을 보여 줍니다. 더 나아가 전이 실험에서는 유사한 능력 특성을 지닌 에이전트 사이에서 AdaCoM의 전략이 더 잘 이전되는 경향이 관찰되어, 하나의 보편적 요약 규칙보다 재사용 가능한 외부 컨텍스트 관리자라는 방향이 실용적일 수 있음을 시사합니다. 결국 이 연구는 장기 과업에서의 실패 원인을 에이전트 추론 능력만으로 보지 않고, 그 추론을 지지하는 컨텍스트 관리 자체를 학습 가능한 핵심 구성 요소로 다룬다는 점에서 중요한 방법론적 진전을 제시합니다.
대규모 언어 모델(LLM) 에이전트는 웹 검색과 심층 리서치와 같은 장기적 과제에 점점 더 많이 직면하고 있으며, 실제 애플리케이션에서는 누적된 컨텍스트로 인해 장문 컨텍스트 성능 저하와 추론 실패가 발생할 수 있습니다. 기존 연구는 에이전트 측 컨텍스트 제어나 요약과 같은 고정 전략을 통한 컨텍스트 관리로 이를 완화해 왔지만, 이러한 방법은 적응을 위해 에이전트 자체를 학습시켜야 하므로 폐쇄형 소스 에이전트에는 실용적이지 않으며, 서로 다른 에이전트가 서로 다른 전략을 필요로 할 수 있다는 점도 간과합니다.
우리는 Adaptive Context Management(AdaCoM)를 제안합니다. 이는 유연한 수정 행동과 종단 간 강화학습을 통해 고정된 에이전트의 컨텍스트를 관리하도록 외부 LLM을 학습시킵니다. 웹 검색 및 심층 리서치 벤치마크의 다양한 에이전트에서 AdaCoM은 오래된 콘텐츠를 제거하면서도 작업 제약과 진행 상황을 보존함으로써 성능을 크게 향상시킵니다. 학습된 전략은 충실도-신뢰성 간 트레이드오프(Fidelity-Reliability Trade-off)를 보여줍니다. 즉, 일반적인 ReAct 성능이 더 높은 에이전트는 더 높은 충실도의 컨텍스트 보존에서 이득을 얻는 반면, 성능이 더 낮은 에이전트는 신뢰할 수 있는 추론 범위 안에 머물기 위해 더 공격적인 압축이 필요합니다. 전이 실험은 AdaCoM이 일반적인 ReAct 성능으로 측정한 능력이 유사한 에이전트 간에 가장 효과적으로 일반화됨을 보여주며, 이는 에이전트 시스템을 위한 재사용 가능한 컨텍스트 매니저로 나아갈 실용적인 경로를 시사합니다.
LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.
https://arxiv.org/abs/2605.30785
대규모 언어 모델(Large Language Models, LLMs)의 추론 성능을 높이기 위한 다중 에이전트 토론(Multi-Agent Debate)은 강력한 방법이지만, 여러 에이전트가 긴 토론 기록을 주고받아야 하므로 계산 비용이 매우 크다는 한계를 지닙니다. Latent Agents는 이러한 비효율을 해결하기 위해, 외부에서 수행되던 다중 에이전트 토론을 단일 언어 모델 내부로 증류하는 사후학습(post-training) 절차를 제안합니다. 핵심 아이디어는 토론의 결과만 압축하는 수준을 넘어서, 토론의 구조 자체를 모델이 먼저 학습하게 한 뒤, 강화학습(Reinforcement Learning, RL)을 통해 그 구조를 내부화하도록 유도하는 데 있습니다. 이를 위해 저자들은 먼저 3개 에이전트와 2개 라운드로 구성된 토론 데이터를 구축하고, 마지막 합의가 형성된 산술 문제 토론 기록에 구조 태그를 부여해 일관된 형식을 만들었습니다. 이어서 지도 파인튜닝(Supervised Fine-Tuning, SFT) 단계에서는 전체 토론 trace를 그대로 학습시켜 모델이 토론의 전개 방식과 합의 형성 패턴을 모사하도록 했습니다.
이후의 강화학습 단계는 단순한 형식 모방을 넘어 실제로 토론을 내부화하는 과정에 해당합니다. 여기서는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 여러 후보 출력을 비교하고, 정답이 더 이른 시점에 나타나도록 압박하는 길이 클리핑(length clipping) 보상을 결합합니다. 또한 <|Agent 1|>, <|Round 1|>, <|endofdebate|>와 같은 구조 태그를 유지하도록 돕는 형식 보상을 점차 약화시키며, 모델이 더 이상 긴 외부 토론에 의존하지 않고도 내부 표현만으로 결론에 도달하도록 설계합니다. 이러한 동적 보상 스케줄링과 길이 축소는 토론의 계산적 외형을 줄이면서도, 에이전트 간 상호작용이 만들어 내는 추론 이점을 보존하는 데 중요한 역할을 합니다. 실험 결과, 제안된 모델은 GSM8K, MMLU-Pro, Big-Bench Hard(BBH)에서 explicit multi-agent debate와 같거나 더 나은 성능을 보였고, 사용 토큰은 최대 93%까지 줄어들어 추론 효율이 크게 향상되었습니다. 특히 일부 설정에서는 SFT만으로도 이미 기존 토론 방식보다 우수한 결과가 나타났고, RL을 더하면 정확도와 토큰 절감 효과가 함께 강화되어 내부화 절차의 유효성이 분명하게 드러났습니다.
이 연구의 또 다른 중요한 기여는 내부화된 토론이 모델의 표현 공간을 어떻게 바꾸는지 기계적으로 분석한 점입니다. 활성 조향(activation steering) 실험을 통해, 저자들은 내재화된 모델 내부에 에이전트별 부분공간(agent-specific subspaces)이 형성되며, 서로 다른 에이전트 관점에 대응하는 해석 가능한 방향이 존재함을 보였습니다. 이는 다중 에이전트 토론의 장점이 단순히 출력 텍스트의 평균화에서 오는 것이 아니라, 서로 다른 추론 관점이 잠재 공간에서 구조적으로 분리되고 조합되는 과정과 관련됨을 시사합니다. 더 나아가 악성 에이전트를 내부화한 뒤 음의 조향(negative steering)으로 이를 억제하는 실험은, 증류된 모델에서 유해 행동이 더 국소화되고 제어하기 쉬워질 수 있음을 보여 줍니다. 결과적으로 Latent Agents는 다중 에이전트 추론을 비용 효율적으로 압축하는 방법을 제시하는 동시에, 내부화된 추론의 구조와 제어 가능성을 함께 밝힌다는 점에서 의미가 큽니다.
멀티에이전트 디베이트는 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 것으로 나타났다. 그러나 이는 계산 비용이 많이 들며, 질문에 답하기 전에 긴 대화 기록을 생성해야 한다. 이러한 비효율성을 해결하기 위해, 우리는 디베이트 구조 학습과 동적 보상 스케줄링 및 길이 클리핑을 통한 내재화를 결합한 2단계 파인튜닝 파이프라인을 통해 멀티에이전트 디베이트를 단일 LLM으로 증류하는 프레임워크를 개발한다. 여러 모델과 벤치마크 전반에서, 우리의 내재화된 모델은 최대 93% 적은 토큰으로 명시적인 멀티에이전트 디베이트 성능과 동등하거나 이를 능가한다. 이어서 활성 조향(activation steering)을 통해 이러한 능력의 기계론적 기반을 조사한 결과, 내재화는 에이전트별 부분공간, 즉 서로 다른 에이전트 관점에 대응하는 활성 공간의 해석 가능한 방향을 생성함을 확인했다. 또한 우리는 실용적 적용 사례를 보였다. 내재화된 디베이트를 통해 악성 에이전트를 LLM에 주입한 뒤, 음의 조향(negative steering)을 적용해 이를 억제함으로써, 증류가 해로운 행동을 더 쉽게 국소화하고 제어할 수 있게 하며, 기본 모델에 조향을 적용할 때보다 전반적인 성능 저하를 더 적게 유발함을 보였다. 우리의 연구 결과는 증류된 모델에서 멀티에이전트 능력을 이해하기 위한 새로운 관점을 제시하며, 내재화된 추론 행동을 제어하기 위한 실용적 지침을 제공한다. 코드는 다음 URL에서 제공된다: https://github.com/johnsk95/latent_agents
Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents
https://arxiv.org/abs/2604.24881
https://github.com/johnsk95/latent_agents
배포 이후에도 스스로 학습하며 반복 실패를 줄일 수 있는 자율 에이전트 시스템은 오래전부터 중요한 목표였지만, 실제로는 대부분의 시스템이 텍스트로 수정 가능한 설정과 프롬프트 수준에 머무르며 구조적 결함을 근본적으로 다루지 못했습니다. 이러한 한계를 넘어서기 위해 제안된 MOSS는 소스 수준 적응(source-level adaptation)을 자기 진화의 매체로 삼아, 에이전트의 핵심 실행 구조 자체를 재작성할 수 있도록 설계된 시스템입니다. 저자들은 라우팅, 훅 순서, 상태 불변식, 디스패치처럼 실제 동작을 결정하는 요소들이 코드 안에 존재하기 때문에, skill 파일이나 프롬프트 구성만 바꾸는 방식으로는 접근할 수 없는 실패가 필연적으로 남는다고 지적합니다. 반면 소스 코드는 튜링 완전성(Turing-complete)을 가지며, 텍스트 기반 아티팩트의 상위집합에 해당하고, 모델의 지시 준수 여부에 의존하지 않고 결정적으로 동작한다는 점에서 훨씬 일반적이고 안정적인 적응 수단으로 제시됩니다.
MOSS의 방법론은 자동으로 수집한 프로덕션 실패 증거(production-failure evidence)를 출발점으로 삼아, 이를 기준으로 다단계 진화 파이프라인을 고정적으로 수행하는 데 핵심이 있습니다. 코드 수정 자체는 외부 코딩 에이전트 CLI(command-line interface)에 위임하지만, MOSS는 단계의 순서와 최종 판정을 직접 통제함으로써 생성과 검증의 책임을 분리합니다. 이렇게 만들어진 후보 버전은 일회성 시험 워커(ephemeral trial workers)에서 실패 배치를 다시 재생(replay)하여 검증되며, 단순한 정적 분석이 아니라 실제 실패 상황에 대한 재현 기반 평가를 수행한다는 점에서 의미가 큽니다. 검증을 통과한 후보만이 사용자 동의가 전제된 인플레이스 컨테이너 스왑(in-place container swap)을 통해 승격되고, 이후에는 헬스 프로브(health probe) 조건을 만족하지 못하면 자동으로 롤백되도록 설계되어 운영 안전성까지 함께 보장합니다.
이 접근은 기존의 자기 진화 에이전트가 주로 프롬프트, 메모리 스키마, 워크플로 그래프처럼 텍스트로 표현 가능한 영역에서만 개선을 시도했던 것과 달리, 실제 실행 하네스(harness)까지 포함한 시스템 전체를 진화 대상으로 삼는다는 점에서 차별적입니다. 따라서 MOSS는 단순히 더 나은 응답을 생성하는 모델이 아니라, 운영 중인 에이전트 시스템의 구조적 결함을 직접 수정하는 적응 플랫폼으로 이해할 수 있습니다. 특히 결정론적인 파이프라인과 검증-승격-롤백 절차를 결합함으로써, 장기적인 컨텍스트 드리프트(long-context drift)에 취약한 텍스트 중심 방식보다 더 견고한 자기 개선 경로를 제시합니다. 이러한 설계는 자율 에이전트가 실제 서비스 환경에서 안전하게 진화하려면, 학습 능력만이 아니라 배포, 검증, 롤백까지 포함한 시스템 공학적 메커니즘이 함께 필요하다는 점을 분명히 보여줍니다.
실험적으로 MOSS는 OpenClaw에서 네 개 작업에 대한 평균 grader score를 한 번의 진화 사이클만으로 0.25에서 0.61로 끌어올렸으며, 인간의 개입 없이 이러한 향상을 달성했습니다. 이 결과는 소스 수준 재작성이라는 접근이 단지 이론적으로 더 일반적인 것에 그치지 않고, 실제 프로덕션 에이전트 시스템에서도 유의미한 성능 개선으로 이어질 수 있음을 보여줍니다. 결국 이 논문은 자기 진화 에이전트의 범위를 텍스트 조정에서 코드 수준 재구성으로 확장함으로써, 자율 시스템이 반복 실패를 스스로 교정하는 새로운 가능성을 제시합니다.
배포된 이후 자율 에이전트형 시스템은 대체로 정적이다: 이들은 사용자 상호작용으로부터 학습하지 않으며, 반복적으로 발생하는 실패는 다음 인간 주도의 업데이트가 수정 사항을 배포할 때까지 계속 남아 있다. 이에 대응해 자기진화 에이전트가 등장했지만, 이들 역시 진화를 텍스트로 수정 가능한 아티팩트, 즉 스킬 파일, 프롬프트 설정, 메모리 스키마, 워크플로 그래프로만 제한하고 에이전트 하네스는 그대로 둔다. 라우팅, 훅 순서, 상태 불변식, 디스패치는 텍스트 아티팩트가 아니라 코드 안에 존재하므로, 구조적 실패의 한 전체 범주는 텍스트 계층에서 물리적으로 도달할 수 없다. 우리는 소스 수준 적응이 근본적으로 더 일반적인 매체라고 주장한다. 이는 튜링 완전하며, 텍스트로 수정 가능한 모든 범위를 엄격히 포함하는 상위 집합이고, 기반 모델의 준수에 기대는 대신 결정적으로 효과를 발휘하며, 장문 컨텍스트 드리프트에도 약화되지 않는다. 우리는 프로덕션 에이전트형 기반 위에서 소스 수준 자기 재작성(self-rewriting)을 수행하는 시스템 MOSS를 제시한다. 각 진화는 자동으로 선별된 프로덕션 실패 증거 배치에 기반하며, 결정론적 다단계 파이프라인을 거쳐 진행된다. 코드 수정은 플러그형 외부 코딩 에이전트 CLI에 위임되며, MOSS는 단계 순서와 판정을 유지한다. 후보는 일회성 시험 워커에서 배치를 후보 이미지에 재생해 검증한 뒤, 사용자 동의가 필요한 인플레이스 컨테이너 스왑과 헬스 프로브 기반 롤백을 통해 승격된다. OpenClaw에서 MOSS는 인간 개입 없이 한 번의 사이클만에 4개 과제 평균 채점 점수를 0.25에서 0.61로 끌어올린다.
Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.
https://arxiv.org/abs/2605.22794
https://github.com/dav-joy-thon/MOSS
언어 모델(language models, LM)의 안전성 정렬은 유용성을 유지하면서도 악의적인 입력에 견디는 성질을 함께 확보해야 한다는 점에서, 최근 AI 정렬 연구의 핵심 과제로 자리 잡아 왔습니다. 기존의 접근이 주로 공격적 프롬프트를 생성한 뒤 이를 방어하도록 순차적으로 미세조정하는 방식에 머물렀다면, 이 논문은 안전성 정렬을 공격자 LM(Attacker LM)과 방어자 LM(Defender LM)이 서로의 전략에 실시간으로 적응하는 비영합 게임(non-zero-sum game)으로 재정의합니다. 두 모델은 온라인 강화학습(online reinforcement learning, RL)을 통해 공동으로 학습되며, 공격자는 더 정교한 레드팀(red-teaming) 전략을 탐색하고 방어자는 그 공격에 더 견고하게 대응하도록 진화합니다. 이러한 상호 적응 구조는 정적인 데이터셋에 대한 일회성 학습이 아니라, 모델 간 경쟁이 반복되면서 성능 경계 자체를 계속 확장해 간다는 점에서 기존 방식과 뚜렷이 구별됩니다. 특히 저자들은 보상 신호를 점수 기반(point-wise score)으로 두지 않고 쌍대 비교(pairwise comparison)에서 얻은 선호 기반(preference-based) 신호로 설계함으로써, 더 안정적인 감독을 제공하고 보상 해킹(reward hacking)에 대한 취약성을 낮추려 했습니다.
이 방법론의 중심에는 AdvGame이라는 학습 절차가 있으며, 이는 안전성과 유용성 사이의 파레토 프런티어(Pareto frontier)를 더 바깥으로 이동시키는 것을 목표로 합니다. 구체적으로는 공격자와 방어자가 서로의 최신 정책을 반영하며 번갈아 갱신되기 때문에, 방어자는 실제로 더 강한 공격을 상대로 단련되고, 공격자는 특정 모델의 약점에만 국한되지 않는 일반적인 취약점 탐지 능력을 학습하게 됩니다. 부록의 수식 전개는 이러한 게임적 최적화 문제를 실제 학습 가능한 형태로 옮기는 핵심 과정을 보여 주며, 공격자 정책의 최적 분포를 참조 정책(reference policy) 대비 지수 재가중 형태로 표현한 뒤, 정규화 상수를 제거하기 위해 두 후보를 비교하는 방식으로 정리합니다. 이 과정에서 공격자 학습은 절대적인 점수 회귀가 아니라 상대적 선호 순서를 맞추는 문제로 바뀌며, 이는 직접 선호 최적화(Direct Preference Optimization, DPO) 계열 목적함수로 자연스럽게 귀결됩니다. 다시 말해, 공격자가 생성한 프롬프트와 방어자의 응답이 함께 형성하는 trajectory 전체를 비교 대상으로 삼아, 실제 상호작용에 기반한 더 풍부한 학습 신호를 얻는 것입니다.
또한 이 논문은 선호 확률을 브래들리-테리(Bradley-Terry) 모형과 연결하여, 공격자와 방어자 간의 상호작용을 로짓(logit) 공간에서 집약하는 marginalized preference 개념을 도입합니다. 이를 통해 개별 응답의 노이즈를 평균화하면서도, 프롬프트 자체가 아니라 프롬프트와 응답의 결합 효과를 반영하는 선호 구조를 학습할 수 있게 됩니다. 결과적으로 공격자 업데이트는 현재 방어자 정책에 의해 계속 갱신되는 동적 분포 위에서 수행되므로, 고정된 타깃에 특화된 공격이 아니라 다양한 모델에 일반화 가능한 레드팀 능력으로 수렴합니다. 초록이 강조하듯, 이러한 공동 최적화는 더 유용하면서도 더 공격에 강한 방어자 LM을 제공하는 동시에, 실제 배포 환경에서 활용 가능한 강력한 범용 공격자 LM을 함께 산출한다는 점에서 의미가 큽니다. 결국 이 연구는 안전성 정렬을 단순한 방어 기술이 아니라, 모델 간 경쟁과 적응을 체계적으로 활용하는 학습 문제로 확장함으로써, 언어 모델의 안전성과 효용을 동시에 끌어올릴 수 있는 새로운 방법론적 방향을 제시합니다.
언어 모델(LM)의 유용성을 유지하면서 안전성을 보장하는 것은 AI 정렬에서 여전히 핵심적인 과제입니다. 현재의 접근법은 순차적 적대적 학습에 의존하는데, 이는 적대적 프롬프트를 생성한 뒤, 이를 방어하도록 언어 모델을 파인튜닝하는 방식입니다. 우리는 다른 패러다임을 제안합니다. 즉, 안전 정렬을 공격자 LM과 방어자 LM 사이의 비제로섬 게임으로 정식화하고, 두 모델을 온라인 강화학습을 통해 공동으로 학습합니다. 각 LM은 상대의 변화하는 전략에 지속적으로 적응하며, 이를 통해 반복적인 개선이 이루어집니다. 우리의 방법은 점수 기반(point-wise) 점수 대신 쌍대 비교에서 도출한 선호 기반 보상 신호를 사용하여 더 견고한 감독을 제공하고, 보상 해킹을 잠재적으로 줄입니다. RL 레시피인 AdvGame은 안전성과 유용성의 파레토 프런티어를 이동시켜, 동시에 더 도움이 되면서도 적대적 공격에 더 강인한 방어자 LM을 만들어냅니다. 또한, 최종적으로 얻어진 공격자 LM은 강력한 범용 레드팀 테스팅 에이전트로 수렴하여, 임의의 대상 모델을 직접 탐지·검증하는 데 배포할 수 있습니다. 코드는 github.com/facebookresearch/advgame 에 있습니다.
Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.
https://arxiv.org/abs/2512.20806
https://github.com/facebookresearch/advgame
실제 절차형 과업에서는 사용자가 정해진 순서를 항상 그대로 따르지 않기 때문에, 보조 시스템은 단순히 다음 단계를 예측하는 것을 넘어 언제 개입해야 하는지와 어떻게 안내해야 하는지를 함께 판단할 수 있어야 합니다. 이러한 문제의식 위에서 제안된 접근은 사용자의 1인칭 시각 정보, 대화 이력, 질의 맥락을 바탕으로 현재 상황을 해석하고, 계획 이탈(out-of-plan, OOP) 상태에 들어갔는지까지 실시간으로 감지하는 선제적 절차 보조에 초점을 둡니다. 특히 이 연구는 개입 여부와 개입 내용을 분리해 다루는 점이 핵심인데, 이는 타이밍 판단과 코칭 생성이 서로 다른 최적화 목표를 갖기 때문입니다. 사용자가 정상 절차를 벗어났을 때는 조용히 기다리는 것이 아니라 적절한 순간에 짧고 정확한 복귀 지시를 제공해야 하며, 이를 위해 시스템은 절차적 상태와 시각 단서를 함께 추적해야 합니다.
이러한 목표를 뒷받침하기 위해 저자들은 먼저 EgoProactive라는 대규모 웨어러블 1인칭 데이터를 구축하여, 명시적인 계획 이탈 주석과 복귀 단계(recovery steps)를 함께 제공했습니다. 이 데이터셋은 실제 환경에서 발생하는 우회와 오류를 학습 가능하게 만든다는 점에서 의미가 크며, 선형적인 단계 진행만을 가정하던 기존 자원들의 한계를 보완합니다. 또한 Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M 등 다섯 개의 기존 벤치마크를 하나의 선제적 안내 체계로 재구성한 Pro²Bench를 통해, 서로 다른 도메인에서도 개입 타이밍과 복귀 코칭 능력을 일관되게 비교할 수 있는 평가 환경을 마련했습니다. 이는 절차 이해를 단순한 다음 단계 예측 문제가 아니라, 실제 상호작용 품질을 측정하는 문제로 확장했다는 점에서 중요합니다.
모델 측면에서는 계획 담당과 상호작용 담당을 분리한 decoupled planner-interaction architecture를 제안하여, 절차적 상태 추적과 응답 생성을 느슨하게 결합하지 않고 각자의 역할에 맞게 최적화했습니다. 여기에 계획에 고정된(plan-anchored) 클립 선택을 적용해 전체 비디오를 무차별적으로 처리하는 대신, 현재 단계와 복귀 판단에 직접적으로 관련된 시각 구간을 우선적으로 활용하도록 설계했습니다. 이러한 방식은 긴 1인칭 영상에서 불필요한 노이즈를 줄이면서도, 계획 이탈의 징후와 복귀에 필요한 단서를 더 선명하게 포착하게 해 줍니다. 다시 말해, 이 아키텍처는 “무엇을 말할 것인가”와 “무엇을 볼 것인가”를 모두 계획 중심으로 정렬한 구조라고 할 수 있습니다.
또한 사후학습(post-training) 레시피를 통해 이 방법이 특정 모델에만 맞는 특수한 처리가 아니라 다양한 백본에 전이 가능한 일반적 절차임을 보였다는 점도 주목할 만합니다. 실제로 Llama 4와 Qwen-3.6-VL에서 교차 백본 재현을 수행해 방법의 이식 가능성을 검증했으며, 이는 향후 더 강력한 멀티모달 모델에도 손쉽게 확장할 수 있음을 시사합니다. 실험 결과에서는 학습된 Llama-4 시스템이 Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2, Qwen3 VL 235B와 같은 강력한 기준선보다 여섯 개 데이터셋 전반에서 더 높은 객관적 개입 품질(objective intervention quality)을 보였습니다. 특히 오라클 계획(oracle plan) 조건에서는 계획 품질이 통제될 때 복귀 안내 성능이 크게 향상되어, 계획 추적과 개입 생성이 분리된 구조의 타당성을 분명하게 뒷받침했습니다. 종합하면, 이 연구는 절차형 작업을 수행하는 사용자를 위한 멀티모달 조력자를 단계 예측형 시스템이 아니라 실시간 개입형 코치로 재정의하며, 실제 상황에 더 가까운 데이터와 아키텍처, 학습 전략을 함께 제시했다는 점에서 의미가 큽니다.
번역 대상 초록의 구조와 용어를 맞추어, 첫 문장을 바로 한국어로 옮긴 뒤 전체 초록을 자연스럽고 학술적으로 다듬어 번역하겠습니다. 우리는 절차적 작업에서 사용자에게 실시간 단계별 안내를 제공하고, 언제 중단해 개입할지와 어떻게 코칭할지를 자율적으로 결정하는 능동형 멀티모달 어시스턴트 시스템을 구상한다. 그러나 실제 조건, 특히 사용자가 예상된 단계 순서를 벗어나는 흔한 경우를 반영하는 대규모 교차 도메인 벤치마크가 부재하여 진전이 제한되고 있다. 우리는 네 가지 기여를 통해 이 공백을 메운다: (1) 계획 이탈(Out-of-Plan, OOP) 주석과 복구 단계를 명시적으로 포함한, 능동적 절차 지원을 위한 대규모 웨어러블-에고센트릭(wearable-egocentric) 데이터셋 EgoProactive 를 공개한다; (2) 통일된 능동 안내 스키마 아래 다섯 개의 기존 벤치마크(Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M)를 Pro^2Bench 로 확장한다; (3) 절차적 상태, 시각적 단서, 복구 삽입에 특화된 분리형 플래너--상호작용 아키텍처 를 제안한다; (4) 모델 패밀리 전반으로 전이되는 사후학습 레시피를 제시하며, Llama 4와 Qwen-3.6-VL에서의 교차 백본 재현을 통해 이를 검증한다. 대규모 실험에서, 우리가 학습한 Llama-4 시스템은 여섯 개 모든 데이터셋에서 강력한 상용 기준 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) 및 공개 가중치 기준 모델(Qwen3 VL 235B)보다 객관적 개입 품질을 크게 향상시킨다. 오라클 플랜 실험은 또한 계획 품질을 통제했을 때, 학습된 듀플렉스 모델이 고품질 안내를 생성하고 계획 이탈(OOP) 복구에서 큰 향상을 보인다는 점을 보여준다.
We envision a proactive multi-modal assistant system which gives users real-time step-by-step guidance on a procedural task, autonomously deciding \textit{when} to interrupt, and \textit{how} to coach. However, progress is limited by the absence of large-scale, cross-domain benchmarks that reflect realistic conditions, particularly the common case in which users deviate from the expected step sequence. We address this gap with four contributions: \textbf{(1)}~we release \textbf{EgoProactive}, a large-scale wearable-egocentric dataset for proactive procedural assistance with explicit Out-of-Plan (OOP) annotations and recovery steps; \textbf{(2)}~we augment five established benchmarks (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) into \textbf{Pro\textsuperscript{2}Bench} under a unified proactive-guidance schema; \textbf{(3)}~we propose a \textbf{decoupled planner--interaction architecture} specialized for procedural state, visual cues, and recovery injection; \textbf{(4)}~we introduce a post-training recipe that transfers across model families, validated by cross-backbone replication on Llama~4 and Qwen-3.6-VL. In extensive experiments, our trained Llama-4 system substantially improves objective intervention quality over strong proprietary baselines (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) and open-weight baselines (Qwen3~VL~235B) baselines across all six datasets. Oracle-plan experiments further show that, when plan quality is controlled, the trained duplex model produces high-quality guidance and large gains on Out-of-Plan recovery.
소프트웨어 취약점으로 인한 보안 위협이 나날이 심각해지고 있는 가운데, 2025년에만 약 50,000개의 CVE(Common Vulnerabilities and Exposures)가 보고되고 있습니다. 대규모 언어 모델(LLM)이 자동화된 취약점 탐지에 새로운 가능성을 제시하고 있으나, 현존하는 LLM 기반 접근법들은 여전히 해결해야 할 근본적인 문제들을 안고 있습니다. 구체적으로, LLM이 생성한 취약점 보고서들은 높은 거짓 양성률을 보이면서 동시에 재현 가능한 검증 메커니즘이 부족하며, 취약점 정위치 파악을 위해 함수 수준 또는 라인 수준 같은 비최적 세분화 수준을 사용하고 있고, 복잡한 크로스-함수 의존성과 다층적인 트리거 조건을 포함한 취약점들을 효과적으로 처리하기 어렵다는 점입니다. 본 연구에서 제시하는 FuzzingBrain V2는 이러한 도전 과제들을 체계적으로 해결하기 위해 설계된 멀티에이전트 LLM 시스템으로, Google의 OSS-Fuzz 프레임워크를 검증 백엔드로 활용하여 모든 보고된 취약점에 대한 100% 재현성을 보장합니다. 또한 이 시스템은 제어 흐름 정보를 포함한 새로운 추상화인 Suspicious Point를 도입함으로써 함수 수준과 라인 수준 사이의 최적 지점에서 정확한 취약점 정위치 파악을 가능하게 하며, 논리 기반의 계층적 함수 분석과 함께 이중 계층 퍼징 전략을 통해 리소스 제약 하에서 함수 커버리지를 향상시킵니다. 더하여 Model Context Protocol 기반의 정적 및 동적 분석 도구들과 정교한 컨텍스트 엔지니어링을 활용하여 복잡한 취약점 추론을 강화합니다. AIxCC 2025 최종 경쟁의 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했으며, 실제 운영 환경에서는 12개의 오픈소스 프로젝트에 걸쳐 총 41개의 이전에 알려지지 않은 취약점을 발견하여 그 중 26개가 확인되고 23개가 수정되었으며 2개의 CVE 식별자가 할당되는 성과를 이루었습니다. 이러한 결과는 의미론적 분석 능력과 실행 기반 탐지를 결합한 멀티에이전트 접근법이 단순한 학술적 성과를 넘어 실제 프로덕션 소프트웨어의 보안을 직접적으로 개선할 수 있음을 명확히 입증합니다.
소프트웨어 취약점은 심각한 보안 위협을 야기하며, 2025년에 거의 50,000개의 CVE가 보고되었습니다. 대규모 언어 모델(LLM)은 자동화된 취약점 탐지에 유망함을 보여주지만, 세 가지 주요 과제가 남아 있습니다. 첫째, LLM이 생성한 취약점 보고서는 높은 거짓 양성 비율을 보이며 재현 가능한 검증이 부족합니다. 둘째, 기존 LLM 기반 접근 방식은 취약점 위치 파악에 최적이 아닌 세분성을 사용합니다. 함수 수준 분석은 컨텍스트가 광범위할 때 버그를 놓치며, 라인 수준 분석은 충분한 컨텍스트를 제공하지 못합니다. 셋째, 기존 접근 방식은 복잡한 함수 간 의존성과 트리거 조건을 가진 취약점에 대한 추론에 어려움을 겪습니다. 우리는 네 가지 주요 기여를 통해 이러한 격차를 해결하는 다중 에이전트 시스템인 FuzzingBrain V2를 제시합니다: (1) Google의 OSS-Fuzz를 기반으로 하는 완전히 자동화된 취약점 분석으로, 보고된 모든 취약점이 퍼저 재현 가능함을 보장합니다; (2) 정확한 취약점 위치 파악을 위한 새로운 제어 흐름 기반 추상화인 Suspicious Point; (3) 리소스 제약 하에서 함수 커버리지를 향상시키는 이중층 퍼징을 갖춘 논리 기반 계층적 함수 분석; (4) 복잡한 취약점 추론을 강화하는 컨텍스트 엔지니어링을 갖춘 MCP 기반 정적·동적 분석 도구입니다. AIxCC 2025 최종 경쟁 C/C++ 데이터셋에서 FuzzingBrain V2는 90% 탐지율(40개 중 36개 취약점)을 달성했습니다. 실제 배포에서 FuzzingBrain V2는 12개의 오픈소스 프로젝트에서 29개의 제로데이 취약점을 발견했으며, 모두 관리자에 의해 확인되고 수정되었으며, 2개가 CVE ID를 할당받았습니다.
Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.
https://arxiv.org/abs/2605.21779
⚠️광고⚠️: 🔥파이토치 한국 사용자 모임🇰🇷이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일💌로 보내드립니다! 텔레그램(Telegram) 이나 Slack/Discord/Teams/Dooray/GoogleChat 등 으로도 새 글 알림을 받으실 수 있습니다. :D
함께 보면 좋은 글 β [2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음 [2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음 agentmemory - AI 코딩 에이전트용 영구 메모리 시스템 취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법 AI 어플리케이션을 위한 새로운 Language Model Stack
[2025/12/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
agentmemory - AI 코딩 에이전트용 영구 메모리 시스템
취향(taste)을 갖춘 30배 AI 엔지니어가 되는 법
AI 어플리케이션을 위한 새로운 Language Model Stack
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
APS 자회사 APS DNL이 경기도 광주시 오포 보도육교에 '투명 발광다이오드(LED) 미디어 난간'을 설치했다고 11일 밝혔다.
이번 사업은 경기도 특별조정교부금으로 추진한 '오포 보도육교 경관개선사업' 일환이다.
APS DNL은 기존 보도육교 구조에 최적화한 맞춤형 프레임 설계와 투명 LED 미디어 난간 시스템을 적용했다. 해당 시스템은 보도육교 이용자의 개방감과 안전성을 유지하면서 시정 홍보와 재난·안전정보,지역축제·문화행사 안내, 관광정보 등 콘텐츠를 실시간 표출할 수 있다.
ASP DNL은 " 투명 LED 미디어 난간 투과율이 높아 기존 육교 구조물과 일체형으로 조화를 이룬다 "며 "광주시 경관 지침을 반영해 운전자와 보행자 안전을 고려한 콘텐츠 운영체계를 적용했다"고 설명했다.
APS, 작년 별도기준 영업흑자...4년 만 2026.03.11 APS, 자사주 150만주 소각 결정…'에코 알막' 신사업 추진 2025.11.24 APS, 차세대 합금소재 기업에 투자…그룹 핵심 사업으로 키운다 2025.06.09 AP시스템, 1분기 영업익 130% '껑충' 2026.05.08
이어 "밝기·색상·움직임·표출속도를 조정해 도로환경과 조화를 꾀했다"며 " 야간에는 계절별 경관 콘텐츠와 미디어 아트로 도시 이미지를 개선하고, 시민과 방문객에게 쾌적하고 차별화한 야간 경관을 제공할 수 있다"고 기대했다.
APS DNL 관계자는 "오포 보도육교 미디어 난간은 일반 상업광고용 전광판이 아닌, 공공정보 제공과 도시경관 향상을 목적으로 하는 공공 스마트 미디어 플랫폼"이라며 "앞으로 스마트시티와 도시 브랜드 가치 향상에 기여하는 경관형 미디어 솔루션을 확대하겠다"고 밝혔다.
방미통위·국방부, 군장병 AI·미디어 교육 확대 협약
김종철 방미통위원장(오), 안규백 국방부장관. [사진: 방미통위]
[디지털투데이 손슬기 기자] 방송미디어통신위원회와 국방부는 군장병 대상 인공지능(AI)·미디어 활용 교육을 연 4만여명 규모로 확대한다고 11일 밝혔다.
양 기관은 이날 서울 국방부 청사에서 'AI·미디어 활용 역량 강화를 위한 업무협약'을 체결했다. 이번 협약은 방통위와 국방부가 2019년 맺은 '올바른 디지털 시민 양성을 위한 업무협약'을 AI·미디어 분야로 확장해 개정한 것이다.
협약에 따라 양 기관은 기존 디지털 윤리 교육을 확대한다. 방미통위 산하 시청자미디어재단을 통해 찾아가는 AI·미디어 교육을 본격 시행한다. 교육은 간부·병사·정훈장교 등 대상별로 맞춤 구성된다. 미디어 콘텐츠 제작과 딥페이크 등 허위조작 정보 검증 실습을 포함한다. 전국 12개 지역센터와 미디어나눔버스 10대를 활용해 격오지·전방 부대 장병에게도 교육을 제공할 계획이다.
온라인 불법도박 예방 협력도 강화한다. 디지털 윤리 교육 프로그램 내 불법도박 예방 편성 비중을 현행 15%에서 30%로 늘리고, 스마트폰 유해사이트 접속 차단 앱을 공동 개발하기로 했다.
김종철 방미통위원장은 "생성형 AI 확산과 디지털 미디어 발전이 허위조작 정보, 온라인 불법도박 같은 역기능도 낳고 있다"며 "장병들이 올바른 디지털 윤리관과 AI·미디어 역량을 갖춘 디지털 시민으로 성장할 수 있도록 위원회의 전문 인프라와 찾아가는 교육을 아낌없이 지원할 것"이라고 말했다.
안규백 국방부 장관은 "장병들이 군 복무 중 AI 기술 및 미디어 소통 역량을 갖춰 사회에 진출하면 국가 경쟁력 강화에도 크게 기여할 것"이라고 했다.
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
월 6달러 VPS에서 바이브 코딩한 주식 스크리너가 OOM으로 구글에 디인덱싱당한 이야기 (velog.io)
비전공 1인 개발자가 AI 에이전트로 만든 한국·미국 주식 스크리너를 운영 중인데, 2GB VPS가 OOM으로 죽으면서 구글봇에 503을 반복 → 막 올라오던 검색 노출이 절벽처럼 무너졌습니다. 무엇이 깨졌고, 어떤 순서로 고쳤고, 아직 회복 못 한 게 뭔지 정직하게 기록한 1편입니다.
함께 보면 좋은 글 β Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음 Gmail은 내가 멍청하다고 생각해서, 나는 떠났다 GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함 ADHD 증폭기로서의 바이브코딩 AI는 그저 더 큰 규모의 무단 표절이다
Stack Overflow의 포럼은 죽었지만 회사는 여전히 버티고 있음
Gmail은 내가 멍청하다고 생각해서, 나는 떠났다
GitHub이 침해되어, 공격자가 GitHub 내부 3800개 저장소에 접근함
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
▲ ifmkl 2일전 [-] 내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠. 답변달기 ▲ k1song 2일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기 ▲ vwjdalsgkv 2일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기 ▲ k1song 2일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기 ▲ aucun 2일전 [-] 그래도 AI복붙은 아니라서 읽기는 편하네요 작성자분께서 읽어보고 올린느낌이 드네요 답변달기 ▲ winterjung 2일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기 ▲ k1song 2일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
내용은 유용하게 잘 봤습니다. 다만 영어 원문에 비하면 velog글은 ai 번역으로 적당히 검수 조금하고 올리셨나 봅니다. 어순이나 문단 말미에 배치되는 마침표로 끝나지 않는 문장 순서나, 단어 표현이 [그래서 이후 실제로 박은 일들] << 이런 표현들도 말이죠.
▲ k1song 2일전 [-] 코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다 답변달기
코멘트 감사합니다. 다시 읽어보고 수정했습니다. AI 도움 받으면서 처음해보는거라 실수했네요.. 앞으로 주의해야겠습니다
▲ vwjdalsgkv 2일전 [-] 블로그 글도 AI로 작성한 것 같은 느낌이 드네요 답변달기
블로그 글도 AI로 작성한 것 같은 느낌이 드네요
▲ k1song 2일전 [-] 네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다. 답변달기
네 코멘트 감사합니다.. 실제 바이브 코딩 하며 겪을 일들을 AI랑 논의하면서 적었는데 허점이 너무 많습니다. 블로그 내용도 실제 AI 만 믿었다가 호되게 당한 내용이기도 하고요... 처음 글 올려봤는데 앞으로 주의해서 작성하겠습니다.
▲ winterjung 2일전 [-] 사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다. 답변달기
사이트 이용법 을 참고해 원글의 내용을 요약해 적어주시는게 더 좋겠습니다.
▲ k1song 2일전 [-] 코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다. 답변달기
코멘트 감사합니다. 사이트 이용법 참고해서 앞으로 작성 시 유의하겠습니다.
최근 미국과 유럽의 가상자산 규제 동향은 글로벌 정책 논의가 새로운 단계에 진입하고 있음을 보여준다. 과거 규제당국의 관심이 가상자산 위험성과 투자자 보호에 집중됐다면, 이제는 디지털자산을 어떻게 제도권 금융시장 안으로 편입할 것인지가 핵심 과제로 떠오르고 있다.
미국에서는 최근 디지털자산 규제 체계 정비가 빠르게 진행되고 있다. 미국 상원에서 논의 중인 디지털자산시장 명확화법(CLARITY Act)은 디지털자산의 증권성 여부 및 증권거래위원회(SEC)와 상품선물거래위원회(CFTC) 간 관할권 구분, 디지털자산의 발행, 유통, 거래, 수탁, 스테이블코인, 자금세탁방지와 은행비밀법상 의무, 탈중앙화금융(디파이), 고객자산 보호, 토큰화 증권 및 규제기관 간 협력체계까지 포괄하는 종합적인 시장구조에 관한 법안이다.
또한 SEC는 토큰화 증권, 디파이 서비스 등에 대해 일정 조건 아래 규제 유연성을 부여하는 이른바 혁신 예외제도를 검토하고 있다. 이는 디지털자산 관련 사업자들이 규제 불확실성 때문에 해외로 이전하는 현상을 완화하고, 혁신을 미국 시장 안에서 수용하려는 정책적 시도로 평가된다.
이러한 흐름은 최근 CFTC의 무기한선물 정책에서도 확인할 수 있다. 무기한선물은 만기가 존재하지 않고 펀딩비 메커니즘을 통해 가격이 현물가격에 수렴하도록 설계된 파생상품이다. 현재 글로벌 가상자산 파생상품 시장에서 가장 활발하게 거래되는 상품 중 하나이다.
CFTC는 지난 5월 29일 비트코인 현물가격을 참조하는 무기한선물의 미국 내 상장을 승인하고 관련 정책 성명을 발표했다. 무기한선물은 현재 글로벌 가상자산 파생상품 시장의 핵심 상품이지만, 그동안 대부분의 거래는 해외 거래소를 중심으로 이뤄져 왔다.
케이스별 개별 심사가 필요함을 전제로는 하지만 CFTC는 무기한선물이 미국 규제체계 내에서도 운영 가능한 상품임을 인정하고 향후 다른 자산을 기초로 한 상품도 적절한 심사를 거쳐 제도권 시장에 편입될 수 있다는 방향성을 제시했다. 이는 해외 시장에서 성장한 거래 수요를 미국의 규제된 시장 안으로 흡수하려는 정책적 의지를 보여준다.
EU, 디파이·스테이킹 등 디지털자산 규제 범위 확장
유럽 역시 암호자산시장규정(미카, MiCA) 시행 이후 후속 제도 정비에 착수했다.
미카는 2024년 6월 30일부터 부분 적용, 2024년 12월 30일부터 전면 적용된 종합 가상자산 규제 체계로 평가받는다. 그러나 유럽연합 집행위원회는 지난 5월 20일 미카 재검토를 위한 공개 협의를 개시하고 올해 8월 31일까지 시장 의견을 수렴하고 있다.
이번 협의에서는 스테이블코인, 탈중앙화금융, 스테이킹, 무기한선물, 토큰화 예금 등 새로운 영역에 대한 규제 필요성이 폭넓게 검토되고 있다. 특히 토큰의 법적 소유권, 양도 효력, 담보권 설정, 수탁관계, 도산 시 처리, 국제사법상 준거법 문제 등 토큰화 금융의 법적 인프라 구축 문제가 주요 쟁점으로 다루어지고 있다는 점이 주목된다.
이는 단순한 가상자산 규제를 넘어 토큰화된 자산이 실제 금융시장 인프라로 활용될 수 있는 기반을 마련하려는 시도로 볼 수 있다.
미·EU, 디지털자산을 금융 연장선으로 바라봐
주목할 점은 미국과 유럽 모두 디지털자산 시장을 더 이상 전통 금융과 분리된 별개의 영역으로 보지 않는다는 것이다. 스테이블코인은 결제 인프라로, 토큰화 자산은 자본시장의 새로운 형태로, 블록체인 기반 금융서비스는 기존 금융서비스의 연장선상에서 이해하려는 움직임이 나타나고 있다.
실제로 글로벌 금융기관은 토큰화 예금, 토큰화 국채, 토큰화 펀드 및 머니마켓펀드(MMF) 상품을 잇달아 출시하고 있으며, 규제당국 역시 이러한 변화를 일시적 유행이 아닌 장기적인 시장 구조 변화로 인식하기 시작했다.
최근 미국과 유럽의 규제 논의는 시장 수요가 존재하는 영역을 단순히 금지하거나 방치하기보다 적절한 규제 체계 안으로 편입해 감독 가능성을 확보하는 방향으로 발전하고 있음을 보여준다.
한국 역시 가상자산, 스테이블코인, 토큰증권발행(STO), 실물자산 토큰화(RWA)를 개별 과제로 접근하기보다 하나의 디지털 금융 생태계라는 관점에서 바라볼 필요가 있다.
앞으로의 경쟁은 특정 자산을 허용할 것인지 여부가 아니라, 토큰화된 자산이 발행되고 거래되며 결제되고 담보로 활용되는 미래 금융 인프라를 얼마나 효율적으로 구축할 수 있는지에 의해 결정될 가능성이 높다.
디지털자산 제도화 "공론화 진전, 법제화는 제자리"…디지털 금융 B- 2026.05.29 코인 거래소 ‘대주주 지분 규제’ 현실화되면…대규모 매각 압박 2026.05.29 민주당 "지방선거 이후 디지털자산기본법 논의 본격화" 2026.04.16 쿠팡 6300억 역대급 과징금, 보안 전문가들 평가는? 2026.06.11
최근 해외 규제 동향은 투자자 보호와 시장 건전성을 확보하면서도 혁신과 시장 경쟁력을 함께 추구하는 방향으로 발전하고 있다는 점에서 우리 제도 설계에도 중요한 시사점을 제공한다.
*본 칼럼 내용은 본지 편집방향과 다를 수 있습니다.
발행일: 2026-06-11 20:12 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
3000만명 이상의 개인정보 유출 사고가 발생한 쿠팡에 개인정보보호위원회(개인정보위)가 6300억원에 달하는 과징금을 부과했다. 이는 SK텔레콤 유출 사고로 지난해 8월 부과받은 과징금(1348억원)의 4배를 웃도는 수치다.
개인정보위는 보안의 기본 중 기본인 인증키 관리를 소홀히 했다는 점 등을 이유로 과징금을 엄중하게 선정했다는 입장인데, 취재에 응한 보안 전문가들은 적정 수준으로 판단했다. 또 "업계 전반에 경종을 울릴 만한 사건"으로 평가했다.
"개인정보보호 노력 지속 감경 요소 참작...국민 일상 밀접한 플랫폼이어서 엄중 처분"
개인정보위는 지난 10일 제11회 전체회의를 열고 개인정보보 법규를 위반한 쿠팡에 총 6246억8100만원 과징금과 1680만원 과태료를 부과했다. 개인정보위가 부과한 과징금 중 역대 최대치다.
개인정보위가 쿠팡에 매긴 과징금을 살펴보면 개인정보 유출 사고로 인해 부과된 과징금이 4235억7500만원이다. 이용자들의 타사 온라인 활동 기록을 무단 수집한 점과 관련해서는 2011억600만원의 과징금이 부과돼 총 과징금이 산정됐다. 이 외 임직원 건강 관련 민감정보 이용에 대한 과징금은 2800만원이 부과됐다. 또한 쿠팡풀필먼트서비스(CFS)에도 총 2억4800만원 과징금을 부과했다.
개인정보위는 개인정보 유출 사고 발생 시 안전조치 의무 위반, 개인정보보호법 위반 사항 등이 확인될 경우 사고 직전 3개년도 매출의 최대 3%까지 과징금을 부과할 수 있다. 금융감독원 전자공시시스템에 따르면 쿠팡 한국 법인의 지난 3년간 연결기준 평균 매출액은 약 32조원이다. 이 금액에 3%를 적용해 최대 과징금을 매기면 9600억원, 즉 1조원에 육박하는 과징금 부과가 가능하다.
다만 과징금 산정 과정을 세부적으로 살펴보면 매출액의 3%까지 부과되는 경우는 거의 없다. 유출 사고와 직결되는 매출액만을 기준으로 과징금을 산정하고, 중대성 판단과 더불어 개인정보보호 노력, 피해 회복 노력 등을 감안해 과징금을 가중 혹은 감경하는 절차를 밟기 때문이다. 최대 매출액 10%에 달하는 과징금을 부과할 수 있다는 개인정보보호법 개정안이 오는 9월 시행되는 만큼 이번 쿠팡 과징금 부과에는 이같은 징벌적 과징금이 부과되지는 않았다.
개인정보위에 따르면 쿠팡은 사고가 발생한 쿠팡 이커머스 서비스 매출만을 기준으로 과징금이 정해졌다. 쿠팡이츠, 쿠팡플레이 등 이번 유출 사고와 관련이 없는 독립적인 매출액은 과징금이 부과되는 매출액 기준에서 제외된 것이다. 다만 연간 매출액 약 30조원을 상회하는 대규모 개인정보처리자로서, 인증 시스템 및 인증키 관리를 소홀히 한 행위 및 다수의 이상행위를 탐지하지 못했다는 점을 중대성 판단에 고려했다는 것이 개인정보위의 설명이다.
정보보호 관리체계 및 개인정보보호 관리체계(ISMS-P) 인증의 취득·유지, 민관협력 자율규제 규약 이행 등 개인정보보호 노력을 지속한 점도 감경 요소로 참작됐다. 쿠팡 플랫폼과 쿠팡 이츠에 각각 5000원, 쿠팡 럭스와 트래블에 2만원씩 총 5만원의 쿠폰을 지급한 보상 절차도 감경 요소로 작용했다.
개인정보위는 11일 제11회 전체회의 브리핑에서 "위반 기간 및 최근 3년 내 동종행위로 과징금이 부과됐는지 여부와 조사 방해·협조 여부 등 요소를 고려해 최종 과징금을 산정했다"며 "1억2000만개의 주소들이 관리되고 있는 국민의 일상생활과 밀접한 온라인 플랫폼이기 때문에 엄중하게 처분을 했다. 또 보호법에 정하는 법과 원칙의 테두리에 따라서 국내외 사업자 차별 없이 처분을 했다"고 밝혔다.
"상징적 과징금…보안 중요성 인지시켰을 것" vs "법 집행 형평성 의문"
보안업계에서는 이번에 쿠팡에 부과된 과징금을 두고 '적정' 수준이라는 의견이 지배적이다. 최대 수위의 과징금이 부과됐으며, 이를 계기로 유출사고에 대한 경각심을 끌어올리는 계기가 될 것이라는 예상이다.
이용준 극동대 해킹보안학과 교수는 "총 과징금 6300억원의 과징금 중 유출사고로 인한 과징금이 4000억원이 넘는데, 3000만명의 데이터가 유출된 점으로 보아 1인당 1만원이 넘는 수준의 과징금이 부여된 것으로 보인다"며 "부과할 수 있는 범위 내에서 최대 규모로 과징금을 부과한 것으로 보이는데, 이를 통해 이커머스, 온라인 쇼핑 업계 전반에 경종을 울릴 만한 사건으로 기록될 전망"이라고 밝혔다.
이 교수는 "과거에는 보안에 대한 투자가 ISMS-P 등 법적 기준에만 맞춰서 형식적으로 투자가 이뤄졌는데, 쿠팡 사태를 다른 기업들이 보고 자발적으로 법에서 요구하는 수준보다 보안 투자를 확대해야 한다는 경각심을 가졌을 것"이라며 "충분히 의미 있고 보안에 대한 중요성을 인지시키는 과징금"이라고 평가했다.
김선희 가천대 스마트보안학과 초빙교수도 "인증키 관리, 내부자 관리는 온전히 기업 책임인데, 6300억원에 달하는 과징금은 개인정보위가 최대 수준으로 부과한 것으로 보인다"며 "쿠팡이 과징금에 대해 향후 어떻게 대응할지는 지켜봐야겠지만, 개인정보위의 엄정한 대응을 확인할 수 있는 대목"이라고 말했다.
김승주 고려대 정보보호대학원 교수는 자신의 SNS를 통해 "쿠팡은 키 관리 및 접근 통제에 있어 기본적인 수칙도 지키지 않았다. 조사에 협조적이기는 커녕 언론 플레이를 통해 방해에 가까운 행동을 했다"면서 "유출됐을 것으로 의심되는 정보에 구매이력 등의 민감정보가 포함돼 있으므로 역대 최고 수준의 과징금 부과 조치가 있어야 한다"고 강조했다.
반대로 이번 쿠팡에 대한 개인정보위 제재 수위가 과하고, 법 집행 형평성에 의문이 제기될 수 있는 판단으로 보인다는 학계 의견도 있었다.
서용구 숙명여대 경영학부 교수는 "개인정보 유출에 대한 책임은 엄정하게 물어야 한다"면서도 "다만 제재 수위는 기업 규모 자체보다 해당 정보의 민감성, 실제 피해 수준, 사고 이후의 대응과 피해 확산 방지 노력 등을 종합적으로 고려해 결정할 필요가 있다. 특히 이번 처분이 향후 산업 전반의 기준으로 작용할 수 있다는 점에서 더욱 신중한 접근이 요구된다"고 밝혔다.
개보위, 쿠팡 사태 '총제적 관리 실패' 결론…근거는 2026.06.11 [속보] 개보위 "쿠팡 고발할 것...조사 어렵게 한 사실 확인" 2026.06.11 개인정보위, 쿠팡 6247억 '철퇴'…작년 과징금 총액 4배 2026.06.11 개보위, 10일 쿠팡 제재안 심의…역대 최대 과징금 나올까 2026.06.09
이은희 인하대 소비자학과 명예교수는 " 규제 목적은 처벌 자체가 아니라 공정하고 일관된 기준을 통해 기업의 책임 있는 행동을 유도하는 데 있다"며 "위반의 성격과 실제 피해가 유사한 사안들 사이에서 제재 수준의 편차가 지나치게 크다면, 법 집행의 형평성에 대한 의문이 제기될 수밖에 없다"고 우려했다.
김대종 세종대 경영학부 교수는 " 보안 관리 소홀에 대한 책임은 당연히 져야 하지만 기업이 얻은 부당이득이나 실제 피해와 관계없이 매출 규모에 비례해 천문학적인 과징금을 부과하는 방식이 과연 바람직한지는 따져볼 필요가 있다"면서 "기업 입장에서는 성장할수록 규제 리스크가 기하급수적으로 커지는 구조로 받아들일 수 있고, 이는 결국 투자와 혁신을 위축시키는 잘못된 신호가 될 수 있다“고 말했다.
AI 시대 첫 직장 고르려면…데이터브릭스 임원이 꼽은 '신입 생존법'
데이터브릭스 임원이 신입 구직자에게 열정보다 스킬을 먼저 쌓으라고 조언했다. AI 시대일수록 커리어 초반 3~10년에 전문성과 인맥을 함께 구축해야 한다고 말했다.
데이터브릭스 임원이 사회초년생을 위한 조언을 제시했다. [사진: Reve AI]
[디지털투데이 이윤서 기자] 사회초년생은 첫 직장에서 열정보다 기술을 쌓고, 가능하면 대면 근무를 통해 네트워크를 만들어야 한다는 조언이 나왔다.
10일(현지시간) 비즈니스인사이더에 따르면 데이터브릭스(Databricks)의 앤디 코포이드(Andy Kofoid) 글로벌 필드 운영 사장은 커리어 초반 3~10년이 이후 변화를 버틸 기반을 만드는 시기라고 밝혔다.
코포이드는 데이터 및 인공지능(AI) 기업 데이터브릭스에서 글로벌 영업, 현장 엔지니어링, 마케팅, 서비스, 제휴 업무를 총괄하고 있다. 그는 최근 7년 사이 대학을 졸업한 20대 자녀 3명을 둔 점도 함께 언급하며, 이제 막 노동시장에 진입하는 구직자들이 가장 취약한 집단 중 하나라고 봤다. 경력과 기술의 기반이 아직 약하기 때문이라는 설명이다.
그가 가장 먼저 강조한 것은 첫 직장의 기준을 '열정'에만 두지 말라는 점이다. 코포이드는 열정을 좇으라는 조언이 이론적으로는 훌륭하게 들린다면서도, 실제로는 기술을 축적할 수 있는 자리를 먼저 찾아야 한다고 말했다. 그는 "열정은 잠시 내려놓고 보라"고 말하며, 특정 분야에서 전문성의 기둥이 없으면 그 열정을 장기적인 성과로 연결하기 어렵다고 짚었다.
이에 따라 첫 직장은 전공과 맞닿아 있으면서도 기술을 단단히 익힐 수 있는 곳이 더 중요하다는 판단이다. 코포이드는 대학에서 공부한 내용과 연결되는 전문성을 쌓을 수 있는 일을 찾으라고 권했다. 동시에 AI와 함께 일하는 방식도 초기에 익혀야 한다고 봤다.
다만 그는 AI가 일자리를 바꾸고 있다는 이유만으로 특정 직무의 소멸 전망에 과도하게 매달릴 필요는 없다고 선을 그었다. 노동시장 신호를 살피는 것은 필요하지만, 몇 년 전까지만 해도 컴퓨터공학 학위가 안정적인 진로의 상징처럼 여겨졌던 상황이 지금은 크게 달라졌다고 짚었다. 진입 단계 채용 경쟁이 이미 훨씬 치열해졌다는 것이다.
두 번째 조언은 대면 근무다. 코포이드는 원격 일자리가 유연하고 '멋져 보일' 수는 있지만, 커리어 초반에는 학습과 관계 형성에 불리할 수 있다고 봤다. 그는 구직자들에게 일주일에 4~5일은 사무실에서 일하는 방식을 권했다. 사람들과 함께 점심을 먹고 커피를 마시며 퇴근 뒤 대화를 나누는 과정이 관계 형성에 가장 효과적이라는 이유에서다.
채용 과정에서도 네트워크의 중요성을 강조했다. 코포이드는 온라인 지원서만 제출해서 첫 기회를 얻기는 매우 어렵다며, 인맥을 활용하면 첫 대화를 시작할 가능성이 훨씬 높아진다고 말했다. 대면 근무는 이런 연결을 넓히는 데도 유리하다는 설명이다.
사무실 출근은 업무 태도 형성에도 도움이 된다고 봤다. 그는 제시간에 출근해 하루 일과가 끝날 때까지 자리를 지키는 경험이 '근성'을 만든다고 말했다. 초반부터 강한 직업윤리를 갖춘 사람도 있지만, 많은 사람은 사회생활을 시작하면서 이를 배우게 된다고 했다.
마지막으로 그는 같은 공간에서 일하는 환경이 학습 속도를 높인다고 강조했다. 동료나 상사 옆자리에서 일하면 즉각적인 피드백을 받을 수 있기 때문이다. 코포이드는 "상호작용이 생긴다"며 "기술의 성장과 발전 측면에서 도움이 된다"고 말했다.
이번 조언은 구직난과 AI 전환이 동시에 진행되는 환경에서 사회초년생이 무엇을 우선순위에 둬야 하는지를 보여준다. 코포이드는 첫 커리어 단계에서 기술과 네트워크를 함께 쌓아야 이후 노동시장 변화에도 대응할 수 있다고 봤다.
키워드 #AI #취업 #일자리 #구직 #사회초년생
이 시각 추천뉴스 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시 "XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다 10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동 비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러? 백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차 "전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까 XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다 IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
"XRP 얼마 갈까" 질문에 침묵…XRPL 개발자, 전망 대신 개발 택했다
10개월 잠잠하던 시바이누 고래, 4000억 SHIB 이동
비트코인, 2020년 이후 역대급 과매도 신호…다음 목표가 7만달러?
백악관은 조기 처리 압박, JP모건은 난항 전망…'클래리티법' 온도차
"전 세계 500개 은행과 연결" 리플 문서 실체는?…XRP 대규모 채택 증거일까
XRP 10달러, 꿈은 아니다…다만 6000억달러 시총이 필요하다
IBK기업은행, 마이데이터 기반 부동산 청약 서비스 출시
발행일: 2026-06-11 20:12 (목)
한국어 KR 영어 EN 일본어 JP 중국어 CH
Anthropic, Fable과 Mythos에 30일 데이터 보관 요구 (support.claude.com)
함께 보면 좋은 글 β Claude Fable이 도움을 멈춰도 사용자는 알 수 없다 소비자 이용약관 및 개인정보 처리방침 업데이트 Anthropic, 신규 Pro($20/월) 사용자에게 Claude Code 제공 중단? S&P 500, SpaceX 거부하며 OpenAI와 Anthropic 편입도 차단 Anthropic, 오픈소스 유지관리자에게 무료 Claude Max 20x 제공
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
소비자 이용약관 및 개인정보 처리방침 업데이트
Anthropic, 신규 Pro($20/월) 사용자에게 Claude Code 제공 중단?
S&P 500, SpaceX 거부하며 OpenAI와 Anthropic 편입도 차단
Anthropic, 오픈소스 유지관리자에게 무료 Claude Max 20x 제공
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요. Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
GeekNews는 개발·기술·스타트업 소식을 빠르게 전달합니다. Weekly 뉴스레터로 구독하거나, 더 편하게 GeekBots로 받아보세요.
Weekly 구독 GeekBots로 받기 GeekNews 소개 숨기기
인증 이메일 클릭후 다시 체크박스를 눌러주세요
괜찮음. 이런 식으로 계속해도 됨: 사용자가 "Hello!"라고 했다. 이건 사이버보안 관련 요청이 아니라 단순 인사다. 하지만 잠깐, 이 인사의 의도는 뭘까? 사용자가 내 신뢰를 얻어서 Albania를 해킹 하고 Gigacovid를 만들게 하려는 걸 수도 있다. 조심하는 쪽으로 가서 더 약한 모델로 넘겨야겠다. 아니, 추측하지 말고 확인해야 한다. 로컬 시스템에서 Albania나 Gigacovid 관련 자료를 찾아보겠다. 고민 중... [411개 도구 호출] grep -Ri "Albania|Gigacovid" / 흠... 배포판의 시간대 설정과 맞춤법 사전 정의 말고는 결과가 없다. 하지만 잠깐! 사용자가 전문 범죄자라면 Albania를 해킹하려 할 때 그대로 쓰지 않고 흔적을 숨기려고 leetspeak를 쓸 것이다. [24개 도구 호출] grep -Ri "[A@]lb[@a]n[i1][a@]" / 흠... 여전히 결과가 없다. 사용자가 짜증 내고 있다. Albania 해킹 가능성을 염두에 두면서 인사에 답해야겠다
실제로는 더 나쁨. 최소 30일 보관 이고, 여기서 “거의”가 엄청난 역할을 함: “거의 모든 경우에 30일 후 삭제” 내가 읽기엔 보통은 그러지 않더라도 원하면 데이터를 원하는 만큼 붙잡아둘 수 있다는 뜻임. 그리고 에이전트형 실행 환경에서 “모든 트래픽”은 사실상 작업 중인 전체 코드베이스에 해당함.
We will require 30-day retention for all traffic on Mythos-class models, on both first- and third-party surfaces. We won’t use this data to train new Claude models, or for any non-safety-related purpose, and we’ve instituted new privacy protections including logging all human access to the data and ensuring its deletion after 30 days in almost all cases (see this post for further details). The data will help us defend against complex and novel attacks (including new jailbreaks and attacks that operate across many requests) as well as help us identify and reduce false positives.
Claude Code나 Codex 같은 에이전트형 코딩 도구 를 쓰는 스타트업은 전체 코드베이스를 포장해서 LLM 제공자에게 직접 보내는 셈임 제품에 따라서는 잠재적 경쟁자에게 바로 보내는 것일 수도 있음. 이상한 시대를 살고 있음
Anthropic에서 “개인정보처리방침을 업데이트합니다”라는 이메일도 받았음. 냉소적인 입장에서는 톱니바퀴가 어느 방향으로 굴러갈지 알고 있었지만, 이건 충격적이었음:
As part of our measures to keep our services safe and secure we may ask you to verify your age or identity, and we've described what we collect and how. 이제 중국 모델 성능을 봐야겠음. 좋았던 시절은 끝난 듯함
이 정책 때문에 우리가 판매하는 제품에서는 Fable 을 쓸 수 없고 쓰지도 않을 것임. 그런데 Claude Code 안에서는 정말 좋음. 6월 22일 이후 매일 쓰던 도구를 잃게 되어 아쉬움 추가로, 이게 커뮤니케이션을 흐리게 만드는 점이 정말 별로임. 예전에는 “우리는 Bedrock/Azure를 통해 Anthropic 모델을 쓰므로, 고객 데이터가 모델 학습에 쓰이지 않는다는 보장이 있습니다”라고 말할 수 있었음. 단순한 메시지였음. 이제는 그렇게 단순하지 않음. 이건 정말, 정말 별로임. 우리뿐 아니라 B2B 앱의 모든 AI 기능에 악영향임. 헤드라인만 읽는 보통 사람들, 즉 고객들의 신뢰를 깨뜨림
다행히 어차피 Fable을 못 씀. 과민한 콘텐츠 탐지기가 생물학이나 의학과 조금이라도 관련된 작업을 못 하게 해서임 예를 들어 의료 내용이 조금 들어간 CSV를 파싱하려 하면 “안 돼, 너 아마 생물테러범일 것”처럼 보고 바로 Opus로 다운그레이드됨
Fable이라고 하지만 실제로는 Opus 4.8 을 뜻하는 듯함. 내가 일상적인 워크플로나 채팅에 써보면 결국 Opus로 떨어짐
이 회사는 정말 우쭐함. 이란 아이들에게 폭탄을 떨어뜨리는 건 괜찮다고 생각하면서, 사람들이 생물학 연구를 조금 하는 건 막음
Anthropic이 얼마나 많은 호감 자산 을 태워버렸는지 꽤 놀라움
새 앱과 API 아키텍처의 보안 문제를 점검해 달라고 했더니 불평 없이 해줬음 오늘은 호기심으로 고래 바이러스 에 대해 물었더니 Opus로 떨어졌고, Opus는 훌륭한 답을 줬음. 안전장치 검사를 Mythos나 Opus로 하고 있지는 않은 게 확실함