AI 에이전트 전쟁 본격화 핵심 3대 신호

·

·

AI 판이 “대답하는 모델”에서 “끝까지 해내는 에이전트 워크플로우”로 바뀌는 결정적 신호 3가지

오늘 뉴스는 딱 3개 축이에요.

1) Anthropic이 Claude를 “항상 켜져 있고, 트리거에 반응하며, 자체 환경에서 실행되는” 형태로 테스트 중이라는 점

2) Z.ai가 화면을 인식해서 실제 코딩/작업까지 이어지도록 만든 화면 인지(비전) 코딩 모델을 공개했다는 점

3) Alibaba1M(100만) 토큰 컨텍스트를 전면에 내세운 Qwen 3.6 Plus로 “레이포지토리(프로젝트 단위) 엔지니어링 + 에이전트 실행”에 힘을 준다는 점

이 세 가지가 한 방향으로 모입니다.
모델이 “답변”을 하는 단계에서 그치지 않고, 화면을 보고(보고) → 추론하고(생각) → 도구/시스템과 연결돼 실제 작업을 계속(행동)하는 쪽으로 이동 중이라는 거죠.

그리고 이런 흐름을 SEO 키워드로 딱 잡으면:
AI 에이전트, 비전 기반 코딩, 컨텍스트 윈도우, 멀티모달 워크플로우, 소프트웨어 자동화가 뉴스 전반에 깔려 있어요.


1) Anthropic: “Claude CONWAY”를 에이전트용 ‘독립 환경’으로 테스트

[핵심 요약] Claude가 채팅창을 넘어, 사이드바 옵션으로 뜨는 지속형 에이전트 환경(인스턴스) 형태로 진화하고 있다는 신호로 읽혀요.

1-1. 콘웨이는 ‘세션’이 아니라 ‘퍼시스턴트(지속형)’에 가깝다

  • 사용자는 일반 채팅 대신, Conway를 별도 옵션(사이드바)으로 선택
  • 클릭하면 “Conway instance”가 실행됨
  • 내부적으로도 단순 세션이 아니라 상주/유지되는 에이전트 작업 공간에 가까운 표현
  • 즉, 모델이 질문에 답하고 끝내는 구조가 아니라, 상태를 갖는 작업 단위로 설계 중이라는 뉘앙스

1-2. 에이전트 워크스페이스: 검색/챗/시스템이 분리

  • Chat: 일반적으로 기대하는 대화 기능
  • Search: 실험용 핫키와 연결된 형태로 보임
  • System: 진짜 차별점
  • 에이전트 환경을 관리
  • 확장(Extensions) 설치/연결
  • UI 탭 추가
  • 컨텍스트 핸들러 구성

1-3. “CNW ZIP” 확장 생태계: 모델이 아니라 ‘플랫폼’처럼 굴린다

  • Conway용 확장을 CNW ZIP 파일 패키징 형태로 준비 중
  • 개발자가 도구를 패키지하고, 에이전트 환경 안에 “앱처럼” 붙일 수 있는 방향
  • 이게 중요한 이유:
  • 앞으로 Claude는 단일 모델이 아니라, 도구가 끼워 맞춰지는 실행 플랫폼이 될 가능성이 커짐
  • 결국 경쟁 포인트가 “성능”뿐 아니라 “확장/연동/운영 구조”로 이동

1-4. 커넥터/툴 + Chrome 토글: 브라우저가 에이전트 루프에 들어간다

  • 연결된 클라이언트와 노출되는 툴을 표시
  • Claude(브라우저)가 Conway에 직접 연결하는 토글 존재
  • 브라우저 자체가 에이전트의 입력/작업 공간이 될 수 있음
  • 이 흐름은 단순 데모가 아니라, 실사용 루프(보고-행동)를 만들려는 신호로 해석

1-5. 웹훅(Webhook) 트리거: “열어두지 않아도” 깨어서 일하는 구조

  • Conway 내부에 웹훅 시스템 탑재
  • 외부 서비스가 public URL로 호출 → 에이전트가 “wake up”
  • 즉, 사용자가 대기시키는 게 아니라 이벤트 기반으로 실행되는 항상형 에이전트 방향
  • Anthropic의 clawed code/에이전트 워크플로우 방향성과도 맞물림

1-6. 개발자 경험 개선: Claude Code “NO_FLICKER 모드” + 마우스 지원

[핵심 요약] 에이전트가 강해지는 것뿐 아니라, 개발자가 실제로 쓰기 편하게 “터미널 UX”를 개선했다는 포인트가 있어요.

  • NO_FLICKER 모드
  • 터미널에서 흔히 보이는 깜빡임/점프/장시간 세션 성능 저하 개선
  • 전체 재렌더링 대신, 화면 버퍼 업데이트 방식(관찰 가능한 영역만 갱신)
  • CPU/메모리 사용 안정화(장시간 대화, 멀티 에이전트 워크플로우까지 고려)
  • 풀 마우스 지원
  • 클릭으로 커서 위치
  • 툴 출력 확장 클릭
  • URL 클릭 시 즉시 오픈
  • 파일 경로 클릭 시 에디터 열기
  • 드래그로 선택 → 클립보드 자동 복사
  • 스크롤휠 내비게이션 부드럽게
  • 더블/트리플 클릭 선택 단위 정교화(단어/라인)
  • 단 한 줄 트레이드오프
  • 일부 네이티브 검색 단축키 동작이 다를 수 있음(실험적)

2) Z.ai: GLM-5V-Turbo로 “화면 인지 + 코딩/작업”을 한 번에 노린다

[핵심 요약] 화면을 보는 능력에서 끝내지 않고, 화면에서 바로 코딩/작업 흐름으로 연결하려는 모델이에요.
이름 그대로 “5V Turbo”는 비전(Vision) 기반 코딩과 비전 에이전트 워크플로우에 초점을 둡니다.

2-1. 기존 문제의 정면 돌파: ‘보는 건 되는데, 일을 못 한다’

  • 많은 멀티모달 모델은
  • 이미지를 잘 설명하지만
  • 그걸 실제로 유용한 코드/행동으로 연결하는 데 약점이 있음
  • GLM-5V-Turbo는 “양쪽을 동시에” 처리하도록 설계됐다는 주장

2-2. 입력은 화면/문서/영상까지: 현실 업무 형태를 그대로 받는다

  • 지원 범위(주요 포인트)
  • 이미지, 비디오, UI 레이아웃, 디자인 목업
  • 밀도가 높은 문서
  • 현업 워크플로우를 고려하면 핵심은 이거예요:
  • 실제로는 “깨끗한 텍스트”가 아니라
  • 깨진 화면, PDF, 버그 스크린샷, 문제 영상 같은 “혼란스러운 증거”가 들어온다는 점
  • 그래서 모델이 시각적 근거(visual grounding)를 제대로 잡아야 실제 작업이 됩니다.

2-3. 기술 키워드(회사 주장): Cogvit Vision Encoder + MTP + 속도/롱 출력 최적화

  • Cogvit Vision Encoder로 세밀한 시각 디테일/레이아웃 보존
  • MTP(멀티 토큰 예측)로 속도 및 긴 출력 처리 강화
  • 한 줄 번역하면:
  • “명확히 보고(보존) → 빠르게 생각하고(예측) → 작업 결과를 길게 내기(롱 출력)” 방향

2-4. 200,000 컨텍스트 윈도우 + 멀티 태스크 동시 훈련

  • 200K 컨텍스트
  • 긴 문서, 큰 코드베이스, 시각/영상 기반 긴 흐름까지 한 번에 다루려는 전략
  • 30개+ 태스크를 동시에 학습(주장)
  • STEM 추론, 비전 그라운딩, 비디오 분석, 툴 사용 포함
  • “한 가지 능력만 잘하는 모델”이 아니라
  • 보고 → 이해하고 → 다음 행동으로 이어지는 체인 전체를 노린다고 정리할 수 있어요.

2-5. 에이전트 워크플로우 최적화: OpenClaw/Clawed Code 지향

  • 화면 기반 작업 환경에서 에이전트가 움직이도록 최적화
  • 예:
  • 화면을 보고 setup을 돕고
  • 화면에서 다음 행동을 판단하고
  • 실제 컴퓨터 작업처럼 단계 진행
  • Cloud code 연계도 언급
  • 스크린샷/버그 상황을 보여주면 코드 제안
  • “설명 대신 가리키는 방식”이 자연스러워짐

2-6. 벤치마크 언급: 멀티모달 코딩/에이전트 실행 평가

  • CCbench, V2, Zclaw Bench, Claw Eval 등
  • 핵심은 테스트 성격이 “시각 이해”만 보는 게 아니라
  • 멀티모달 코딩
  • 멀티스텝 에이전트 실행
  • 유용한 결과 산출
    에 맞춰져 있다는 점이에요.

3) Alibaba: Qwen 3.6 Plus + 1M 컨텍스트로 “프로젝트 단위 에이전트 코딩” 가속

[핵심 요약] 여기서 제일 강한 숫자는 100만 토큰(1M) 컨텍스트예요.
그리고 목적은 “챗봇 데모”가 아니라 저장소 레벨(repo-level) 엔지니어링 + 실제 실행입니다.

3-1. “Capability loop”: 지각-추론-행동을 한 워크플로우에서 반복

  • Alibaba가 강조하는 건 “풀 능력 루프”
  • 즉, 한 번 답하고 끝나는 게 아니라
  • 태스크 분해
  • 단계 작업
  • 테스트/수정
  • 계속 전진
  • 특히 코딩에서 에이전트 신뢰성과 반복 실행이 중요해지니
    이 모델 방향성이 시장 흐름(에이전트 워크플로우)과 잘 맞아요.

3-2. 레포지토리 엔지니어링: 스니펫이 아니라 프로젝트 전체를 다룬다

  • 단일 코드 조각이 아니라
  • 전체 코드베이스 기준으로 작업 수행
  • 의미:
  • 장문 문맥 유지가 필요
  • 파일 간 의존성 추적
  • 여러 수정/검증 루프가 요구됨
  • 그래서 1M 컨텍스트와 결이 맞습니다.

3-3. 1M 컨텍스트 윈도우: 에이전트가 “기억을 유지”하는 기반

  • 1M 토큰은 한 번에 더 많은 정보(긴 문서/대형 코드/긴 지시)를 담을 수 있다는 뜻
  • 에이전트에게 필요한 건 사실 “짧은 질의응답”이 아니라
  • 이전에 무엇을 했는지
  • 어떤 파일/도구가 중요했는지
  • 아직 남은 작업이 뭔지
    같은 맥락 유지예요.
  • 컨텍스트가 커질수록 이 유지 비용/누락이 줄어드는 방향이죠.

3-4. OpenRouter에 프리뷰 + (당분간) 무료 접근: 실험 접근성 확대

  • OpenRouter에 프리뷰 형태로 제공
  • 현재는 1M 컨텍스트 기반 무료 접근이 언급됨
  • 이건 “개발자들이 빨리 써보고 워크플로우를 붙이게 만드는” 장치로도 볼 수 있어요.

3-5. 효율/신뢰성: 하이브리드 아키텍처 + 에이전트 동작 안정성 강화(주장)

  • 하이브리드 아키텍처 개선 →
  • 효율
  • 에너지 소비 감소
  • 스케일링 향상
  • 추론/에이전트 동작 신뢰성을 3.5 시리즈 대비 강화했다고 설명

3-6. 배포 지향: Wukong(엔터프라이즈 자동화) + 에이전트 툴 연동

  • Wukong: 기업 업무 자동화를 위한 다중 에이전트 플랫폼
  • OpenClaw, Claude Code, Klein 등과의 연결 언급
  • 멀티모달 쪽도
  • 밀도 높은 문서 파싱
  • 실세계 시각 분석
  • 긴 비디오 추론
  • 스크린샷/핸드드로우 와이어프레임/목업 → 프론트엔드 코드 생성
    까지 “실제 업무 입력물” 중심으로 설명합니다.

이 뉴스에서 꼭 따로 잡아야 할 ‘가장 중요한 전환점’

핵심은 하나예요.

이제 시장의 경쟁 포인트가
“얼마나 그럴듯하게 답하냐”에서
“에이전트 워크플로우 안에서 보고-추론-행동을 끝까지 반복하냐”로 이동했다는 겁니다.

그래서 세 회사의 방향이 다 달라도(Claude CONWAY vs GLM-5V-Turbo vs Qwen 3.6 Plus) 공통 분모가 있어요.

  • 지속형(상주) 에이전트: 트리거/웹훅/독립 인스턴스
  • 화면 기반 멀티모달: 스크린샷/영상/레이아웃을 “작업 입력”으로 취급
  • 컨텍스트 확장: 200K~1M급으로 프로젝트/장문 지시 유지
  • 소프트웨어 자동화: 레포 단위 코딩, 툴 연동, 반복 실행으로 결과 완성

한마디로:
AI가 대화 상대를 넘어, 운영체제처럼 ‘작업을 굴리는 주체’에 가까워지고 있어요.


업데이트된 판에서 투자/업무 관점으로 체크할 질문 5개

1) 내가 쓰는 워크플로우는 “채팅”이 아니라 “이벤트 트리거/도구 실행”까지 연결돼 있나?
2) 화면(스크린샷/영상/레이아웃)을 실제 작업 입력으로 받아서 결과까지 이어지나?
3) 컨텍스트 윈도우가 충분해서 프로젝트 단위 작업이 끊기지 않나?
4) 확장(extensions) 또는 툴 연결이 가능한 구조인가?
5) 멀티스텝 실행에서 “끝까지” 안정적으로 작동하나?


전하고자 하는 주요 내용(한 줄 정리)

Claude CONWAY의 지속형 에이전트 구조, Z.ai의 화면 인지 코딩, Alibaba의 1M 컨텍스트 기반 프로젝트 실행—이 3개가 합쳐지면서 AI 에이전트가 본격적으로 “업무 워크플로우 자동화” 단계로 진입하고 있습니다.


< Summary >

  • Anthropic은 Claude를 Conway라는 지속형 에이전트 환경으로 테스트하며, 확장 생태계(CNW ZIP), 커넥터, 웹훅 트리거로 항상형 실행 방향을 보여줌
  • Claude Code는 NO_FLICKER 모드풀 마우스 지원으로 장시간 개발 UX를 개선
  • Z.ai는 GLM-5V-Turbo로 화면/레이아웃/문서/영상 입력을 더 직접적으로 이해해 에이전트 코딩까지 이어지게 설계(200K 컨텍스트, 멀티 태스크 동시 학습 주장)
  • Alibaba는 Qwen 3.6 Plus에 1M 컨텍스트를 기본 탑재하고, 지각-추론-행동 루프와 레포지토리 엔지니어링을 전면에 내세움
  • 결론: 경쟁이 “답변”에서 “에이전트 워크플로우 안에서 끝까지 해내는 능력”으로 이동 중

[관련글 안내]


AI 판이 “대답하는 모델”에서 “끝까지 해내는 에이전트 워크플로우”로 바뀌는 결정적 신호 3가지 오늘 뉴스는 딱 3개 축이에요. 1) Anthropic이 Claude를 “항상 켜져 있고, 트리거에 반응하며, 자체 환경에서 실행되는” 형태로 테스트 중이라는 점 2) Z.ai가 화면을 인식해서 실제 코딩/작업까지 이어지도록 만든 화면 인지(비전) 코딩 모델을 공개했다는 점 3) Alibaba가 1M(100만) 토큰 컨텍스트를 전면에 내세운 Qwen 3.6…

Feature is an online magazine made by culture lovers. We offer weekly reflections, reviews, and news on art, literature, and music.

Please subscribe to our newsletter to let us know whenever we publish new content. We send no spam, and you can unsubscribe at any time.

English