AI 에이전트 전쟁 본격화 핵심 3대 신호

AI 판이 “대답하는 모델”에서 “끝까지 해내는 에이전트 워크플로우”로 바뀌는 결정적 신호 3가지

오늘 뉴스는 딱 3개 축이에요.

1) Anthropic이 Claude를 “항상 켜져 있고, 트리거에 반응하며, 자체 환경에서 실행되는” 형태로 테스트 중이라는 점

2) Z.ai가 화면을 인식해서 실제 코딩/작업까지 이어지도록 만든 화면 인지(비전) 코딩 모델을 공개했다는 점

3) Alibaba가 1M(100만) 토큰 컨텍스트를 전면에 내세운 Qwen 3.6 Plus로 “레이포지토리(프로젝트 단위) 엔지니어링 + 에이전트 실행”에 힘을 준다는 점

이 세 가지가 한 방향으로 모입니다.
모델이 “답변”을 하는 단계에서 그치지 않고, 화면을 보고(보고) → 추론하고(생각) → 도구/시스템과 연결돼 실제 작업을 계속(행동)하는 쪽으로 이동 중이라는 거죠.

그리고 이런 흐름을 SEO 키워드로 딱 잡으면:
AI 에이전트, 비전 기반 코딩, 컨텍스트 윈도우, 멀티모달 워크플로우, 소프트웨어 자동화가 뉴스 전반에 깔려 있어요.

1) Anthropic: “Claude CONWAY”를 에이전트용 ‘독립 환경’으로 테스트

[핵심 요약] Claude가 채팅창을 넘어, 사이드바 옵션으로 뜨는 지속형 에이전트 환경(인스턴스) 형태로 진화하고 있다는 신호로 읽혀요.

1-1. 콘웨이는 ‘세션’이 아니라 ‘퍼시스턴트(지속형)’에 가깝다

사용자는 일반 채팅 대신, Conway를 별도 옵션(사이드바)으로 선택
클릭하면 “Conway instance”가 실행됨
내부적으로도 단순 세션이 아니라 상주/유지되는 에이전트 작업 공간에 가까운 표현
즉, 모델이 질문에 답하고 끝내는 구조가 아니라, 상태를 갖는 작업 단위로 설계 중이라는 뉘앙스

1-2. 에이전트 워크스페이스: 검색/챗/시스템이 분리

Chat: 일반적으로 기대하는 대화 기능
Search: 실험용 핫키와 연결된 형태로 보임
System: 진짜 차별점
에이전트 환경을 관리
확장(Extensions) 설치/연결
UI 탭 추가
컨텍스트 핸들러 구성

1-3. “CNW ZIP” 확장 생태계: 모델이 아니라 ‘플랫폼’처럼 굴린다

Conway용 확장을 CNW ZIP 파일 패키징 형태로 준비 중
개발자가 도구를 패키지하고, 에이전트 환경 안에 “앱처럼” 붙일 수 있는 방향
이게 중요한 이유:
앞으로 Claude는 단일 모델이 아니라, 도구가 끼워 맞춰지는 실행 플랫폼이 될 가능성이 커짐
결국 경쟁 포인트가 “성능”뿐 아니라 “확장/연동/운영 구조”로 이동

1-4. 커넥터/툴 + Chrome 토글: 브라우저가 에이전트 루프에 들어간다

연결된 클라이언트와 노출되는 툴을 표시
Claude(브라우저)가 Conway에 직접 연결하는 토글 존재
브라우저 자체가 에이전트의 입력/작업 공간이 될 수 있음
이 흐름은 단순 데모가 아니라, 실사용 루프(보고-행동)를 만들려는 신호로 해석

1-5. 웹훅(Webhook) 트리거: “열어두지 않아도” 깨어서 일하는 구조

Conway 내부에 웹훅 시스템 탑재
외부 서비스가 public URL로 호출 → 에이전트가 “wake up”
즉, 사용자가 대기시키는 게 아니라 이벤트 기반으로 실행되는 항상형 에이전트 방향
Anthropic의 clawed code/에이전트 워크플로우 방향성과도 맞물림

1-6. 개발자 경험 개선: Claude Code “NO_FLICKER 모드” + 마우스 지원

[핵심 요약] 에이전트가 강해지는 것뿐 아니라, 개발자가 실제로 쓰기 편하게 “터미널 UX”를 개선했다는 포인트가 있어요.

NO_FLICKER 모드
터미널에서 흔히 보이는 깜빡임/점프/장시간 세션 성능 저하 개선
전체 재렌더링 대신, 화면 버퍼 업데이트 방식(관찰 가능한 영역만 갱신)
CPU/메모리 사용 안정화(장시간 대화, 멀티 에이전트 워크플로우까지 고려)
풀 마우스 지원
클릭으로 커서 위치
툴 출력 확장 클릭
URL 클릭 시 즉시 오픈
파일 경로 클릭 시 에디터 열기
드래그로 선택 → 클립보드 자동 복사
스크롤휠 내비게이션 부드럽게
더블/트리플 클릭 선택 단위 정교화(단어/라인)
단 한 줄 트레이드오프
일부 네이티브 검색 단축키 동작이 다를 수 있음(실험적)

2) Z.ai: GLM-5V-Turbo로 “화면 인지 + 코딩/작업”을 한 번에 노린다

[핵심 요약] 화면을 보는 능력에서 끝내지 않고, 화면에서 바로 코딩/작업 흐름으로 연결하려는 모델이에요.
이름 그대로 “5V Turbo”는 비전(Vision) 기반 코딩과 비전 에이전트 워크플로우에 초점을 둡니다.

2-1. 기존 문제의 정면 돌파: ‘보는 건 되는데, 일을 못 한다’

많은 멀티모달 모델은
이미지를 잘 설명하지만
그걸 실제로 유용한 코드/행동으로 연결하는 데 약점이 있음
GLM-5V-Turbo는 “양쪽을 동시에” 처리하도록 설계됐다는 주장

2-2. 입력은 화면/문서/영상까지: 현실 업무 형태를 그대로 받는다

지원 범위(주요 포인트)
이미지, 비디오, UI 레이아웃, 디자인 목업
밀도가 높은 문서
현업 워크플로우를 고려하면 핵심은 이거예요:
실제로는 “깨끗한 텍스트”가 아니라
깨진 화면, PDF, 버그 스크린샷, 문제 영상 같은 “혼란스러운 증거”가 들어온다는 점
그래서 모델이 시각적 근거(visual grounding)를 제대로 잡아야 실제 작업이 됩니다.

2-3. 기술 키워드(회사 주장): Cogvit Vision Encoder + MTP + 속도/롱 출력 최적화

Cogvit Vision Encoder로 세밀한 시각 디테일/레이아웃 보존
MTP(멀티 토큰 예측)로 속도 및 긴 출력 처리 강화
한 줄 번역하면:
“명확히 보고(보존) → 빠르게 생각하고(예측) → 작업 결과를 길게 내기(롱 출력)” 방향

2-4. 200,000 컨텍스트 윈도우 + 멀티 태스크 동시 훈련

200K 컨텍스트
긴 문서, 큰 코드베이스, 시각/영상 기반 긴 흐름까지 한 번에 다루려는 전략
30개+ 태스크를 동시에 학습(주장)
STEM 추론, 비전 그라운딩, 비디오 분석, 툴 사용 포함
“한 가지 능력만 잘하는 모델”이 아니라
보고 → 이해하고 → 다음 행동으로 이어지는 체인 전체를 노린다고 정리할 수 있어요.

2-5. 에이전트 워크플로우 최적화: OpenClaw/Clawed Code 지향

화면 기반 작업 환경에서 에이전트가 움직이도록 최적화
예:
화면을 보고 setup을 돕고
화면에서 다음 행동을 판단하고
실제 컴퓨터 작업처럼 단계 진행
Cloud code 연계도 언급
스크린샷/버그 상황을 보여주면 코드 제안
“설명 대신 가리키는 방식”이 자연스러워짐

2-6. 벤치마크 언급: 멀티모달 코딩/에이전트 실행 평가

CCbench, V2, Zclaw Bench, Claw Eval 등
핵심은 테스트 성격이 “시각 이해”만 보는 게 아니라
멀티모달 코딩
멀티스텝 에이전트 실행
유용한 결과 산출
에 맞춰져 있다는 점이에요.

3) Alibaba: Qwen 3.6 Plus + 1M 컨텍스트로 “프로젝트 단위 에이전트 코딩” 가속

[핵심 요약] 여기서 제일 강한 숫자는 100만 토큰(1M) 컨텍스트예요.
그리고 목적은 “챗봇 데모”가 아니라 저장소 레벨(repo-level) 엔지니어링 + 실제 실행입니다.

3-1. “Capability loop”: 지각-추론-행동을 한 워크플로우에서 반복

Alibaba가 강조하는 건 “풀 능력 루프”
즉, 한 번 답하고 끝나는 게 아니라
태스크 분해
단계 작업
테스트/수정
계속 전진
특히 코딩에서 에이전트 신뢰성과 반복 실행이 중요해지니
이 모델 방향성이 시장 흐름(에이전트 워크플로우)과 잘 맞아요.

3-2. 레포지토리 엔지니어링: 스니펫이 아니라 프로젝트 전체를 다룬다

단일 코드 조각이 아니라
전체 코드베이스 기준으로 작업 수행
의미:
장문 문맥 유지가 필요
파일 간 의존성 추적
여러 수정/검증 루프가 요구됨
그래서 1M 컨텍스트와 결이 맞습니다.

3-3. 1M 컨텍스트 윈도우: 에이전트가 “기억을 유지”하는 기반

1M 토큰은 한 번에 더 많은 정보(긴 문서/대형 코드/긴 지시)를 담을 수 있다는 뜻
에이전트에게 필요한 건 사실 “짧은 질의응답”이 아니라
이전에 무엇을 했는지
어떤 파일/도구가 중요했는지
아직 남은 작업이 뭔지
같은 맥락 유지예요.
컨텍스트가 커질수록 이 유지 비용/누락이 줄어드는 방향이죠.

3-4. OpenRouter에 프리뷰 + (당분간) 무료 접근: 실험 접근성 확대

OpenRouter에 프리뷰 형태로 제공
현재는 1M 컨텍스트 기반 무료 접근이 언급됨
이건 “개발자들이 빨리 써보고 워크플로우를 붙이게 만드는” 장치로도 볼 수 있어요.

3-5. 효율/신뢰성: 하이브리드 아키텍처 + 에이전트 동작 안정성 강화(주장)

하이브리드 아키텍처 개선 →
효율
에너지 소비 감소
스케일링 향상
추론/에이전트 동작 신뢰성을 3.5 시리즈 대비 강화했다고 설명

3-6. 배포 지향: Wukong(엔터프라이즈 자동화) + 에이전트 툴 연동

Wukong: 기업 업무 자동화를 위한 다중 에이전트 플랫폼
OpenClaw, Claude Code, Klein 등과의 연결 언급
멀티모달 쪽도
밀도 높은 문서 파싱
실세계 시각 분석
긴 비디오 추론
스크린샷/핸드드로우 와이어프레임/목업 → 프론트엔드 코드 생성
까지 “실제 업무 입력물” 중심으로 설명합니다.

이 뉴스에서 꼭 따로 잡아야 할 ‘가장 중요한 전환점’

핵심은 하나예요.

이제 시장의 경쟁 포인트가
“얼마나 그럴듯하게 답하냐”에서
“에이전트 워크플로우 안에서 보고-추론-행동을 끝까지 반복하냐”로 이동했다는 겁니다.

그래서 세 회사의 방향이 다 달라도(Claude CONWAY vs GLM-5V-Turbo vs Qwen 3.6 Plus) 공통 분모가 있어요.

지속형(상주) 에이전트: 트리거/웹훅/독립 인스턴스
화면 기반 멀티모달: 스크린샷/영상/레이아웃을 “작업 입력”으로 취급
컨텍스트 확장: 200K~1M급으로 프로젝트/장문 지시 유지
소프트웨어 자동화: 레포 단위 코딩, 툴 연동, 반복 실행으로 결과 완성

한마디로:
AI가 대화 상대를 넘어, 운영체제처럼 ‘작업을 굴리는 주체’에 가까워지고 있어요.

업데이트된 판에서 투자/업무 관점으로 체크할 질문 5개

1) 내가 쓰는 워크플로우는 “채팅”이 아니라 “이벤트 트리거/도구 실행”까지 연결돼 있나?
2) 화면(스크린샷/영상/레이아웃)을 실제 작업 입력으로 받아서 결과까지 이어지나?
3) 컨텍스트 윈도우가 충분해서 프로젝트 단위 작업이 끊기지 않나?
4) 확장(extensions) 또는 툴 연결이 가능한 구조인가?
5) 멀티스텝 실행에서 “끝까지” 안정적으로 작동하나?

전하고자 하는 주요 내용(한 줄 정리)

Claude CONWAY의 지속형 에이전트 구조, Z.ai의 화면 인지 코딩, Alibaba의 1M 컨텍스트 기반 프로젝트 실행—이 3개가 합쳐지면서 AI 에이전트가 본격적으로 “업무 워크플로우 자동화” 단계로 진입하고 있습니다.

< Summary >

Anthropic은 Claude를 Conway라는 지속형 에이전트 환경으로 테스트하며, 확장 생태계(CNW ZIP), 커넥터, 웹훅 트리거로 항상형 실행 방향을 보여줌
Claude Code는 NO_FLICKER 모드와 풀 마우스 지원으로 장시간 개발 UX를 개선
Z.ai는 GLM-5V-Turbo로 화면/레이아웃/문서/영상 입력을 더 직접적으로 이해해 에이전트 코딩까지 이어지게 설계(200K 컨텍스트, 멀티 태스크 동시 학습 주장)
Alibaba는 Qwen 3.6 Plus에 1M 컨텍스트를 기본 탑재하고, 지각-추론-행동 루프와 레포지토리 엔지니어링을 전면에 내세움
결론: 경쟁이 “답변”에서 “에이전트 워크플로우 안에서 끝까지 해내는 능력”으로 이동 중

[관련글 안내]

NextGenInsight.Net