AI 판이 “대답하는 모델”에서 “끝까지 해내는 에이전트 워크플로우”로 바뀌는 결정적 신호 3가지
오늘 뉴스는 딱 3개 축이에요.
1) Anthropic이 Claude를 “항상 켜져 있고, 트리거에 반응하며, 자체 환경에서 실행되는” 형태로 테스트 중이라는 점
2) Z.ai가 화면을 인식해서 실제 코딩/작업까지 이어지도록 만든 화면 인지(비전) 코딩 모델을 공개했다는 점
3) Alibaba가 1M(100만) 토큰 컨텍스트를 전면에 내세운 Qwen 3.6 Plus로 “레이포지토리(프로젝트 단위) 엔지니어링 + 에이전트 실행”에 힘을 준다는 점
이 세 가지가 한 방향으로 모입니다.
모델이 “답변”을 하는 단계에서 그치지 않고, 화면을 보고(보고) → 추론하고(생각) → 도구/시스템과 연결돼 실제 작업을 계속(행동)하는 쪽으로 이동 중이라는 거죠.
그리고 이런 흐름을 SEO 키워드로 딱 잡으면:
AI 에이전트, 비전 기반 코딩, 컨텍스트 윈도우, 멀티모달 워크플로우, 소프트웨어 자동화가 뉴스 전반에 깔려 있어요.
1) Anthropic: “Claude CONWAY”를 에이전트용 ‘독립 환경’으로 테스트
[핵심 요약] Claude가 채팅창을 넘어, 사이드바 옵션으로 뜨는 지속형 에이전트 환경(인스턴스) 형태로 진화하고 있다는 신호로 읽혀요.
1-1. 콘웨이는 ‘세션’이 아니라 ‘퍼시스턴트(지속형)’에 가깝다
- 사용자는 일반 채팅 대신, Conway를 별도 옵션(사이드바)으로 선택
- 클릭하면 “Conway instance”가 실행됨
- 내부적으로도 단순 세션이 아니라 상주/유지되는 에이전트 작업 공간에 가까운 표현
- 즉, 모델이 질문에 답하고 끝내는 구조가 아니라, 상태를 갖는 작업 단위로 설계 중이라는 뉘앙스
1-2. 에이전트 워크스페이스: 검색/챗/시스템이 분리
- Chat: 일반적으로 기대하는 대화 기능
- Search: 실험용 핫키와 연결된 형태로 보임
- System: 진짜 차별점
- 에이전트 환경을 관리
- 확장(Extensions) 설치/연결
- UI 탭 추가
- 컨텍스트 핸들러 구성
1-3. “CNW ZIP” 확장 생태계: 모델이 아니라 ‘플랫폼’처럼 굴린다
- Conway용 확장을 CNW ZIP 파일 패키징 형태로 준비 중
- 개발자가 도구를 패키지하고, 에이전트 환경 안에 “앱처럼” 붙일 수 있는 방향
- 이게 중요한 이유:
- 앞으로 Claude는 단일 모델이 아니라, 도구가 끼워 맞춰지는 실행 플랫폼이 될 가능성이 커짐
- 결국 경쟁 포인트가 “성능”뿐 아니라 “확장/연동/운영 구조”로 이동
1-4. 커넥터/툴 + Chrome 토글: 브라우저가 에이전트 루프에 들어간다
- 연결된 클라이언트와 노출되는 툴을 표시
- Claude(브라우저)가 Conway에 직접 연결하는 토글 존재
- 브라우저 자체가 에이전트의 입력/작업 공간이 될 수 있음
- 이 흐름은 단순 데모가 아니라, 실사용 루프(보고-행동)를 만들려는 신호로 해석
1-5. 웹훅(Webhook) 트리거: “열어두지 않아도” 깨어서 일하는 구조
- Conway 내부에 웹훅 시스템 탑재
- 외부 서비스가 public URL로 호출 → 에이전트가 “wake up”
- 즉, 사용자가 대기시키는 게 아니라 이벤트 기반으로 실행되는 항상형 에이전트 방향
- Anthropic의 clawed code/에이전트 워크플로우 방향성과도 맞물림
1-6. 개발자 경험 개선: Claude Code “NO_FLICKER 모드” + 마우스 지원
[핵심 요약] 에이전트가 강해지는 것뿐 아니라, 개발자가 실제로 쓰기 편하게 “터미널 UX”를 개선했다는 포인트가 있어요.
- NO_FLICKER 모드
- 터미널에서 흔히 보이는 깜빡임/점프/장시간 세션 성능 저하 개선
- 전체 재렌더링 대신, 화면 버퍼 업데이트 방식(관찰 가능한 영역만 갱신)
- CPU/메모리 사용 안정화(장시간 대화, 멀티 에이전트 워크플로우까지 고려)
- 풀 마우스 지원
- 클릭으로 커서 위치
- 툴 출력 확장 클릭
- URL 클릭 시 즉시 오픈
- 파일 경로 클릭 시 에디터 열기
- 드래그로 선택 → 클립보드 자동 복사
- 스크롤휠 내비게이션 부드럽게
- 더블/트리플 클릭 선택 단위 정교화(단어/라인)
- 단 한 줄 트레이드오프
- 일부 네이티브 검색 단축키 동작이 다를 수 있음(실험적)
2) Z.ai: GLM-5V-Turbo로 “화면 인지 + 코딩/작업”을 한 번에 노린다
[핵심 요약] 화면을 보는 능력에서 끝내지 않고, 화면에서 바로 코딩/작업 흐름으로 연결하려는 모델이에요.
이름 그대로 “5V Turbo”는 비전(Vision) 기반 코딩과 비전 에이전트 워크플로우에 초점을 둡니다.
2-1. 기존 문제의 정면 돌파: ‘보는 건 되는데, 일을 못 한다’
- 많은 멀티모달 모델은
- 이미지를 잘 설명하지만
- 그걸 실제로 유용한 코드/행동으로 연결하는 데 약점이 있음
- GLM-5V-Turbo는 “양쪽을 동시에” 처리하도록 설계됐다는 주장
2-2. 입력은 화면/문서/영상까지: 현실 업무 형태를 그대로 받는다
- 지원 범위(주요 포인트)
- 이미지, 비디오, UI 레이아웃, 디자인 목업
- 밀도가 높은 문서
- 현업 워크플로우를 고려하면 핵심은 이거예요:
- 실제로는 “깨끗한 텍스트”가 아니라
- 깨진 화면, PDF, 버그 스크린샷, 문제 영상 같은 “혼란스러운 증거”가 들어온다는 점
- 그래서 모델이 시각적 근거(visual grounding)를 제대로 잡아야 실제 작업이 됩니다.
2-3. 기술 키워드(회사 주장): Cogvit Vision Encoder + MTP + 속도/롱 출력 최적화
- Cogvit Vision Encoder로 세밀한 시각 디테일/레이아웃 보존
- MTP(멀티 토큰 예측)로 속도 및 긴 출력 처리 강화
- 한 줄 번역하면:
- “명확히 보고(보존) → 빠르게 생각하고(예측) → 작업 결과를 길게 내기(롱 출력)” 방향
2-4. 200,000 컨텍스트 윈도우 + 멀티 태스크 동시 훈련
- 200K 컨텍스트
- 긴 문서, 큰 코드베이스, 시각/영상 기반 긴 흐름까지 한 번에 다루려는 전략
- 30개+ 태스크를 동시에 학습(주장)
- STEM 추론, 비전 그라운딩, 비디오 분석, 툴 사용 포함
- “한 가지 능력만 잘하는 모델”이 아니라
- 보고 → 이해하고 → 다음 행동으로 이어지는 체인 전체를 노린다고 정리할 수 있어요.
2-5. 에이전트 워크플로우 최적화: OpenClaw/Clawed Code 지향
- 화면 기반 작업 환경에서 에이전트가 움직이도록 최적화
- 예:
- 화면을 보고 setup을 돕고
- 화면에서 다음 행동을 판단하고
- 실제 컴퓨터 작업처럼 단계 진행
- Cloud code 연계도 언급
- 스크린샷/버그 상황을 보여주면 코드 제안
- “설명 대신 가리키는 방식”이 자연스러워짐
2-6. 벤치마크 언급: 멀티모달 코딩/에이전트 실행 평가
- CCbench, V2, Zclaw Bench, Claw Eval 등
- 핵심은 테스트 성격이 “시각 이해”만 보는 게 아니라
- 멀티모달 코딩
- 멀티스텝 에이전트 실행
- 유용한 결과 산출
에 맞춰져 있다는 점이에요.
3) Alibaba: Qwen 3.6 Plus + 1M 컨텍스트로 “프로젝트 단위 에이전트 코딩” 가속
[핵심 요약] 여기서 제일 강한 숫자는 100만 토큰(1M) 컨텍스트예요.
그리고 목적은 “챗봇 데모”가 아니라 저장소 레벨(repo-level) 엔지니어링 + 실제 실행입니다.
3-1. “Capability loop”: 지각-추론-행동을 한 워크플로우에서 반복
- Alibaba가 강조하는 건 “풀 능력 루프”
- 즉, 한 번 답하고 끝나는 게 아니라
- 태스크 분해
- 단계 작업
- 테스트/수정
- 계속 전진
- 특히 코딩에서 에이전트 신뢰성과 반복 실행이 중요해지니
이 모델 방향성이 시장 흐름(에이전트 워크플로우)과 잘 맞아요.
3-2. 레포지토리 엔지니어링: 스니펫이 아니라 프로젝트 전체를 다룬다
- 단일 코드 조각이 아니라
- 전체 코드베이스 기준으로 작업 수행
- 의미:
- 장문 문맥 유지가 필요
- 파일 간 의존성 추적
- 여러 수정/검증 루프가 요구됨
- 그래서 1M 컨텍스트와 결이 맞습니다.
3-3. 1M 컨텍스트 윈도우: 에이전트가 “기억을 유지”하는 기반
- 1M 토큰은 한 번에 더 많은 정보(긴 문서/대형 코드/긴 지시)를 담을 수 있다는 뜻
- 에이전트에게 필요한 건 사실 “짧은 질의응답”이 아니라
- 이전에 무엇을 했는지
- 어떤 파일/도구가 중요했는지
- 아직 남은 작업이 뭔지
같은 맥락 유지예요. - 컨텍스트가 커질수록 이 유지 비용/누락이 줄어드는 방향이죠.
3-4. OpenRouter에 프리뷰 + (당분간) 무료 접근: 실험 접근성 확대
- OpenRouter에 프리뷰 형태로 제공
- 현재는 1M 컨텍스트 기반 무료 접근이 언급됨
- 이건 “개발자들이 빨리 써보고 워크플로우를 붙이게 만드는” 장치로도 볼 수 있어요.
3-5. 효율/신뢰성: 하이브리드 아키텍처 + 에이전트 동작 안정성 강화(주장)
- 하이브리드 아키텍처 개선 →
- 효율
- 에너지 소비 감소
- 스케일링 향상
- 추론/에이전트 동작 신뢰성을 3.5 시리즈 대비 강화했다고 설명
3-6. 배포 지향: Wukong(엔터프라이즈 자동화) + 에이전트 툴 연동
- Wukong: 기업 업무 자동화를 위한 다중 에이전트 플랫폼
- OpenClaw, Claude Code, Klein 등과의 연결 언급
- 멀티모달 쪽도
- 밀도 높은 문서 파싱
- 실세계 시각 분석
- 긴 비디오 추론
- 스크린샷/핸드드로우 와이어프레임/목업 → 프론트엔드 코드 생성
까지 “실제 업무 입력물” 중심으로 설명합니다.
이 뉴스에서 꼭 따로 잡아야 할 ‘가장 중요한 전환점’
핵심은 하나예요.
이제 시장의 경쟁 포인트가
“얼마나 그럴듯하게 답하냐”에서
“에이전트 워크플로우 안에서 보고-추론-행동을 끝까지 반복하냐”로 이동했다는 겁니다.
그래서 세 회사의 방향이 다 달라도(Claude CONWAY vs GLM-5V-Turbo vs Qwen 3.6 Plus) 공통 분모가 있어요.
- 지속형(상주) 에이전트: 트리거/웹훅/독립 인스턴스
- 화면 기반 멀티모달: 스크린샷/영상/레이아웃을 “작업 입력”으로 취급
- 컨텍스트 확장: 200K~1M급으로 프로젝트/장문 지시 유지
- 소프트웨어 자동화: 레포 단위 코딩, 툴 연동, 반복 실행으로 결과 완성
한마디로:
AI가 대화 상대를 넘어, 운영체제처럼 ‘작업을 굴리는 주체’에 가까워지고 있어요.
업데이트된 판에서 투자/업무 관점으로 체크할 질문 5개
1) 내가 쓰는 워크플로우는 “채팅”이 아니라 “이벤트 트리거/도구 실행”까지 연결돼 있나?
2) 화면(스크린샷/영상/레이아웃)을 실제 작업 입력으로 받아서 결과까지 이어지나?
3) 컨텍스트 윈도우가 충분해서 프로젝트 단위 작업이 끊기지 않나?
4) 확장(extensions) 또는 툴 연결이 가능한 구조인가?
5) 멀티스텝 실행에서 “끝까지” 안정적으로 작동하나?
전하고자 하는 주요 내용(한 줄 정리)
Claude CONWAY의 지속형 에이전트 구조, Z.ai의 화면 인지 코딩, Alibaba의 1M 컨텍스트 기반 프로젝트 실행—이 3개가 합쳐지면서 AI 에이전트가 본격적으로 “업무 워크플로우 자동화” 단계로 진입하고 있습니다.
< Summary >
- Anthropic은 Claude를 Conway라는 지속형 에이전트 환경으로 테스트하며, 확장 생태계(CNW ZIP), 커넥터, 웹훅 트리거로 항상형 실행 방향을 보여줌
- Claude Code는 NO_FLICKER 모드와 풀 마우스 지원으로 장시간 개발 UX를 개선
- Z.ai는 GLM-5V-Turbo로 화면/레이아웃/문서/영상 입력을 더 직접적으로 이해해 에이전트 코딩까지 이어지게 설계(200K 컨텍스트, 멀티 태스크 동시 학습 주장)
- Alibaba는 Qwen 3.6 Plus에 1M 컨텍스트를 기본 탑재하고, 지각-추론-행동 루프와 레포지토리 엔지니어링을 전면에 내세움
- 결론: 경쟁이 “답변”에서 “에이전트 워크플로우 안에서 끝까지 해내는 능력”으로 이동 중
[관련글 안내]



