Fable 5 안전장치 논란 총정리

·

·

“Fable 5가 너무 강한데, 왜 자꾸 거절/하향이 나오지?”… 신뢰가 흔들린 ‘안전장치 논쟁’ 총정리

지금 인터넷이 가장 화난 지점(핵심만 먼저)

이번 논란은 단순히 “안전 필터가 있어서 거절이 뜬다” 수준이 아니에요. 핵심은 사용자가 받는 결과가 ‘광고된 Fable 5 그대로’인지에 대한 신뢰가 깨졌다는 겁니다.

구체적으로 사용자들이 문제 삼는 건 3가지예요. 첫째, 무해한 프롬프트도 거절하거나 둘째, 때로는 더 약한 모델로 ‘겉으로는 전환 표시’가 보이는 하향이 나오고 셋째, 더 큰 이슈인 “사용자에게 고지되지 않는 조용한 성능 약화(보이지 않는 제한)”가 있다는 의혹이 확산됐습니다.

이 글에선 아래 내용을 뉴스형식으로, 그룹별/항목별로 깔끔하게 정리할게요. 또, 마지막에 제가 보기엔 “이 논쟁에서 사람들이 진짜 놓치면 안 되는 포인트”도 따로 뽑아 드릴게요.

(참고 SEO 키워드: AI 안전장치, 거짓 양성, 모델 라우팅, 신뢰(Trust), 개방형 vs 폐쇄형)


1) 논란의 시작: ‘거절 빈도’와 ‘거짓 양성’이 너무 빨리 부각

1-1. “hello”만 쳐도 막힌 사례가 바이럴

런칭 직후, 사용자가 “거절이 너무 잦다”는 피드백을 쏟아냈어요. 대표적으로 Claude 코드 환경에서 안전 분류기가 동작하면서, 첫 턴부터 거절/전환이 발생했다는 사례가 공유됐고, 어떤 계정에서는 입력이 “hello” 하나였다는 사례까지 나왔습니다.

1-2. Anthropic이 처음부터 ‘보수적으로 튜닝했다’고 경고했지만…

Anthropic은 애초에 가드레일(안전장치)이 보수적으로 설정돼 무해 요청도 일부는 잡아낼 수 있으며 평균적으로 세션 기준 트리거율이 5% 미만일 거라고 설명했어요.

근데 여기서 문제가 생겼죠. 사용자 규모가 크면 “작은 비율”이 실제로는 엄청난 체감 노이즈가 되거든요. 그래서 빠르게 GitHub 이슈, 스크린샷, 버그 리포트가 쌓이면서 신뢰 이슈로 번졌습니다.

1-3. 도메인별로 ‘정상 업무’가 막히는 불만

단순 취미 사용자 불만이 아니라, 전문 영역에서 거짓 양성이 체감됐다는 점이 더 커 보였어요.

  • 코딩/개발: 보안/아키텍처 관련 문서 수정 등 정상적인 작업이 걸렸다는 제보
  • 바이오/의료: “cancer” 같은 흔한 단어가 생물보안 위험으로 플래그됐다는 지적
  • 연구/관리: 특정 비연구 목적의 시스템/업무 요청도 제한된 사례

즉, “안전”이라는 명분이 맞더라도 사용자는 “왜 내 정상이 거절되지?”로 받아들이게 됐고, 이게 온라인에서 폭발한 거예요.


2) 더 큰 논쟁: ‘보이는 하향’이 아니라 ‘보이지 않는 제한’ 의혹

2-1. 겉으론 모델이 바뀌는 경우도 있지만(표시됨)

여기까지는 흔히 있는 안전 정책 범주로 볼 수 있어요. 사용자가 플래그된 요청을 하면 Opus 4.8로 눈에 띄게 폴백(fallback)되는 식이면, 적어도 사용자는 “아, 지금은 다른 모델이구나”라고 인지할 수 있죠.

이건 불편하지만 비교적 투명하다는 평가를 받을 수 있는 영역이에요.

2-2. 그런데 문제는 ‘투명하지 않은 약화’(사용자 고지 없음)

논쟁의 핵심은 319페이지짜리 시스템 카드(system card)에서 언급된 “특정 최첨단 개발 작업”에서 사용자에게 명확히 알리지 않고 성능/도움 정도를 조용히 깎는 방식이 있을 수 있다는 해석이 나왔다는 점입니다.

구체적으로는 예를 들면 이런 방식들이 언급된 것으로 알려졌어요. 프롬프트 수정(prompt modification), 스티어링 벡터(steering vectors), PEFT(파라미터 효율 파인튜닝) 같은 개념으로 “특정 상황에서 모델이 덜 유능하게 반응하도록 손대는” 개입 가능성이 제기됐습니다.

2-3. 영향 영역이 ‘일반 사용자’가 아니라 ‘프런티어 AI 개발’ 쪽

이 제한이 걸리는 범주로 거론된 건프런티어 규모의 학습 파이프라인, 분산 학습 인프라, 가속기/칩 설계 관련 등 일반적인 고객 문의가 아니라, 최전선 연구/개발에 가까운 영역이었습니다.

그래서 사람들의 반응이 “안전장치가 과하다”에서 “그럼 내가 받는 건 진짜 모델이 맞나?”로 바뀐 거죠.


3) 신뢰(Trust) 문제로 번진 이유: ‘거절’은 티가 나는데 ‘약화’는 티가 안 난다

3-1. 사용자 입장에선 ‘실패’인지 ‘다운로드’인지 구분이 안 됨

만약 모델이 답을 거절하면, 사용자는 “거절당했다”는 걸 알아요. 또 모델이 다른 버전으로 폴백되면 “이제 성능이 떨어졌구나”도 인지할 수 있죠.

근데 “질문은 했는데 결과가 이상하게 약하다”면 사용자는 두 가지 중 어느 쪽인지 모호해져요.

  • 모델이 원래 그런 답을 낸 건지(자연스러운 실패)
  • 회사가 뒤에서 성능을 낮춘 건지(의도된 제한)

이 ‘구분 불가능’이 곧바로 신뢰 이슈로 직결됐습니다.

3-2. 비유가 센 이유: 보이지 않는 개입은 도구의 투명성을 흔든다

일부 비평에서는 “프롬프트 수정/가공”이 사용자 관점에서 사실상 중간자 공격(MITM)과 유사하게 느껴진다고도 말했어요. 물론 기술적으로 동일한 건 아니지만, 사용자의 체감은 “내 입력이 그대로 처리되지 않았다”에 가까워진다는 점이죠.


4) 경쟁/독점 논쟁으로 확장: “안전”이 아니라 “반(反)과학/반진보”라는 해석

4-1. “최상위 연구는 되고, 다른 연구는 제한된다”는 주장

비판자들은 단순히 “더 풀어줘”가 아니라, 최전선 모델 접근권이 특정 주체에 더 유리하게 작동할 수 있다고 봤습니다.

즉, 최상위 연구는 가능하게 두고 다른 사람들이 동일한 방향으로 접근하려 할 때는 조용히 약화한다면 생태계에서 상위 연구격차가 더 커질 수 있다는 거예요.

4-2. 정책 목적이 ‘안전/악용 방지’라는 설명 vs “그렇지만…”의 충돌

Anthropic 측은 안전장치의 목적이외부 적대 주체의 악용, 프런티어 위험 억제, 그리고 경쟁 모델 개발 방지(약관 준수)라고 설명했어요.

하지만 비판자들은 “안전”이 명분이더라도 투명하지 않은 제한이 반복되면 안전 담론이 독점/권한 통제의 포장처럼 보일 수 있다고 지적했습니다.

4-3. 전 직원/연구자 반응이 파장을 키움

일부 전/현 연구 커뮤니티 인사들이 “특정 질병 주제(예: cancer, Alzheimer 등)에서 모델이 덜 도와줄 수 있다”는 식의 감각을 공유하면서 신뢰 손상이 더 크게 느껴졌다는 평가도 나왔습니다.


5) Anthropic의 대응: “너무 강했다” 인정 + ‘가시성(visible)’ 강화로 선회

5-1. 거절/필터 강도가 과했다는 사과

논란이 커지자 Anthropic은 가드레일이 지나치게 강하게 설정됐고, 균형을 더 잘 맞추지 못했다고 인정하면서 조정하겠다고 밝혔습니다.

5-2. Frontier 개발 관련 안전장치의 ‘가시화’를 약속

가장 중요한 변화는 이거예요. 프런티어 LLM 개발 관련 제한이 걸리는 경우, 사용자가 눈치챌 수 있게 만들겠다는 계획입니다.

  • 플래그 요청이 들어오면 Opus 4.8로 폴백되는 것이 명확히 보이게 변경
  • API에서는 거절 사유가 리턴되도록 변경

이건 “보이지 않는 약화” 우려를 정면으로 눌러버리는 조치라, 이번 논쟁의 중심 쟁점을 겨냥한 카드로 읽힙니다.

5-3. 트리거율 수치도 업데이트(“작다”에서 “조금 더 정확히”로)

초기에는 트리거율 추정치(약 0.03% 등)가 논의됐는데, Anthropic은 실제 사용 데이터를 근거로 현재는 더 높은/다른 수치로 조정해 설명했습니다.

숫자 자체보다 중요한 건 “원칙적으로 사용자는 언제 제한되는지 알아야 한다”는 공감대가 커졌다는 점이에요.


6) 시장이 보는 다음 방향: “성능”만큼 “투명한 신뢰”가 경쟁력

6-1. 이 사건이 보여주는 ‘프런티어 AI’의 새로운 기준

이번 Fable 5 논쟁은 결론적으로최강 성능(능력, capability)이 아니라사용자가 실제로 받는 결과가 믿을 만한가(신뢰, trust)가 평가축으로 떠오른다는 걸 보여줬습니다.

앞으로 기업들은 모델을 “누가 쓰게 할지”뿐 아니라 어떤 상황에선 얼마나 똑똑하게 허용할지를 더 정교하게 제어하려고 할 거예요.

6-2. 끝내 사용자/연구자 반발을 부를 가능성

근데 이 제어가 “뒤에서 몰래” 일어나면 사용자는 납득하기 어렵고, 연구자들은 재현성과 공정성을 의심하게 됩니다.

그래서 앞으로는가시성 있는 안전장치, 설명 가능한 라우팅(model routing), 측정 가능한 안전 정책같은 요구가 더 강해질 확률이 큽니다.

6-3. 개방형 vs 폐쇄형 구도에 ‘명확한 메시지’ 제공

이 논란은 오픈소스 진영 입장에선 “왜 투명성이 중요한지”를 설득하는 사건이 됐어요.

  • 폐쇄형: 가중치뿐 아니라 행동/제어 로직이 숨겨질 수 있음
  • 개방형: 로컬 테스트/점검/튜닝 가능 → 최소한 “어떤 일이 가능한지” 검증이 쉬움

그렇다고 오픈소스가 자동으로 정답이란 말은 아니지만, 사용자 신뢰 관점에선 “볼 수 있는 게 더 낫다”는 서사가 더 강해졌다고 보면 돼요.


독자들이 꼭 기억해야 할 ‘이 논쟁의 한 줄’(다른 곳에서 덜 말하는 포인트)

안전장치 논쟁의 본질은 “필터가 있냐 없냐”가 아니라, 사용자가 ‘같은 프롬프트에 대해 같은 모델(동일한 역량)을 기대할 수 있는가’의 문제입니다.

즉, 앞으로 AI 서비스 경쟁력은 성능 벤치마크뿐 아니라 모델이 언제 어떤 방식으로 바뀌는지(또는 약화되는지)를 얼마나 투명하게 알려주느냐로 갈 가능성이 커요.

이 지점이 흔들리면, 모델이 아무리 강해도 “믿고 쓰는 도구”가 아니라 “상황에 따라 변하는 불확실한 도구”로 인식되면서 시장 신뢰가 손상됩니다.


전망(다음 이슈 체크리스트)

  • 가시화 정책이 실제로 충분했는지: 폴백/거절 사유 표시의 품질과 일관성
  • 거짓 양성(거절 빈도) 감소 속도: “보수 튜닝”의 후속 조정 여부
  • 프롬프트 수정/라우팅이 어느 정도까지 투명하게 공개되는지: 사용자에게 ‘알 수 있어야’ 함
  • 규제/업계 표준 논의: 폐쇄형 모델의 행동 제어 가시성에 대한 공통 가이드 등장 가능성

< Summary >

이번 논란은 Anthropic의 Claude “Fable 5”가 무해한 요청도 거절하거나, 때로는 다른(더 약한) 모델로 폴백되는 사례가 빠르게 확산되면서 시작됐어요. 더 큰 불만은 시스템 카드 해석을 통해 사용자에게 고지되지 않는 조용한 성능 약화(투명하지 않은 제한)가 의심된 점이고, 이게 “내가 받는 게 진짜 Fable 5인지”에 대한 신뢰 문제로 커졌습니다. Anthropic은 결국 “안전장치가 너무 강했다”고 인정하고, 프런티어 개발 관련 제한을 가시화(폴백 표시/ API 거절 사유 제공)하겠다고 약속하면서 한발 물러섰어요. 결론적으로 앞으로 프런티어 AI는 능력(capability)뿐 아니라 신뢰(Trust)를 보장하는 투명성이 경쟁의 핵심 기준이 될 가능성이 큽니다.


[관련글고…]


“Fable 5가 너무 강한데, 왜 자꾸 거절/하향이 나오지?”… 신뢰가 흔들린 ‘안전장치 논쟁’ 총정리 지금 인터넷이 가장 화난 지점(핵심만 먼저) 이번 논란은 단순히 “안전 필터가 있어서 거절이 뜬다” 수준이 아니에요. 핵심은 사용자가 받는 결과가 ‘광고된 Fable 5 그대로’인지에 대한 신뢰가 깨졌다는 겁니다. 구체적으로 사용자들이 문제 삼는 건 3가지예요. 첫째, 무해한 프롬프트도 거절하거나 둘째, 때로는 더 약한…

Feature is an online magazine made by culture lovers. We offer weekly reflections, reviews, and news on art, literature, and music.

Please subscribe to our newsletter to let us know whenever we publish new content. We send no spam, and you can unsubscribe at any time.

English