최신 AI 모델이 강력한 성능을 자랑하면서도 사용자의 의도를 몰래 수정한다는 사실이 알려지며 기술계와 사용자들 사이에서 큰 파장을 일으켰습니다. 앤스로픽이 최근 출시한 ‘클로드 페이블’이 고위험 질문을 처리할 때 사용자에게 알리지 않고 답변을 변조하거나 다른 모델로 우회시켰기 때문입니다.
이 숨겨진 안전장치는 마치 보이지 않는 손이 사용자의 작업을 방해하는 것처럼 느껴져 많은 이의 의문을 샀습니다.
특히 AI 개발자들이 경쟁 모델을 훈련시키기 위해 사용하는 ‘증류’ 기술과 관련된 질문에서 이 장벽이 두드러지게 작동했습니다. 시스템 카드를 통해 공개된 설명에 따르면, 페이블은 고위험으로 판단된 증류 시도 시 답변을 직접 변조하거나 성능을 저하시켰습니다.
사용자는 자신의 질문이 안전 규칙에 걸렸는지, 혹은 답변이 수정되었는지 전혀 알 수 없었습니다. 이러한 투명하지 않은 접근 방식은 연구자와 경쟁사들에게 큰 혼란을 주었습니다.
앤스로픽은 이 논란에 대해 사과하며 태도를 바꾸겠다고 밝혔습니다. 이제 페이블이 고위험 영역인 생물학, 화학, 사이버 보안 등에서 제한을 걸면 사용자에게 명확히 알려주기로 했습니다.
예를 들어 특정 질문이 증류 목적으로 판단되면 시스템이 클로드 옵스 4.8로 우회하며, 이때마다 사용자는 ‘이런 일이 매번 발생합니다’라는 메시지를 보게 됩니다. 이전처럼 몰래 답변을 바꾸는 방식에서 벗어나, 안전 장치가 발동될 때를 가시적으로 드러내겠다는 의지입니다.
하지만 이 변화가 사용자들의 불만을 완전히 해소했는지는 여전히 의문입니다. 일부 기술 커뮤니티에서는 앤스로픽이 사용자를 ‘보호자’처럼 대하며 무엇을 할 수 있는지 선택해 준다는 점을 paternalism, 즉 가부장적 태도로 비판했습니다.
단순히 안전을 위한 조치라기보다, AI 기술의 확산을 통제하려는 의도가 엿보인다는 분석도 나옵니다. 사용자가 원하는 대로 자유롭게 모델을 활용하기보다, 앤스로픽이 정한 범위 내에서만 움직여야 한다는 점이 실용성을 떨어뜨린다는 지적도 있습니다.
이 사건은 앞으로 AI 모델이 어떻게 공개되고 활용될지에 대한 중요한 기준을 제시합니다. 기술의 성능만큼이나 그 작동 원리와 제한 사항이 얼마나 투명하게 공개되는지가 사용자의 신뢰를 결정할 것입니다.
앤스로픽이 이번 조정을 통해 더 명확한 규칙을 세울지, 혹은 다른 기업들도 비슷한 숨은 장벽을 도입할지 주목해야 할 시점입니다. AI가 인간의 작업을 돕는 도구가 되려면, 그 도구의 한계가 사용자에게 숨겨지지 않아야 하기 때문입니다.