안토로픽이 최근 공개한 AI 모델 ‘페이블’이 사이버 보안 전문가들 사이에서 뜨거운 감자가 되었습니다.
이 모델은 기존에 기업용으로만 제한되던 ‘마이토스’의 대중화 버전으로 소개되었습니다. 하지만 막상 사용해보니 예상치 못한 제약에 부딪힌 경우가 많았습니다.
가장 큰 문제는 모델이 지나치게 민감하게 반응하는 안전 장치입니다. 단순히 블로그 글을 읽거나 일반적인 코드를 작성하는 등 일상적인 요청조차 ‘사이버 보안’이나 ‘생물학’ 관련 질문으로 오인하여 거절해 버립니다.
IBM X-Force 에서 근무하는 발렌티나 팔미오티 같은 유명 보안 연구자는 이 현상을 두고 “과도한 경계심이 오히려 생산성을 떨어뜨린다”고 지적했습니다. 실제 테스트에서 단순한 날씨 예보 요청조차 보안 관련 맥락이 없다고 판단해 답변을 거부하는 사례가 다수 발견되었습니다.
이러한 현상은 AI 가 특정 분야에 특화될 때 발생할 수 있는 ‘맥락 과잉 해석’의 전형적인 사례로 보입니다. 개발팀은 안전성을 높이기 위해 필터를 강화했지만, 그 결과 일반 사용자의 자연스러운 흐름까지 차단하는 부작용이 나타난 것입니다.
앞으로 안토로픽이 이 문제를 어떻게 해결할지 주목해야 합니다. 지나치게 보수적인 안전 장치를 완화하되, 핵심적인 보안 기능은 유지하는 균형점을 찾는 것이 관건이 될 것입니다.
이 시도가 AI 의 실용성과 안전성 사이의 새로운 기준을 제시할지 여부가 다음 달 업데이트에서 확인될 예정입니다.