최근 AI 개발자 커뮤니티와 고급 사용자들 사이에서 Anthropic 의 주력 모델인 클로드의 성능이 예전만 못하다는 지적이 잇따랐습니다. 복잡한 추론 작업에서 정확도가 떨어지고, 필요 없는 환각 현상이 빈번해지며, 토큰 소모가 비효율적이라는 불만이 GitHub, X, Reddit 등 주요 플랫폼에서 동시에 제기되었습니다. 이러한 사용자들의 체감은 단순한 우연이 아니었습니다. Anthropic 이 공식적으로 성능 저하를 인정하고 기술적 사후 분석 보고서를 공개하면서, 그 원인이 모델 자체의 가중치 변화가 아닌 운영 환경의 미세한 조정에서 비롯되었음이 확인되었습니다.
구체적으로 분석된 바에 따르면 성능 하락은 세 가지 주요 변수가 복합적으로 작용한 결과였습니다. 첫째, 3 월 초 UI 응답 속도를 개선하기 위해 클로드 코드의 기본 추론 노력 수준을 높음에서 중간으로 낮춘 조치가 복잡한 작업 수행 능력을 저하시켰습니다. 둘째, 3 월 말 배포된 캐싱 최적화 업데이트에 포함된 버그가 유휴 세션의 사고 기록을 반복적으로 삭제하게 만들어 모델의 단기 기억력을 손상시켰습니다. 이로 인해 모델이 이전 맥락을 잃고 반복적이거나 부정확한 답변을 내놓는 현상이 발생했습니다. 셋째, 4 월 중순 응답의 장황함을 줄이기 위해 툴 호출 사이 텍스트와 최종 응답 길이를 엄격히 제한하는 시스템 프롬프트가 추가되면서 코딩 품질 평가에서 약 3% 의 하락이 관측되었습니다.
이러한 변화는 클로드 코드 CLI 뿐만 아니라 에이전트 SDK 와 코워크 기능 전반에 영향을 미쳤으나, API 는 상대적으로 큰 타격을 입지 않은 것으로 나타났습니다. 서드파티 평가 기관의 데이터에서도 클로드 옵스 4.6 의 정확도가 83.3% 에서 68.3% 로 하락하며 순위가 급격히 추락한 사실이 확인되었습니다. Anthropic 은 모델 가중치 자체는 변경되지 않았음을 강조하며, 문제의 핵심이 모델을 둘러싼 하네스, 즉 운영 지침과 시스템 설정의 변경에 있었다고 설명했습니다.
현재 Anthropic 은 추론 노력 설정과 길이 제한 지침을 원래 상태로 되돌렸으며, 캐싱 버그는 특정 버전에서 수정 완료했습니다. 또한 피해 보상의 일환으로 구독자의 사용량 한도를 초기화하고, 재발 방지를 위해 내부 직원의 퍼블릭 빌드 직접 사용 의무화와 시스템 프롬프트 변경 시 광범위한 평가 절차를 도입할 계획을 밝혔습니다. 향후 클로드의 성능 안정성은 이러한 운영 프로세스의 투명성과 검증 시스템이 얼마나 잘 작동하느냐에 달려 있을 것으로 보입니다. 사용자는 모델의 내부적 변화보다는 외부적 설정 변경에 따른 성능 변동을 주의 깊게 지켜봐야 할 시점입니다.