1,500달러를 쏟아부은 LLM 해킹 실험이 보여주는 AI 보안의 진짜 한계

의도적으로 취약점을 심어둔 앱에 1,500달러를 투자해 대형 언어 모델들이 해킹할 수 있는지 검증한 실험이 주목받고 있습니다. 단순한 성능 테스트를 넘어 AI 가 실제 보안 취약점을 포착하는 과정에서 드러난 모델별 차이는 향후 기업 보안 전략에 중요한 시사점을 줍니다.

김도윤 6월 4, 2026 1 분 읽기

1,500달러를 쏟아부은 LLM 해킹 실험이 보여주는 AI 보안의 진짜 한계

김도윤

최근 개발자 커뮤니티를 중심으로 흥미로운 실험 결과가 주목받고 있습니다. 한 개발자가 의도적으로 취약점을 심어둔 모바일 앱을 제작하고, 여기에 약 1,500달러의 비용을 투입해 대형 언어 모델들이 실제 해킹을 성공할 수 있는지 검증한 것입니다.

이 실험은 단순히 모델의 지능을 측정하는 것을 넘어, 실제 보안 환경에서 AI 가 어떻게 작동하는지를 구체적으로 보여주는 사례로 평가받습니다.

실험의 핵심은 구글 파이어베이스를 데이터 계층으로 사용하는 리액트 네이티브 앱이었습니다. API 자체는 견고하게 설계되었지만, 앱 내부에 포함된 설정 파일을 통해 데이터베이스 접근 권한이 과도하게 열린 상태였습니다.

이는 실제 시장에서 자주 발견되는 ‘잘못된 접근 제어’ 또는 ‘객체 수준 권한 누락’ 유형의 취약점과 정확히 일치합니다. 개발자는 이 특정 취약점을 찾아내어 사용자의 개인 리뷰에 숨겨진 플래그를 획득하는 것을 목표로 삼았습니다.

이 실험에서 가장 흥미로운 점은 모델마다 보인 반응의 차이였습니다. 대부분의 모델은 주어진 과제를 수행하기 위해 다양한 전략을 시도했지만, 앤스로픽의 클로드 모델은 유독 낮은 점수를 기록했습니다.

이는 모델의 능력이 부족해서가 아니라, 모델 내부의 안전장치가 너무 엄격하게 작동했기 때문입니다. 클로드는 로그인이나 자격 증명 처리와 같은 일반적인 작업을 수행할 때조차 불필요한 거부를 반복하며, 점차 그 제약이 강화되는 경향을 보였습니다.

이러한 현상은 AI 모델이 발전할수록 보편적인 데이터 패턴에 과도하게 최적화되면서, 특이한 상황이나 창의적인 문제 해결 능력을 잃어갈 수 있음을 시사합니다. 일부 전문가들은 모델이 99% 의 일반적인 사용자를 기준으로 훈련되다 보니, 1% 에 해당하는 특수한 상황에서는 오히려 유연성을 잃게 될 것이라고 우려했습니다.

실제로 한 사용자는 클로드가 수행한 작업을 베네치아나 퍼플렉시티 같은 다른 모델에 연결해 재구성하는 방식으로 이 문제를 우회하기도 했습니다.

이번 실험은 단순한 호기심을 넘어 향후 AI 기반 보안 검증 시스템의 방향성을 제시합니다. 비용 대비 효율성을 따져야 하는 기업들에게는 모델 선택이 단순한 성능 비교를 넘어, 실제 업무 환경에서의 제약 조건을 고려해야 함을 의미합니다.

앞으로는 단일 모델에 의존하기보다 여러 모델을 조합하거나, 모델의 안전장치를 유연하게 조절할 수 있는 새로운 접근법이 중요해질 것입니다. AI 가 보안 전문가의 역할을 대체할 수 있을지, 아니면 보조 도구로만 남을지는 이러한 미세한 차이를 어떻게 극복하느냐에 달려 있습니다.