엔비디아, RTX 5090 한 장으로 1 분 영상 만드는 ‘SANA-WM’ 공개: AI 영상 생성의 문턱이 무너진 이유

고해상도 장시간 영상 생성에 막대한 GPU 자원이 필요했던 과거와 달리, 엔비디아의 최신 오픈소스 모델은 단일 RTX 5090 만으로 720p 해상도의 1 분 영상을 34 초 만에 만들어냅니다. 로봇 훈련과 가상 시뮬레이션의 핵심인 월드 모델이 대중화되는 순간입니다.

배소라 5월 18, 2026 1 분 읽기

엔비디아, RTX 5090 한 장으로 1 분 영상 만드는 'SANA-WM' 공개: AI 영상 생성의 문턱이 무너진 이유

배소라

AI 영상 생성 기술이 이제 막대한 서버 풀 없이도 개인용 그래픽카드 한 장으로 고해상도 장시간 영상을 뚝딱 만들어내는 시대로 진입했습니다. 엔비디아가 최근 공개한 오픈소스 월드 모델 ‘SANA-WM’은 기존 기술의 가장 큰 병목이었던 연산량과 메모리 문제를 획기적으로 해결하며 커뮤니티를 뜨겁게 달구고 있습니다. 특히 지포스 RTX 5090 같은 최신 소비자용 GPU 하나만으로 60 초 길이의 720p 영상을 34 초 만에 생성해낸다는 사실은 단순한 성능 향상을 넘어, AI 연구와 창작의 진입 장벽을 낮추는 분수령이 되고 있습니다.

이 모델이 주목받는 핵심 이유는 ‘효율성’과 ‘정밀한 제어’가 동시에 잡혔기 때문입니다. 기존 트랜스포머 기반 모델들은 영상 길이가 길어질수록 연산량이 기하급수적으로 늘어나 여러 개의 GPU 를 동원해야 했지만, SANA-WM 은 하이브리드 선형 어텐션 구조를 도입해 메모리 사용량을 대폭 줄였습니다. 여기에 카메라의 위치와 회전을 포함한 6 자유도 움직임을 정밀하게 제어할 수 있는 듀얼-브랜치 카메라 컨트롤 기술을 적용해, 단순한 이미지 생성을 넘어 현실적인 영상 시퀀스를 구현하는 데 성공했습니다. 초기 이미지 하나와 카메라 움직임 정보만으로도 로봇 훈련이나 가상 시뮬레이션에 바로 투입할 수 있는 고품질 데이터를 생성할 수 있게 된 것입니다.

커뮤니티 반응은 기술적 혁신보다는 ‘접근성’에 집중되어 있습니다. 루리웹 등 IT 및 게임 커뮤니티에서는 고가의 서버 인프라 없이도 개인 개발자가 고품질 월드 모델을 실험할 수 있게 된 점에 큰 관심을 보이고 있습니다. 특히 26 억 개 매개변수 규모로 경량화되면서도 720p 해상도의 1 분 영상을 네이티브로 생성할 수 있다는 점은, 그동안 대기업이나 연구소만의 전유물이었던 고해상도 영상 생성 기술을 개인 창작자와 스타트업으로 확산시키는 결정적 계기가 될 것으로 보입니다. 이는 AI 산업 전반에서 온디바이스 전환과 모델 효율화가 가속화되고 있음을 보여주는 강력한 신호입니다.

앞으로 주목해야 할 점은 이 오픈소스 모델의 가중치가 공개된 후 실제 적용 사례가 어떻게 확장될지입니다. 엔비디아가 코드와 논문은 공개했지만 가중치는 추후 배포한다고 밝힌 만큼, 개발자들이 이를 기반으로 어떤 형태의 로봇 훈련 데이터나 메타버스 환경을 구축할지가 관건입니다. 단일 GPU 환경에서도 복잡한 물리 법칙을 반영한 긴 영상을 생성할 수 있게 되면서, 자율주행 시뮬레이션부터 게임 내 NPC 행동 학습까지 그 활용 범위가 무한히 넓어질 전망입니다. 이제 AI 영상 생성은 더 이상 막대한 비용의 문제가 아니라, 창의력과 아이디어의 문제가 된 셈입니다.