최근 개발자 커뮤니티와 테크 팬들 사이에서 ‘맥북에서 거대 언어 모델을 번개처럼 구동한다’는 소식이 화제를 모으고 있습니다. 그 중심에는 DeepSeek 4 Flash 라는 초대규모 모델을 위해 오직 Apple 의 Metal 그래픽 API 만을 타겟으로 설계된 로컬 추론 엔진 ds4 가 자리 잡고 있습니다. 기존에 널리 쓰이던 범용형 GGUF 런너들이 가진 무거운 추상화 계층을 과감히 걷어내고, 하드웨어와 모델 구조에 직접적으로 최적화된 코드를 작성함으로써 가능해진 속도 향상은 단순한 기술적 호기심을 넘어 실제 활용 가능성을 보여주는 신호탄이 되었습니다.
이 프로젝트가 주목받는 가장 큰 이유는 바로 ‘초특화’라는 접근 방식입니다. ds4 는 일반적인 모델들을 모두 지원하려는 만능 열쇠가 아니라, DeepSeek V4 Flash 라는 특정 모델의 MoE 구조와 2 비트 양자화 방식을 완벽하게 이해하고 이를 위해 설계된 전용 엔진입니다. 특히 128GB RAM 을 탑재한 맥북에서도 284B 파라미터 규모의 모델을 구동할 수 있도록 설계되었으며, SSD 를 제 1 의 주체로 삼아 KV 캐시를 디스크에 영구적으로 저장하는 방식을 도입했습니다. 덕분에 램 용량의 한계를 넘어서 100 만 토큰에 달하는 긴 컨텍스트를 유지하면서도 세션이 재시작되어도 상태를 잃지 않는 것이 가능해졌습니다.
실제 성능 수치는 이 접근 방식의 타당성을 입증합니다. M3 Max 칩이 탑재된 맥북 프로에서 초당 26 토큰, 더 강력한 M3 Ultra 환경에서는 초당 36 토큰의 생성 속도를 기록하며, 이는 거대 모델을 로컬에서 실시간으로 대화하듯 사용할 수 있는 수준입니다. 특히 M3 Max 기준 최대 50W 의 전력 소모로 이 같은 연산이 이루어진다는 점은 에너지 효율성 측면에서도 놀라운 결과입니다. 커뮤니티에서는 이러한 최적화 노력이 단순히 속도만 높인 것이 아니라, 프론트라인 모델이 가진 추론 능력과 오픈소스 모델의 한계를 좁히는 새로운 길을 제시한다고 평가하며 큰 관심을 보이고 있습니다.
이러한 흐름은 앞으로 로컬 AI 환경이 어떻게 변할지에 대한 중요한 시사점을 줍니다. 범용적인 프레임워크가 가진 복잡함을 줄이고, 특정 하드웨어와 모델 조합에 맞춰 코드를 직접 작성하는 ‘초특화 엔진’이 등장하면, 고가의 GPU 없이도 개인용 기기에서 최상위 수준의 AI 성능을 끌어낼 수 있게 됩니다. 물론 현재는 알파 단계이며 CPU 경로에서 macOS 의 가상 메모리 버그로 인해 크래시가 발생하는 등 안정화 과정이 필요하지만, 이 기술이 성숙해지면 앞으로는 특정 모델에 맞춰 최적화된 엔진들이 하나둘씩 등장할 가능성이 큽니다. 하드웨어 비용이 높아지는 시대에, 소프트웨어적 최적화로 성능의 격차를 줄여나가는 이 시도는 개인 개발자와 소규모 팀에게 새로운 기회를 열어줄 것으로 기대됩니다.