딥시크(DeepSeek)는 AI 모델 V3 개발에 엔비디아의 저사양 서버용 GPU인 H800을 사용했습니다. 이는 미국 정부의 AI 칩 수출규제로 인해 최첨단 GPU를 자유롭게 활용할 수 없는 상황에서 선택한 대안이었습니다.
H800 GPU의 특징
H800은 엔비디아의 고사양 칩 H100의 성능을 대폭 낮춘 버전으로, 데이터 전송속도가 H100보다 55% 낮은 초당 400GB 수준입니다. 딥시크는 V3 모델 훈련에 2048장의 H800 GPU를 사용했다고 밝혔습니다.
개발 비용과 효율성
딥시크는 V3 모델 개발에 약 80억 원의 비용과 총 279만 시간 분량의 H800 GPU를 사용했다고 주장했습니다. 이는 GPT-4 개발 비용의 약 6%에 불과한 금액으로, 놀라운 비용 효율성을 보여줍니다.
논란과 의혹
그러나 딥시크의 주장에 대해 의문이 제기되고 있습니다:
- 일부 전문가들은 딥시크가 실제로는 더 많은 GPU를 보유하고 있을 수 있다고 의심합니다.
- 개발 비용에 사전 연구와 실험 비용이 포함되지 않았다는 지적이 있습니다.
- 일각에서는 2048장의 저사양 GPU 뒤에 5만 장의 H100이 동작하고 있다는 소문도 있습니다.
영향과 전망
딥시크의 성과는 AI 업계에 큰 파장을 일으켰습니다. 엔비디아의 주가 하락과 함께, 중소 AI 업체들에게 새로운 가능성을 제시했습니다. 또한, PC용 AI 칩 시장의 성장과 GDDR 메모리의 중요성이 부각되고 있습니다.
결론적으로, 딥시크의 H800 GPU 사용은 AI 모델 개발의 새로운 패러다임을 제시했지만, 그 실제 내용에 대해서는 여전히 논란이 있습니다. 앞으로 이 기술의 발전과 검증 과정을 지켜볼 필요가 있겠습니다.