중국의 AI 기업인 DeepSeek가 AI계에 메기 효과를 불러 오고 있습니다. DeepSeek가 최근에 연이어 내놓고 있는 모델들과 서비스들은 업계 관계자들 뿐만 아니라 일반인, 그리고 심지어는 금융계까지 그 파급력이 어마 어마하게 커지고 있습니다. 이런 시점에 간단히 현황과 의의를 살펴 보고자 합니다.
※ 이 글은 ChatGPT를 적극 활용하여 작성됐습니다. 여담으로 DeepSeek를 활용하여 글을 써보고 싶었으나, 최근 폭발적인 인기 때문인지 이 글을 쓰는 시점에 DeepSeek가 정상 동작하지 않아 ChatGPT를 활용했습니다.
1. DeekSeek
DeepSeek(深度求索)은 2023년에 설립된 중국의 인공지능(AI) 기업으로, 저장성 항저우에 본사를 두고 있습니다. 이 회사는 중국의 헤지펀드인 High-Flyer의 전폭적인 지원을 받고 있으며, 설립자이자 CEO인 량원펑은 이전에 High-Flyer를 공동 설립한 인물입니다.
DeepSeek는 오픈 소스 대형 언어 모델(LLM)의 개발에 주력하고 있으며, 2025년 1월에는 첫 번째 무료 챗봇 앱을 출시하여 미국 iOS 앱 스토어에서 ChatGPT를 제치고 가장 많이 다운로드된 무료 앱으로 등극하였습니다. 이러한 성과는 미국의 엔비디아(Nvidia)와 같은 기술 기업들의 주가에 큰 영향을 미쳤습니다.
DeepSeek의 AI 모델은 개발 비용과 자원 면에서 효율성을 강조하며, 이는 미국의 반도체 제재 속에서도 우수한 성능을 발휘할 수 있는 기반이 되었습니다. 또한, 모든 모델을 오픈 소스로 공개하여 AI 기술의 민주화를 추구하고 있습니다.
이러한 혁신적인 접근 방식과 성과를 통해 DeepSeek는 글로벌 AI 업계에서 주목받는 기업으로 부상하고 있습니다.
2. 주목 받는 이유
DeepSeek가 주목받는 주요 이유는 다음과 같습니다:
- 혁신적인 AI 모델 개발: DeepSeek는 최신 AI 모델인 R1을 공개하여, OpenAI의 o1 모델과 동등한 성능을 보여주었습니다. 특히, 이 모델은 수학, 코딩, 추론 분야에서 우수한 성능을 나타내며, 순수 강화 학습 방식을 채택하여 지도 데이터 없이도 높은 성능을 달성하였습니다.
- 효율적인 자원 활용: DeepSeek의 AI 시스템은 미국의 주요 AI 기업들과 비교하여 훨씬 적은 비용과 컴퓨팅 자원으로 동등한 성능을 달성하였습니다. 이는 '전문가 혼합(Mixture of Experts)' 기법을 활용하여 작업에 필요한 컴퓨팅 자원만을 활성화함으로써 가능해졌습니다.
- 오픈소스 접근: DeepSeek는 자사의 AI 모델을 MIT 라이선스 하에 완전한 오픈소스로 공개하고 있습니다.
효율적인 자원 활용은 기본적으로 생성형 LLM쪽에서 비용 절감을 위해 추구하고 있는 방향 중에 하나이지만 미국의 기술 제재로 최신 GPU 모델인 H100을 수입하지 못하고 중국에 허용된 성능이 낮은 H800으로 인해 어쩔 수 없이 강요됐다고도 볼 수 있습니다. 혹자는 H100을 밀수입하여 구현해 놓고 거짓말을 하는 것이 아니냐는 이야기도 하고 있지만, 그런 하드웨어적 제약을 떠나서도 아래 기술한 기술적 의의를 보면 소프트웨어적으로 충분히 의미 있는 성과를 나타내 주목을 안 받을 수가 없는 상황입니다.
팀 블라인드에 올라온 메타 생성형 AI 조직의 글에서 해당 조직이 상당한 충격에 빠졌다는 자조적인 글은 DeepSeek이 얼마나 돌풍을 일으키고 있는지를 단적으로 보여주고 있습니다.
3. 기술적 의의
DeepSeek의 기술적 의의는 다음과 같습니다:
- 전문가 혼합(Mixture of Experts, MoE) 아키텍처: DeepSeek는 MoE 아키텍처를 도입하여, 작업에 필요한 전문가 네트워크만을 활성화함으로써 효율적인 자원 활용과 성능 향상을 달성하였습니다.
- 멀티헤드 잠재 어텐션(Multi-head Latent Attention, MLA): MLA 구조를 통해 키-값 캐시를 잠재 벡터로 압축하여 효율적인 추론을 가능하게 하였으며, 이는 메모리 사용량을 크게 줄이고 추론 속도를 향상시켰습니다.
- 대용량 데이터셋 활용: 8.1조 토큰으로 구성된 고품질의 다중 소스 코퍼스를 활용하여 모델을 사전 학습하였으며, 이를 통해 다양한 분야에서 우수한 성능을 보이고 있습니다.
- MTP에 대한 가능성 입증: R1 모델에서 MTP(Multi Token Prediction)의 실용성을 많이 입증했습니다.
특히, MLA 같은 경우는 DeepSeek가 만들어낸 방법으로 그들의 창의성 및 혁신성을 잘 나타내주는 방법입니다.
4. 산업적 의의
DeepSeek의 발전은 여러 산업 분야에 다음과 같은 영향을 미치고 있습니다:
- 기술 주식 시장 변동: DeepSeek의 효율적인 AI 모델 개발로 인해, 엔비디아와 같은 미국 기술 기업들의 주가가 하락하는 등 시장에 큰 변동을 야기하였습니다.
- AI 서비스 비용 절감: DeepSeek의 오픈소스 모델은 개발자들이 저렴한 비용으로 애플리케이션을 구축할 수 있게 하여, AI 서비스의 접근성을 높이고 있습니다.
- 산업 전반의 혁신 촉진: DeepSeek의 기술은 전자상거래, 금융, 의료 등 다양한 산업 분야에서 혁신을 촉진하고 있으며, 특히 블록체인 분석 및 암호화폐 시장 예측에 혁신을 가져올 것으로 예상됩니다.
5. 전망
DeepSeek의 향후 전망은 다음과 같습니다:
- 글로벌 AI 경쟁 심화: DeepSeek의 급격한 발전은 미국과 중국 간의 AI 기술 경쟁을 더욱 가속화할 것으로 예상되며, 이는 글로벌 AI 산업의 혁신을 촉진할 것입니다.
- AI 기술의 민주화: 오픈소스 접근 방식을 통해 AI 기술의 접근성이 높아져, 다양한 개발자와 기업들이 AI 기술을 활용한 혁신적인 제품과 서비스를 개발할 수 있을 것으로 기대됩니다.
- 산업 구조의 변화: DeepSeek의 효율적인 AI 모델은 기존의 고비용 AI 인프라에 대한 의존도를 낮추어, AI 기술의 도입과 활용에 있어 새로운 패러다임을 제시할 것으로 보입니다.
6. 여담
중국에 대한 다양한 이유로 인한 불호적인 측면을 차치하고, DeepSeek의 행보는 AI계에 메기 효과로 작용하고 있습니다. 그 동안 비공개 모델 쪽에서 OpenAI가 주도하고, 오픈 소스쪽은 메타가 주도해 오던 업계에서 OpenAI쪽에는 o1 mini 모델을 무료로 일찍 공개하게 하는 효과를 가져왔고, 메타쪽에는 잠시 주춤하던 모델의 발전에 가속도를 붙이게 되는 효과를 가져올 것으로 보입니다.
AI 업계는 전통적으로 기술에 특허권을 가져가지 않고 공개하여 서로 발전해 왔습니다. 트랜스포머 구조로 촉발된 AI의 발전이 BERT, GPT 등으로 이어오면서 서로 도우며 잘 발전하는 듯이 보였습니다. 그 전통이 GPT 2.x 대까지 이어지는 듯 하다가 3.x 부터 OpenAI가 기술은 공개하지 않은채 서비스로 주도하는 시장이 열렸고, 그렇게 주도하는 시대에서 다시 메타나 구글 등이 오픈 소스나 open weights로 기술과 모델들을 공개함으로써 서로 같이 발전하는 시대가 이어지고 있습니다. DeepSeek의 계속적인 기술 공유는 이러한 상생하는 AI 기술쪽에 긍정적인 영향력을 미칠 것으로 생각합니다.
이런 돌풍이 한국에서 촉발됐으면 얼마나 좋았을까 하는 아쉬움과 우리나라 기업들의 발전을 기원하며 글을 마쳐 봅니다.
7. 참고
- https://en.wikipedia.org/wiki/DeepSeek
- https://www.businessinsider.com/china-startup-deepseek-openai-america-ai-2025-1
- https://www.theguardian.com/world/2025/jan/28/tuesday-briefing-first-edition-donald-trump-gaza-proposal
- https://arxiv.org/abs/2405.04434
- https://www.ft.com/content/666b0737-6b6b-4d32-be8b-534db684b777
- https://www.coinreaders.com/143092
- https://brunch.co.kr/@arsenethemagic/39
- https://github.com/deepseek-ai/DeepSeek-R1
'알쓸신잡' 카테고리의 다른 글
Java - JSR, JEP (1) | 2025.02.20 |
---|---|
Grok vs Groq (0) | 2025.02.19 |
샘 앨트먼, "전통적으로 이해해온 AGI를 구축하는 방법에 대해 이제 우리는 확신을 갖고 있습니다" (0) | 2025.01.07 |
open weights 의미 (2) | 2024.10.30 |
second lost updates problem에서 second는 왜 붙였을까? (5) | 2024.10.28 |