DeepSeek V4 Preview 공개 — 1.6T MoE, 1M 컨텍스트 정리 (2026-04)

한눈에 보는 DeepSeek V4 Preview¶

2026년 4월 24일, DeepSeek가 차세대 플래그십 모델 DeepSeek V4 Preview를 공개했다. 작년 R1 발표 이후 정확히 1년 만이다. 공식 API docs와 Hugging Face 모델 카드, 그리고 Bloomberg·MIT Technology Review·Al Jazeera 보도를 교차 확인한 기준으로 핵심만 정리하면 다음과 같다.

두 모델 동시 공개: DeepSeek-V4-Pro(1.6T 파라미터, 49B 활성)와 DeepSeek-V4-Flash(284B 파라미터, 13B 활성).
컨텍스트 1,000,000 토큰: 양쪽 모두 1M 토큰 컨텍스트를 공식 지원한다.
라이선스 MIT: Hugging Face에 가중치가 공개됐고, 상업적 이용도 허용되는 MIT 라이선스로 배포된다.
API 즉시 가용: DeepSeek API에서 바로 호출할 수 있다. 공식 docs에 따르면 OpenAI ChatCompletions 호환과 Anthropic API 호환을 모두 제공하고, Thinking / Non-Thinking 듀얼 모드를 지원한다.
위치 짚기: 공식 docs 표기는 “Preview”다. 정식판이 아니라 프리뷰 단계라는 점을 본문에서 계속 의식하자.

이 글은 한 가지 톤을 유지한다. 공식 발표·모델 카드에 있는 사실만 단정 표현으로 쓰고, 매체 보도·전문가 추정·커뮤니티 해석은 반드시 “보도”, “추정”, “미확인” 라벨로 낮춰 쓴다. 1년 전 R1 때처럼 숫자가 떠다니다 정정되는 일을 줄이기 위해서다.

무엇이 새로워졌는가 — 1.6T MoE + 1M 컨텍스트 + Hybrid Attention¶

MoE 구조에서 일부 전문가만 활성화되고 1M 컨텍스트 바가 강조된 다이어그램

V4의 핵심 메시지는 세 가지다. 모두 Hugging Face 모델 카드와 공식 docs에 직접 명시돼 있다.

1) MoE — 거대 모델, 작게 활성화¶

V4-Pro의 총 파라미터는 1.6T다. 다만 추론 시 실제로 동작하는 건 49B 수준이다. 흔히 Mixture-of-Experts 라고 부르는 구조로, 입력마다 일부 전문가(expert) 블록만 활성화된다. V4-Flash도 같은 구조이며 총 284B / 활성 13B로 더 가볍다. “초거대”의 표현력을 갖되 추론 비용은 활성 파라미터에 가깝게 묶어두는 설계 의도가 분명하다.

2) 1M 컨텍스트 — 코드베이스 통째로 한 번에¶

양쪽 모델 모두 컨텍스트 길이가 1,000,000 토큰이다. 공식 모델 카드 명시 사항이며, 별도의 “롱 컨텍스트 모드 SKU” 같은 분리 없이 기본 사양으로 제공된다. 실무 시나리오로 옮기면, 중간 규모의 모노레포 일부, 긴 PDF 묶음, 대규모 로그 코퍼스를 한 번의 프롬프트에 담는 옵션이 생긴 셈이다.

3) 하이브리드 어텐션 — 효율의 핵심¶

DeepSeek가 이번에 가장 강조한 기술 지점은 하이브리드 어텐션 구조다. 모델 카드에는 Compressed Sparse Attention(CSA) 와 Heavily Compressed Attention(HCA) 의 결합으로 표현돼 있고, 공식 docs는 같은 아이디어를 DSA(DeepSeek Sparse Attention) 또는 Novel Attention 으로도 부른다. 모델 카드가 명시한 효율 수치는 다음과 같다.

V4-Pro: 1M 토큰 컨텍스트 기준 단일 토큰 추론 FLOPs를 V3.2 대비 약 27% 수준, KV 캐시는 약 10% 수준만 사용.
V4-Flash: MIT Technology Review 보도에 따르면 V3.2 대비 계산량 약 10%, 메모리 약 7% 수준.

여기에 Manifold-Constrained Hyper-Connections (mHC) 로 잔차 연결을 강화해 레이어 간 신호 전파를 안정화했고, 최적화 단계에서는 Muon 옵티마이저를 도입해 수렴 속도와 학습 안정성을 끌어올렸다고 모델 카드가 밝힌다. 정밀도는 양 모델 모두 FP4 + FP8 mixed다. MoE 전문가 파라미터는 FP4, 그 외 대부분은 FP8로 운영한다.

엔지니어 입장에서 한 줄로 요약하면, “긴 컨텍스트를 다루면서도 추론 단가를 깎기 위해 어텐션을 새로 깎고, 가중치 정밀도를 더 낮은 비트로 내렸다”는 이야기다.

공식 벤치마크와 가격 — 모델 카드·매체 인용 그대로¶

V4-Pro의 Instruct 모델 점수는 Hugging Face DeepSeek-V4-Pro 모델 카드에 게재된 표를 그대로 옮긴다. 별도 가공 없이 인용하는 게 가장 안전하다.

지식·추론
MMLU-Pro (EM): 87.5
GPQA Diamond (Pass@1): 90.1
SimpleQA-Verified (Pass@1): 57.9
Chinese-SimpleQA (Pass@1): 84.4
코딩
LiveCodeBench (Pass@1): 93.5
Codeforces (Rating): 3,206
장문맥
MRCR 1M (MMR): 83.5
CorpusQA 1M (ACC): 62.0
에이전트
SWE Verified (Resolved): 80.6
Terminal Bench 2.0 (Acc): 67.9

코드/에이전트 영역의 점수가 특히 눈에 띈다. 다만 벤치마크 점수만으로 우열을 단정하지는 말자. 동일 벤치마크에서도 평가 세팅, 시드, 채점 스크립트, 컷오프 시점에 따라 점수가 달라질 수 있다. 본문에서는 “공식 모델 카드 기준 V4-Pro의 점수”라는 한정된 의미로만 다룬다.

가격은 공식 docs가 텍스트 대신 이미지 차트로 제공한다. 이 한계를 인정한 채로, 공개 매체에 인용된 수치를 그대로 옮긴다.

MIT Technology Review 인용 가격(공식 docs는 이미지로 게재)
V4-Pro: 입력 1M 토큰당 $1.74, 출력 1M 토큰당 $3.48
V4-Flash: 입력 1M 토큰당 약 $0.14, 출력 1M 토큰당 약 $0.28

같은 매체는 V4가 “프런티어급 성능을 분의 일 가격으로” 제공한다고 표현했다. 표현 자체는 매체 평이고, 실제 자사 워크로드에 적용할 때는 캐시·할인·조건이 다를 수 있으므로 결제 전에 공식 docs의 가격 이미지를 직접 확인하는 편이 가장 안전하다.

다른 프런티어 모델과 어떻게 다른가¶

다섯 개의 추상적 발광 구체로 표현된 AI 모델 비교 컨셉 일러스트

MIT Technology Review는 V4-Pro의 비교 대상으로 다음 모델들을 명시했다. 이 목록은 매체가 비교한 대상이며, 본 글은 매체 보도를 인용 형태로만 옮긴다. 어느 모델이 “전반적으로 우위”라고 단정하지 않는다.

항목	DeepSeek V4-Pro	비교군(매체 인용)
라이선스	MIT (오픈소스, 가중치 공개)	Anthropic Claude-Opus-4.6 / OpenAI GPT-5.4 / Google Gemini-3.1 / Alibaba Qwen-3.5 / Z.ai GLM-5.1 — 라이선스/공개 정도 모델별 상이 (각 사 공식 정책 확인 필요)
컨텍스트	1M 토큰 (공식 모델 카드)	모델별 상이 — 각 사 공식 발표 확인 필요
가격	V4-Pro $1.74/$3.48 (1M 입출력, MIT Tech Review 인용)	본 글 작성일 기준 정식 비교 데이터 없음 — 각 사 공식 가격표 직접 확인 권장
매체 평	“다수 영역에서 경쟁 모델에 근접 또는 비등하다고 보도” (MIT Tech Review·Al Jazeera)	—
운영 출처	DeepSeek API + Hugging Face 가중치	비교 모델은 대부분 자사 API를 통한 클로즈드 가용

본 비교표에서 가장 분명하게 단정 가능한 차별 지점은 “MIT 라이선스로 가중치 공개” 라는 사실이다. 컨텍스트 길이와 가격은 V4 측만 공식 명시·매체 인용으로 확인된 수치이고, 비교군의 동일 지표는 본 글 작성 시점에 같은 수준으로 검증되지 않아 의도적으로 비워뒀다. 실제 비교가 필요한 독자는 각 사 공식 가격·스펙 페이지를 직접 확인하기를 권한다.

이 발표가 산업에 의미하는 것¶

산업적 함의는 매체 보도와 공개 자료에 근거해 차분히 정리한다. 단정 표현은 출처가 명시된 항목에만 사용한다.

미·중 AI 경쟁의 지표¶

Al Jazeera는 Stanford AI Index 2026을 인용해, 중국이 미국과의 모델 성능 격차를 사실상(effectively) 좁혔다고 보도했다. 동일 보도에 따르면 중국은 논문량·인용·특허에서 우위를 보이지만, 미국은 최고급 모델과 고임팩트 특허에서 우위를 유지한다. V4 발표는 이 시간대의 하이라이트 중 하나로 자리 잡을 가능성이 크다는 평가다.

“스푸트니크 모먼트” 1주년이라는 상징¶

Al Jazeera는 실리콘밸리 벤처캐피털리스트 마크 안드리센(Marc Andreessen) 이 작년 R1을 두고 “AI의 스푸트니크 모먼트” 라 표현했다고 인용했다. 정확히 그 1년 뒤에 후속작이 등장한 셈이며, Bloomberg와 Al Jazeera 모두 발표 타이밍의 상징성을 비중 있게 다뤘다.

중국 칩 최적화 — 보도/추정 라벨¶

V4가 화웨이 Ascend 같은 중국산 칩에 최적화된 첫 DeepSeek 모델이라고 MIT Technology Review가 보도했다. 같은 기사에서 칭화대 컴퓨터과학과 교수 류즈위안(Liu Zhiyuan) 은 V4 훈련 과정 중 일부만 중국 칩에 맞춰 조정됐을 가능성을 짚었다. 즉, “전 과정을 중국 칩으로 학습했다”고 단정할 근거는 본 글 작성 시점에 없다. 이 부분은 보도/전문가 추정 영역이다.

오픈소스 vs 클로즈드 구도¶

오픈소스 진영의 가장 큰 무기는 늘 두 가지였다. ① 가중치 공개로 인한 자가 호스팅·연구 재현 가능성, ② 가격 압력. V4는 이 두 무기를 다시 한 번 강하게 갱신했다. 다만 “클로즈드 진영을 압도했다” 같은 표현은 본 글에서 쓰지 않는다. 매체 보도는 어디까지나 “근접·비등 영역이 넓어졌다”는 톤이고, 실 워크로드 평가는 사용자 환경에 따라 다르다.

실무자가 지금 확인할 것 — FAQ¶

야간에 모니터 세 대 앞에서 코드를 작성하는 개발자 워크스페이스 사진

Q1. V4-Pro와 V4-Flash 중 무엇을 먼저 보면 되나?¶

장기 컨텍스트와 코딩·에이전트 정확도가 핵심이라면 V4-Pro, 비용 민감하거나 대량 트래픽이면 V4-Flash 가 시작점이다. 두 모델 모두 1M 토큰 컨텍스트를 공식 지원한다.

Q2. 자사 워크로드에서 GPT-5.4·Claude-Opus-4.6와 어느 게 낫나?¶

본 글은 단정하지 않는다. 매체 보도는 “근접 또는 비등”이라는 톤이고, 실제 우열은 워크로드(코드 베이스 크기, 도메인, 에이전트 깊이, 응답 지연 허용치)에 따라 다르다. 자사 평가 세트로 직접 비교하는 게 가장 안전하다.

Q3. 도입 전 반드시 확인해야 할 두 가지는?¶

① 공식 docs의 가격 이미지 — 본 글에 인용한 수치는 MIT Technology Review 인용이며, 정확한 가격·할인·캐시 조건은 공식 docs 직접 확인이 필요하다. ② 라이선스 적용 범위 — 모델 카드 라이선스는 MIT지만, 자사 데이터로 파인튜닝한 결과물의 배포 조건과 안전 정책은 별도 검토가 필요하다.

Q4. 호환성은 어디까지 되나?¶

공식 docs에 따르면 DeepSeek API는 OpenAI ChatCompletions 호환과 Anthropic API 호환을 모두 제공한다. 기존에 OpenAI/Anthropic SDK로 짠 코드라면 엔드포인트와 API 키만 교체해 PoC를 바로 돌려볼 수 있다는 의미다(다만 도구 호출·미디어 입력 등 세부 호환 범위는 공식 docs로 직접 확인 권장).

Q5. “Thinking” 모드는 어떤 의미인가?¶

공식 docs는 V4가 Thinking / Non-Thinking 듀얼 모드를 지원한다고 명시한다. 즉, 같은 모델 인스턴스 안에서 추론 길이와 비용·지연을 다른 모드로 분리할 수 있다. 같은 워크플로 안에서 “긴 사고가 필요한 단계”와 “빠른 응답이 필요한 단계”를 모드로 구분하는 설계가 자연스러워진다.

다음 액션 (CTA)¶

Hugging Face deepseek-ai/DeepSeek-V4-Pro 모델 카드를 열어 표를 직접 확인한다.
자사 평가 세트(코딩·장문맥·에이전트) 중 1~2개에 V4-Flash로 PoC를 돌려본다. 비용 부담이 가장 적다.
PoC 결과를 사내 모델 비교 보드에 그대로 올려둔다. 다음 모델이 나왔을 때도 같은 보드 위에서 비교하기 위해서다.

참고 출처¶

DeepSeek 공식 API docs — DeepSeek V4 Preview 발표문, api-docs.deepseek.com/news/news260424
Hugging Face — deepseek-ai/DeepSeek-V4-Pro 모델 카드, huggingface.co/deepseek-ai/DeepSeek-V4-Pro
Bloomberg — DeepSeek Unveils Newest Flagship AI Model a Year after Upending Silicon Valley (2026-04-24)
MIT Technology Review — Three reasons why DeepSeek’s new model matters (2026-04-24)
Al Jazeera — China’s DeepSeek unveils latest model a year after upending global tech (2026-04-24)

본 글은 위 5개 출처에서 직접 확인된 사실만 단정 표현으로 사용했고, 그 외 항목은 “보도”, “추정”, “미확인”으로 낮춰 표기했다. 본문 작성일 2026-04-29(KST) 기준이며, 추후 정식판 발표·가격 변동·라이선스 갱신이 있을 수 있다.