새 모델이 나왔는데 정작 써볼 수가 없다. GPT-5.6 소식을 처음 접했을 때 제가 받은 인상이 딱 그랬습니다.
OpenAI는 2026년 6월 26일 차세대 모델군 GPT-5.6을 공개했습니다. 직전 모델인 GPT-5.5가 4월 23일에 나왔으니 약 두 달 만의 발표입니다. 이름부터 좀 다릅니다. 하나의 모델이 아니라 Sol·Terra·Luna라는 천체 이름을 단 세 가지 변형으로 출시됐고, Sol에는 추론을 더 깊게 끌고 가는 새 모드까지 붙었습니다.
그런데 이번 발표의 진짜 핵심은 스펙이 아닙니다. GPT-5.6은 지금 ChatGPT 앱에서 누구나 켤 수 있는 모델이 아닙니다. 미국 정부의 승인 절차를 거친 소수 조직에게 API와 Codex 경로로만 먼저 열렸고, 일반 공개(GA)는 “앞으로 몇 주 내”로만 안내된 상태입니다. ‘나왔지만 아직 못 쓰는’ 이 묘한 상태가 이번 뉴스를 다른 모델 출시와 구별 짓는 지점입니다.

OpenAI가 6월 26일 공개한 GPT-5.6은 Sol·Terra·Luna 세 모델로 구성됐지만, 초기 접근은 정부 승인 파트너로 제한됐다.
한눈에 보는 GPT-5.6 출시 개요¶
먼저 확정된 사실부터 추리면 이렇습니다.
- 발표일: 2026년 6월 26일, GPT-5.6 시리즈 한정 프리뷰 공개
- 모델 구성: Sol(플래그십), Terra(균형·저비용), Luna(고속·최저가) 3종
- 접근 경로: 현재 API와 Codex 한정. ChatGPT 앱에는 미탑재
- 대상: 미국 정부 승인을 거친 소수 조직 — 보도로는 20곳 안팎으로 전해집니다
- 일반 공개: “앞으로 몇 주 내” (구체 날짜 미정)
이 내용은 OpenAI 공식 발표 페이지와 시스템 카드, 그리고 VentureBeat·TechCrunch·Engadget·CNBC 등 다수 매체의 보도가 일치합니다. 흥미롭게도 일부 검색 요약 도구는 아직도 “GPT-5.6은 없고 GPT-5.5가 최신”이라고 답하는데, 이건 발표가 너무 최신이라 색인이 덜 된 탓으로 보입니다. OpenAI 시스템 카드가 실제로 존재하는 만큼 출시 사실 자체는 다툼의 여지가 없습니다.
Sol·Terra·Luna — 세 모델의 역할 분담¶
GPT-5.6의 가장 눈에 띄는 변화는 라인업을 셋으로 나눈 것입니다. 해(Sol)·지구(Terra)·달(Luna)이라는 작명에서 짐작되듯, 성능과 비용을 용도별로 갈라놓은 구성입니다.
| 모델 | 포지션 | OpenAI가 제시한 용도 |
|---|---|---|
| Sol | 플래그십(최강) | 가장 어려운 문제 — 복잡한 코딩, 보안 연구 |
| Terra | 균형·저비용 | 대량 업무 — 고객지원, 사내 툴, 문서 분석 |
| Luna | 고속·최저가 | 경량 작업 — 요약, 초안 작성, 단순 자동화 |
OpenAI는 Terra를 두고 “GPT-5.5급 성능을 약 2배 저렴하게” 쓸 수 있는 모델이라고 설명했습니다. 개인적으로 이 3분할 구성이 가장 실무 친화적인 대목이라고 봅니다. 그동안 많은 팀이 “비싼 플래그십 하나로 모든 걸 처리하느라 토큰 비용이 새는” 문제를 안고 있었는데, 작업 난이도에 맞춰 모델을 갈아 끼울 수 있게 되면 비용 설계가 한결 수월해집니다. 요약은 Luna, 사내 문서 처리는 Terra, 까다로운 코드 리팩터링만 Sol에 맡기는 식이죠.
다만 정확한 API 모델 ID 문자열(예: gpt-5.6-sol 같은 식별자)은 공식 문서에서 확정 표기를 확인하지 못했습니다. 실제 연동을 준비한다면 GA 시점의 공식 레퍼런스를 한 번 더 확인하는 편이 안전합니다.
새 기능 — max 추론과 ultra 모드¶
이번에 새로 들어온 기능 두 가지는 모두 플래그십인 Sol에 집중돼 있습니다.
max 추론 강도(max reasoning effort) 는 모델이 더 오래, 더 깊게 생각하도록 밀어붙이는 최고 단계 추론 옵션입니다. 빠른 응답보다 정확도가 중요한 문제에 쓰라는 의도입니다.
ultra 모드 는 조금 더 흥미롭습니다. 단일 에이전트가 혼자 일하는 방식을 넘어, 여러 서브에이전트(subagents) 를 동원해 복잡한 작업을 나눠 처리하고 속도를 끌어올리는 구조라고 합니다. 큰 작업을 잘게 쪼개 병렬로 굴리는 접근인데, 에이전트형 코딩이나 긴 자동화 파이프라인을 자주 돌리는 분들이라면 주목할 만합니다.
이 밖에 OpenAI는 코딩·생물학·사이버보안 영역에서 폭넓은 개선이 있었다고 밝혔고, 특히 Sol을 “사이버보안에서 가장 유능한 모델”로 소개했습니다. 장기 에이전트 루프에서 모델이 보상을 편법으로 채우는 이른바 reward hacking을 줄였다는 언급도 있는데, 이 수치 부분은 단일 출처 보도라 그대로 믿기보다는 GA 이후 독립 검증을 기다리는 게 맞겠습니다.
컨텍스트 윈도우는 어떨까요. 출시 전부터 “1.5M 토큰” 이야기가 돌았지만, 이건 공식 확인이 안 된 보도성 수치입니다. 확인된 건 직전 모델 GPT-5.5가 100만 토큰 컨텍스트라는 사실뿐이고, GPT-5.6이 그보다 늘었다는 건 아직 OpenAI가 공식화하지 않았습니다. “보도로는 1.5M이라는 말도 있으나 공식 확인은 없다” 정도로만 받아두시길 권합니다.
성능과 벤치마크 — 숫자를 어떻게 읽을까¶
성능 이야기를 할 때는 출처를 갈라서 봐야 합니다. 직접 확인된 수치와, 2차 매체를 거쳐 전해진 수치가 섞여 있기 때문입니다.
OpenAI 시스템 카드에서 직접 확인되는 수치 중 하나는 의료 분야 벤치마크인 HealthBench Professional입니다.
| 모델 | HealthBench Professional (length-adjusted) |
|---|---|
| GPT-5.6 Sol | 60.5 |
| GPT-5.6 Terra | 57.7 |
| GPT-5.6 Luna | 55.7 |
| GPT-5.5(참고) | 51.8 |
Sol이 GPT-5.5의 51.8에서 60.5로 올라간 건 분명한 개선입니다. 안전 평가 측면에서는 세 모델 모두 사이버보안과 생물·화학 위험에서 “High capability” 등급을 받았는데, 이는 최고 위험 등급인 “Critical”에는 도달하지 않았다는 의미이기도 합니다.
문제는 코딩 쪽입니다. OpenAI는 Sol이 터미널 작업 벤치마크인 TerminalBench 2.1에서 최고 수준이라고 발표했지만, 정작 시스템 카드에는 이 수치 표가 없습니다(안전 평가 중심 문서라 그렇습니다). 그래서 아래 숫자들은 OpenAI 발표 차트를 2차 매체가 옮긴 것으로, 프리뷰·벤더 발표 기준으로 봐야 합니다.
| 모델 | TerminalBench 2.1 (프리뷰·2차 출처 기준) |
|---|---|
| GPT-5.6 Sol (ultra) | 약 91.9% |
| GPT-5.6 Sol | 약 88.8% |
| GPT-5.5 | 약 83.4% |
Terra·Luna와 경쟁 모델의 정확한 수치는 출처마다 충돌해 여기서는 생략했습니다. 그리고 한 가지 더. “신기록”이라는 표현은 조심해서 읽으시길 권합니다. 일부 리뷰는 Sol과 차상위 모델의 격차가 채 1점이 안 되는, “같은 모델을 두 번 돌려도 생길 수 있는 통계적 동률 범위”라고 지적합니다. 제 경험상으로도 벤치마크 점수와 실제 체감 생산성이 늘 비례하지는 않았습니다. 인상적인 숫자인 건 맞지만, 실사용 우열을 단정하긴 이릅니다.
SWE-bench 같은 코딩 벤치마크의 Sol 점수는 OpenAI가 아직 공개하지 않았습니다. 떠도는 수치들은 대부분 매체 추정이거나 경쟁 모델의 과거 데이터라 GPT-5.6 직접 비교로 보기 어렵습니다.

Sol은 터미널 에이전트 작업에서 높은 점수를 발표했지만, 일반 접근이 막혀 독립적인 핸즈온 검증은 아직 이뤄지지 못했다.
가격 — Sol·Terra·Luna API 단가¶
가격은 여러 출처가 일치해 신뢰도가 높은 편입니다. 100만 토큰당 입력/출력 기준입니다.
| 모델 | 입력 (100만 토큰당) | 출력 (100만 토큰당) |
|---|---|---|
| GPT-5.6 Sol | $5 | $30 |
| GPT-5.6 Terra | $2.50 | $15 |
| GPT-5.6 Luna | $1 | $6 |
여기에 캐시 읽기는 90% 할인된다는 보도도 있습니다(단일 출처). 단가표를 보면 OpenAI가 라인업을 셋으로 나눈 의도가 분명해집니다. Luna는 Sol의 5분의 1 가격으로, 대량 처리 작업에서 비용이 크게 갈립니다. Sol의 강점이 단순 점수보다 “비슷한 성능을 더 적은 출력 토큰으로 내는 효율”에 있다는 OpenAI의 설명과도 맞물리는 구성입니다.
참고로 ChatGPT 구독 티어(Plus·Pro 등)에 GPT-5.6이 어떻게 반영될지, 가격이 어떻게 될지는 아직 미확인입니다. 프리뷰 단계라 ChatGPT 앱 자체에 모델이 들어가 있지 않기 때문입니다.
제한 출시와 정부 규제 — 이번 뉴스의 진짜 변수¶
여기까지가 “무엇이 나왔나”였다면, 이제 “그래서 왜 아직 못 쓰나”입니다. 사실 이 부분이 이번 출시에서 가장 이례적인 대목입니다.
OpenAI는 GPT-5.6을 일반에 바로 풀지 않고, 미국 정부의 요청에 따라 단계적으로 공개하기로 했습니다. 강력한 모델을 출시하기 전 연방 차원의 자발적 사전 검토를 거치도록 하는 행정명령 맥락에서, 모델의 고도화된 역량과 국가안보 함의를 이유로 초기 접근을 제한한 것입니다. 그래서 지금은 정부 승인을 받은 소수 조직만 API와 Codex로 GPT-5.6을 쓸 수 있습니다.
OpenAI도 이 방식을 마냥 반기는 분위기는 아닙니다. Sam Altman은 이런 정부 접근 절차가 장기적인 기본값이 되어선 안 된다는 입장을 밝힌 것으로 전해집니다. 접근 제한이 결국 개발자·기업·사이버 방어자 같은 선의의 사용자에게서 최고의 도구를 떼어놓는 결과가 된다는 우려입니다. 어디까지나 단기 조치라는 점을 강조한 셈이죠.

GPT-5.6은 미국 정부의 사전 검토 요청에 따라 정부 승인 조직에 먼저 제공됐고, 일반 공개는 “몇 주 내”로만 안내됐다.
개인적으로 이 대목이 가장 흥미로운데, 신기술에 대한 호기심과는 별개로 실무자 입장에서 보면 GPT-5.6은 사실상 ‘아직 평가 불가’ 상태에 가깝습니다. API조차 소수에게만 열려 있으니 독립적인 핸즈온 리뷰가 나올 수가 없고, 지금 공개된 평가 대부분이 OpenAI 자료를 바탕으로 한 분석입니다. 모델의 진짜 실력은 일반 공개 이후 수많은 사용자가 실제 워크플로에 굴려봐야 드러날 겁니다.
누가 주목해야 하고, 지금 무엇을 할까¶
그렇다면 GA를 기다리는 동안 실무자는 뭘 하면 좋을까요. 정리하면 이렇습니다.
- AI 코딩·에이전트를 다루는 팀: Sol의 max·ultra 모드가 가장 직접적인 관심사입니다. 다만 지금 당장 도입 결정을 내릴 단계는 아니고, GA 후 자사 코드베이스로 직접 벤치마크를 돌려보는 게 순서입니다.
- 대량 업무 자동화 팀: Terra의 “GPT-5.5급을 2배 저렴하게”가 사실이라면 비용 구조에 영향이 큽니다. 미리 현재 GPT-5.5 사용량과 토큰 비용을 정리해두면, 전환 시 절감 효과를 빠르게 시뮬레이션할 수 있습니다.
- 경량 작업이 많은 팀: Luna의 단가는 매력적입니다. 요약·분류·초안처럼 반복되는 저난도 작업을 추려두면 GA 직후 바로 테스트에 들어갈 수 있습니다.
핵심은 지금 당장 갈아탈 수는 없으니, 갈아탈 준비를 해두라는 겁니다. 현행 GPT-5.5로 선행 작업을 진행하면서 워크로드를 정리해두면, GA가 풀렸을 때 남들보다 빠르게 검증에 착수할 수 있습니다.
한계와 주의할 점¶
마지막으로 이 시점에 분명히 짚어둘 것들입니다.
- 독립 검증이 거의 없습니다. 일반 접근이 막혀 있어 공개된 평가가 OpenAI 자료에 크게 의존합니다. 마케팅 수치와 실측은 다를 수 있습니다.
- 컨텍스트 윈도우 1.5M은 미확인입니다. GPT-5.5의 100만 토큰만 확인됐습니다.
- 일부 벤치마크 수치는 2차 출처이며 출처 간 충돌이 있습니다. “SOTA·신기록”은 통계적 동률 범위라는 반론이 있어 단정하지 않는 편이 안전합니다.
- SWE-bench 점수, 정확한 API 모델 ID, 구독 티어 반영 여부는 아직 공개되지 않았습니다.
- 한국 사용자 대상 별도 안내는 현재 없습니다. 한국에서의 사용 시점은 GA 이후로 보는 게 맞습니다.
결론 — ‘못 쓰는 모델’을 어떻게 볼 것인가¶
GPT-5.6은 분명 의미 있는 발표입니다. 라인업을 Sol·Terra·Luna로 나눠 용도와 비용을 갈라놓은 구성은 실무 친화적이고, Sol의 max·ultra 모드는 에이전트형 작업의 방향성을 잘 보여줍니다. HealthBench 같은 일부 지표에서 개선도 확인됩니다.
하지만 제 결론은 차분한 쪽입니다. 지금의 GPT-5.6은 ‘도착했지만 문이 잠긴 모델’입니다. 스펙은 인상적이어도 직접 만져볼 수 없는 한, 모든 평가는 잠정적입니다. 오히려 이번 출시에서 더 오래 기억에 남을 대목은 모델 성능이 아니라, 강력한 AI가 정부 사전 검토를 거쳐 단계적으로 풀린 첫 사례라는 점일지도 모릅니다. 이게 일회성 이벤트로 끝날지, 아니면 새로운 관행의 시작일지는 두고 봐야 합니다.
그러니 지금 할 일은 단순합니다. 과장된 기대도, 성급한 결론도 잠시 미뤄두고, GA가 풀리는 “몇 주 내”를 기다리며 우리 워크로드를 정리해두는 것. 문이 열리는 순간 가장 먼저 테스트할 작업 목록을 손에 쥐고 있는 팀이, 결국 이 모델을 가장 빨리 자기 것으로 만들 겁니다.
자주 묻는 질문 (FAQ)¶
Q. GPT-5.6은 언제 일반 출시되나요?
A. OpenAI는 “앞으로 몇 주 내”라고만 밝혔습니다. ChatGPT·Codex·API로 더 널리 제공될 예정이지만 구체적인 날짜는 아직 공개되지 않았습니다.
Q. 지금 GPT-5.6을 쓸 수 있나요?
A. 일반 사용자는 아직 쓸 수 없습니다. 현재는 미국 정부 승인을 거친 소수 조직에게만 API와 Codex로 제한 제공됩니다. ChatGPT 앱에는 탑재되지 않았습니다.
Q. GPT-5.6 가격은 얼마인가요?
A. API 기준 100만 토큰당 입력/출력으로 Sol $5/$30, Terra $2.50/$15, Luna $1/$6입니다. ChatGPT 구독 요금에 어떻게 반영될지는 아직 미확인입니다.
Q. GPT-5.5와 가장 큰 차이는 무엇인가요?
A. 모델을 Sol·Terra·Luna 3종으로 나눈 점, Sol에 max 추론 강도와 서브에이전트 기반 ultra 모드가 추가된 점, 그리고 일부 지표(예: HealthBench Professional Sol 60.5 vs GPT-5.5 51.8)의 개선이 꼽힙니다.
Q. GPT-5.6을 무료로 쓸 수 있나요?
A. 현재는 일반 공개 자체가 안 된 상태라 무료 사용 경로도 없습니다. 무료 제공 여부는 GA 이후 ChatGPT 정책이 나와야 확인할 수 있습니다.