Claude Opus 4.7 출시 정리 — xhigh·Task Budgets·마이그레이션 체크리스트

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 공개했다. 가격과 컨텍스트 창(1M)은 그대로인데, API 레벨에서 temperature와 top_p가 400 에러로 바뀌었고 extended thinking budgets도 사라졌다. 새로 들어온 xhigh·task budgets·고해상도 비전은 쓸만하지만, 이관 없이는 기존 코드가 그대로 죽는다.

이 글은 Anthropic 공식 발표와 공식 API 문서를 기준으로 사실만 추렸고, 외부 벤치마크·언론 보도는 별도로 분리했다.

30초 요약 — 2026-04-16 무엇이 바뀌었나¶

먼저 공식 발표로 확정된 항목만 추려보자. Anthropic 공식 블로그와 Claude API 문서에 명시된 내용은 다음과 같다.

출시일: 2026-04-16. 모델 ID는 claude-opus-4-7.
가격: 입력 $5 / 출력 $25 per 1M tokens — Opus 4.6과 동일.
컨텍스트 창: 1M 토큰 유지, 최대 출력 128k 토큰. 1M 사용 시 긴 컨텍스트 프리미엄 없이 표준 가격이라는 점이 공식 문서에 명시됐다.
새 기능 3종: xhigh 효과 수준, Task budgets (beta), 2576px / 3.75MP 고해상도 비전.
Breaking change 4종: Extended thinking budgets 제거, temperature/top_p/top_k 제거, thinking content 기본 omitted, 새 토크나이저(텍스트 기준 1~1.35배 토큰 사용).
가용 채널: Claude.ai, 공식 API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry.

한 줄로 표현하면, 4.7은 “기능은 더 들어왔고, API 표면은 더 좁아졌다”. 기능이 늘어난 것보다 레거시 파라미터가 강제로 제거된 부분이 실무에 더 먼저 영향을 준다. 그래서 이 글의 뒷부분은 “써보자” 대신 “지금 코드에 뭐가 깨지는지” 위주다.

그리고 한 가지. Anthropic은 공식 페이지에 “Mythos Preview”라는 더 강력한 모델이 있지만 사이버보안 safeguard 때문에 일반 공개가 제한돼 있다고 명시했다. 일부 외신과 커뮤니티가 붙이는 숫자 버전명은 공식 확인이 아니므로, 이 글도 공식 명칭 범위를 넘지 않는다.

새 기능: xhigh · Task Budgets · 고해상도 비전¶

xhigh·Task Budgets·고해상도 비전 세 가지 신기능을 상징하는 AI 제어 패널 일러스트

새 기능은 세 가지다. 하나씩 보자.

xhigh — high와 max 사이의 새 단계¶

Anthropic의 effort 파라미터는 “얼마나 생각하고 얼마나 빨리 답할지”를 단계로 조정하는 값이다. 4.7에서는 high와 max 사이에 xhigh가 추가됐다. 공식 문서는 다음처럼 권장한다.

코딩·에이전트 작업은 xhigh부터 시작
지능이 중요한 대부분의 작업은 최소 high
Claude Managed Agents는 effort를 자동 관리하므로 이 값을 직접 설정할 필요가 없다.

이 파라미터는 Messages API 전용이다. 실무 관점에서 보면, 기존에 max로 때려 박던 코드 리뷰·리팩터 파이프라인을 xhigh로 내려서 비용·지연을 줄이면서 품질을 유지할 수 있는 실험 구간이 생겼다고 보면 된다.

Task budgets (beta) — 에이전트 루프 전체에 대한 권고 예산¶

4.7은 에이전트 작업에 task_budget이라는 새 개념을 도입했다. beta 헤더 task-budgets-2026-03-13를 붙이고 output_config.task_budget에 총 토큰 수를 넣으면, 모델이 사고 + 도구 호출 + 도구 결과 + 최종 출력 전체에 대한 남은 예산을 실시간으로 인식한다.

중요한 디테일 세 가지:

최소 20k 토큰. 이보다 작으면 작업을 끝내지 못하거나 거절한다고 공식이 안내한다.
하드 캡이 아니다. max_tokens는 모델이 모르는 요청당 하드 캡, task_budget은 모델이 아는 권고 예산.
품질이 중요한 오픈엔드 작업에는 설정하지 말 것. 공식 문서가 명시한다. 스코프가 정해진 루틴 작업에서만 의도대로 동작한다.

즉 task_budget은 “이 한도 내에서 끝내”라는 자가 조율 지시다. 모델이 초반에 과도하게 탐색하다 토큰을 다 쓰는 패턴을 줄이는 데 효과적이다.

고해상도 비전 — 2576px / 3.75MP¶

비전 쪽 변화가 숫자로는 가장 선명하다.

최대 해상도가 1568px / 1.15MP → 2576px / 3.75MP로 올라갔다. 픽셀 기준 3배 이상.
모델이 반환하는 좌표가 실제 픽셀과 1:1 매핑된다. 이전처럼 스케일 팩터로 역산할 필요가 없다.
저수준 인지(포인팅, 측정, 카운팅)와 바운딩박스 로컬라이제이션이 함께 개선됐다.

현실적인 주의점: 고해상도 이미지는 토큰을 더 쓴다. 공식 문서도 “추가 해상도가 필요 없으면 보내기 전에 다운샘플하라”고 명시한다. 컴퓨터 사용·스크린샷·문서 이해 같은 픽셀 정확도가 필요한 워크로드에서만 고해상도를 쓰는 쪽이 현실적이다.

Breaking Change — 지금 코드에서 반드시 바꿔야 할 것¶

Breaking change 마이그레이션 과정에서 경고와 체크를 확인하는 개발자 화면 일러스트

이 섹션이 이번 글의 핵심이다. 공식 문서에 명시된 Breaking change 4종을 확인하지 않으면 4.6 → 4.7 전환 시 코드가 그대로 멈춘다. 모든 항목은 Messages API 한정이며, Claude Managed Agents 사용자는 해당사항 없다.

1) Extended thinking budgets 제거¶

# Before (4.6)
thinking = {"type": "enabled", "budget_tokens": 32000}

# After (4.7)
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

4.7에서 thinking: {"type": "enabled", "budget_tokens": N}은 400 에러를 반환한다. 유일한 사고-on 모드는 Adaptive thinking이다. 더 중요한 점: Adaptive thinking은 기본 off다. thinking 필드를 아예 안 넣으면 사고 없이 실행된다. 즉 4.6에서 extended thinking에 의존하던 코드는 4.7에서 자동으로 사고가 꺼지거나 에러가 난다. 둘 다 실무 관점에서 조용한 실패다.

2) `temperature` · `top_p` · `top_k` 제거¶

이 세 파라미터에 기본값이 아닌 값을 넣으면 400 에러다. 공식 권장은 “해당 파라미터를 요청에서 완전히 빼고, 프롬프트로 동작을 유도하라”다. temperature = 0으로 결정성을 얻으려던 코드가 있다면, 공식 문서가 “temperature = 0이 동일 출력을 보장한 적은 없다”고 못을 박았다는 점도 같이 짚고 간다.

3) Thinking content 기본 omitted¶

4.7부터 thinking 콘텐츠가 응답에서 기본적으로 생략된다. 응답 스트림에 thinking 블록 자체는 있지만, 안의 thinking 필드가 비어 있다. 에러가 나지 않는 조용한 변경이다. 추론 출력을 UI에 노출하던 제품이라면:

thinking = {
    "type": "adaptive",
    "display": "summarized",  # 또는 "omitted" (기본)
}

공식 문서가 친절하게 한 줄 경고한다. 이 디폴트 때문에 “출력이 시작되기 전에 긴 침묵”이 생긴다고. 사용자에게 추론 진행 상황을 보여주는 앱이라면 summarized로 명시적으로 켜야 한다.

4) 새 토크나이저 — 토큰 사용 최대 35% 증가¶

4.7은 새 토크나이저를 사용한다. 같은 입력 텍스트가 이전 모델 대비 1x ~ 1.35x 토큰으로 계산된다(콘텐츠에 따라 다름). /v1/messages/count_tokens도 이전과 다른 숫자를 돌려준다. 실무 영향:

max_tokens 값을 여유 있게 올려야 compaction trigger가 잘못 발동하지 않는다.
동일한 프롬프트로도 비용이 올라갈 수 있다. 벤치 전 사전 테스트 필수.

4.6 vs 4.7 핵심 스펙 비교¶

항목	Opus 4.6	Opus 4.7
컨텍스트 창	1M	1M (긴 컨텍스트 프리미엄 없이 표준 가격 유지 명시)
최대 출력	모델 구성 따라 상이	128k
이미지 최대 해상도	1568px / 1.15MP	2576px / 3.75MP
effort 단계	low / medium / high / max	low / medium / high / xhigh / max
Extended thinking budgets	지원	제거 (400 에러)
Sampling (temperature 등)	허용	제거 (400 에러)
Task budgets	없음	beta 지원
Adaptive thinking 기본값	다름	off 기본
토크나이저	이전 버전	신규 (~1x–1.35x 토큰 사용)
입력 가격 / 1M	$5	$5 (불변)
출력 가격 / 1M	$25	$25 (불변)

이 표의 4.6 칸은 공식에서 4.7과의 “차이”로만 비교된 항목들이다. 4.6의 구체 수치에 확신이 없는 칸은 단정하지 않고 “4.7에서 바뀐 것” 위주로 해석하는 쪽이 안전하다.

성능 개선 — 공식 수치가 말하는 것, 말하지 않는 것¶

Anthropic이 공식 블로그에 직접 수치로 공개한 성과는 다음 네 가지다. 본문에서 단정할 수 있는 수치는 이 범위뿐이다.

Finance Agent: state-of-the-art 수준 (공식 문구)
CodeRabbit (코드 리뷰): “Recall improved by over 10%”
Rakuten (프로덕션 작업 해결): “4.6 대비 3x”
XBOW (시각 예민도): “98.5% vs 4.6의 54.5%”

여기서 눈여겨볼 부분은 시각 예민도의 절대적 점프다. 4.6의 54.5%에서 4.7의 98.5%는 거의 새 모델 수준의 격차다. 고해상도 비전 지원과 함께 봐야 해석이 되는 숫자로, 스크린샷 기반 컴퓨터 사용 에이전트·문서 이해·차트 분석 파이프라인이 4.7로 올라갔을 때 가장 체감 차이가 클 영역일 가능성이 높다.

외부 벤치마크 — 서드파티 집계, 단정 금지¶

출시 직후 일부 리뷰 매체가 SWE-bench 계열 점수를 정리했다. 공식 문서에는 SWE-bench 구체 수치가 포함되지 않았기 때문에, 이 숫자들은 서드파티 집계 기준으로만 낮춰서 인용한다.

서드파티 벤치마크 보도 기준: SWE-bench Verified 약 87.6%, SWE-bench Pro 약 64.3% 수준이 Opus 4.7에 대해 인용되고 있다.
경쟁 비교도 일부 매체에서 SWE-bench Pro 기준 GPT-5.4, Gemini 3.1 Pro 대비 우위를 보도했으나, 공식 문서의 비교 수치가 아니다.

실무에서 이 숫자에 의존해 채택 결정을 내리기보다는, 자신의 레포에서 xhigh + task_budget 조합으로 A/B를 돌리는 쪽이 훨씬 신뢰할 수 있다. 공식 수치와 서드파티 수치 사이의 간극을 직접 측정하는 것이 결국 본인 워크로드에 대한 답이다.

더 직설적이 된 톤 — 프롬프트 수정 신호¶

공식 “behavior change” 중 바로 체감할 것들:

지시를 더 문자 그대로 따른다. effort가 낮을수록 명시하지 않은 일반화는 하지 않는다.
응답 길이가 작업 복잡도에 맞춰 조정된다. 4.6의 장황한 기본 톤이 사라졌다.
기본 도구 호출·subagent 수가 감소. effort를 올려야 늘어난다.
4.6의 따뜻한 톤 → 더 직설적·의견 있는 톤, 이모지 감소.

“더블체크해” 같은 프롬프트 내 잔소리는 공식 문서가 제거하고 리베이스라인을 권장한다. 4.7이 자체적으로 그 단계를 개선했기 때문이다.

함께 나온 Claude Design — 프로토타입 툴의 의미¶

Opus 4.7과 같은 주기에 Anthropic은 Claude Design이라는 Anthropic Labs 신규 툴도 공개했다(공식 발표 2026-04-17). 공식 설명 기준으로는 디자인·프로토타입·슬라이드·원페이저를 자연어 프롬프트나 참조 이미지로 생성하는 시각 도구다. 디자이너·PM·마케터·엔지니어가 UI 목업과 제안서를 빠르게 초안화하는 시나리오가 일차 대상이다.

Claude Code 쪽에서는 /ultrareview 슬래시 커맨드가 새로 붙었다. 아키텍처·보안·성능·유지보수성을 아우르는 심층 코드 리뷰용이다. 정확한 기능 범위는 Anthropic 공식 페이지와 Claude Code 릴리스 노트에서 확인하는 쪽이 안전하다.

업그레이드 체크리스트 & FAQ¶

Claude Opus 4.7 업그레이드 체크리스트를 시각화한 투명 디스플레이 일러스트

지금 당장 본인 코드에서 확인할 순서는 이렇다.

업그레이드 체크리스트¶

thinking 필드 점검 — {"type": "enabled", "budget_tokens": N} 패턴이 있으면 {"type": "adaptive"}로 교체. thinking 내용을 UI에 노출하던 코드는 display: "summarized"를 명시.
Sampling 파라미터 제거 — temperature, top_p, top_k가 남아있는지 grep. 결정성을 원하던 부분은 프롬프트 레벨에서 재설계.
max_tokens 헤드룸 확대 — 새 토크나이저로 입력·출력 모두 최대 +35% 증가 가능성. 기본값에 여유를 둔다.
Compaction trigger 재조정 — 토큰 카운트 기반으로 장기 세션 압축을 걸어놨다면 임계치를 재검토.
프롬프트 내 잔소리 제거 실험 — “레이아웃 더블체크”, “진행 상황 알려줘” 같은 스캐폴딩을 빼고 리베이스라인.
xhigh로 효과 수준 실험 — 기존 max 경로를 xhigh로 내려서 비용·품질 비교.
task_budget은 신중히 — 품질 중요한 오픈엔드 작업에는 적용하지 않는다. 스코프 정해진 루틴에서만.
민감 도메인은 Cyber Verification Program — 정당한 보안 업무가 거부될 수 있으므로 필요 시 공식 프로그램 신청.

FAQ¶

Q1. 지금 바로 4.6에서 4.7로 올려도 안전한가?
A. 안전이 아니라 이관 필수다. Messages API를 직접 쓴다면 위 4개 Breaking change가 먼저다. Claude Managed Agents를 쓰는 경우에만 API 레벨 이관이 없다.

Q2. 가격이 똑같으면 비용도 똑같은가?
A. 단가는 같지만 토큰 사용량이 최대 35% 증가할 수 있다. 새 토크나이저 때문이다. 기존 스프레드시트의 월 예상 비용을 그대로 써서는 안 된다.

Q3. xhigh는 언제 쓰고 max는 언제 쓰나?
A. 공식 권장은 코딩·에이전트 기본값은 xhigh, 대부분의 지능 집중 작업은 최소 high다. max는 가장 어려운 작업에 한정하는 쪽이 비용 대비 합리적이다.

Q4. SWE-bench나 GPT-5.4 비교 점수가 인터넷에 돌던데, 써도 되나?
A. Anthropic 공식 블로그에는 SWE-bench 숫자가 포함되지 않았다. 외부 서드파티 집계다. 프레젠테이션·의사결정 자료에 넣으려면 “공식 발표 미포함, 서드파티 집계 기준”을 반드시 표기해야 한다.

Q5. 온라인에서 도는 “더 강한 미출시 Claude 모델” 얘기는 뭔가?
A. Anthropic 공식이 확인한 이름은 “Mythos Preview” 하나뿐이다. “더 강력하지만 사이버보안 safeguard로 일반 공개가 제한됐다”는 설명까지만 공식 범위에 있다. 외신·커뮤니티에서 붙이는 숫자 버전명은 서드파티 해석이므로, 의사결정 자료에 확정된 제품명처럼 쓰지 않는 편이 안전하다.

Claude Opus 4.7 공식 출시 — 지금 바꿔야 하는 것, 기다려도 되는 것

30초 요약 — 2026-04-16 무엇이 바뀌었나¶