GPT 5.4 총정리: 기능, 가격, 벤치마크, 실무 활용법 (2026)¶

2026년 3월 5일, OpenAI가 GPT 5.4를 공개했다. 추론, 코딩, 컴퓨터 제어를 하나의 모델에 통합한 것은 GPT 라인업에서 처음이다. API를 직접 호출해보고, ChatGPT에서 Thinking 모드를 돌려본 입장에서 정리해본다.

3줄 요약
- 100만 토큰 컨텍스트 + 네이티브 Computer Use + GPT-5.3 Codex 코딩 능력 통합
- API 입력 $2.50/1M 토큰으로 Claude Opus 4.6 대비 약 50% 저렴 (단, 272K 초과 시 2배)
- 코딩은 Claude가 소폭 우세, 컴퓨터 자동화와 추론은 GPT 5.4가 앞서는 구도

이 글에서는 GPT 5.4의 핵심 기능 6가지, 벤치마크 성능 해석, API 가격 분석, Claude/Gemini와의 태스크별 비교, 그리고 실무 활용 가이드까지 다룬다. AI 개발자, IT 의사결정자, 테크 얼리어답터 모두를 위한 글이다.

1. GPT 5.4, 30초 만에 핵심 파악하기¶

GPT 5.4는 기본 모델, Thinking, Pro 세 가지 변형으로 출시됐다.

변형	설명	대상
GPT-5.4	표준 모델. API에서 바로 사용	API 개발자
GPT-5.4 Thinking	응답 전에 사고 계획을 먼저 보여주고, 중간에 방향 조정 가능	ChatGPT Plus/Teams/Pro
GPT-5.4 Pro	전문가/엔터프라이즈 최적화. 최고 성능	ChatGPT Pro/Enterprise, API

한줄로 정의하면 “추론 + 코딩 + 컴퓨터 사용을 통합한 최초의 범용 프론티어 모델”이다.

GPT-5 시리즈의 흐름을 보면 이해가 빠르다.

모델	출시 시기	핵심 변화
GPT-5	2025년	GPT-5 시리즈 시작
GPT-5.2	2025년 후반	추론 능력 대폭 강화
GPT-5.3-Codex	2026년 초	코딩 특화, 업계 선도
GPT-5.4	2026.03.05	코딩+추론+컴퓨터사용 통합, 1M 컨텍스트

참고로 GPT-5.2 Thinking은 3개월 후 종료가 예고되어 있다. 지금 5.2 기반으로 서비스를 운영하고 있다면 마이그레이션 계획을 세워야 한다.

2. GPT 5.4의 6가지 핵심 기능¶

2-1. 통합된 추론 + 코딩 능력¶

GPT-5.3 Codex가 보여줬던 업계 최고 수준의 코딩 능력이 GPT 5.4에 그대로 녹아들었다. 이전에는 코딩을 잘하려면 Codex를, 추론을 잘하려면 GPT-5.2 Thinking을 써야 했는데, 이제 하나의 모델에서 둘 다 된다.

실무에서 체감되는 차이는 “코드만 짜는 게 아니라 비즈니스 맥락까지 이해한다”는 점이다. 투자은행 애널리스트 벤치마크에서 GPT-5.2의 68.4%에서 GPT-5.4는 87.3%로 뛰었다. 스프레드시트 모델링, 프레젠테이션 제작, 문서 분석 같은 전문 업무 도구 활용 능력이 크게 좋아졌다.

실무 팁: 단순 코드 생성을 넘어, “이 데이터로 재무 모델 만들고 프레젠테이션으로 정리해줘” 같은 복합 요청이 실용적 수준에 도달했다. 68%의 평가에서 GPT-5.4가 더 나은 프레젠테이션을 만들어냈다는 테스트 결과도 있다.

2-2. 네이티브 컴퓨터 사용 (Computer Use)¶

GPT 5.4는 OpenAI 메인라인 모델 중 최초로 Computer Use를 기본 탑재했다. 쉽게 말하면 AI가 화면을 보고, 마우스를 클릭하고, 키보드를 치는 것이다.

두 가지 방식으로 작동한다.

코드 기반 조작: Playwright 같은 라이브러리를 통해 프로그래밍 방식으로 브라우저나 데스크톱 앱을 제어
직접 조작: 스크린샷을 분석해서 UI를 이해하고, 마우스/키보드 명령을 직접 실행

핵심은 build-run-verify-fix 루프다. 작업을 실행하고, 결과를 확인하고, 문제가 있으면 스스로 수정한다. 단순히 명령을 따르는 것이 아니라, 결과를 검증하면서 작업한다는 뜻이다.

OSWorld-Verified 벤치마크 점수가 이걸 잘 보여준다. GPT-5.2가 47.3%였는데 GPT 5.4는 75.0%를 기록했다. 인간 평균이 72.4%이니, 수치상으로는 인간 수준을 넘어선 셈이다.

실제 사례도 있다. 부동산 서비스 기업 Mainstay의 CEO에 따르면, 약 30,000개 부동산 포털에서 95% 첫 시도 성공률을 보였고, 세션은 3배 빨라졌으며, 토큰 사용은 70% 줄었다.

솔직한 한계: Computer Use는 아직 초기 단계다. 복잡한 UI 인터랙션이나 예상치 못한 팝업 처리에서는 실패할 수 있다. 프로덕션 환경에서 쓰려면 충분한 테스트가 필요하다.

2-3. 100만 토큰 컨텍스트 윈도우¶

입력 최대 약 105만 토큰, 출력 최대 128K 토큰. GPT 라인업 역대 최대 컨텍스트 윈도우다.

다만 알아둘 게 있다. 기본 설정은 272K 토큰이다. 100만 토큰을 쓰려면 model_context_window와 model_auto_compact_token_limit 설정을 명시적으로 활성화해야 한다. 그냥 API 호출하면 272K까지만 적용된다.

그리고 Compaction 메커니즘이 새로 들어왔다. 에이전트가 장시간 작업할 때 쌓이는 대화 기록을 자동으로 요약하고 정리해서 핵심 컨텍스트만 유지한다. 100만 토큰을 풀로 쓰지 않아도, 긴 에이전트 워크플로우를 효율적으로 관리할 수 있다는 뜻이다.

실무에서 이 기능이 의미하는 것: 전체 코드베이스를 한 번에 분석하거나, 수백 페이지 분량의 문서 컬렉션을 통째로 넣고 질문할 수 있다. 에이전트를 만들 때 “기억력 한계” 문제가 상당 부분 해소된다.

2-4. Tool Search - 에이전트를 위한 도구 관리 혁신¶

기존 에이전트의 고질적 문제가 있었다. 도구(tools)가 많아질수록 모든 도구 정의를 시스템 프롬프트에 다 넣어야 하니 토큰이 폭발적으로 늘었다.

Tool Search는 이 문제를 정면으로 해결한다. 경량화된 도구 목록만 기본으로 로딩하고, 실제 필요한 도구의 전체 정의는 그때그때 검색해서 가져온다. Scale MCP Atlas 벤치마크(36개 MCP 서버, 250개 태스크)에서 토큰 사용량 47% 감소, 정확도는 동일이라는 결과가 나왔다.

실무 팁: 100개 이상의 API나 도구를 연결하는 대규모 에이전트 시스템을 만들 때, 비용과 성능 저하 없이 도구 생태계를 확장할 수 있게 됐다. MCP(Model Context Protocol) 서버와의 조합이 특히 효과적이다.

2-5. GPT 5.4 Thinking - 스티어러블 추론¶

GPT 5.4 Thinking의 핵심 차별점은 중간 방향 조정이다.

작동 방식은 이렇다. 복잡한 질문을 하면 모델이 먼저 Preamble(사전 계획)을 생성한다. “이 질문에 이런 방식으로 접근하겠다”는 계획서를 먼저 보여주는 것이다. 사용자는 이 계획을 확인한 뒤, 마음에 들지 않으면 방향을 수정하도록 지시할 수 있다. 응답 생성 중간에도 조정이 가능하다.

기존에는 복잡한 요청의 결과가 맘에 안 들면 처음부터 다시 프롬프트를 고쳐야 했다. Thinking 모드를 쓰면 “아, 그 방향이 아니라 이쪽으로 가줘”라고 중간에 궤도 수정을 할 수 있다. 반복적인 프롬프트 수정 없이 원하는 결과에 더 빠르게 도달한다.

ChatGPT에서는 Plus, Team, Pro 구독자가 사용할 수 있다. Plus 기준으로 3시간당 80회 제한이 있다.

2-6. 향상된 정확성과 멀티모달¶

GPT-5.2 대비 개별 주장의 오류 가능성이 33% 감소했고, 전체 응답에 오류가 포함될 확률은 18% 감소했다. 사용자가 실제로 팩트 오류를 신고한 프롬프트 세트를 기반으로 측정한 수치다.

멀티모달 능력도 강화됐다. 텍스트, 이미지, 구조화 데이터를 단일 추론 과정에서 처리한다. 다이어그램을 보고 코드를 생성하거나, 스크린샷을 분석해서 버그를 찾는 식의 작업이 더 정확해졌다.

에이전틱 웹 검색도 빼놓을 수 없다. BrowseComp 벤치마크에서 GPT-5.2 대비 17점이 향상됐고, GPT-5.4 Pro는 89.3%로 새로운 최고 기록(SOTA)을 세웠다.

3. 벤치마크 성능 비교 - 숫자로 보는 GPT 5.4¶

주요 벤치마크 비교표¶

벤치마크	GPT-5.4	GPT-5.4 Pro	Claude Opus 4.6	Gemini 3.1 Pro
SWE-Bench Verified	77.2%	-	80.8%	80.6%
SWE-Bench Pro	57.7%	-	~45-46% (추정)	-
ARC-AGI-2	-	83.3%	68.8%	-
FrontierMath Tier 4	-	38.0%	-	-
OSWorld-Verified	75.0%	-	72.7%	-
BrowseComp	-	89.3%	-	-
MCP Atlas	67.2%	-	-	-

독립 분석에 따르면 GPT-5.4 계열은 5개 카테고리(수학, 컴퓨터 사용, 웹 검색, SWE-Bench Pro, 도구 사용)에서, Gemini 3.1 Pro는 4개, Claude Opus 4.6은 3개 카테고리에서 각각 1위를 차지했다. 단일 “최고” 모델은 없다.

벤치마크가 실무에서 의미하는 것¶

숫자만 보면 감이 안 올 수 있으니, 실무 맥락으로 해석해보자.

SWE-Bench Verified (실제 GitHub 이슈 해결): Claude Opus 4.6이 80.8%로 GPT 5.4(77.2%)보다 소폭 앞선다. 멀티파일 구조를 이해하고 의존성 체인을 추적하는 복잡한 코딩 작업에서 Claude가 더 정확하다는 뜻이다. 반면 SWE-Bench Pro(비공개 코드베이스 기반, 데이터 오염 방지)에서는 GPT 5.4가 57.7%로 크게 앞선다.

OSWorld (데스크톱 소프트웨어 자동 조작): GPT 5.4의 75.0%는 인간 평균(72.4%)을 넘겼다. 이전 세대인 GPT-5.2가 47.3%였으니 27.7%p 상승이다. 데스크톱 자동화 에이전트를 만들 계획이라면, 현재로서는 GPT 5.4가 가장 현실적인 선택이다.

ARC-AGI-2 (추상 추론): GPT-5.4 Pro가 83.3%로 Claude(68.8%) 대비 압도적이다. 하지만 이건 Pro 모델 기준이고, 비용이 12배 이상 비싸다는 점을 감안해야 한다.

주의할 점: 출시 이틀밖에 안 됐기 때문에 독립 벤치마크 검증이 충분하지 않다. OpenAI가 발표한 수치와 실제 사용 체감 사이에 갭이 있을 수 있다. 특히 FrontierMath와 ARC-AGI-2 점수는 아직 독립 검증이 필요하다.

4. GPT 5.4 API 가격 완전 분석¶

2026년 3월 기준 가격표¶

티어	입력 (1M 토큰)	출력 (1M 토큰)	비고
Standard	$2.50	$15.00	기본
Cached Input	$0.625	-	자동 적용, 75% 할인
Batch	~$1.25	~$7.50	50% 할인, 24시간 처리
Priority	$5.00	$30.00	2배, 빠른 처리 보장
GPT-5.4 Pro	$30.00	$180.00	최고 성능

272K 컨텍스트 한계점 - 알아야 할 비용 함정¶

여기서 꼭 알아야 할 게 있다. 입력이 272K 토큰을 넘으면 전체 세션에 대해 입력 비용이 2배, 출력 비용이 1.5배로 올라간다.

“100만 토큰 쓸 수 있으니 좋겠다” 싶지만, 실제로 272K 넘기면 입력 $2.50이 $5.00이 되고 출력 $15.00이 $22.50이 된다. 대용량 컨텍스트를 자주 쓸 계획이라면 비용 설계를 신중하게 해야 한다.

비용 절감 전략:
- Compaction 메커니즘으로 컨텍스트를 272K 이하로 유지
- 캐시 입력 적극 활용 (같은 시스템 프롬프트나 도구 정의는 자동 캐싱)
- 대량 비실시간 작업은 Batch API로 50% 절감

경쟁 모델 가격 비교¶

항목	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
입력	$2.50	$5.00	$2.00 (200K 이하)
출력	$15.00	$25.00	$12.00
캐시 입력	$0.625	$0.50	-
컨텍스트 한도	272K (기본) / 1M (확장)	1M (베타)	2M

기본 가격만 보면 GPT 5.4가 Claude 대비 입력 50%, 출력 40% 저렴하다. Gemini 3.1 Pro는 GPT 5.4보다도 20~30% 더 저렴하다.

다만 272K를 넘기면 GPT 5.4의 입력 가격이 $5.00으로 올라서 Claude와 동일해진다. 대용량 컨텍스트를 많이 쓰는 워크로드라면 가격 차이가 생각만큼 크지 않을 수 있다.

실무 시나리오별 비용 시뮬레이션¶

시나리오 1: 챗봇 서비스 (일 1,000건, 평균 입력 2K + 출력 500 토큰)
- GPT-5.4: 입력 $5.00 + 출력 $7.50 = 일 약 $12.50 (월 ~$375)
- Claude Opus 4.6: 입력 $10.00 + 출력 $12.50 = 일 약 $22.50 (월 ~$675)
- GPT 5.4가 약 44% 저렴

시나리오 2: 코드 리뷰 에이전트 (일 50건, 평균 입력 100K + 출력 5K 토큰)
- GPT-5.4: 입력 $12.50 + 출력 $3.75 = 일 약 $16.25 (월 ~$487)
- Claude Opus 4.6: 입력 $25.00 + 출력 $6.25 = 일 약 $31.25 (월 ~$937)
- 272K 이하이므로 GPT 5.4 기본 가격 적용, 약 48% 저렴

시나리오 3: 대규모 문서 분석 (일 10건, 평균 입력 500K + 출력 10K 토큰)
- GPT-5.4: 입력 $25.00 (272K 초과로 2배) + 출력 $2.25 (1.5배) = 일 약 $27.25
- Claude Opus 4.6: 입력 $25.00 + 출력 $2.50 = 일 약 $27.50
- 대용량 컨텍스트에서는 가격 차이 거의 없음

5. GPT 5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro - 어떤 모델을 선택할까?¶

5-1. 코딩 성능¶

SWE-Bench Verified에서 Claude Opus 4.6(80.8%)이 GPT 5.4(77.2%)를 소폭 앞선다. 실제 GitHub 이슈를 수정하는 능력, 특히 복잡한 멀티파일 구조에서의 디버깅과 리팩토링에서 Claude가 좀 더 정확하다.

반면 SWE-Bench Pro(비공개 코드베이스)에서는 GPT 5.4가 57.7%로 Claude의 추정 45~46%를 크게 앞선다. 데이터 오염 가능성을 배제한 환경에서 GPT 5.4의 실제 코딩 능력이 더 높게 나왔다는 점은 주목할 만하다.

Gemini 3.1 Pro도 SWE-Bench Verified 80.6%로 Claude와 비슷한 수준이다. 코딩만 놓고 보면 세 모델 모두 실무에서 충분히 쓸 수 있는 수준에 올라왔다.

5-2. 추론 및 전문 업무¶

수학, 과학, 추상적 추론에서는 GPT 5.4 Pro가 압도적이다. ARC-AGI-2에서 83.3%, FrontierMath Tier 4에서 38.0%를 기록했다. 복잡한 분석 작업, 특히 재무 모델링이나 데이터 분석에서 GPT 5.4가 강세다.

투자은행 벤치마크에서의 성장(GPT-5: 43.7% -> GPT-5.2: 68.4% -> GPT-5.4: 87.3%)을 보면, 전문 업무 영역에서의 진전이 상당하다.

5-3. 에이전트/컴퓨터 자동화¶

데스크톱 자동화를 목표로 한다면 GPT 5.4가 현재 최선이다. 네이티브 Computer Use를 탑재했고, OSWorld 75.0%로 인간 수준을 넘었다. Claude도 72.7%로 뒤처지지 않지만, Computer Use는 별도 API로 제공되는 형태다.

5-4. 가격 대비 성능¶

가장 저렴한 기본 가격: Gemini 3.1 Pro ($2.00 입력 / $12.00 출력)
272K 이하 기준 가성비: GPT 5.4 ($2.50 / $15.00)
대용량 컨텍스트: Gemini가 2M 컨텍스트를 추가 비용 없이 제공
Batch/대량 처리: GPT 5.4 Batch API(50% 할인)와 Claude Batch API 모두 유용한 옵션

5-5. 태스크별 모델 추천 매트릭스¶

태스크	추천 모델	이유
GitHub 이슈 수정/코드 리뷰	Claude Opus 4.6	SWE-Bench Verified 80.8%, 멀티파일 이해력
터미널 기반 작업	GPT 5.4	Terminal-Bench 압도적 우세
데스크톱/브라우저 자동화	GPT 5.4	네이티브 Computer Use, OSWorld 75.0%
재무/전문 문서 분석	GPT 5.4	투자은행 벤치마크 87.3%
수학/과학 추론	GPT 5.4 Pro	ARC-AGI-2 83.3%, FrontierMath 38.0%
비디오/오디오 분석	Gemini 3.1 Pro	유일하게 네이티브 비디오+오디오 지원
초대용량 문서 처리	Gemini 3.1 Pro	2M 컨텍스트 네이티브 지원
비용 민감한 대량 처리	GPT 5.4 (272K 이내)	가장 낮은 기본 가격 + Batch 할인
보안 분석/취약점 탐지	Claude Opus 4.6	오픈소스 500+ 제로데이 발견 실적
장문 콘텐츠 작성	Claude Opus 4.6	문맥 일관성과 글쓰기 품질

결론: “하나의 모델로 다 해결”은 아직 어렵다. 워크로드에 따라 모델을 나눠 쓰는 것이 가장 현실적인 전략이다.

6. GPT 5.4 실무 활용 가이드¶

6-1. ChatGPT에서 GPT 5.4 Thinking 활용하기¶

Plus($20/월) 이상 구독자라면 ChatGPT에서 바로 GPT 5.4 Thinking을 쓸 수 있다. Plus 기준 3시간당 80회 제한이 있으니, 간단한 질문보다는 복잡한 분석 요청에 집중해서 쓰는 게 효율적이다.

Thinking 모드가 효과적인 상황:
- 복잡한 코드 아키텍처 설계
- 다단계 분석이 필요한 비즈니스 질문
- 여러 조건을 동시에 만족시켜야 하는 작업
- 첫 시도에서 방향이 맞는지 확인하고 싶을 때

Preamble 활용 팁: 모델이 사전 계획을 보여줄 때, 기대와 다른 방향이면 “이 부분은 빼고, 대신 이쪽을 더 깊이 다뤄줘”라고 중간에 조정하면 된다. 처음부터 완벽한 프롬프트를 짤 필요가 없어진다.

6-2. API를 통한 에이전트 워크플로우 구축¶

GPT 5.4의 진가는 에이전트 시스템을 만들 때 나온다. 1M 컨텍스트 + Tool Search + Computer Use + Compaction을 조합하면 기존에 구현하기 어려웠던 장기 멀티스텝 워크플로우가 가능해진다.

비용 효율적 에이전트 설계 전략:
1. 도구 정의는 Tool Search를 활용해서 필요할 때만 로딩 (토큰 47% 절감)
2. 긴 에이전트 세션에서는 Compaction으로 컨텍스트를 272K 이하로 유지 (비용 2배 방지)
3. 반복적인 시스템 프롬프트와 도구 정의는 캐시 입력 자동 적용
4. 비실시간 작업은 Batch API로 처리해서 50% 절감

6-3. GitHub Copilot에서 GPT 5.4 사용하기¶

2026년 3월 5일부터 GitHub Copilot에서 GPT 5.4가 GA(Generally Available)로 기본 모델이 됐다. 무료 사용자도 접근 가능하다. 별도 설정 없이 자동으로 GPT 5.4가 적용된다.

코드 자동완성뿐 아니라 Copilot Chat에서의 코드 설명, 리팩토링 제안, 테스트 생성 등이 모두 GPT 5.4 기반으로 동작한다. Augment Code도 GPT 5.4를 기본 모델로 채택하면서 한시적 무료 제공을 하고 있다.

6-4. 업무 도구 통합 활용¶

스프레드시트 데이터 분석 후 프레젠테이션 생성까지 이어지는 파이프라인이 실용적 수준에 도달했다. “이 엑셀 파일 분석해서 핵심 인사이트를 슬라이드 10장으로 정리해줘” 같은 요청이 이제 그럴듯한 결과를 내놓는다.

Microsoft Foundry(구 Azure)에서도 GPT 5.4를 바로 사용할 수 있어서, 엔터프라이즈 환경에서의 배포도 수월해졌다.

마무리 - GPT 5.4가 의미하는 것¶

핵심 정리¶

GPT 5.4를 한 문장으로 정리하면, “코딩, 추론, 컴퓨터 조작을 하나의 모델에 통합한 첫 번째 범용 모델”이다.

항목	핵심 수치
컨텍스트 윈도우	272K (기본) / 1M (확장)
API 가격 (입력/출력)	$2.50 / $15.00 per 1M 토큰
Computer Use (OSWorld)	75.0% (인간 평균 72.4% 초과)
코딩 (SWE-Bench Verified)	77.2%
코딩 (SWE-Bench Pro)	57.7%
정확성 향상	오류 33% 감소 (vs GPT-5.2)
토큰 효율성	최대 47% 절감

주의사항¶

GPT-5.2 Thinking 종료 예고: 3개월 내 마이그레이션 필요. 지금부터 준비하자.
272K 초과 비용: 대용량 컨텍스트를 쓸 때 비용이 2배로 뛴다. 비용 설계를 먼저 하고 도입하자.
독립 검증 부족: 출시 직후라 OpenAI 자체 벤치마크 외에 독립 검증이 아직 부족하다. 일부 수치는 실제와 다를 수 있다.
Computer Use 안정성: 프로덕션에 바로 배포하기보다는 충분한 파일럿 테스트 후 도입을 권장한다.

GPT 5.4를 당장 도입할 계획이라면, 먼저 272K 이하 컨텍스트에서 기존 워크플로우를 이전해보는 것부터 시작하길 권한다. 비용 효율도 가장 좋고, 기존 GPT-5.2 기반 서비스와의 차이를 체감하기에도 좋다.

FAQ (자주 묻는 질문)¶

Q1. GPT 5.4는 무료로 쓸 수 있나요?

ChatGPT Free 플랜에서 제한적으로 접근 가능하다. GitHub Copilot에서도 무료 사용자가 GPT 5.4를 쓸 수 있다. 다만 Thinking 모드나 Pro 모델은 유료 구독(Plus $20/월 이상)이 필요하다.

Q2. GPT 5.4 Thinking과 일반 GPT 5.4의 차이는?

Thinking은 응답 전에 사고 계획(Preamble)을 먼저 보여주고, 사용자가 중간에 방향을 조정할 수 있다. 복잡한 분석이나 코딩 작업에서 효과적이다. 일반 GPT 5.4는 바로 응답을 생성한다.

Q3. GPT 5.4 API 사용 시 월 비용은 얼마나 드나요?

워크로드에 따라 천차만별이다. 챗봇 서비스(일 1,000건) 기준 월 약 $375, 코드 리뷰 에이전트(일 50건) 기준 월 약 $487이 예상된다. Batch API(50% 할인)와 캐시 입력을 활용하면 추가 절감 가능하다.

Q4. GPT 5.4 vs Claude, 코딩에 더 좋은 모델은?

태스크에 따라 다르다. GitHub 이슈 수정이나 멀티파일 디버깅은 Claude Opus 4.6(SWE-Bench 80.8%)이 소폭 우세하다. 터미널 작업이나 비공개 코드베이스에서의 코딩은 GPT 5.4가 더 강하다.

Q5. 100만 토큰 컨텍스트를 실제로 어떻게 활성화하나요?

API에서 model_context_window와 model_auto_compact_token_limit 설정을 명시적으로 지정해야 한다. 기본값은 272K이다. 272K를 넘기면 비용이 2배로 올라가므로 Compaction을 함께 활용하는 것을 권장한다.

Q6. Computer Use 기능은 모든 앱에서 작동하나요?

이론적으로는 스크린샷을 볼 수 있는 모든 앱에서 작동한다. 하지만 복잡한 UI 인터랙션이나 동적 요소가 많은 앱에서는 실패율이 올라간다. Playwright 같은 코드 기반 조작 방식이 직접 클릭 방식보다 안정적이다.

Q7. GPT 5.4 Pro는 일반 GPT 5.4와 무엇이 다른가요?

Pro는 가격이 입력 $30, 출력 $180으로 12배 비싸지만, ARC-AGI-2 83.3%, BrowseComp 89.3% 등 최고 난이도 벤치마크에서 월등한 성능을 보인다. ChatGPT Pro($200/월) 구독자는 무제한으로 사용할 수 있고, 전용 GPU 할당도 받는다. 수학/과학 연구나 최고 성능이 필요한 엔터프라이즈 작업에 적합하다.