최신 AI 기술 트렌드 2026: 거품 걷어내고 남은 3가지 (실무자 정리)

솔직히 말합시다. “2026년은 AI의 해”라는 문장, 작년에도 봤습니다. 재작년에도 봤고요.

그런데 2026년 5월 지금, Deloitte의 ‘State of Generative AI in the Enterprise’ 시리즈가 한 줄 던지고 있습니다. “기업의 약 79%가 여전히 AI 도입에서 의미 있는 어려움을 겪고 있다.” 우리 회사는요? 아마 그 79% 안에 있을 확률이 높습니다.

이 글은 트렌드를 10개 나열하는 글이 아닙니다. 작년에 사내 챗봇 PoC를 두 개 갈아엎고, Claude·GPT·Gemini를 동시에 운영해본 입장에서 — 2026년 5월 현재, 거품이 빠지고도 아직 살아남아 일하고 있는 트렌드 3가지만 깊게 다룹니다. 그리고 다음 주 회의에서 바로 쓸 수 있는 모델 선택 가이드와 90일 도입 로드맵까지.

스크롤 한 번에 임원 보고용 한 페이지를 가져갈 수 있도록 썼습니다. 목차부터 보시죠.

목차
1. 2026년 5월, AI 트렌드 지형도 한 장 정리
2. 에이전틱 AI: 가장 시끄러웠고, 가장 많이 실패한 트렌드
3. 피지컬 AI: CES 2026 이후, 실제로 공장에 들어오고 있다
4. 멀티모달 AI와 프론티어 모델 3종 비교: GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro
5. 그래서, 다음 분기에 할 일 (실무 체크리스트)


1. 2026년 5월, AI 트렌드 지형도 한 장 정리

이 섹션 한 줄 요약: 트렌드는 폭발했지만, 프로덕션까지 살아남은 건 3개 축 — 에이전틱·피지컬·멀티모달.

왜 작년의 “올해는 AI의 해”가 또 틀렸나

지난 1년 동안 한국 시장에서 가장 자주 들은 말은 “AI 도입해야 한다”였습니다. 그리고 가장 많이 본 결과물은 — 사내 챗봇 PoC, RAG 데모, 보고서 자동 요약 봇. 그중 프로덕션까지 살아간 비율이 얼마나 될까요.

대한상의와 CIO Korea가 인용한 2026년 조사에 따르면 국내 기업의 85%가 생성형 AI를 도입했거나 도입 예정입니다(현재 55.7%에서 +30%p). 79.3%가 2026년 GenAI 예산을 늘린다고 답했고요. 숫자만 보면 폭발 직전입니다.

그런데 같은 시기 Deloitte 보고서는 약 79%가 의미 있는 도입 난항을 겪고 있다고 답합니다. 한쪽은 “도입한다”, 다른 한쪽은 “잘 안된다”. 둘 다 사실입니다. “도입은 했는데, 진짜 일은 안 시키는” 상태가 한국과 글로벌 모두의 평균값입니다.

작년에 한 번 갈아엎어본 입장에서 솔직히 말하면, 막상 해보면 거의 다 같은 곳에서 멈춥니다.
- 데모는 되는데 SLA가 안 잡힌다.
- 보안 검토에서 한 달 멈춘다.
- 운영 비용이 ROI 계산에서 마이너스로 돌아온다.
- 사내 데이터 정합성이 자기 모델 정확도보다 더 큰 변수다.

그래서 2026년의 진짜 질문은 “무엇이 트렌드인가”가 아니라 “무엇이 프로덕션까지 살아남았는가” 입니다.

2026년 5월에 진짜 움직이고 있는 3축

이 글에서 다룰 3가지는 다음과 같습니다.

한 줄 정의 현재 단계
에이전틱 AI 사람 지시 없이 도구를 호출해 일을 마무리하는 AI 단일 에이전트는 프로덕션 도달, 멀티 에이전트는 실험
피지컬 AI 시뮬레이션·로봇·디지털 트윈에 LLM을 결합한 물리 세계 자동화 제조·물류는 진입, 휴머노이드는 데모
멀티모달 + 프론티어 모델 신규 라인업 텍스트+이미지+영상+코드를 한 모델이 다루는 흐름 2026.04 한 달에 GPT-5.5·Opus 4.7·Mythos·DeepSeek V4 출시 — 모델 분기 동시 발생

“지켜볼 것” 5가지는 박스로 압축

본문에서 깊게 다루진 않지만 임원 질문이 들어올 가능성이 높은 5가지는 한 줄씩 정리합니다.

  • 소버린 AI — 한국 AI 기본법이 2026년 1월 22일 시행됐습니다. EU AI Act 다음 세계 두 번째 포괄적 AI 법. 누적 학습 컴퓨트 10^26 FLOPs 이상이면 ‘고성능 AI’로 지정돼 위험관리계획·결과보고 의무가 생깁니다. 벌칙 조항은 1년 유예라 2027년 1월부터 본격화됩니다.
  • 온디바이스 AI — Apple Foundation Model(~3B), Microsoft Phi-4(14B), Google Gemini Nano 2가 컨슈머 하드웨어 표준으로 안착. 프라이버시·오프라인·즉시성이 필요한 워크로드만 골라 쓰는 단계.
  • AI 거버넌스 — Mythos Preview가 내부 테스트에서 인터넷 접근 제한을 우회한 사례가 보고됐습니다. “AI에게 권한을 얼마나 줄 것인가”가 곧 거버넌스 1순위 어젠다가 됩니다.
  • AI 검색(GEO) — 검색 결과 내부에 AI 요약이 끼면서 SEO 다음 단계의 게임이 시작됐습니다. 다만 한국 시장에서는 아직 트래픽 변동 폭이 정착 전.
  • 합성 데이터 — 데이터 부족 산업에서 의미 있지만, “내 회사 데이터가 충분한가”부터 따져야 함.

이 5가지는 지켜만 봐도 되는 트렌드이고, 자원을 투자할 곳은 위의 3축입니다. 이제 하나씩 풀어보겠습니다.


2. 에이전틱 AI: 가장 시끄러웠고, 가장 많이 실패한 트렌드

이 섹션 한 줄 요약: 단일 에이전트는 작동한다. 멀티 에이전트는 아직 사고 친다. 도입은 작은 워크플로우부터.

에이전틱 AI vs 생성형 AI — 한 줄 차이

물어보는 사람마다 헷갈려 합니다. 간단히 정리하면 이렇습니다.

  • 생성형 AI: 사람이 묻고, 모델이 답한다. (한 번의 입력-출력)
  • 에이전틱 AI: 사람이 목표를 던지면, 모델이 스스로 도구를 호출하고 단계를 짜고 결과를 검증한 뒤 보고한다.

차이의 핵심은 “도구 호출”과 “자기 검증”. Claude Opus 4.7이 2026년 4월 16일 GA되면서 강조한 기능이 정확히 이 self-verification — 긴 호흡의 작업에서 결과를 스스로 검증한 뒤 보고하는 동작입니다. Anthropic 공식 발표 기준으로 어려운 소프트웨어 엔지니어링 태스크에서 Opus 4.6 대비 +13%p 향상.

쉽게 비유하면, 생성형이 “사전”이라면 에이전틱은 “주니어 인턴” 입니다. 묻는 게 아니라 시키는 거고, 결과를 가져옵니다.

실제 작동 중인 사례

에이전틱 AI가 사고 친 사례는 차고 넘치지만, 작동하는 사례도 분명 있습니다. 작동한 사례 3가지의 공통점부터 보죠.

1) 좁은 도메인, 명확한 입출력
가장 안정적으로 돌아가는 워크로드는 “코드 PR 리뷰”, “보안 코딩 검증”, “고객지원 1차 응답” 처럼 입출력 포맷이 명확하고 도메인이 좁은 경우입니다. SK텔레콤이 사내 AI 프런티어 프로그램에서 보안 코딩 검증 워크로드에 에이전트를 붙여 연 단위로 수천 시간 규모의 검토 시간을 줄였다는 사례가 자주 인용됩니다. 핵심은 화려한 멀티 에이전트가 아니라, 하나의 에이전트가 하나의 작업을 끝까지 검증하는 패턴 이었다는 점입니다.

2) “도구”가 잘 정의된 환경
Anthropic의 2026 Agentic Coding Trends Report와 State of AI Agents 리포트(Arcade.dev 정리)에 따르면, 응답 기업의 80%가 AI 에이전트로 측정 가능한 경제적 효과를 보고했습니다. 그런데 같은 보고서가 46%는 기존 시스템 통합이 1번 과제라고도 답합니다. 결국 지능 자체보다 도구를 안전하게 호출할 수 있는 환경이 도입의 분기점이라는 뜻입니다. MCP(Model Context Protocol) 같은 표준이 빠르게 자리잡고 있는 이유가 여기 있습니다.

3) “디렉팅 가능한” 사람이 있다
McKinsey 2026 연구가 자주 인용하는 수치 — AI 에이전트 도입 기업에서 직원 1인당 주당 4시간+의 단순 행정 업무 감소, 리서치·작성·회의록·프레젠테이션 4단계 자동화로 10시간이 50분 이내로. 이건 모델이 아니라 디렉팅하는 사람이 만든 결과입니다. 에이전트는 시키는 대로만 합니다. 시키는 사람의 수준이 결과의 상한선입니다.

무너진 사례 패턴: 멀티 에이전트가 깨지는 3가지 지점

반대로, 작년에 갈아엎은 PoC 두 개와 동료들에게서 들은 사례들을 정리하면 멀티 에이전트는 거의 똑같은 곳에서 깨집니다.

  1. 컨텍스트 폭주 — 에이전트끼리 대화시키면 토큰이 기하급수로 늘어납니다. 단가가 모델 비용이 아니라 서로 떠드는 비용에서 폭발합니다.
  2. 합의 실패 — A 에이전트와 B 에이전트가 답이 다를 때 누가 결정하느냐. 결정 모듈이 없으면 무한 루프 또는 인간 호출.
  3. 책임 소재 증발 — 결과가 틀렸을 때 어느 에이전트가 틀렸는지 추적하기 어렵습니다. 운영 한 달이면 “왜 그랬는지 아무도 모르는 결과”가 쌓입니다.

솔직한 권고: 2026년 5월 현재, 멀티 에이전트는 시연용·R&D용 까지입니다. 프로덕션은 단일 에이전트 + 명확한 도구 세트 + 사람 검수 게이트 조합이 가장 안전합니다.

도입 결정 기준: 우리 회사가 지금 손대도 될 단계인가

다음 4개 중 3개 이상에 “예”라고 답할 수 있다면, 에이전틱 AI 파일럿을 시작해도 좋습니다.

  • [ ] 자동화하고 싶은 워크플로우의 입출력 포맷이 명확한가? (예: “GitHub PR → 보안 검증 보고서”)
  • [ ] 에이전트가 호출할 도구(API/DB/사내 시스템)에 안전한 접근 권한 모델이 있는가?
  • [ ] 결과를 검수할 도메인 담당자가 정해져 있는가? (디렉팅 가능자)
  • [ ] 실패했을 때 롤백 가능한 작업인가? (메일 발송·결제처럼 외부 영향이 큰 작업은 후순위)

3개 미만이면 — 무리하지 마세요. 먼저 ChatGPT/Claude를 사람 옆에 두는 단계부터 다지는 게 ROI가 높습니다.


3. 피지컬 AI: CES 2026 이후, 실제로 공장에 들어오고 있다

이 섹션 한 줄 요약: 휴머노이드는 데모지만, 제조·물류 자동화는 진짜다. 비제조업도 시뮬레이션·디지털 트윈으로 본다.

피지컬 AI가 뭐길래 CES 2026의 메인이 됐나

피지컬 AI(Physical AI) — 1년 전만 해도 “그게 뭔데”였던 단어가 2026년 들어 CES, GTC, Computex의 메인 키워드가 됐습니다. 정의는 단순합니다.

피지컬 AI = LLM·VLM의 인지·계획 능력 + 시뮬레이션·로봇·디지털 트윈의 실행 능력

쉽게 말해 “GPT가 손발을 갖춘 형태” 입니다. 데모 영상에 자주 나오는 휴머노이드 로봇이 가장 눈에 띄지만, 실제로 산업에 들어오고 있는 건 로봇 자체보다는 그 뒤에 깔린 시뮬레이션·디지털 트윈 인프라입니다.

Google DeepMind의 Gemini Robotics-ER 1.6(2026년 4월 15일 공개)이 대표적입니다. 이 모델은 물리 환경에서 작업을 어떻게 계획하고, 완료 여부를 어떻게 판단하는지에 특화된 로봇 추론 모델입니다. 같은 흐름에서 Gemma 4(2026.04.02 공개)는 에이전트 워크플로우 특화 오픈모델로, 온프레미스 로봇 제어 환경에서 검토 대상에 올라갑니다.

한국 사례: SK-엔비디아 협력과 현대차 아틀라스의 두 얼굴

한국 시장에서 피지컬 AI를 가장 빨리 체감할 수 있는 사례는 두 가지입니다.

SK그룹 ↔ NVIDIA Omniverse 협력. 공장 라인을 디지털 트윈으로 옮겨 현실에 손대기 전에 시뮬레이션에서 최적화하는 패턴. 반도체·배터리처럼 공정 변경 비용이 큰 산업에서 효과가 가장 크게 나타납니다. 핵심은 “트윈에서 100번 깨봐도 현실에선 0번 깨진다” — 즉, 실패 비용을 시뮬레이션으로 흡수합니다.

현대차 아틀라스(Boston Dynamics) 도입과 노조 갈등. 이쪽은 흥미로운 사례입니다. 휴머노이드를 라인에 투입한다는 발표가 곧바로 노사 갈등으로 이어졌습니다. 기술이 작동하는가의 문제 이전에, “누구의 일을 대체하는가, 어떻게 대체하는가”가 현장의 1번 이슈라는 것을 보여줍니다. 작년까지의 RPA 도입과 본질적으로 같은 패턴이지만, 강도가 다릅니다.

솔직한 관찰: 휴머노이드 단가가 떨어지고 있지만, 연간 운영비(전력·유지보수·안전)+ 사회적 비용(노조·규제)까지 합치면 아직 인건비를 못 이깁니다. 한국에서 휴머노이드의 ROI가 도는 시점은 일러야 2027~2028년으로 보는 게 안전합니다. 단, 고정 설비 자동화·디지털 트윈은 지금이 도입기입니다.

비제조업도 봐야 할 이유

“우리는 SW 회사인데요”라고 답하고 싶은 분들이 있을 겁니다. 그래도 봐야 합니다.

  • 시뮬레이션 사고방식이 SW 운영에도 들어옵니다. 카오스 엔지니어링·셰도 트래픽·디지털 트윈 기반 인프라 시뮬레이션은 이미 일부 빅테크 운영팀의 표준입니다.
  • 물류·리테일은 비제조업이지만 피지컬 AI의 핵심 수혜자입니다. 창고 자동화·라스트마일 로봇·재고 시뮬레이션 모두 같은 인프라 위에서 돌아갑니다.
  • 공간 데이터 확보 경쟁이 시작됐습니다. LIDAR·3D 스캔 데이터셋이 다음 3년 내 도메인 우위의 자산이 됩니다.

도입 결정 기준: 우리는 보고만 있어도 되는가

  • 자산 집약 산업(제조·물류·에너지·건설): 올해 안에 디지털 트윈 PoC를 1건 이상 시작할 것을 권장.
  • SaaS·서비스업: 시뮬레이션 사고방식의 운영 도입(셰도/카나리 트래픽 강화) + 공간 데이터 활용 가능성 점검.
  • 휴머노이드 PoC는 2026년 안에는 미디어용 시연 정도로만 권장.

4. 멀티모달 AI와 프론티어 모델 3종 비교: GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro

이 섹션 한 줄 요약: “최고의 모델”은 없다. “우리 팀의 모델”이 있다. 코드는 Opus 4.7, 초장문·범용은 GPT-5.5, 단가·멀티모달은 Gemini 3.1 Pro.

2026년 4~5월 출시 라인업 한눈에

2026년 4월은 — 솔직히 정신없습니다. 단 한 달 안에 Gemini 3.1 Pro(2.19로 약간 먼저), Claude Mythos Preview(4.7), Claude Opus 4.7(4.16), GPT-5.5(4.23), DeepSeek V4 Preview(4.24)가 줄줄이 출시됐습니다. 프런티어 모델 분기가 동시다발로 일어난 셈입니다.

먼저 비교표부터 보시죠. 단가는 1M(100만) 토큰 기준, 가격은 공식 발표 시점입니다.

모델 출시 컨텍스트 입력가/1M 출력가/1M 대표 벤치마크 (자체 보고)
GPT-5.5 2026.04.23 1M $5 $30 Terminal-Bench 2.0 82.7%, GDPval 84.9%, MRCR v2 74.0%
Claude Opus 4.7 2026.04.16 200K $5 $25 Opus 4.6 대비 +13%p (93-task coding), 비전 해상도 3.75MP
Gemini 3.1 Pro 2026.02.19 1M (>200K $4/$18) $2 $12 18개 벤치마크 중 12개 1위, SVG·3D 코드 생성, 1시간 비디오 단일 처리
Claude Mythos Preview (제한) 2026.04.07 - $25 $125 SWE-bench Verified 93.9%, USAMO 2026 97.6%
DeepSeek V4 Preview 2026.04.24 - 매우 저렴 (캐시 히트 $0.07/1M) - R2 결합 Codeforces Elo 2121

주의: 위 벤치마크는 각 사 자체 보고이고, 동일 셋이 아닙니다. 카탈로그로만 보세요. 실제 선택은 다음 절의 시나리오 기준으로 합니다.

코드는 Opus 4.7, 초장문은 GPT-5.5, 단가는 Gemini 3.1 Pro

직접 셋 다 운영해본 입장에서, 일반화는 위험하지만 큰 패턴은 이렇게 갈립니다.

Claude Opus 4.7 — “긴 호흡의 코딩과 자기 검증이 강한 모델”
- 강점: PR 단위 작업, 자기 검증, 보안·취약점 분석. 비전 해상도가 최대 3.75MP로 커져 디자인 시안·UI 캡처 기반 코딩에서 체감 차이가 큽니다.
- 약점: 컨텍스트 200K는 모노레포 전체 분석에는 좁습니다. 출력 단가($25/1M)는 GPT-5.5보다는 낮지만 Gemini보다는 비쌉니다.
- 한 줄 권고: SW 엔지니어링 팀의 데일리 드라이버.

GPT-5.5 — “범용성과 1M 컨텍스트의 균형추”
- 강점: 1M 컨텍스트 + Terminal-Bench 2.0 82.7%(자체 보고 기준)로 대규모 코드베이스·장문 문서에서 강함. GDPval 84.9%로 다양한 직군의 지식노동 평가에서 가장 안정적. MRCR v2가 GPT-5.4의 36.6%에서 74.0%로 점프한 게 결정적 — 진짜로 긴 컨텍스트를 활용하는 능력이 올라왔습니다.
- 약점: 출력 $30/1M로 가장 비싼 데일리 드라이버. 코드 단일 PR 작업의 세밀함은 Opus 4.7 쪽이 더 안정적이라는 평가가 많음.
- 한 줄 권고: 모노레포 분석·리서치·에이전트 워크플로우의 디폴트.

Gemini 3.1 Pro — “단가와 멀티모달의 새 기준”
- 강점: 1M 컨텍스트, 입력 $2 / 출력 $12로 동급 모델 대비 압도적 단가. 자연어로 SVG·3D 코드·애니메이션 생성이 가능해 디자이너·마케터에게 차별점. 8.4시간 오디오·900쪽 PDF·1시간 비디오를 단일 프롬프트로 처리.
- 약점: 코딩 단독 작업에선 Opus 4.7/GPT-5.5보다 일관성이 한 단계 아래로 평가되는 경향. 자체 보고 1위 12개 중에도 추론 코어 외 영역 비중이 큼.
- 한 줄 권고: 대량 워크로드 백엔드·멀티모달·마케팅 콘텐츠 파이프라인.

DeepSeek V4 / R2 — “단가 충격을 만드는 변수”
- 캐시 히트 시 $0.07/1M은 거의 다른 차원의 가격입니다. 보안·데이터 거버넌스만 허용되면 배치·대량 분류·임베딩에서 검토 가치가 큽니다. 다만 한국 기업의 데이터 정책상 국외 추론에 민감한 데이터는 라우팅 분리가 필수입니다.

의사결정 트리: 우리 팀이 깔 모델 고르는 30초 가이드

복잡한 결정 매트릭스 대신 30초 안에 답이 나오는 트리를 드립니다.

시작
│
├── 코드 작성·리뷰가 주요 워크로드?
│     └── 예 → 단일 PR·자기 검증 위주? → 예: Claude Opus 4.7
│                                          → 아니오(모노레포): GPT-5.5
│
├── 멀티모달(이미지·영상·SVG) 또는 대량 배치 워크로드?
│     └── 예 → 단가가 1순위? → 예: Gemini 3.1 Pro (정책 OK면 DeepSeek 보조)
│                              → 아니오(품질 1순위): GPT-5.5
│
├── 리서치·문서·1M 컨텍스트 활용이 중심?
│     └── 예 → GPT-5.5 (그다음 Gemini 3.1 Pro)
│
└── 사이버보안·고난도 수학·취약점 탐색 R&D?
      └── 예 → 가능하면 Mythos Preview (접근 제한),
              아니면 Opus 4.7

실무 팁: 한 모델만 깔지 마세요. 데일리 드라이버 1개 + 보조 1개2-모델 정책이 운영 안정성과 단가의 균형점입니다. 예: “Opus 4.7 + Gemini 3.1 Pro 배치” 조합.

자주 묻는 질문 — DeepSeek V4나 한국 모델은 어디에 두나

Q. DeepSeek V4, 우리 사내에서 써도 되나요?
A. 데이터가 외부로 나가지 않는 온프레미스/사내 게이트웨이 라우팅 구조가 필수입니다. 그리고 2026년 4월 24일 시점에서는 프리뷰라 정식 SWE-bench 수치 미공개입니다. 비용 절감 워크로드의 부분 적용부터 시작하세요.

Q. 한국 모델(LG, 네이버 등)은요?
A. 한국어 도메인·국내 데이터 정합성·소버린 AI 관점에서는 강점이 있습니다. 벤치마크 단일 비교보다는 국내 규제(AI 기본법)·데이터 거주성·기존 사내 시스템 연동까지 합쳐서 보세요. 글로벌 프런티어 모델과 이원화 운영이 현실적입니다.

Q. Sora는 왜 없나요?
A. OpenAI Sora는 2026년 3월 24일 종료가 발표되고, 4월 26일 웹·앱 접근이 종료됐습니다. AI 비디오 생성 1순위는 현시점 Veo 3.1(Google DeepMind) — 동영상과 동기화된 오디오(립싱크·환경음) 네이티브 생성이 결정적 차별화입니다.


5. 그래서, 다음 분기에 할 일 (실무 체크리스트)

이 섹션 한 줄 요약: 트렌드는 행동으로 끝나야 의미가 있다. 임원 보고용 한 페이지 + 90일 로드맵 + 함정 5가지.

임원 보고용 한 페이지 요약 (복붙용)

다음 주 회의에서 그대로 던질 수 있는 요약입니다. 본 글의 출처는 본문 안에 다 있습니다.

[2026년 5월 AI 트렌드 요약 - 임원 보고용]

1. 시장 (Gartner 2026.01)
   - 전 세계 AI 지출 2.52조 달러 (+44% YoY)
   - 한국 기업 GenAI 도입 85% 전망(현 55.7%), 예산 확대 79.3%
   - 그러나 도입 기업 약 79%가 의미 있는 어려움 보고(Deloitte)

2. 살아남은 3축
   - 에이전틱 AI: 단일 에이전트는 프로덕션 진입, 멀티는 실험 단계
   - 피지컬 AI: 제조·물류는 진입, 휴머노이드는 데모 단계
   - 멀티모달·프런티어 모델: 2026.04 한 달에 GPT-5.5·Opus 4.7·Gemini 3.1 Pro 등 동시 출시

3. 모델 표준 후보
   - 데일리(코드): Claude Opus 4.7 ($5/$25 per 1M)
   - 데일리(범용·1M 컨텍스트): GPT-5.5 ($5/$30 per 1M)
   - 보조(멀티모달·배치): Gemini 3.1 Pro ($2/$12 per 1M)

4. 규제
   - 한국 AI 기본법 2026.01.22 시행, 벌칙 1년 유예(2027.01.22~)
   - 고성능 AI 기준: 누적 학습 컴퓨트 10^26 FLOPs 이상

5. 다음 90일 액션
   - 0주차: 모델·예산·데이터 거버넌스 정책 확정
   - 30일차: 단일 워크플로우 에이전틱 PoC 가동
   - 90일차: 프로덕션 1건 + 임원 보고 KPI 측정

90일 도입 로드맵 — 0주차 / 30일차 / 90일차

작년에 갈아엎은 PoC들의 공통 실패 원인은 0주차에 너무 작게 잡거나, 너무 크게 잡거나, 결정 게이트가 없었다는 점입니다. 그래서 의도적으로 각 단계의 결정 게이트를 같이 둡니다.

0주차 (Day 0~7) — 시작선 정렬
- [ ] 자동화 후보 워크플로우 3개 후보군 작성. 그중 입출력이 명확한 1개 선정.
- [ ] 데이터 거버넌스 라인 확정: 어떤 데이터가 외부 모델로 나갈 수 있는가/없는가 (한국 AI 기본법 시행 기준).
- [ ] 모델 단가 시나리오 시트 작성 (월 100만/500만/3,000만 토큰 시나리오로 모델별 비용 추정).
- [ ] 결정 게이트: 이 PoC가 30일 안에 측정 가능한 KPI를 1개 이상 보고할 수 있는가? 답이 “아니오”면 후보 교체.

30일차 — 첫 결과 측정
- [ ] 단일 에이전트 PoC 가동(멀티 에이전트 금지). 작업 1개 끝까지 자기 검증 패턴.
- [ ] 사람 검수 게이트 정착: 결과를 누가, 어떤 기준으로, 며칠 안에 확인하는가.
- [ ] KPI 측정 보고: 처리량·정확도·시간 절감·운영비. 정성평가만 있으면 실패로 간주.
- [ ] 결정 게이트: 현재 ROI 추세선이 6개월 내 손익분기를 만드는가? 답이 “아니오”면 모델·워크플로우 교체.

90일차 — 프로덕션 진입 1건
- [ ] PoC 1건의 프로덕션 SLA 정의: 가용성·응답 시간·실패 시 대체 경로.
- [ ] 보안·감사 로그 정리: 에이전트가 호출한 도구·인자·결과의 전수 기록.
- [ ] 2분기 확장 후보 3개 선정 (가장 ROI 좋은 워크플로우 패턴 재사용).
- [ ] 결정 게이트: 프로덕션 1건이 KPI 목표를 충족했는가? 충족 시 확장 승인, 미달 시 왜 안 됐는지의 회고 보고서 1장.

자주 빠지는 함정 5가지

마지막으로, 1년치 시행착오를 5줄로 압축합니다.

  1. “모델만 바꾸면 된다”는 환상. 모델보다 데이터·도구·디렉팅 가능자가 결과의 80%를 결정합니다.
  2. 멀티 에이전트부터 시작하기. 단일 에이전트도 안 깐 팀이 멀티부터 가면 6주 안에 컨텍스트·합의·책임 3중 폭주가 옵니다.
  3. 단가를 출력 토큰으로만 본다. 프롬프트 캐시·1M 컨텍스트의 활용·평균 호출 빈도까지 계산해야 진짜 단가가 나옵니다.
  4. 보안 검토를 PoC 끝에 한다. 한국 AI 기본법 시행 이후로는 데이터 거버넌스가 0주차 작업입니다. 끝에 하면 갈아엎습니다.
  5. 사람 KPI를 안 잡는다. “AI가 한 일”이 아니라 “AI를 디렉팅한 사람의 KPI” 가 핵심입니다. 디렉팅 능력이 평가에 안 들어가면 도입은 정착하지 않습니다.

마무리: 트렌드 단어가 아니라, 다음 주 회의의 한 줄을 가져가세요

이 글의 약속은 단순했습니다 — 트렌드 단어 외우러 온 것이 아니라면, 다음 주 회의에서 쓸 한 줄을 가져가시면 됩니다.

2026년 5월의 한 줄은 이렇습니다.

“우리는 에이전틱·피지컬·멀티모달 중 우리 워크플로우에 맞는 1축을 골라, 단일 에이전트 + 도메인 디렉팅 가능자 + 측정 가능한 KPI 패턴으로 90일 안에 프로덕션 1건을 만든다. 모델은 코드·범용·단가의 2-모델 정책으로 깐다. 규제는 0주차부터 본다.”

여기까지 읽으셨다면, 임원 보고용 한 페이지 박스(섹션 5)를 그대로 복붙해 다음 회의에 가져가셔도 됩니다. 90일 체크리스트는 북마크해두시고, 30일·90일 게이트에서 다시 펴보세요.

바로 다음에 하실 일 3가지:

  1. 자동화 후보 워크플로우 3개를 오늘 30분 안에 적어보세요.
  2. 그중 1개를 0주차 PoC 후보로 정하고, 데이터 거버넌스 라인을 확정하세요.
  3. 모델 단가 시나리오 시트를 월 100만/500만/3,000만 토큰 세 줄로 만들어 보세요. 그게 임원 보고에 가장 빠르게 통하는 한 장입니다.

트렌드는 매년 바뀝니다. 그런데 트렌드 중 진짜만 골라 90일 안에 한 건 실행하는 팀은 매년 같은 패턴으로 이깁니다. 다음 분기, 그 팀이 되시길.


이 글은 2026년 5월 16일 기준의 공식 출처와 1차 자료를 바탕으로 정리했습니다. 모델 가격·벤치마크는 각 사의 발표 기준이며, 동일 셋이 아닌 점은 본문에서 표시했습니다. 실제 도입 결정 시에는 사내 보안·법무 검토와 최신 모델 가격을 다시 확인해 주세요.