출시
2026년 4월 16일, Anthropic이 Claude Opus 4.7을 출시했다. 모델 ID는 claude-opus-4-7. 가격은 Opus 4.6과 동일하게 입력 $5, 출력 $25 (백만 토큰당).
Anthropic의 공식 표현이 인상적이다:
“가장 어려운 코딩 작업을 감독 없이 맡길 수 있는 수준”
“더 똑똑해졌다"가 아니라 **“더 맡길 수 있게 됐다”**는 표현이다. 모델의 방향성 자체가 바뀌었다는 걸 보여준다.
벤치마크: 1위 탈환
GPT-5.4와 Gemini 3.1 Pro에 밀렸던 자리를 되찾았다.
코딩
| 벤치마크 | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Pro | 64.3% | 53.4% | 57.7% | 54.2% |
| SWE-bench Verified | 87.6% | 80.8% | - | 80.6% |
| CursorBench | 70% | 58% | - | - |
| Rakuten-SWE-Bench | 3배 향상 (vs 4.6) | 기준 | - | - |
SWE-bench Pro에서 Opus 4.6 대비 13%p 향상. CursorBench에서도 58% → 70%로 12%p 올랐다.
지식 노동
| 영역 | 성과 |
|---|---|
| Finance Agent | SOTA (최고 수준) 달성 |
| BigLaw Bench (법률) | 90.9% 정확도 |
| GDPval-AA (경제적 가치) | SOTA 달성 |
금융 분석, 법률 검토, 문서 작성 등 전문 지식 작업에서도 최고 수준.
비전
| 벤치마크 | Opus 4.7 | Opus 4.6 |
|---|---|---|
| XBOW (시각 정확도) | 98.5% | 54.5% |
54.5% → 98.5%. 이건 “개선"이 아니라 “차원이 다른” 수준이다.
핵심 변화 1: 셀프 검증
Opus 4.7의 가장 큰 변화는 자기 출력물을 스스로 검증한다는 것이다.
단순한 chain-of-thought가 아니다. 모델이:
- 원래 요구사항과 출력물을 대조 확인
- 계획 단계에서 논리적 결함을 감지
- 실제로 문제가 해결되는지 검증
Vercel의 평가에 따르면 “시스템 코드 작업 전에 먼저 증명(proof)을 제시하는 새로운 행동 방식"이 관찰됐다. Notion은 “암시적 요구사항 테스트를 처음으로 통과"했다고 보고했다.
결과적으로 도구 오류가 1/3로 감소하고 다단계 워크플로우 성능이 14% 향상됐다.
핵심 변화 2: 3.3배 고해상도 비전
이전 Claude 모델의 이미지 해상도 한계는 1,568px / 1.15MP였다. Opus 4.7은 2,576px / 3.75MP로 3배 이상 늘었다.
이게 왜 중요하냐면:
- 화학 구조식의 작은 글씨 인식
- 기술 다이어그램의 세부 요소 파악
- 특허 문서의 복잡한 도면 해석
- 스크린샷 기반 에이전트의 화면 인식 정확도
XBOW 벤치마크에서 54.5% → 98.5%로 뛴 게 이 해상도 향상 덕이다. 자율 펜테스팅 워크플로우가 이제 가능해졌다는 평가도 있다.
핵심 변화 3: xhigh Effort 레벨
기존 effort 파라미터에 xhigh 레벨이 추가됐다.
low → medium → high → xhigh (신규) → max
xhigh는 Claude Code의 새 기본값high와max사이의 지능/비용 트레이드오프- 코딩과 에이전트 작업에 최적화
# API 사용 예시
response = client.messages.create(
model="claude-opus-4-7",
max_tokens=4096,
thinking={
"type": "enabled",
"budget_tokens": 8192,
"effort": "xhigh"
},
messages=[{"role": "user", "content": "..."}]
)
주의사항: 프롬프트 재튜닝 필수
이건 중요하다. Opus 4.7은 지시를 문자 그대로 해석한다.
이전 모델들은 모호한 표현을 “알아서” 해석했지만, 4.7은 정확히 지시한 대로만 실행한다.
| 이전 모델 | Opus 4.7 |
|---|---|
| “간단히 설명해” → 적당히 요약 | “간단히 설명해” → 진짜 최소한만 |
| “필요하면 추가해” → 알아서 판단 | “필요하면 추가해” → 명시 안 하면 생략 |
| “적절히 처리해” → 상황에 맞게 | “적절히 처리해” → 기준이 뭔지 물어봄 |
기존에 잘 돌아가던 프롬프트가 4.7에서는 다르게 동작할 수 있다. 마이그레이션 시 프롬프트 감사가 필수다.
주의사항: 토큰 사용량 변화
- 입력 토큰: 1.0~1.35배 증가
- 높은 effort 레벨에서 더 많은 토큰 소비
- 토크나이저 업데이트로 동일 텍스트가 더 많은 토큰으로 분해될 수 있음
다만 Replit은 “더 낮은 비용으로 동일 품질 달성"이 가능하다고 평가했다. 개별 호출의 토큰은 늘었지만, 재시도와 오류 수정이 줄어서 전체 비용은 오히려 줄 수 있다는 것이다.
주의사항: 벤치마크 오염 가능성
Anthropic 스스로 메모리화 오염(memorization contamination) 가능성을 언급했다. 벤치마크 데이터가 학습 데이터에 포함됐을 수 있다는 뜻이다. 실제 프로덕션 작업으로 직접 검증하는 게 좋다.
함께 나온 기능들
Opus 4.7 출시와 함께 Claude Code에도 새 기능이 추가됐다.
| 기능 | 설명 |
|---|---|
| Task Budgets | 에이전트 작업의 토큰 지출 상한 설정 |
| Auto Mode | Max 플랜에서 권한 자동 판단 (별도 포스트) |
| /ultrareview | 내장 코드 리뷰어 (Pro/Max 3회 무료) |
| 파일 시스템 메모리 | 세션 간 중요 노트 자동 보존 |
보안
Project Glasswing에 따라 사이버 보안 능력이 일정 수준으로 제한되어 있다. Mythos(연구용 내부 모델)보다 제한적이며, 위험한 사이버 보안 용도는 자동 탐지/차단된다.
다만 정당한 보안 전문가를 위한 Cyber Verification Program이 있어서, 인증된 사용자는 보안 연구 목적으로 활용할 수 있다.
커뮤니티 반응
GeekNews에서도 당연히 다뤄졌다.
Genspark은 “무한 루프 저항성, 일관성, 우아한 에러 복구"가 개선됐다고 평가했다. 개발 현장에서 실제로 체감되는 변화라는 뜻이다.
VentureBeat는 “GPT-5.4와 Gemini 3.1 Pro를 간신히 따돌리며 1위를 탈환"이라고 보도했다. “간신히"라는 표현이 현재 LLM 경쟁의 치열함을 잘 보여준다.
정리
| Opus 4.6 | Opus 4.7 | |
|---|---|---|
| SWE-bench Pro | 53.4% | 64.3% |
| CursorBench | 58% | 70% |
| XBOW (비전) | 54.5% | 98.5% |
| 이미지 해상도 | 1,568px | 2,576px |
| 셀프 검증 | 제한적 | 내장 |
| effort 레벨 | low~max | low~max + xhigh |
| 가격 (입/출) | $5/$25 | 동일 |
Opus 4.7의 핵심은 “더 똑똑해졌다"가 아니라 **“더 맡길 수 있게 됐다”**이다. 셀프 검증, 도구 오류 감소, 긴 작업에서의 일관성 — 모두 “사람이 덜 개입해도 되는” 방향이다.
프롬프트 재튜닝만 잘 하면, 체감 성능은 벤치마크 수치보다 더 클 수 있다.
참고 자료
- Introducing Claude Opus 4.7 — Anthropic
- What’s new in Claude Opus 4.7 — Claude API Docs
- Claude Opus 4.7 실전 활용 가이드 — brunch/@lukas08
- Claude Opus 4.7을 소개합니다 — GeekNews
- Claude Opus 4.7 narrowly retaking lead — VentureBeat
- Claude Opus 4.7 leads on SWE-bench — The Next Web
- Claude Opus 4.7 is now available in Amazon Bedrock — AWS