Claude Opus 4.7 — '더 똑똑한'이 아니라 '더 맡길 수 있는' 모델

출시

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 출시했다. 모델 ID는 claude-opus-4-7. 가격은 Opus 4.6과 동일하게 입력 $5, 출력 $25 (백만 토큰당).

Anthropic의 공식 표현이 인상적이다:

“가장 어려운 코딩 작업을 감독 없이 맡길 수 있는 수준”

“더 똑똑해졌다"가 아니라 “더 맡길 수 있게 됐다“는 표현이다. 모델의 방향성 자체가 바뀌었다는 걸 보여준다.

벤치마크: 1위 탈환

GPT-5.4와 Gemini 3.1 Pro에 밀렸던 자리를 되찾았다.

코딩

벤치마크	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%
SWE-bench Verified	87.6%	80.8%	-	80.6%
CursorBench	70%	58%	-	-
Rakuten-SWE-Bench	3배 향상 (vs 4.6)	기준	-	-

SWE-bench Pro에서 Opus 4.6 대비 13%p 향상. CursorBench에서도 58% → 70%로 12%p 올랐다.

지식 노동

영역	성과
Finance Agent	SOTA (최고 수준) 달성
BigLaw Bench (법률)	90.9% 정확도
GDPval-AA (경제적 가치)	SOTA 달성

금융 분석, 법률 검토, 문서 작성 등 전문 지식 작업에서도 최고 수준.

비전

벤치마크	Opus 4.7	Opus 4.6
XBOW (시각 정확도)	98.5%	54.5%

54.5% → 98.5%. 이건 “개선"이 아니라 “차원이 다른” 수준이다.

핵심 변화 1: 셀프 검증

Opus 4.7의 가장 큰 변화는 자기 출력물을 스스로 검증한다는 것이다.

단순한 chain-of-thought가 아니다. 모델이:

원래 요구사항과 출력물을 대조 확인
계획 단계에서 논리적 결함을 감지
실제로 문제가 해결되는지 검증

Vercel의 평가에 따르면 “시스템 코드 작업 전에 먼저 증명(proof)을 제시하는 새로운 행동 방식"이 관찰됐다. Notion은 “암시적 요구사항 테스트를 처음으로 통과"했다고 보고했다.

그 결과 도구 오류가 1/3로 감소하고 다단계 워크플로우 성능이 14% 향상됐다.

핵심 변화 2: 3.3배 고해상도 비전

이전 Claude 모델의 이미지 해상도 한계는 1,568px / 1.15MP였다. Opus 4.7은 2,576px / 3.75MP로 3배 이상 늘었다.

이게 왜 중요하냐면:

화학 구조식의 작은 글씨 인식
기술 다이어그램의 세부 요소 파악
특허 문서의 복잡한 도면 해석
스크린샷 기반 에이전트의 화면 인식 정확도

XBOW 벤치마크에서 54.5% → 98.5%로 뛴 게 이 해상도 향상 덕이다. 자율 펜테스팅 워크플로우가 이제 가능해졌다는 평가도 있다.

핵심 변화 3: xhigh Effort 레벨

기존 effort 파라미터에 xhigh 레벨이 추가됐다.

low → medium → high → xhigh (신규) → max

xhigh는 Claude Code의 새 기본값
high와 max 사이의 지능/비용 트레이드오프
코딩과 에이전트 작업에 최적화

# API 사용 예시
response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    thinking={
        "type": "enabled",
        "budget_tokens": 8192,
        "effort": "xhigh"
    },
    messages=[{"role": "user", "content": "..."}]
)

주의사항: 프롬프트 재튜닝 필수

이건 중요하다. Opus 4.7은 지시를 문자 그대로 해석한다.

이전 모델들은 모호한 표현을 “알아서” 해석했지만, 4.7은 정확히 지시한 대로만 실행한다.

이전 모델	Opus 4.7
“간단히 설명해” → 적당히 요약	“간단히 설명해” → 진짜 최소한만
“필요하면 추가해” → 알아서 판단	“필요하면 추가해” → 명시 안 하면 생략
“적절히 처리해” → 상황에 맞게	“적절히 처리해” → 기준이 뭔지 물어봄

기존에 잘 돌아가던 프롬프트가 4.7에서는 다르게 동작할 수 있다. 마이그레이션 시 프롬프트 감사가 필수다.

주의사항: 토큰 사용량 변화

입력 토큰: 1.0~1.35배 증가
높은 effort 레벨에서 더 많은 토큰 소비
토크나이저 업데이트로 동일 텍스트가 더 많은 토큰으로 분해될 수 있음

다만 Replit은 “더 낮은 비용으로 동일 품질 달성"이 가능하다고 평가했다. 개별 호출의 토큰은 늘었지만, 재시도와 오류 수정이 줄어서 전체 비용은 오히려 줄 수 있다는 것이다.

주의사항: 벤치마크 오염 가능성

Anthropic 스스로 메모리화 오염(memorization contamination) 가능성을 언급했다. 벤치마크 데이터가 학습 데이터에 포함됐을 수 있다는 뜻이다. 실제 프로덕션 작업으로 직접 검증하는 게 좋다.

함께 나온 기능들

Opus 4.7 출시와 함께 Claude Code에도 새 기능이 추가됐다.

기능	설명
Task Budgets	에이전트 작업의 토큰 지출 상한 설정
Auto Mode	Max 플랜에서 권한 자동 판단 (별도 포스트)
/ultrareview	내장 코드 리뷰어 (Pro/Max 3회 무료)
파일 시스템 메모리	세션 간 중요 노트 자동 보존

보안

Project Glasswing에 따라 사이버 보안 능력이 일정 수준으로 제한되어 있다. Mythos(연구용 내부 모델)보다 제한적이며, 위험한 사이버 보안 용도는 자동 탐지/차단된다.

다만 정당한 보안 전문가를 위한 Cyber Verification Program이 있어서, 인증된 사용자는 보안 연구 목적으로 활용할 수 있다.

커뮤니티 반응

GeekNews에서도 당연히 다뤄졌다.

Genspark은 “무한 루프 저항성, 일관성, 우아한 에러 복구"가 개선됐다고 평가했다. 개발 현장에서 실제로 체감되는 변화라는 뜻이다.

VentureBeat는 “GPT-5.4와 Gemini 3.1 Pro를 간신히 따돌리며 1위를 탈환"이라고 보도했다. “간신히"라는 표현이 현재 LLM 경쟁의 치열함을 잘 보여준다.

정리

	Opus 4.6	Opus 4.7
SWE-bench Pro	53.4%	64.3%
CursorBench	58%	70%
XBOW (비전)	54.5%	98.5%
이미지 해상도	1,568px	2,576px
셀프 검증	제한적	내장
effort 레벨	low~max	low~max + xhigh
가격 (입/출)	$5/$25	동일

Opus 4.7의 핵심은 “더 똑똑해졌다"가 아니라 “더 맡길 수 있게 됐다“이다. 셀프 검증, 도구 오류 감소, 긴 작업에서의 일관성 — 모두 “사람이 덜 개입해도 되는” 방향이다.

프롬프트 재튜닝만 잘 하면, 체감 성능은 벤치마크 수치보다 더 클 수 있다.

출시#

벤치마크: 1위 탈환#

코딩#

지식 노동#

비전#

핵심 변화 1: 셀프 검증#

핵심 변화 2: 3.3배 고해상도 비전#

핵심 변화 3: xhigh Effort 레벨#

주의사항: 프롬프트 재튜닝 필수#

주의사항: 토큰 사용량 변화#

주의사항: 벤치마크 오염 가능성#

함께 나온 기능들#

보안#

커뮤니티 반응#

정리#

참고 자료#

출시