[아이뉴스24 윤소진 기자] 앤트로픽이 25일 차세대 모델 ‘클로드 오푸스 4.5(Claude Opus 4.5)’를 공식 출시했다. 개발·에이전트·컴퓨터 활용 성능을 전반적으로 끌어올린 모델로, 기존 오푸스 4.1 대비 입력·출력 토큰 비용이 3분의 1 수준으로 낮아진 것이 특징이다. 오푸스 4.5는 현재 앤트로픽 앱과 API, 주요 3대 클라우드 플랫폼에서 즉시 이용할 수 있다.
![소프트웨어 엔지니어링 테스트 결과. [사진=앤트로픽 공식 블로그]](https://image.inews24.com/v1/110750a1dcdc50.jpg)
앤트로픽 내부 테스트에 따르면 오푸스 4.5는 엔지니어 채용을 위해 사용되는 난이도 높은 2시간 실전 과제에서 역대 인간 후보 중 최고점보다 높은 점수를 냈다. 기존 소네트 4.5로는 어려웠던 멀티시스템 버그 수정, 모호한 조건 판단, 장기 분석 작업도 해결 가능해졌다는 평가도 나왔다.
오푸스 4.5는 실제 오픈소스 프로젝트 기반 디버깅 테스트인 SWE-bench Multilingual에서 8개 언어 중 7개 언어에서 최고 성능을 기록했다. 일부 벤치마크에서는 규정 내에서 창의적 해결책을 도출하는 사례도 나왔다. 예를들어 일정 변경이 불가능한 기본석 항공권 문제에서 “좌석 등급을 먼저 상향한 뒤 일정 변경을 적용한다”는 합법적 우회 경로를 자동으로 찾아냈다.
안전성 강화도 주요 개선 사항이다. 앤트로픽에 따르면 오푸스 4.5는 앤트로픽이 지금까지 출시한 모델 중 가장 낮은 ‘우려 행동(concerning behavior)’ 점수를 기록했고, 외부 기관 Gray Swan이 수행한 고강도 프롬프트 인젝션 테스트에서도 업계 모델 가운데 가장 높은 방어력을 보였다.
회사는 "악성 공격이나 오용 위험 상황에서 모델이 스스로 위험을 회피하는 길거리 감각(street smarts)이 크게 강화됐다"고 설명했다.
개발자 플랫폼도 대폭 개선됐다. API에는 작업 속도·비용·성능을 선택할 수 있는 ‘effort’ 파라미터가 새로 도입됐으며, 중간 수준에서는 Sonnet 4.5와 동일한 SWE-bench 성능을 내면서 출력 토큰을 76% 줄인다. 최고 effort에서는 Sonnet 4.5보다 4.3%포인트 높은 성능을 내면서도 토큰 사용량은 48% 적다. 컨텍스트 자동 압축과 장기 실행, 고급 툴 호출, 다중 서브에이전트 조율 기능 등이 결합되며 깊이 있는 리서치 평가에서는 성능이 15%포인트 향상됐다.
마리오 로드리게스 깃허브 최고 제품 책임자(CPO)는 "오푸스 4.5는 고품질 코드를 생성하고 무거운 에이전트 워크플로를 구동하는 데 탁월하다"며 "토큰 사용량은 절반으로 줄이면서 내부 코딩 벤치마크를 초과 달성했다"고 평가했다.
--comment--
첫 번째 댓글을 작성해 보세요.
댓글 바로가기