Claude 4.5 출시: 테스트 결과 왜 최고의 코딩 모델인지 발견했습니다 (벤치마크가 아닌)

우리 모두는 Claude 4.5를 기다려왔고, 마침내 그 순간이 왔습니다.

저는 Claude 4와 5의 모든 가능한 기능을 테스트하는 데 10시간 이상을 보냈으며, 시간을 절약하는 데 도움이 되는 세부 정보를 공유하고자 합니다. 이 글은 Claude 4.5에 대해 알아야 할 중요한 세부 사항을 안내하며, 여러분에게 가장 중요한 것에 초점을 맞추도록 정보를 정제했습니다.

Claude는 지금까지 최고의 코딩 모델이었습니다. 저는 이전의 모든 모델을 경쟁 모델과 비교 테스트했으며, Claude가 제공하는 것에 근접한 것은 없었습니다.

하지만 코딩 모델의 정점에 도달했다고 생각하려던 찰나, Claude 4.5가 우리를 놀라게 하며 기존 모델을 능가하는 인상적인 개선을 보여주었습니다.

SWE-bench Verified에서 77.2%의 점수로 코딩 벤치마크 정상에 바로 올랐습니다.

하지만 이것들은 일상적인 코딩 요구사항에는 의미가 없는 벤치마크일 뿐입니다.

언제나처럼, 저는 이 모델의 실제 테스트를 통해 무엇이 가능한지 확인하거나 AI 과대광고 열차가 알려주지 않는 것을 밝혀내고자 합니다.

나중에 프로젝트 테스트 섹션에서 보시겠지만, 전체 프로젝트를 빠르게 구축해봤고 결과는 인상적이었습니다.

이는 제가 이전에 중국 모델 관련 글에서 공유했던 중국 모델들을 잊게 만들었습니다.

Anthropic은 코딩을 돕는 AI 모델을 넘어서 복잡한 소프트웨어 엔지니어링 작업을 자율적으로 처리할 수 있는 것의 의미를 재정의하고 있는 것으로 보입니다.

실제 코딩 벤치마크에서 77.2%를 기록한 Claude 4.5는 향후 몇 달 안에 지속적인 인간 개입 없이 완전한 소프트웨어 엔지니어링 역할을 자율적으로 처리할 수 있는 Claude 모델을 가질 수 있다는 것을 보여줍니다.

복잡한 작업에서 30시간 이상 실행할 수 있는 에이전트 기능을 갖춘 것이 Claude 4.5를 이전에 본 어떤 것과도 차별화시킵니다.

테스트를 시작하기 전에 Claude 4.5에 대한 기본 정보부터 시작하겠습니다.

그렇다면 Claude 4.5의 차이점은 무엇일까요?

Claude Sonnet 4.5 소개

Claude Sonnet 4.5는 2025년 9월 29일에 출시된 Anthropic의 최신 프론티어 모델입니다.

현재까지 가장 지능적인 코딩 모델로 자리매김하고 있으며 이전 Claude 모델들의 직접적인 대체품으로 제공됩니다.

가격

가격은 Claude Sonnet 4와 동일하게 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러로 유지됩니다.

이는 토큰 100만 개당 15달러/75달러인 Claude Opus보다 저렴하면서도 대부분의 벤치마크에서 더 나은 성능을 제공합니다.

모델은 다음과 같은 곳에서 사용할 수 있습니다:

Claude.ai 웹 인터페이스 및 모바일 앱
모델 문자열 'claude-sonnet-4-5-20250929'를 사용하는 Claude API
에이전트 코딩 작업을 위한 Claude Code
GitHub Copilot, Cursor 및 OpenRouter에 통합

벤치마크

이번 릴리스가 다른 점은 Anthropic이 "세계 최고의 코딩 모델"이라는 대담한 주장을 한다는 것입니다.

이 모델은 개발자들이 매일 직면하는 실제 GitHub 이슈에 대해 AI 모델을 테스트하는 SWE-bench Verified에서 77.2%를 기록했습니다.

이를 관점에서 보면:

Claude Opus 4.1은 74.5%를 기록
Claude 4는 72.7%를 달성
GPT-5는 72.8%에 머물러
병렬 컴퓨팅을 사용한 Claude 4.5는 82%로 점프

이는 디버깅 시간을 줄이고 구축 시간을 늘리는 데 큰 차이를 만드는 상당한 차이입니다.

컴퓨터 사용

코딩을 넘어, Claude 4.5는 컴퓨터 사용에서 상당한 개선을 보여줍니다.

실제 컴퓨터 작업에 대한 AI 모델을 테스트하는 벤치마크인 OSWorld에서 61.4%로 선두를 달리고 있습니다.

불과 4개월 전, Claude Sonnet 4는 42.2%로 선두를 유지했습니다. 이는 실용적인 컴퓨터 상호작용 능력에서 19 퍼센트 포인트의 점프입니다.

정렬 우위

제 관심을 끈 것은: Anthropic이 이것이 지금까지 가장 정렬된 모델이라고 주장한다는 것입니다.

그들은 아첨, 속임수, 권력 추구, 망상적 사고를 조장하는 경향과 같은 우려되는 행동을 줄였습니다.

프로덕션 시스템을 구축하는 개발자들에게 이러한 정렬은 원시 성능 수치보다 더 중요합니다.

Claude 4.5는 AI 안전 레벨 3 보호 하에 출시되고 있습니다. 이는 특히 화학, 생물학, 방사선 및 핵무기와 관련된 잠재적으로 위험한 입력 및 출력을 감지하는 분류기가 함께 제공된다는 것을 의미합니다.

이러한 안전 조치는 때때로 일반 콘텐츠에 플래그를 지정할 수 있지만, Anthropic은 처음 설명한 이후 거짓 양성을 10분의 1로 줄였습니다.

"하지만 질문은 남습니다: 이 모든 것이 실제 시나리오에서 더 나은 코딩으로 이어질까요? 그것이 제가 테스트하기로 한 것입니다."

Claude 생태계 중요 업그레이드

Anthropic은 단순히 모델 업그레이드를 출시한 것이 아니라 Claude Code, API 및 개발자 도구 전반에 걸친 개선의 완전한 생태계를 제공했습니다.

저는 다른 튜토리얼에서 Claude Code를 광범위하게 다루었지만, SDK 사용에 대한 실용적인 튜토리얼은 아직 다루지 않았으며 곧 다룰 예정입니다. Claude 4.5와 함께 제공된 업그레이드 중 하나가 이름 변경입니다. Medium에서 저를 팔로우하여 튜토리얼을 공유할 때 알림을 받으세요.

다음은 업그레이드의 간단한 요약입니다.

Claude Code 2.0 업그레이드

Claude Code는 버전 2.0으로 대대적인 개편을 받았습니다. 터미널 인터페이스가 재설계되었고 기능이 확장되어 일상적인 코딩 워크플로우가 더 원활해졌습니다.

체크포인트가 이제 자동입니다.

Claude Code로 변경할 때마다 복원 지점이 생성됩니다. 실험 전에 수동 git 커밋이 더 이상 필요하지 않습니다.

Esc를 두 번 탭하고 이전 상태를 선택하여 해당 지점에서 대화를 복원하고 분기할 수 있습니다.

VS Code 확장 프로그램은 Claude Code를 에디터에 직접 가져옵니다:

Copilot 및 Cursor와 유사한 채팅 인터페이스
현재 파일 및 선택한 코드에 대한 지식
빠른 작업을 위한 슬래시 명령
세 가지 모드: 편집 전 묻기, 자동 편집, 계획 모드
실시간 코드 제안 및 편집

검색 가능한 프롬프트 기록은 간단하지만 기능적입니다.

Ctrl+R을 누르고 이전 프롬프트를 검색합니다.

유사한 작업을 반복할 때, 표준 지침을 다시 입력할 필요가 없어 시간을 절약합니다.

(저는 다음 Claude Code 튜토리얼 시리즈 글에서 이를 더 자세히 다룰 것입니다. 이 목록을 북마크하고 제가 게시할 때 업데이트를 받으려면 Medium에서 저를 팔로우하는 것을 잊지 마세요)

에이전트를 위한 API 개선

API 업데이트는 장기 실행 에이전트를 더 실용적으로 만드는 데 중점을 둡니다.

이러한 기능은 개발자들이 자율 시스템을 구축할 때 직면하는 가장 큰 문제점을 해결합니다.

컨텍스트 편집은 토큰 제한에 접근할 때 오래된 도구 호출 및 결과를 지웁니다.

컨텍스트를 수동으로 관리하거나 하드 제한에 도달하는 대신, 시스템이 최근 도구 상호작용을 유지하면서 이전 상호작용을 제거합니다. 이는 에이전트가 수동 개입 없이 얼마나 오래 실행될 수 있는지를 확장합니다.

메모리 도구를 사용하면 Claude가 파일 기반 시스템을 통해 컨텍스트 창 외부의 정보를 저장하고 액세스할 수 있습니다.

인프라의 전용 메모리 디렉토리에서 파일을 생성, 읽기, 업데이트 및 삭제할 수 있습니다.

이는 대화 전반에 걸쳐 지속되어 에이전트가:

시간이 지남에 따라 지식 기반 구축
세션 간 프로젝트 상태 유지
컨텍스트에 모든 것을 유지하지 않고 이전 학습 참조

이 두 기능을 결합하면 Anthropic이 벤치마크에서 시연한 30시간의 복잡한 작업을 처리하는 에이전트를 구축할 수 있습니다.

Claude Agent SDK

이전에 Claude Code SDK로 알려진 Claude Agent SDK는 이제 코딩 도구뿐만 아니라 모든 에이전트를 구축하기 위한 인프라로 자리매김하고 있습니다.

Claude Code를 구동하는 동일한 기반이지만 자체 애플리케이션에서 사용할 수 있습니다.

SDK는 복잡한 문제를 처리합니다:

장기 실행 작업 전반의 메모리 관리
자율성과 사용자 제어의 균형을 맞추는 권한 시스템
공유 목표를 향한 여러 하위 에이전트 조정
세션 격리 및 포괄적인 관찰 가능성

TypeScript와 Python 모두에서 사용할 수 있으며, 이는 개발자에게 Anthropic이 내부적으로 정교한 에이전트 애플리케이션을 만드는 데 사용하는 빌딩 블록을 제공합니다.

Claude 4.5 테스트

저는 간단한 CRUD 앱으로 AI 모델을 테스트하는 것에 지쳤습니다.

모든 리뷰어가 동일한 할 일 목록이나 블로그 플랫폼을 만듭니다. 이러한 테스트는 모델이 복잡성을 어떻게 처리하는지 드러내지 않습니다.

그래서 Claude 4.5를 더 밀어붙이기로 결정했습니다.

내 문제

저는 기술 문서 작성에 몇 시간을 소비하지 않고 코드베이스를 자동으로 문서화하는 방법이 필요했습니다.

개발자로서 우리는 문서가 항상 뒤처진다는 것을 알고 있습니다. 코드가 변경되고, 문서가 업데이트되지 않으며, 새로운 팀 구성원들은 무슨 일이 일어나고 있는지 이해하는 데 어려움을 겪습니다.

저는 코드베이스를 분석하고, 구조를 이해하고, 정확한 문서를 생성하고, 누락된 것을 식별할 수 있는 MCP(Model Context Protocol) 서버를 구축하고 싶었습니다. 컨텍스트를 이해하는 실제 분석입니다.

MCP 서버 구축

MCP는 AI 모델을 외부 데이터 소스 및 도구에 연결하기 위한 Anthropic의 프로토콜입니다.

MCP 서버를 구축하려면 프로토콜 사양을 이해하고, 서버-클라이언트 통신을 구현하고, 다양한 기능을 가진 여러 도구를 처리하고, 요청 간 상태를 관리해야 합니다.

저는 Claude 4.5에 TypeScript로 문서 분석 MCP 서버를 구축하라는 상세한 프롬프트를 제공했습니다.

요구 사항에는 다음이 포함되었습니다:

여러 언어에 걸친 코드 구조 분석
자동 마크다운 문서 생성
심각도 수준이 있는 누락된 문서 감지
코드 컨텍스트 기반의 지능적인 개선 제안

Claude 4.5가 이 프로젝트 구조를 스캐폴딩했습니다:

smart-docs-mcp/
├── src/
│   ├── index.ts           # MCP 서버 진입점
│   ├── tools/
│   │   ├── analyze.ts     # 코드베이스 분석
│   │   ├── generate.ts    # 문서 생성
│   │   ├── detect.ts      # 누락된 문서 감지
│   │   └── suggest.ts     # 개선 제안
│   ├── parsers/
│   │   ├── typescript.ts
│   │   ├── javascript.ts
│   │   └── python.ts
│   └── generators/
│       └── markdown.ts
├── package.json
└── tsconfig.json

MCP 서버 아키텍처는 다음과 같이 작동합니다:

        ┌─────────────┐
        │  Claude AI  │
        └──────┬──────┘
               │ MCP Protocol
               ▼
        ┌─────────────────┐
        │   MCP Server    │
        └────────┬────────┘
                 │
    ┌────┴────┬─────────┬──────────┐
    ▼         ▼         ▼          ▼
┌────────┐ ┌─────┐ ┌──────┐ ┌─────────┐
│Analyze │ │Gen  │ │Detect│ │ Suggest │
│ Tool   │ │Tool │ │Tool  │ │  Tool   │
└───┬────┘ └──┬──┘ └───┬──┘ └────┬────┘
    │         │         │         │
    └─────────┴─────────┴─────────┘
                 │
                 ▼
          ┌──────────┐
          │ Codebase │
          └──────────┘

Claude가 생성한 서버 구현은 다음과 같았습니다: (샘플 코드)

// 핵심 MCP 서버 설정
import { Server } from '@modelcontextprotocol/sdk/server/index.js';
import { StdioServerTransport } from '@modelcontextprotocol/sdk/server/stdio.js';

const server = new Server({
  name: 'smart-docs-mcp',
  version: '1.0.0',
}, {
  capabilities: {
    tools: {},
  },
});

// 도구 등록
server.setRequestHandler(ListToolsRequestSchema, async () => ({
  tools: [
    {
      name: 'analyze_codebase',
      description: 'Analyzes code structure and returns file map',
      inputSchema: {
        type: 'object',
        properties: {
          path: { type: 'string' }
        }
      }
    },
    // ... 기타 도구
  ]
}));

아키텍처 결정은 견고했습니다.

다국어 파싱을 위해 Tree-Sitter를 사용하고, 적절한 async/await 패턴을 구현하고, 쉽게 확장할 수 있도록 코드를 구조화했습니다.

실제 프로젝트에서 테스트

저는 MCP 서버를 제가 가지고 있던 작은 Express.js API에 지정했습니다—약 150줄의 코드, 4개의 엔드포인트, 기본 인증입니다.

특별한 것은 없지만 실제 기능을 테스트하기에는 충분했습니다.

MCP 서버는 몇 초 만에 전체 코드베이스를 분석했습니다.

API 구조를 식별하고, 라우트 핸들러를 추출하고, 인증 미들웨어를 이해하고, 데이터베이스 모델을 매핑했습니다.

그런 다음 다음과 같은 문서를 생성했습니다:

# API 문서 발췌

## POST /api/auth/login
사용자를 인증하고 JWT 토큰을 반환합니다.

**매개변수:**
- `email` (string, 필수): 사용자 이메일 주소
- `password` (string, 필수): 사용자 비밀번호

**응답:**
```json
{
  "token": "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...",
  "user": {
    "id": "123",
    "email": "user@example.com"
  }
}

오류:

400: 잘못된 자격 증명
500: 서버 오류

각 엔드포인트가 수행하는 작업, 예상하는 매개변수, 반환하는 내용, 오류 처리 방법을 설명하는 유용한 문서를 생성했습니다.

누락된 문서가 있는 세 가지 함수에 플래그를 지정했습니다:

validateEmail() — 매개변수 설명 및 반환 유형 누락
hashPassword() — 오류 처리 문서 없음
generateToken() — 만료 시간 문서 누락

Claude 4.5에 초기 프롬프트를 제공하고 코드를 분석하는 작동하는 MCP 서버를 갖추는 전체 프로세스는 신속했습니다.

TypeScript 구성을 조정하기 위한 한 번의 반복, 그리고 모든 것이 작동했습니다!

최종 생각

Claude 4.5는 단순히 더 나은 것이 아니라 AI 코딩 모델로 가능한 것을 변화시킵니다. 코드베이스를 분석하고 정확한 문서를 생성하며 몇 초 안에 격차를 식별하는 완전한 MCP 서버를 구축하는 능력은 벤치마크 개선보다 더 깊은 무언가를 보여줍니다.

가장 인상 깊었던 것은 77.2%의 SWE-bench 점수나 API 개선이 아니었습니다. Claude 4.5가 단일 상세 프롬프트에서 적절한 아키텍처 결정, Tree-Sitter 파싱 및 확장 가능한 디자인 패턴을 갖춘 복잡한 TypeScript 프로젝트를 구축하는 것을 지켜보는 것이었습니다. 그것이 구축한 MCP 서버가 작동했습니다!

제가 이전의 여러 모델 비교에서 도달했다고 생각했던 코딩 모델 정점? Claude 4.5는 그것이 존재하지 않는다는 것을 증명했습니다.

Claude Code 2.0의 자동 체크포인트, 지속적인 에이전트 상태를 위한 메모리 도구, 30시간 이상의 작업을 처리할 수 있는 능력으로 더 나은 코딩 모델을 위한 더 많은 개선이 올 것입니다.

코딩을 위해 Claude 4.5를 사용해보셨나요? 어떤 경험을 하셨나요?

출처:

원문 제목: Claude 4.5 Released: I Tested It And Discovered Why It's The Best Coding Model (Not The Benchmarks)
저자: Joe Njenga
출판: AI Software Engineer (Medium)
게시일: 2025년 9월 30일
URL: https://medium.com/ai-software-engineer/claude-4-5-released-i-tested-it-and-discovered-why-its-the-best-coding-model-not-the-benchmarks-45dc42680119

claude 4.5 출시: 테스트 결과 왜 최고의 코딩 모델인지 발견했습니다 (벤치마크가 아닌)