이 가이드는 Claude에서 이미지를 다루는 방법, 모범 사례, 코드 예시, 그리고 유의해야 할 제한 사항을 설명합니다.


비전 기능 사용 방법

다음과 같은 방법으로 Claude의 비전 기능을 사용할 수 있습니다:

  • claude.ai. 파일처럼 이미지를 업로드하거나 채팅 창에 이미지를 직접 드래그 앤 드롭하세요.
  • Console Workbench. 이미지를 허용하는 모델(Claude 3 모델만 해당)을 선택하면 모든 사용자 메시지 블록의 오른쪽 상단에 이미지 추가 버튼이 나타납니다.
  • API 요청. 이 가이드의 예시를 참조하세요.

업로드 전 알아야 할 사항

기본 사항 및 제한

하나의 요청에 여러 이미지를 포함할 수 있습니다(claude.ai의 경우 최대 20개, API 요청의 경우 최대 100개). Claude는 응답을 작성할 때 제공된 모든 이미지를 분석합니다. 이는 이미지를 비교하거나 대조할 때 유용할 수 있습니다.

8000x8000 픽셀보다 큰 이미지를 제출하면 거부됩니다. API 요청에서 20개 이상의 이미지를 제출하는 경우 이 제한은 2000x2000 픽셀입니다.

이미지 크기 평가

최적의 성능을 위해, 이미지가 너무 큰 경우 업로드 전에 크기를 조정하는 것이 좋습니다. 이미지의 긴 변이 1568 픽셀을 초과하거나 이미지가 약 1,600 토큰을 초과하는 경우, 크기 제한 내에 들어올 때까지 종횡비를 유지하면서 축소됩니다.

입력 이미지가 너무 크고 크기 조정이 필요한 경우, 추가적인 모델 성능 향상 없이 첫 토큰까지의 시간이 증가합니다. 어느 한 변이 200 픽셀 미만인 매우 작은 이미지는 성능이 저하될 수 있습니다.

첫 토큰까지의 시간을 개선하기 위해, 이미지 크기를 1.15 메가픽셀 이하(두 차원 모두 1568 픽셀 이내)로 조정하는 것을 권장합니다.

다음은 일반적인 종횡비에 대해 API가 허용하는 최대 이미지 크기를 보여주는 표입니다. 이 크기는 크기 조정되지 않습니다. Claude 3.7 Sonnet 모델에서 이러한 이미지는 약 1,600 토큰을 사용하며 이미지 1,000개당 약 $4.80의 비용이 듭니다.

종횡비이미지 크기
1:11092x1092 px
3:4951x1268 px
2:3896x1344 px
9:16819x1456 px
1:2784x1568 px

이미지 비용 계산

Claude에 포함하는 각 이미지는 토큰 사용량에 포함됩니다. 대략적인 비용을 계산하려면 대략적인 이미지 토큰 수에 사용하는 모델의 토큰당 가격을 곱하면 됩니다.

이미지 크기 조정이 필요하지 않은 경우, 다음 알고리즘을 통해 사용되는 토큰 수를 추정할 수 있습니다: 토큰 = (너비 px * 높이 px)/750

다음은 Claude 3.7 Sonnet의 토큰당 가격인 백만 입력 토큰당 $3를 기준으로 API의 크기 제한 내에서 다양한 이미지 크기에 대한 대략적인 토큰화와 비용의 예시입니다:

이미지 크기토큰 수이미지당 비용이미지 1,000개당 비용
200x200 px(0.04 메가픽셀)~54~$0.00016~$0.16
1000x1000 px(1 메가픽셀)~1334~$0.004~$4.00
1092x1092 px(1.19 메가픽셀)~1590~$0.0048~$4.80

이미지 품질 보장

Claude에 이미지를 제공할 때 최상의 결과를 위해 다음 사항을 고려하세요:

  • 이미지 형식: 지원되는 이미지 형식을 사용하세요: JPEG, PNG, GIF, 또는 WebP.
  • 이미지 선명도: 이미지가 선명하고 너무 흐리거나 픽셀화되지 않도록 하세요.
  • 텍스트: 이미지에 중요한 텍스트가 포함된 경우, 읽기 쉽고 너무 작지 않도록 하세요. 텍스트를 확대하기 위해 중요한 시각적 맥락을 잘라내지 마세요.

프롬프트 예시

Claude와의 텍스트 기반 상호작용에 잘 작동하는 많은 프롬프트 기법은 이미지 기반 프롬프트에도 적용될 수 있습니다.

이 예시들은 이미지를 포함하는 모범적인 프롬프트 구조를 보여줍니다.

문서 쿼리 배치와 마찬가지로, Claude는 이미지가 텍스트나 이미지에 대한 질문보다 앞에 올 때 가장 잘 작동합니다. 텍스트 뒤에 오거나 텍스트와 섞여 있는 이미지도 잘 작동하지만, 사용 사례가 허용한다면 이미지-텍스트 구조를 권장합니다.

프롬프트 예시 소개

다음 예시들은 다양한 프로그래밍 언어와 접근 방식을 사용하여 Claude의 비전 기능을 사용하는 방법을 보여줍니다. Claude에 이미지를 제공하는 방법에는 두 가지가 있습니다:

  1. image 콘텐츠 블록의 base64로 인코딩된 이미지
  2. 온라인에 호스팅된 이미지에 대한 URL 참조

base64 예시 프롬프트는 다음 변수들을 사용합니다:

다음은 base64로 인코딩된 이미지와 URL 참조를 사용하여 Messages API 요청에 이미지를 포함하는 방법의 예시입니다:

base64로 인코딩된 이미지 예시

URL 기반 이미지 예시

더 많은 예시 코드와 매개변수 세부 사항은 Messages API 예시를 참조하세요.


제한 사항

Claude의 이미지 이해 기능은 최첨단이지만, 알아야 할 몇 가지 제한 사항이 있습니다:

  • 사람 식별: Claude는 이미지에서 사람을 식별(즉, 이름을 지정)하는 데 사용할 수 없으며 이를 거부할 것입니다.
  • 정확도: Claude는 저품질, 회전된, 또는 200픽셀 미만의 매우 작은 이미지를 해석할 때 환각을 보거나 실수를 할 수 있습니다.
  • 공간 추론: Claude의 공간 추론 능력은 제한적입니다. 아날로그 시계 문자판을 읽거나 체스 말의 정확한 위치를 설명하는 것과 같이 정확한 위치나 레이아웃이 필요한 작업에서 어려움을 겪을 수 있습니다.
  • 계수: Claude는 이미지에서 객체의 대략적인 수를 제공할 수 있지만, 특히 작은 객체가 많은 경우 항상 정확하지는 않을 수 있습니다.
  • AI 생성 이미지: Claude는 이미지가 AI로 생성되었는지 알 수 없으며 질문을 받으면 잘못될 수 있습니다. 가짜나 합성 이미지를 감지하는 데 의존하지 마세요.
  • 부적절한 콘텐츠: Claude는 이용 정책을 위반하는 부적절하거나 노골적인 이미지를 처리하지 않습니다.
  • 의료 응용: Claude는 일반적인 의료 이미지를 분석할 수 있지만, CT나 MRI와 같은 복잡한 진단 스캔을 해석하도록 설계되지 않았습니다. Claude의 출력은 전문적인 의료 조언이나 진단을 대체할 수 없습니다.

특히 중요한 사용 사례에서는 Claude의 이미지 해석을 항상 신중하게 검토하고 확인하세요. 인간의 감독 없이 완벽한 정밀도나 민감한 이미지 분석이 필요한 작업에 Claude를 사용하지 마세요.


FAQ


비전 기능 더 자세히 알아보기

Claude를 사용하여 이미지로 작업을 시작할 준비가 되셨나요? 다음은 몇 가지 유용한 리소스입니다:

다른 질문이 있으시다면 지원 팀에 문의하세요. 또한 개발자 커뮤니티에 참여하여 다른 제작자들과 연결하고 Anthropic 전문가들의 도움을 받을 수 있습니다.

Was this page helpful?