O Claude é capaz de fornecer citações detalhadas ao responder perguntas sobre documentos, ajudando você a rastrear e verificar fontes de informação nas respostas.

O recurso de citações está atualmente disponível no Claude 3.7 Sonnet, Claude 3.5 Sonnet (novo) e 3.5 Haiku.

Compartilhe seu feedback e sugestões sobre o recurso de citações usando este formulário.

Aqui está um exemplo de como usar citações com a API de Mensagens:

Comparação com abordagens baseadas em prompts

Em comparação com soluções de citação baseadas em prompts, o recurso de citações tem as seguintes vantagens:

  • Economia de custos: Se sua abordagem baseada em prompts pede ao Claude para gerar citações diretas, você pode ver economia de custos devido ao fato de que cited_text não conta para seus tokens de saída.
  • Melhor confiabilidade de citação: Como analisamos as citações nos respectivos formatos de resposta mencionados acima e extraímos cited_text, as citações são garantidas para conter ponteiros válidos para os documentos fornecidos.
  • Melhor qualidade de citação: Em nossas avaliações, descobrimos que o recurso de citações é significativamente mais provável de citar as citações mais relevantes dos documentos em comparação com abordagens puramente baseadas em prompts.

Como funcionam as citações

Integre citações com o Claude nestes passos:

1

Forneça documento(s) e ative as citações

  • Inclua documentos em qualquer um dos formatos suportados: PDFs, texto simples ou documentos de conteúdo personalizado
  • Defina citations.enabled=true em cada um dos seus documentos. Atualmente, as citações devem ser ativadas em todos ou nenhum dos documentos dentro de uma solicitação.
  • Observe que atualmente só são suportadas citações de texto e citações de imagens ainda não são possíveis.
2

Os documentos são processados

  • O conteúdo do documento é “dividido em pedaços” para definir a granularidade mínima de possíveis citações. Por exemplo, a divisão em frases permitiria ao Claude citar uma única frase ou encadear várias frases consecutivas para citar um parágrafo (ou mais)!
    • Para PDFs: O texto é extraído conforme descrito em Suporte a PDF e o conteúdo é dividido em frases. Citar imagens de PDFs não é atualmente suportado.
    • Para documentos de texto simples: O conteúdo é dividido em frases que podem ser citadas.
    • Para documentos de conteúdo personalizado: Seus blocos de conteúdo fornecidos são usados como estão e nenhuma divisão adicional é feita.
3

Claude fornece resposta com citações

  • As respostas agora podem incluir vários blocos de texto, onde cada bloco de texto pode conter uma afirmação que o Claude está fazendo e uma lista de citações que apoiam a afirmação.
  • As citações referenciam localizações específicas nos documentos de origem. O formato dessas citações depende do tipo de documento sendo citado.
    • Para PDFs: as citações incluirão o intervalo de números de página (indexados a partir de 1).
    • Para documentos de texto simples: As citações incluirão o intervalo de índices de caracteres (indexados a partir de 0).
    • Para documentos de conteúdo personalizado: As citações incluirão o intervalo de índices de blocos de conteúdo (indexados a partir de 0) correspondente à lista de conteúdo original fornecida.
  • Os índices de documentos são fornecidos para indicar a fonte de referência e são indexados a partir de 0 de acordo com a lista de todos os documentos em sua solicitação original.

Divisão automática vs conteúdo personalizado

Por padrão, documentos de texto simples e PDF são automaticamente divididos em frases. Se você precisar de mais controle sobre a granularidade da citação (por exemplo, para marcadores ou transcrições), use documentos de conteúdo personalizado. Veja Tipos de Documento para mais detalhes.

Por exemplo, se você quiser que o Claude seja capaz de citar frases específicas de seus blocos RAG, você deve colocar cada bloco RAG em um documento de texto simples. Caso contrário, se você não quiser que nenhuma divisão adicional seja feita, ou se quiser personalizar qualquer divisão adicional, você pode colocar blocos RAG em documento(s) de conteúdo personalizado.

Conteúdo citável vs não citável

  • Texto encontrado dentro do conteúdo source de um documento pode ser citado.
  • title e context são campos opcionais que serão passados para o modelo, mas não serão usados para o conteúdo citado.
  • title é limitado em comprimento, então você pode achar o campo context útil para armazenar quaisquer metadados do documento como texto ou json em forma de string.

Índices de citação

  • Os índices de documentos são indexados a partir de 0 da lista de todos os blocos de conteúdo de documentos na solicitação (abrangendo todas as mensagens).
  • Os índices de caracteres são indexados a partir de 0 com índices finais exclusivos.
  • Os números de página são indexados a partir de 1 com números de página finais exclusivos.
  • Os índices de blocos de conteúdo são indexados a partir de 0 com índices finais exclusivos da lista content fornecida no documento de conteúdo personalizado.

Custos de tokens

  • A ativação das citações implica um ligeiro aumento nos tokens de entrada devido às adições de prompt do sistema e à divisão de documentos.
  • No entanto, o recurso de citações é muito eficiente com tokens de saída. Internamente, o modelo está gerando citações em um formato padronizado que são então analisadas em texto citado e índices de localização do documento. O campo cited_text é fornecido por conveniência e não conta para os tokens de saída.
  • Quando passado de volta em turnos subsequentes de conversa, cited_text também não é contado para os tokens de entrada.

Compatibilidade de recursos

Citações funciona em conjunto com outros recursos da API, incluindo cache de prompt, contagem de tokens e processamento em lote.


Tipos de Documento

Escolhendo um tipo de documento

Suportamos três tipos de documento para citações:

TipoMelhor paraDivisãoFormato de citação
Texto simplesDocumentos de texto simples, prosaFraseÍndices de caracteres (indexados a partir de 0)
PDFArquivos PDF com conteúdo de textoFraseNúmeros de página (indexados a partir de 1)
Conteúdo personalizadoListas, transcrições, formatação especial, citações mais granularesSem divisão adicionalÍndices de bloco (indexados a partir de 0)

Documentos de texto simples

Os documentos de texto simples são automaticamente divididos em frases:

{
    "type": "document",
    "source": {
        "type": "text",
        "media_type": "text/plain",
        "data": "Plain text content..."
    },
    "title": "Document Title", # opcional
    "context": "Context about the document that will not be cited from", # opcional
    "citations": {"enabled": True}
}

Documentos PDF

Os documentos PDF são fornecidos como dados codificados em base64. O texto do PDF é extraído e dividido em frases. Como as citações de imagens ainda não são suportadas, PDFs que são digitalizações de documentos e não contêm texto extraível não serão citáveis.

{
    "type": "document",
    "source": {
        "type": "base64",
        "media_type": "application/pdf",
        "data": base64_encoded_pdf_data
    },
    "title": "Document Title", # opcional
    "context": "Context about the document that will not be cited from", # opcional
    "citations": {"enabled": True}
}

Documentos de conteúdo personalizado

Documentos de conteúdo personalizado dão a você controle sobre a granularidade da citação. Nenhuma divisão adicional é feita e os pedaços são fornecidos ao modelo de acordo com os blocos de conteúdo fornecidos.

{
    "type": "document",
    "source": {
        "type": "content",
        "content": [
            {"type": "text", "text": "First chunk"},
            {"type": "text", "text": "Second chunk"}
        ]
    },
    "title": "Document Title", # opcional
    "context": "Context about the document that will not be cited from", # opcional
    "citations": {"enabled": True}
}

Estrutura de Resposta

Quando as citações estão ativadas, as respostas incluem vários blocos de texto com citações:

{
    "content": [
        {
            "type": "text",
            "text": "According to the document, "
        },
        {
            "type": "text",
            "text": "the grass is green",
            "citations": [{
                "type": "char_location",
                "cited_text": "The grass is green.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 0,
                "end_char_index": 20
            }]
        },
        {
            "type": "text",
            "text": " and "
        },
        {
            "type": "text",
            "text": "the sky is blue",
            "citations": [{
                "type": "char_location",
                "cited_text": "The sky is blue.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 20,
                "end_char_index": 36
            }]
        }
    ]
}

Suporte a Streaming

Para respostas de streaming, adicionamos um tipo citations_delta que contém uma única citação a ser adicionada à lista citations no bloco de conteúdo text atual.

Was this page helpful?