Claude es capaz de proporcionar citas detalladas al responder preguntas sobre documentos, ayudándote a rastrear y verificar las fuentes de información en las respuestas.

La función de citas está actualmente disponible en Claude 3.7 Sonnet, Claude 3.5 Sonnet (nuevo) y 3.5 Haiku.

Por favor, comparte tus comentarios y sugerencias sobre la función de citas usando este formulario.

Aquí hay un ejemplo de cómo usar citas con la API de Messages:

Comparación con enfoques basados en instrucciones

En comparación con soluciones de citas basadas en instrucciones, la función de citas tiene las siguientes ventajas:

  • Ahorro de costos: Si tu enfoque basado en instrucciones pide a Claude que muestre citas directas, puedes ver ahorros de costos debido al hecho de que cited_text no cuenta para tus tokens de salida.
  • Mejor fiabilidad de citas: Debido a que analizamos las citas en los respectivos formatos de respuesta mencionados anteriormente y extraemos cited_text, las citas garantizan contener punteros válidos a los documentos proporcionados.
  • Mejor calidad de citas: En nuestras evaluaciones, encontramos que la función de citas tiene significativamente más probabilidades de citar las citas más relevantes de los documentos en comparación con los enfoques puramente basados en instrucciones.

Cómo funcionan las citas

Integra las citas con Claude en estos pasos:

1

Proporciona documento(s) y habilita las citas

  • Incluye documentos en cualquiera de los formatos compatibles: PDFs, texto plano o documentos de contenido personalizado
  • Establece citations.enabled=true en cada uno de tus documentos. Actualmente, las citas deben estar habilitadas en todos o ninguno de los documentos dentro de una solicitud.
  • Ten en cuenta que actualmente solo se admiten citas de texto y aún no es posible citar imágenes.
2

Los documentos se procesan

  • El contenido del documento se “fragmenta” para definir la granularidad mínima de las posibles citas. Por ejemplo, la fragmentación de oraciones permitiría a Claude citar una sola oración o encadenar múltiples oraciones consecutivas para citar un párrafo (¡o más largo)!
    • Para PDFs: El texto se extrae como se describe en Soporte PDF y el contenido se fragmenta en oraciones. Actualmente no se admite la citación de imágenes de PDFs.
    • Para documentos de texto plano: El contenido se fragmenta en oraciones que pueden ser citadas.
    • Para documentos de contenido personalizado: Los bloques de contenido proporcionados se utilizan tal cual y no se realiza fragmentación adicional.
3

Claude proporciona respuesta con citas

  • Las respuestas ahora pueden incluir múltiples bloques de texto donde cada bloque de texto puede contener una afirmación que Claude está haciendo y una lista de citas que respaldan la afirmación.
  • Las citas hacen referencia a ubicaciones específicas en los documentos fuente. El formato de estas citas depende del tipo de documento que se está citando.
    • Para PDFs: las citas incluirán el rango de números de página (indexado desde 1).
    • Para documentos de texto plano: Las citas incluirán el rango de índices de caracteres (indexado desde 0).
    • Para documentos de contenido personalizado: Las citas incluirán el rango de índices de bloque de contenido (indexado desde 0) correspondiente a la lista de contenido original proporcionada.
  • Se proporcionan índices de documentos para indicar la fuente de referencia y están indexados desde 0 según la lista de todos los documentos en tu solicitud original.

Fragmentación automática vs contenido personalizado

Por defecto, los documentos de texto plano y PDF se fragmentan automáticamente en oraciones. Si necesitas más control sobre la granularidad de las citas (por ejemplo, para viñetas o transcripciones), utiliza documentos de contenido personalizado en su lugar. Consulta Tipos de documentos para obtener más detalles.

Por ejemplo, si quieres que Claude pueda citar oraciones específicas de tus fragmentos RAG, deberías poner cada fragmento RAG en un documento de texto plano. De lo contrario, si no deseas que se realice ninguna fragmentación adicional, o si deseas personalizar cualquier fragmentación adicional, puedes colocar fragmentos RAG en documento(s) de contenido personalizado.

Contenido citable vs no citable

  • El texto que se encuentra dentro del contenido source de un documento puede ser citado.
  • title y context son campos opcionales que se pasarán al modelo pero no se utilizarán para el contenido citado.
  • title está limitado en longitud, por lo que el campo context puede ser útil para almacenar cualquier metadato del documento como texto o json convertido a cadena.

Índices de citas

  • Los índices de documentos se indexan desde 0 a partir de la lista de todos los bloques de contenido de documentos en la solicitud (abarcando todos los mensajes).
  • Los índices de caracteres se indexan desde 0 con índices finales exclusivos.
  • Los números de página se indexan desde 1 con números de página finales exclusivos.
  • Los índices de bloques de contenido se indexan desde 0 con índices finales exclusivos de la lista de content proporcionada en el documento de contenido personalizado.

Costos de tokens

  • Habilitar las citas implica un ligero aumento en los tokens de entrada debido a las adiciones del mensaje del sistema y la fragmentación del documento.
  • Sin embargo, la función de citas es muy eficiente con los tokens de salida. Internamente, el modelo genera citas en un formato estandarizado que luego se analizan en texto citado e índices de ubicación del documento. El campo cited_text se proporciona por conveniencia y no cuenta para los tokens de salida.
  • Cuando se pasa de nuevo en turnos de conversación posteriores, cited_text tampoco se cuenta para los tokens de entrada.

Compatibilidad de funciones

Las citas funcionan junto con otras funciones de la API, incluido el almacenamiento en caché de instrucciones, conteo de tokens y procesamiento por lotes.


Tipos de documentos

Elegir un tipo de documento

Admitimos tres tipos de documentos para citas:

TipoMejor paraFragmentaciónFormato de cita
Texto planoDocumentos de texto simples, prosaOraciónÍndices de caracteres (indexados desde 0)
PDFArchivos PDF con contenido de textoOraciónNúmeros de página (indexados desde 1)
Contenido personalizadoListas, transcripciones, formato especial, citas más granularesSin fragmentación adicionalÍndices de bloque (indexados desde 0)

Documentos de texto plano

Los documentos de texto plano se fragmentan automáticamente en oraciones:

{
    "type": "document",
    "source": {
        "type": "text",
        "media_type": "text/plain",
        "data": "Contenido de texto plano..."
    },
    "title": "Título del documento", # opcional
    "context": "Contexto sobre el documento que no será citado", # opcional
    "citations": {"enabled": True}
}

Documentos PDF

Los documentos PDF se proporcionan como datos codificados en base64. El texto del PDF se extrae y se fragmenta en oraciones. Como las citas de imágenes aún no son compatibles, los PDF que son escaneos de documentos y no contienen texto extraíble no serán citables.

{
    "type": "document",
    "source": {
        "type": "base64",
        "media_type": "application/pdf",
        "data": datos_pdf_codificados_base64
    },
    "title": "Título del documento", # opcional
    "context": "Contexto sobre el documento que no será citado", # opcional
    "citations": {"enabled": True}
}

Documentos de contenido personalizado

Los documentos de contenido personalizado te dan control sobre la granularidad de las citas. No se realiza fragmentación adicional y los fragmentos se proporcionan al modelo según los bloques de contenido proporcionados.

{
    "type": "document",
    "source": {
        "type": "content",
        "content": [
            {"type": "text", "text": "Primer fragmento"},
            {"type": "text", "text": "Segundo fragmento"}
        ]
    },
    "title": "Título del documento", # opcional
    "context": "Contexto sobre el documento que no será citado", # opcional
    "citations": {"enabled": True}
}

Estructura de respuesta

Cuando las citas están habilitadas, las respuestas incluyen múltiples bloques de texto con citas:

{
    "content": [
        {
            "type": "text",
            "text": "Según el documento, "
        },
        {
            "type": "text",
            "text": "la hierba es verde",
            "citations": [{
                "type": "char_location",
                "cited_text": "The grass is green.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 0,
                "end_char_index": 20
            }]
        },
        {
            "type": "text",
            "text": " y "
        },
        {
            "type": "text",
            "text": "el cielo es azul",
            "citations": [{
                "type": "char_location",
                "cited_text": "The sky is blue.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 20,
                "end_char_index": 36
            }]
        }
    ]
}

Soporte de streaming

Para respuestas de streaming, hemos agregado un tipo citations_delta que contiene una sola cita para agregar a la lista citations en el bloque de contenido text actual.