Citas
Claude es capaz de proporcionar citas detalladas al responder preguntas sobre documentos, ayudándote a rastrear y verificar las fuentes de información en las respuestas.
La función de citas está actualmente disponible en Claude 3.7 Sonnet, Claude 3.5 Sonnet (nuevo) y 3.5 Haiku.
Citas con Claude 3.7 Sonnet
Claude 3.7 Sonnet puede ser menos propenso a hacer citas en comparación con otros modelos de Claude sin instrucciones más explícitas del usuario. Cuando uses citas con Claude 3.7 Sonnet, recomendamos incluir instrucciones adicionales en el turno del user
, como por ejemplo "Usa citas para respaldar tu respuesta."
.
También hemos observado que cuando se le pide al modelo que estructure su respuesta, es poco probable que use citas a menos que se le indique explícitamente que use citas dentro de ese formato. Por ejemplo, si se le pide al modelo que use etiquetas
Por favor, comparte tus comentarios y sugerencias sobre la función de citas usando este formulario.
Aquí hay un ejemplo de cómo usar citas con la API de Messages:
Comparación con enfoques basados en prompts
En comparación con las soluciones de citas basadas en prompts, la función de citas tiene las siguientes ventajas:
- Ahorro de costos: Si tu enfoque basado en prompts le pide a Claude que genere citas directas, podrías ver ahorros de costos debido a que
cited_text
no cuenta para tus tokens de salida. - Mejor fiabilidad de citas: Debido a que analizamos las citas en los respectivos formatos de respuesta mencionados anteriormente y extraemos
cited_text
, las citas están garantizadas de contener punteros válidos a los documentos proporcionados. - Mejor calidad de citas: En nuestras evaluaciones, encontramos que la función de citas es significativamente más propensa a citar las citas más relevantes de los documentos en comparación con enfoques puramente basados en prompts.
Cómo funcionan las citas
Integra las citas con Claude en estos pasos:
Proporciona documento(s) y habilita las citas
- Incluye documentos en cualquiera de los formatos soportados: PDFs, texto plano, o documentos de contenido personalizado
- Establece
citations.enabled=true
en cada uno de tus documentos. Actualmente, las citas deben estar habilitadas en todos o ninguno de los documentos dentro de una solicitud. - Ten en cuenta que actualmente solo se admiten citas de texto y las citas de imágenes aún no son posibles.
Los documentos son procesados
- El contenido de los documentos se “divide en fragmentos” para definir la granularidad mínima de las posibles citas. Por ejemplo, ¡la fragmentación por oraciones permitiría a Claude citar una sola oración o encadenar múltiples oraciones consecutivas para citar un párrafo (o más)!
- Para PDFs: El texto se extrae como se describe en Soporte PDF y el contenido se divide en oraciones. Actualmente no se admite citar imágenes de PDFs.
- Para documentos de texto plano: El contenido se divide en oraciones que pueden ser citadas.
- Para documentos de contenido personalizado: Tus bloques de contenido proporcionados se usan tal cual y no se realiza ninguna fragmentación adicional.
Claude proporciona respuesta citada
- Las respuestas pueden incluir ahora múltiples bloques de texto donde cada bloque de texto puede contener una afirmación que Claude está haciendo y una lista de citas que respaldan la afirmación.
- Las citas hacen referencia a ubicaciones específicas en los documentos fuente. El formato de estas citas depende del tipo de documento que se está citando.
- Para PDFs: las citas incluirán el rango de números de página (indexado desde 1).
- Para documentos de texto plano: Las citas incluirán el rango de índices de caracteres (indexado desde 0).
- Para documentos de contenido personalizado: Las citas incluirán el rango de índices de bloques de contenido (indexado desde 0) correspondiente a la lista de contenido original proporcionada.
- Se proporcionan índices de documentos para indicar la fuente de referencia y están indexados desde 0 según la lista de todos los documentos en tu solicitud original.
Fragmentación automática vs contenido personalizado
Por defecto, los documentos de texto plano y PDF se fragmentan automáticamente en oraciones. Si necesitas más control sobre la granularidad de las citas (por ejemplo, para viñetas o transcripciones), usa documentos de contenido personalizado en su lugar. Consulta Tipos de Documentos para más detalles.
Por ejemplo, si quieres que Claude pueda citar oraciones específicas de tus fragmentos RAG, deberías poner cada fragmento RAG en un documento de texto plano. De lo contrario, si no quieres que se haga ninguna fragmentación adicional, o si quieres personalizar cualquier fragmentación adicional, puedes poner los fragmentos RAG en documento(s) de contenido personalizado.
Contenido citable vs no citable
- El texto encontrado dentro del contenido
source
de un documento puede ser citado. title
ycontext
son campos opcionales que se pasarán al modelo pero no se utilizarán para el contenido citado.title
está limitado en longitud, por lo que puedes encontrar útil el campocontext
para almacenar cualquier metadato del documento como texto o json convertido a cadena.
Índices de citas
- Los índices de documentos están indexados desde 0 desde la lista de todos los bloques de contenido de documentos en la solicitud (abarcando todos los mensajes).
- Los índices de caracteres están indexados desde 0 con índices finales exclusivos.
- Los números de página están indexados desde 1 con números de página finales exclusivos.
- Los índices de bloques de contenido están indexados desde 0 con índices finales exclusivos de la lista
content
proporcionada en el documento de contenido personalizado.
Costos de tokens
- Habilitar las citas implica un ligero aumento en los tokens de entrada debido a las adiciones del prompt del sistema y la fragmentación de documentos.
- Sin embargo, la función de citas es muy eficiente con los tokens de salida. Internamente, el modelo genera citas en un formato estandarizado que luego se analiza en texto citado e índices de ubicación de documentos. El campo
cited_text
se proporciona por conveniencia y no cuenta para los tokens de salida. - Cuando se pasa de nuevo en turnos de conversación subsiguientes,
cited_text
tampoco se cuenta hacia los tokens de entrada.
Compatibilidad de funciones
Las citas funcionan en conjunto con otras características de la API incluyendo caché de prompts, conteo de tokens y procesamiento por lotes.
Tipos de Documentos
Eligiendo un tipo de documento
Soportamos tres tipos de documentos para citas:
Tipo | Mejor para | Fragmentación | Formato de cita |
---|---|---|---|
Texto plano | Documentos de texto simple, prosa | Oración | Índices de caracteres (indexado desde 0) |
Archivos PDF con contenido de texto | Oración | Números de página (indexado desde 1) | |
Contenido personalizado | Listas, transcripciones, formato especial, citas más granulares | Sin fragmentación adicional | Índices de bloque (indexado desde 0) |
Documentos de texto plano
Los documentos de texto plano se fragmentan automáticamente en oraciones:
Documentos PDF
Los documentos PDF se proporcionan como datos codificados en base64. El texto del PDF se extrae y se fragmenta en oraciones. Como las citas de imágenes aún no son compatibles, los PDFs que son escaneos de documentos y no contienen texto extraíble no serán citables.
Documentos de contenido personalizado
Los documentos de contenido personalizado te dan control sobre la granularidad de las citas. No se realiza fragmentación adicional y los fragmentos se proporcionan al modelo según los bloques de contenido proporcionados.
Estructura de Respuesta
Cuando las citas están habilitadas, las respuestas incluyen múltiples bloques de texto con citas:
Soporte de Streaming
Para respuestas en streaming, hemos agregado un tipo citations_delta
que contiene una sola cita para ser agregada a la lista citations
en el bloque de contenido text
actual.
Was this page helpful?