Claude est capable de fournir des citations détaillées lorsqu’il répond à des questions sur des documents, vous aidant ainsi à suivre et à vérifier les sources d’information dans les réponses.

La fonctionnalité de citations est actuellement disponible sur Claude 3.7 Sonnet, Claude 3.5 Sonnet (nouveau) et 3.5 Haiku.

Veuillez partager vos commentaires et suggestions concernant la fonctionnalité de citations en utilisant ce formulaire.

Voici un exemple d’utilisation des citations avec l’API Messages :

Comparaison avec les approches basées sur les prompts

Par rapport aux solutions de citations basées sur les prompts, la fonctionnalité de citations présente les avantages suivants :

  • Économies de coûts : Si votre approche basée sur les prompts demande à Claude de produire des citations directes, vous pourriez réaliser des économies car le champ cited_text n’est pas comptabilisé dans vos tokens de sortie.
  • Meilleure fiabilité des citations : Comme nous analysons les citations dans les formats de réponse mentionnés ci-dessus et extrayons le cited_text, les citations sont garanties de contenir des pointeurs valides vers les documents fournis.
  • Amélioration de la qualité des citations : Dans nos évaluations, nous avons constaté que la fonctionnalité de citations est significativement plus susceptible de citer les passages les plus pertinents des documents par rapport aux approches purement basées sur les prompts.

Comment fonctionnent les citations

Intégrez les citations avec Claude en suivant ces étapes :

1

Fournir le(s) document(s) et activer les citations

  • Incluez des documents dans l’un des formats pris en charge : PDF, texte brut ou documents à contenu personnalisé
  • Définissez citations.enabled=true pour chacun de vos documents. Actuellement, les citations doivent être activées sur tous les documents d’une requête ou sur aucun.
  • Notez que seules les citations de texte sont actuellement prises en charge et que les citations d’images ne sont pas encore possibles.
2

Les documents sont traités

  • Le contenu des documents est “découpé” afin de définir la granularité minimale des citations possibles. Par exemple, le découpage en phrases permettrait à Claude de citer une seule phrase ou d’enchaîner plusieurs phrases consécutives pour citer un paragraphe (ou plus) !
    • Pour les PDF : Le texte est extrait comme décrit dans Support PDF et le contenu est découpé en phrases. La citation d’images à partir de PDF n’est pas prise en charge actuellement.
    • Pour les documents en texte brut : Le contenu est découpé en phrases qui peuvent être citées.
    • Pour les documents à contenu personnalisé : Vos blocs de contenu fournis sont utilisés tels quels et aucun découpage supplémentaire n’est effectué.
3

Claude fournit une réponse avec citations

  • Les réponses peuvent désormais inclure plusieurs blocs de texte où chaque bloc peut contenir une affirmation que Claude fait et une liste de citations qui soutiennent cette affirmation.
  • Les citations font référence à des emplacements spécifiques dans les documents sources. Le format de ces citations dépend du type de document cité.
    • Pour les PDF : les citations incluront la plage de numéros de page (indexée à partir de 1).
    • Pour les documents en texte brut : Les citations incluront la plage d’indices de caractères (indexée à partir de 0).
    • Pour les documents à contenu personnalisé : Les citations incluront la plage d’indices de blocs de contenu (indexée à partir de 0) correspondant à la liste de contenu originale fournie.
  • Les indices de document sont fournis pour indiquer la source de référence et sont indexés à partir de 0 selon la liste de tous les documents dans votre requête originale.

Découpage automatique vs contenu personnalisé

Par défaut, les documents en texte brut et PDF sont automatiquement découpés en phrases. Si vous avez besoin de plus de contrôle sur la granularité des citations (par exemple, pour les puces ou les transcriptions), utilisez plutôt des documents à contenu personnalisé. Voir Types de documents pour plus de détails.

Par exemple, si vous souhaitez que Claude puisse citer des phrases spécifiques de vos fragments RAG, vous devriez placer chaque fragment RAG dans un document en texte brut. Sinon, si vous ne souhaitez pas qu’un découpage supplémentaire soit effectué, ou si vous souhaitez personnaliser tout découpage supplémentaire, vous pouvez placer les fragments RAG dans un ou plusieurs documents à contenu personnalisé.

Contenu citable vs non citable

  • Le texte trouvé dans le contenu source d’un document peut être cité.
  • title et context sont des champs facultatifs qui seront transmis au modèle mais ne seront pas utilisés pour le contenu cité.
  • title est limité en longueur, donc vous pourriez trouver utile d’utiliser le champ context pour stocker les métadonnées du document sous forme de texte ou de json stringifié.

Indices de citation

  • Les indices de document sont indexés à partir de 0 dans la liste de tous les blocs de contenu de document dans la requête (couvrant tous les messages).
  • Les indices de caractères sont indexés à partir de 0 avec des indices de fin exclusifs.
  • Les numéros de page sont indexés à partir de 1 avec des numéros de page de fin exclusifs.
  • Les indices de blocs de contenu sont indexés à partir de 0 avec des indices de fin exclusifs provenant de la liste content fournie dans le document à contenu personnalisé.

Coûts en tokens

  • L’activation des citations entraîne une légère augmentation des tokens d’entrée en raison des ajouts de prompts système et du découpage des documents.
  • Cependant, la fonctionnalité de citations est très efficace avec les tokens de sortie. En coulisses, le modèle produit des citations dans un format standardisé qui sont ensuite analysées en texte cité et en indices d’emplacement de document. Le champ cited_text est fourni pour des raisons de commodité et n’est pas comptabilisé dans les tokens de sortie.
  • Lorsqu’il est renvoyé dans les tours de conversation suivants, cited_text n’est pas non plus comptabilisé dans les tokens d’entrée.

Compatibilité des fonctionnalités

Les citations fonctionnent en conjonction avec d’autres fonctionnalités de l’API, y compris la mise en cache des prompts, le comptage des tokens et le traitement par lots.


Types de documents

Choisir un type de document

Nous prenons en charge trois types de documents pour les citations :

TypeIdéal pourDécoupageFormat de citation
Texte brutDocuments textuels simples, prosePhraseIndices de caractères (indexés à partir de 0)
PDFFichiers PDF avec contenu textuelPhraseNuméros de page (indexés à partir de 1)
Contenu personnaliséListes, transcriptions, formatage spécial, citations plus granulairesPas de découpage supplémentaireIndices de bloc (indexés à partir de 0)

Documents en texte brut

Les documents en texte brut sont automatiquement découpés en phrases :

{
    "type": "document",
    "source": {
        "type": "text",
        "media_type": "text/plain",
        "data": "Plain text content..."
    },
    "title": "Document Title", # facultatif
    "context": "Context about the document that will not be cited from", # facultatif
    "citations": {"enabled": True}
}

Documents PDF

Les documents PDF sont fournis sous forme de données encodées en base64. Le texte PDF est extrait et découpé en phrases. Comme les citations d’images ne sont pas encore prises en charge, les PDF qui sont des numérisations de documents et ne contiennent pas de texte extractible ne seront pas citables.

{
    "type": "document",
    "source": {
        "type": "base64",
        "media_type": "application/pdf",
        "data": base64_encoded_pdf_data
    },
    "title": "Document Title", # facultatif
    "context": "Context about the document that will not be cited from", # facultatif
    "citations": {"enabled": True}
}

Documents à contenu personnalisé

Les documents à contenu personnalisé vous donnent un contrôle sur la granularité des citations. Aucun découpage supplémentaire n’est effectué et les fragments sont fournis au modèle selon les blocs de contenu fournis.

{
    "type": "document",
    "source": {
        "type": "content",
        "content": [
            {"type": "text", "text": "First chunk"},
            {"type": "text", "text": "Second chunk"}
        ]
    },
    "title": "Document Title", # facultatif
    "context": "Context about the document that will not be cited from", # facultatif
    "citations": {"enabled": True}
}

Structure de réponse

Lorsque les citations sont activées, les réponses incluent plusieurs blocs de texte avec des citations :

{
    "content": [
        {
            "type": "text",
            "text": "According to the document, "
        },
        {
            "type": "text",
            "text": "the grass is green",
            "citations": [{
                "type": "char_location",
                "cited_text": "The grass is green.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 0,
                "end_char_index": 20
            }]
        },
        {
            "type": "text",
            "text": " and "
        },
        {
            "type": "text",
            "text": "the sky is blue",
            "citations": [{
                "type": "char_location",
                "cited_text": "The sky is blue.",
                "document_index": 0,
                "document_title": "Example Document",
                "start_char_index": 20,
                "end_char_index": 36
            }]
        }
    ]
}

Support du streaming

Pour les réponses en streaming, nous avons ajouté un type citations_delta qui contient une seule citation à ajouter à la liste citations sur le bloc de contenu text actuel.

Was this page helpful?