Riassunto legale

Visita il nostro ricettario di riassunti per vedere un esempio di implementazione di riassunto legale utilizzando Claude.

Prima di costruire con Claude

Decidi se utilizzare Claude per il riassunto legale

Ecco alcuni indicatori chiave che suggeriscono di impiegare un LLM come Claude per riassumere documenti legali:

Vuoi esaminare un elevato volume di documenti in modo efficiente ed economico

Hai bisogno di estrarre automaticamente metadati chiave

Vuoi generare riassunti chiari, concisi e standardizzati

Hai bisogno di citazioni precise per i tuoi riassunti

Vuoi semplificare e accelerare il tuo processo di ricerca legale

Determina i dettagli che vuoi che il riassunto estragga

Non esiste un unico riassunto corretto per qualsiasi documento. Senza una chiara direzione, può essere difficile per Claude determinare quali dettagli includere. Per ottenere risultati ottimali, identifica le informazioni specifiche che desideri includere nel riassunto. Ad esempio, quando riassumi un contratto di sublocazione, potresti voler estrarre i seguenti punti chiave:

details_to_extract = [
    'Parti coinvolte (sublocatore, subconduttore e locatore originale)',
    'Dettagli della proprietà (indirizzo, descrizione e uso consentito)', 
    'Durata e canone (data di inizio, data di fine, canone mensile e deposito cauzionale)',
    'Responsabilità (utenze, manutenzione e riparazioni)',
    'Consenso e notifiche (consenso del proprietario e requisiti di notifica)',
    'Disposizioni speciali (mobili, parcheggio e restrizioni alla sublocazione)'
]

Stabilisci criteri di successo

Valutare la qualità dei riassunti è un compito notoriamente difficile. A differenza di molte altre attività di elaborazione del linguaggio naturale, la valutazione dei riassunti spesso manca di metriche chiare e oggettive. Il processo può essere altamente soggettivo, con diversi lettori che valorizzano aspetti diversi di un riassunto. Ecco i criteri che potresti voler considerare quando valuti quanto bene Claude esegue il riassunto legale.

Correttezza fattuale

Precisione legale

Concisione

Coerenza

Leggibilità

Imparzialità ed equità

Consulta la nostra guida su stabilire criteri di successo per maggiori informazioni.

Come riassumere documenti legali usando Claude

Seleziona il modello Claude giusto

La precisione del modello è estremamente importante quando si riassumono documenti legali. Claude Sonnet 3.5 è un’eccellente scelta per casi d’uso come questo dove è richiesta un’alta precisione. Se la dimensione e la quantità dei tuoi documenti è grande al punto che i costi iniziano a diventare una preoccupazione, puoi anche provare a utilizzare un modello più piccolo come Claude Haiku 3. Per aiutare a stimare questi costi, di seguito è riportato un confronto del costo per riassumere 1.000 contratti di sublocazione utilizzando sia Sonnet che Haiku:

Dimensione del contenuto
- Numero di contratti: 1.000
- Caratteri per contratto: 300.000
- Caratteri totali: 300M
Token stimati
- Token di input: 86M (assumendo 1 token ogni 3,5 caratteri)
- Token di output per riassunto: 350
- Token di output totali: 350.000
Costo stimato di Claude Sonnet 4
- Costo token di input: 86 MTok * $3,00/MTok = $258
- Costo token di output: 0,35 MTok * $15,00/MTok = $5,25
- Costo totale: $258,00 + $5,25 = $263,25
Costo stimato di Claude Haiku 3
- Costo token di input: 86 MTok * $0,25/MTok = $21,50
- Costo token di output: 0,35 MTok * $1,25/MTok = $0,44
- Costo totale: $21,50 + $0,44 = $21,96

I costi effettivi potrebbero differire da queste stime. Queste stime sono basate sull’esempio evidenziato nella sezione sul prompt.

Trasforma i documenti in un formato che Claude può elaborare

Prima di iniziare a riassumere i documenti, devi preparare i tuoi dati. Questo comporta l’estrazione del testo dai PDF, la pulizia del testo e assicurarsi che sia pronto per essere elaborato da Claude. Ecco una dimostrazione di questo processo su un PDF di esempio:

from io import BytesIO
import re

import pypdf
import requests

def get_llm_text(pdf_file):
    reader = pypdf.PdfReader(pdf_file)
    text = "\n".join([page.extract_text() for page in reader.pages])

    # Rimuovi spazi bianchi extra
    text = re.sub(r'\s+', ' ', text) 

    # Rimuovi numeri di pagina
    text = re.sub(r'\n\s*\d+\s*\n', '\n', text) 

    return text


# Crea l'URL completo dal repository GitHub
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")

# Scarica il file PDF in memoria
response = requests.get(url)

# Carica il PDF dalla memoria
pdf_file = BytesIO(response.content)

document_text = get_llm_text(pdf_file) 
print(document_text[:50000])

In questo esempio, prima scarichiamo un PDF di un contratto di sublocazione di esempio utilizzato nel ricettario di riassunti. Questo contratto è stato preso da un contratto di sublocazione pubblicamente disponibile dal sito web sec.gov. Utilizziamo la libreria pypdf per estrarre i contenuti del PDF e convertirli in testo. I dati di testo vengono quindi puliti rimuovendo spazi bianchi extra e numeri di pagina.

Costruisci un prompt efficace

Claude può adattarsi a vari stili di riassunto. Puoi modificare i dettagli del prompt per guidare Claude ad essere più o meno prolisso, includere più o meno terminologia tecnica, o fornire un riassunto di livello più alto o più basso del contesto in questione. Ecco un esempio di come creare un prompt che assicuri che i riassunti generati seguano una struttura coerente quando si analizzano contratti di sublocazione:

import anthropic

# Inizializza il client Anthropic
client = anthropic.Anthropic()

def summarize_document(text, details_to_extract, model="claude-opus-4-20250514", max_tokens=1000):

    # Formatta i dettagli da estrarre da inserire nel contesto del prompt
    details_to_extract_str = '\n'.join(details_to_extract)
    
    # Richiedi al modello di riassumere il contratto di sublocazione
    prompt = f"""Riassumi il seguente contratto di sublocazione. Concentrati su questi aspetti chiave:

    {details_to_extract_str}

    Fornisci il riassunto in punti elenco annidati all'interno dell'intestazione XML per ogni sezione. Per esempio:

    <parti coinvolte>
    - Sublocatore: [Nome]
    // Aggiungi più dettagli se necessario
    </parti coinvolte>
    
    Se alcune informazioni non sono esplicitamente indicate nel documento, annotale come "Non specificato". Non fare preamboli.

    Testo del contratto di sublocazione:
    {text}
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="Sei un analista legale specializzato in diritto immobiliare, noto per riassunti altamente accurati e dettagliati di contratti di sublocazione.",
        messages=[
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": "Ecco il riassunto del contratto di sublocazione: <summary>"}
        ],
        stop_sequences=["</summary>"]
    )

    return response.content[0].text

sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)

Questo codice implementa una funzione summarize_document che utilizza Claude per riassumere i contenuti di un contratto di sublocazione. La funzione accetta una stringa di testo e un elenco di dettagli da estrarre come input. In questo esempio, chiamiamo la funzione con le variabili document_text e details_to_extract che sono state definite nei frammenti di codice precedenti. All’interno della funzione, viene generato un prompt per Claude, che include il documento da riassumere, i dettagli da estrarre e istruzioni specifiche per riassumere il documento. Il prompt istruisce Claude a rispondere con un riassunto di ogni dettaglio da estrarre annidato all’interno di intestazioni XML. Poiché abbiamo deciso di inserire ogni sezione del riassunto all’interno di tag, ogni sezione può essere facilmente analizzata come fase di post-elaborazione. Questo approccio consente riassunti strutturati che possono essere adattati al tuo caso d’uso, in modo che ogni riassunto segua lo stesso schema.

Valuta il tuo prompt

Il prompting spesso richiede test e ottimizzazione per essere pronto per la produzione. Per determinare la prontezza della tua soluzione, valuta la qualità dei tuoi riassunti utilizzando un processo sistematico che combina metodi quantitativi e qualitativi. Creare una forte valutazione empirica basata sui criteri di successo definiti ti permetterà di ottimizzare i tuoi prompt. Ecco alcune metriche che potresti voler includere nella tua valutazione empirica:

Punteggi ROUGE

Punteggi BLEU

Similarità di embedding contestuale

Valutazione basata su LLM

Valutazione umana

Implementa il tuo prompt

Ecco alcune considerazioni aggiuntive da tenere a mente mentre implementi la tua soluzione in produzione.

Assicurati di non avere responsabilità: Comprendi le implicazioni legali degli errori nei riassunti, che potrebbero portare a responsabilità legali per la tua organizzazione o i clienti. Fornisci disclaimer o avvisi legali che chiariscano che i riassunti sono generati dall’IA e dovrebbero essere rivisti da professionisti legali.
Gestisci diversi tipi di documenti: In questa guida, abbiamo discusso come estrarre testo dai PDF. Nel mondo reale, i documenti possono arrivare in una varietà di formati (PDF, documenti Word, file di testo, ecc.). Assicurati che la tua pipeline di estrazione dati possa convertire tutti i formati di file che prevedi di ricevere.
Parallelizza le chiamate API a Claude: Documenti lunghi con un gran numero di token potrebbero richiedere fino a un minuto affinché Claude generi un riassunto. Per grandi collezioni di documenti, potresti voler inviare chiamate API a Claude in parallelo in modo che i riassunti possano essere completati in un tempo ragionevole. Fai riferimento ai limiti di frequenza di Anthropic per determinare il numero massimo di chiamate API che possono essere eseguite in parallelo.

Migliora le prestazioni

In scenari complessi, potrebbe essere utile considerare strategie aggiuntive per migliorare le prestazioni oltre alle tecniche standard di prompt engineering. Ecco alcune strategie avanzate:

Esegui meta-riassunti per riassumere documenti lunghi

Il riassunto legale spesso comporta la gestione di documenti lunghi o di molti documenti correlati contemporaneamente, tali da superare la finestra di contesto di Claude. Puoi utilizzare un metodo di suddivisione noto come meta-riassunto per gestire questo caso d’uso. Questa tecnica comporta la suddivisione dei documenti in parti più piccole e gestibili e poi l’elaborazione di ciascuna parte separatamente. Puoi quindi combinare i riassunti di ciascuna parte per creare un meta-riassunto dell’intero documento. Ecco un esempio di come eseguire un meta-riassunto:

import anthropic

# Inizializza il client Anthropic
client = anthropic.Anthropic()

def chunk_text(text, chunk_size=20000):
    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

def summarize_long_document(text, details_to_extract, model="claude-opus-4-20250514", max_tokens=1000):

    # Formatta i dettagli da estrarre da inserire nel contesto del prompt
    details_to_extract_str = '\n'.join(details_to_extract)

    # Itera sui chunk e riassumi ciascuno
    chunk_summaries = [summarize_document(chunk, details_to_extract, model=model, max_tokens=max_tokens) for chunk in chunk_text(text)]
    
    final_summary_prompt = f"""
    
    Stai esaminando i riassunti suddivisi in chunk di più documenti che sono tutti correlati. 
    Combina i seguenti riassunti del documento da diverse fonti veritiere in un riassunto complessivo coerente:

    <chunked_summaries>
    {"".join(chunk_summaries)}
    </chunked_summaries>

    Concentrati su questi aspetti chiave:
    {details_to_extract_str})

    Fornisci il riassunto in punti elenco annidati all'interno dell'intestazione XML per ogni sezione. Per esempio:

    <parti coinvolte>
    - Sublocatore: [Nome]
    // Aggiungi più dettagli se necessario
    </parti coinvolte>
    
    Se alcune informazioni non sono esplicitamente indicate nel documento, annotale come "Non specificato". Non fare preamboli.
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="Sei un esperto legale che riassume note su un documento.",
        messages=[
            {"role": "user",  "content": final_summary_prompt},
            {"role": "assistant", "content": "Ecco il riassunto del contratto di sublocazione: <summary>"}

        ],
        stop_sequences=["</summary>"]
    )
    
    return response.content[0].text

long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)

La funzione summarize_long_document si basa sulla precedente funzione summarize_document dividendo il documento in parti più piccole e riassumendo ogni parte individualmente. Il codice ottiene questo applicando la funzione summarize_document a ogni parte di 20.000 caratteri all’interno del documento originale. I riassunti individuali vengono quindi combinati, e viene creato un riassunto finale da questi riassunti parziali. Nota che la funzione summarize_long_document non è strettamente necessaria per il nostro PDF di esempio, poiché l’intero documento rientra nella finestra di contesto di Claude. Tuttavia, diventa essenziale per documenti che superano la finestra di contesto di Claude o quando si riassumono insieme più documenti correlati. Indipendentemente da ciò, questa tecnica di meta-riassunto spesso cattura det tagli importanti aggiuntivi nel riassunto finale che erano stati tralasciati nell’approccio precedente con un singolo riassunto.

Usa documenti indicizzati per riassunto per esplorare una grande collezione di documenti

La ricerca in una collezione di documenti con un LLM di solito comporta la generazione aumentata da recupero (RAG). Tuttavia, in scenari che coinvolgono documenti di grandi dimensioni o quando è cruciale un recupero preciso delle informazioni, un approccio RAG di base potrebbe essere insufficiente. I documenti indicizzati per riassunto sono un approccio RAG avanzato che fornisce un modo più efficiente di classificare i documenti per il recupero, utilizzando meno contesto rispetto ai metodi RAG tradizionali. In questo approccio, prima utilizzi Claude per generare un riassunto conciso per ogni documento nel tuo corpus, e poi usi Clade per classificare la rilevanza di ogni riassunto rispetto alla query posta. Per ulteriori dettagli su questo approccio, incluso un esempio basato su codice, consulta la sezione sui documenti indicizzati per riassunto nel ricettario di riassunti.

Affina Claude per imparare dal tuo dataset

Un’altra tecnica avanzata per migliorare la capacità di Claude di generare riassunti è il fine-tuning. Il fine-tuning comporta l’addestramento di Claude su un dataset personalizzato che si allinea specificamente alle tue esigenze di riassunto legale, assicurando che Claude si adatti al tuo caso d’uso. Ecco una panoramica su come eseguire il fine-tuning:

Identifica gli errori: Inizia raccogliendo istanze in cui i riassunti di Claude sono carenti - questo potrebbe includere la mancanza di dettagli legali critici, l’incomprensione del contesto o l’uso di terminologia legale inappropriata.
Cura un dataset: Una volta identificati questi problemi, compila un dataset di questi esempi problematici. Questo dataset dovrebbe includere i documenti legali originali insieme ai tuoi riassunti corretti, assicurando che Claude impari il comportamento desiderato.
Esegui il fine-tuning: Il fine-tuning comporta il riaddestramento del modello sul tuo dataset curato per regolare i suoi pesi e parametri. Questo riaddestramento aiuta Claude a comprendere meglio i requisiti specifici del tuo dominio legale, migliorando la sua capacità di riassumere documenti secondo i tuoi standard.
Miglioramento iterativo: Il fine-tuning non è un processo una tantum. Man mano che Claude continua a generare riassunti, puoi aggiungere iterativamente nuovi esempi in cui ha avuto prestazioni insufficienti, perfezionando ulteriormente le sue capacità. Nel tempo, questo ciclo di feedback continuo risulterà in un modello altamente specializzato per i tuoi compiti di riassunto legale.

Il fine-tuning è attualmente disponibile solo tramite Amazon Bedrock. Ulteriori dettagli sono disponibili nel blog di lancio AWS.

Ricettario di riassunti

Visualizza un esempio completamente implementato basato su codice di come utilizzare Claude per riassumere contratti.

Ricettario di citazioni

Esplora la nostra ricetta del ricettario di citazioni per una guida su come garantire accuratezza e spiegabilità delle informazioni.

Primi passi

Modelli e prezzi

Scopri Claude

Funzionalità

Strumenti

Model Context Protocol (MCP)

Casi d'uso

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

Centro legale

Prima di costruire con Claude

Decidi se utilizzare Claude per il riassunto legale

Determina i dettagli che vuoi che il riassunto estragga

Stabilisci criteri di successo

Come riassumere documenti legali usando Claude

Seleziona il modello Claude giusto

Trasforma i documenti in un formato che Claude può elaborare

Costruisci un prompt efficace

Valuta il tuo prompt

Implementa il tuo prompt

Migliora le prestazioni

Esegui meta-riassunti per riassumere documenti lunghi

Usa documenti indicizzati per riassunto per esplorare una grande collezione di documenti

Affina Claude per imparare dal tuo dataset

Ricettario di riassunti

Ricettario di citazioni

Primi passi

Modelli e prezzi

Scopri Claude

Funzionalità

Strumenti

Model Context Protocol (MCP)

Casi d'uso

Ingegneria dei prompt

Testa e valuta

Rafforza le protezioni

Centro legale

​Prima di costruire con Claude

​Decidi se utilizzare Claude per il riassunto legale

​Determina i dettagli che vuoi che il riassunto estragga

​Stabilisci criteri di successo

​Come riassumere documenti legali usando Claude

​Seleziona il modello Claude giusto

​Trasforma i documenti in un formato che Claude può elaborare

​Costruisci un prompt efficace

​Valuta il tuo prompt

​Implementa il tuo prompt

​Migliora le prestazioni

​Esegui meta-riassunti per riassumere documenti lunghi

​Usa documenti indicizzati per riassunto per esplorare una grande collezione di documenti

​Affina Claude per imparare dal tuo dataset

Ricettario di riassunti

Ricettario di citazioni

Prima di costruire con Claude

Decidi se utilizzare Claude per il riassunto legale

Determina i dettagli che vuoi che il riassunto estragga

Stabilisci criteri di successo

Come riassumere documenti legali usando Claude

Seleziona il modello Claude giusto

Trasforma i documenti in un formato che Claude può elaborare

Costruisci un prompt efficace

Valuta il tuo prompt

Implementa il tuo prompt

Migliora le prestazioni

Esegui meta-riassunti per riassumere documenti lunghi

Usa documenti indicizzati per riassunto per esplorare una grande collezione di documenti

Affina Claude per imparare dal tuo dataset