Resumen legal

Visita nuestro manual de resúmenes para ver un ejemplo de implementación de resumen legal utilizando Claude.

Antes de construir con Claude

Decide si usar Claude para resúmenes legales

Aquí hay algunos indicadores clave de que deberías emplear un LLM como Claude para resumir documentos legales:

Quieres revisar un alto volumen de documentos de manera eficiente y asequible

Requieres extracción automatizada de metadatos clave

Quieres generar resúmenes claros, concisos y estandarizados

Necesitas citas precisas para tus resúmenes

Quieres agilizar y acelerar tu proceso de investigación legal

Determina los detalles que quieres que extraiga el resumen

No existe un único resumen correcto para cualquier documento dado. Sin una dirección clara, puede ser difícil para Claude determinar qué detalles incluir. Para lograr resultados óptimos, identifica la información específica que deseas incluir en el resumen.

Por ejemplo, al resumir un acuerdo de subarrendamiento, podrías desear extraer los siguientes puntos clave:

details_to_extract = [
    'Partes involucradas (subarrendador, subarrendatario y arrendador original)',
    'Detalles de la propiedad (dirección, descripción y uso permitido)', 
    'Plazo y renta (fecha de inicio, fecha de finalización, renta mensual y depósito de seguridad)',
    'Responsabilidades (servicios públicos, mantenimiento y reparaciones)',
    'Consentimiento y notificaciones (consentimiento del propietario y requisitos de notificación)',
    'Disposiciones especiales (mobiliario, estacionamiento y restricciones de subarrendamiento)'
]

Establece criterios de éxito

Evaluar la calidad de los resúmenes es una tarea notoriamente desafiante. A diferencia de muchas otras tareas de procesamiento de lenguaje natural, la evaluación de resúmenes a menudo carece de métricas objetivas claras. El proceso puede ser altamente subjetivo, con diferentes lectores valorando diferentes aspectos de un resumen. Aquí hay criterios que podrías considerar al evaluar qué tan bien Claude realiza resúmenes legales.

Corrección factual

Precisión legal

Concisión

Consistencia

Legibilidad

Imparcialidad y equidad

Consulta nuestra guía sobre establecer criterios de éxito para más información.

Cómo resumir documentos legales usando Claude

Selecciona el modelo Claude adecuado

La precisión del modelo es extremadamente importante al resumir documentos legales. Claude Sonnet 3.5 es una excelente opción para casos de uso como este donde se requiere alta precisión. Si el tamaño y la cantidad de tus documentos es grande, de modo que los costos comienzan a ser una preocupación, también puedes probar usar un modelo más pequeño como Claude Haiku 3.

Para ayudar a estimar estos costos, a continuación se muestra una comparación del costo de resumir 1,000 acuerdos de subarrendamiento usando tanto Sonnet como Haiku:

Tamaño del contenido
- Número de acuerdos: 1,000
- Caracteres por acuerdo: 300,000
- Total de caracteres: 300M
Tokens estimados
- Tokens de entrada: 86M (asumiendo 1 token por 3.5 caracteres)
- Tokens de salida por resumen: 350
- Total de tokens de salida: 350,000
Costo estimado de Claude Sonnet 4
- Costo de tokens de entrada: 86 MTok * $3.00/MTok = $258
- Costo de tokens de salida: 0.35 MTok * $15.00/MTok = $5.25
- Costo total: $258.00 + $5.25 = $263.25
Costo estimado de Claude Haiku 3
- Costo de tokens de entrada: 86 MTok * $0.25/MTok = $21.50
- Costo de tokens de salida: 0.35 MTok * $1.25/MTok = $0.44
- Costo total: $21.50 + $0.44 = $21.96

Los costos reales pueden diferir de estas estimaciones. Estas estimaciones se basan en el ejemplo destacado en la sección sobre prompting.

Transforma documentos a un formato que Claude pueda procesar

Antes de comenzar a resumir documentos, necesitas preparar tus datos. Esto implica extraer texto de PDFs, limpiar el texto y asegurarte de que esté listo para ser procesado por Claude.

Aquí hay una demostración de este proceso en un PDF de muestra:

from io import BytesIO
import re

import pypdf
import requests

def get_llm_text(pdf_file):
    reader = pypdf.PdfReader(pdf_file)
    text = "\n".join([page.extract_text() for page in reader.pages])

    # Eliminar espacios en blanco adicionales
    text = re.sub(r'\s+', ' ', text) 

    # Eliminar números de página
    text = re.sub(r'\n\s*\d+\s*\n', '\n', text) 

    return text


# Crear la URL completa desde el repositorio de GitHub
url = "https://raw.githubusercontent.com/anthropics/anthropic-cookbook/main/skills/summarization/data/Sample Sublease Agreement.pdf"
url = url.replace(" ", "%20")

# Descargar el archivo PDF en memoria
response = requests.get(url)

# Cargar el PDF desde la memoria
pdf_file = BytesIO(response.content)

document_text = get_llm_text(pdf_file) 
print(document_text[:50000]) 

En este ejemplo, primero descargamos un PDF de un acuerdo de subarrendamiento de muestra utilizado en el manual de resúmenes. Este acuerdo se obtuvo de un acuerdo de subarrendamiento disponible públicamente del sitio web sec.gov.

Utilizamos la biblioteca pypdf para extraer el contenido del PDF y convertirlo a texto. Luego, los datos de texto se limpian eliminando espacios en blanco adicionales y números de página.

Construye un prompt sólido

Claude puede adaptarse a varios estilos de resumen. Puedes cambiar los detalles del prompt para guiar a Claude a ser más o menos detallado, incluir más o menos terminología técnica, o proporcionar un resumen de nivel más alto o más bajo del contexto en cuestión.

Aquí hay un ejemplo de cómo crear un prompt que asegure que los resúmenes generados sigan una estructura consistente al analizar acuerdos de subarrendamiento:

import anthropic

# Inicializar el cliente de Anthropic
client = anthropic.Anthropic()

def summarize_document(text, details_to_extract, model="claude-opus-4-20250514", max_tokens=1000):

    # Formatear los detalles a extraer para colocarlos dentro del contexto del prompt
    details_to_extract_str = '\n'.join(details_to_extract)
    
    # Solicitar al modelo que resuma el acuerdo de subarrendamiento
    prompt = f"""Resume el siguiente acuerdo de subarrendamiento. Concéntrate en estos aspectos clave:

    {details_to_extract_str}

    Proporciona el resumen en viñetas anidadas dentro del encabezado XML para cada sección. Por ejemplo:

    <partes involucradas>
    - Subarrendador: [Nombre]
    // Añade más detalles según sea necesario
    </partes involucradas>
    
    Si alguna información no está explícitamente indicada en el documento, anótala como "No especificado". No hagas preámbulos.

    Texto del acuerdo de subarrendamiento:
    {text}
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="Eres un analista legal especializado en derecho inmobiliario, conocido por resúmenes altamente precisos y detallados de acuerdos de subarrendamiento.",
        messages=[
            {"role": "user", "content": prompt},
            {"role": "assistant", "content": "Aquí está el resumen del acuerdo de subarrendamiento: <summary>"}
        ],
        stop_sequences=["</summary>"]
    )

    return response.content[0].text

sublease_summary = summarize_document(document_text, details_to_extract)
print(sublease_summary)

Este código implementa una función summarize_document que utiliza Claude para resumir el contenido de un acuerdo de subarrendamiento. La función acepta una cadena de texto y una lista de detalles a extraer como entradas. En este ejemplo, llamamos a la función con las variables document_text y details_to_extract que se definieron en los fragmentos de código anteriores.

Dentro de la función, se genera un prompt para Claude, que incluye el documento a resumir, los detalles a extraer e instrucciones específicas para resumir el documento. El prompt instruye a Claude a responder con un resumen de cada detalle a extraer anidado dentro de encabezados XML.

Dado que decidimos mostrar cada sección del resumen dentro de etiquetas, cada sección puede analizarse fácilmente como un paso de post-procesamiento. Este enfoque permite resúmenes estructurados que pueden adaptarse a tu caso de uso, de modo que cada resumen siga el mismo patrón.

Evalúa tu prompt

El prompting a menudo requiere pruebas y optimización para estar listo para producción. Para determinar la preparación de tu solución, evalúa la calidad de tus resúmenes utilizando un proceso sistemático que combine métodos cuantitativos y cualitativos. Crear una evaluación empírica sólida basada en tus criterios de éxito definidos te permitirá optimizar tus prompts. Aquí hay algunas métricas que podrías desear incluir dentro de tu evaluación empírica:

Puntuaciones ROUGE

Puntuaciones BLEU

Similitud de incrustaciones contextuales

Calificación basada en LLM

Evaluación humana

Implementa tu prompt

Aquí hay algunas consideraciones adicionales a tener en cuenta al implementar tu solución en producción.

Asegura que no haya responsabilidad legal: Comprende las implicaciones legales de los errores en los resúmenes, que podrían llevar a responsabilidad legal para tu organización o clientes. Proporciona descargos de responsabilidad o avisos legales aclarando que los resúmenes son generados por IA y deben ser revisados por profesionales legales.
Maneja diversos tipos de documentos: En esta guía, hemos discutido cómo extraer texto de PDFs. En el mundo real, los documentos pueden venir en una variedad de formatos (PDFs, documentos de Word, archivos de texto, etc.). Asegúrate de que tu pipeline de extracción de datos pueda convertir todos los formatos de archivo que esperas recibir.
Paraleliza las llamadas a la API de Claude: Los documentos largos con un gran número de tokens pueden requerir hasta un minuto para que Claude genere un resumen. Para colecciones grandes de documentos, es posible que desees enviar llamadas a la API a Claude en paralelo para que los resúmenes puedan completarse en un tiempo razonable. Consulta los límites de tasa de Anthropic para determinar la cantidad máxima de llamadas a la API que se pueden realizar en paralelo.

Mejora el rendimiento

En escenarios complejos, puede ser útil considerar estrategias adicionales para mejorar el rendimiento más allá de las técnicas estándar de ingeniería de prompts. Aquí hay algunas estrategias avanzadas:

Realiza meta-resúmenes para resumir documentos largos

El resumen legal a menudo implica manejar documentos largos o muchos documentos relacionados a la vez, de modo que superas la ventana de contexto de Claude. Puedes usar un método de fragmentación conocido como meta-resumen para manejar este caso de uso. Esta técnica implica dividir los documentos en fragmentos más pequeños y manejables, y luego procesar cada fragmento por separado. Luego puedes combinar los resúmenes de cada fragmento para crear un meta-resumen de todo el documento.

Aquí hay un ejemplo de cómo realizar un meta-resumen:

import anthropic

# Inicializar el cliente de Anthropic
client = anthropic.Anthropic()

def chunk_text(text, chunk_size=20000):
    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]

def summarize_long_document(text, details_to_extract, model="claude-opus-4-20250514", max_tokens=1000):

    # Formatear los detalles a extraer para colocarlos dentro del contexto del prompt
    details_to_extract_str = '\n'.join(details_to_extract)

    # Iterar sobre fragmentos y resumir cada uno
    chunk_summaries = [summarize_document(chunk, details_to_extract, model=model, max_tokens=max_tokens) for chunk in chunk_text(text)]
    
    final_summary_prompt = f"""
    
    Estás mirando los resúmenes fragmentados de múltiples documentos que están todos relacionados. 
    Combina los siguientes resúmenes del documento de diferentes fuentes verídicas en un resumen general coherente:

    <chunked_summaries>
    {"".join(chunk_summaries)}
    </chunked_summaries>

    Concéntrate en estos aspectos clave:
    {details_to_extract_str})

    Proporciona el resumen en viñetas anidadas dentro del encabezado XML para cada sección. Por ejemplo:

    <partes involucradas>
    - Subarrendador: [Nombre]
    // Añade más detalles según sea necesario
    </partes involucradas>
    
    Si alguna información no está explícitamente indicada en el documento, anótala como "No especificado". No hagas preámbulos.
    """

    response = client.messages.create(
        model=model,
        max_tokens=max_tokens,
        system="Eres un experto legal que resume notas sobre un documento.",
        messages=[
            {"role": "user",  "content": final_summary_prompt},
            {"role": "assistant", "content": "Aquí está el resumen del acuerdo de subarrendamiento: <summary>"}

        ],
        stop_sequences=["</summary>"]
    )
    
    return response.content[0].text

long_summary = summarize_long_document(document_text, details_to_extract)
print(long_summary)

La función summarize_long_document se basa en la función anterior summarize_document dividiendo el documento en fragmentos más pequeños y resumiendo cada fragmento individualmente.

El código logra esto aplicando la función summarize_document a cada fragmento de 20,000 caracteres dentro del documento original. Los resúmenes individuales se combinan luego, y se crea un resumen final a partir de estos resúmenes de fragmentos.

Ten en cuenta que la función summarize_long_document no es estrictamente necesaria para nuestro PDF de ejemplo, ya que todo el documento cabe dentro de la ventana de contexto de Claude. Sin embargo, se vuelve esencial para documentos que exceden la ventana de contexto de Claude o cuando se resumen múltiples documentos relacionados juntos. Independientemente, esta técnica de meta-resumen a menudo captura detalles importantes adicionales en el resumen final que se pasaron por alto en el enfoque anterior de resumen único.

Usa documentos indexados por resumen para explorar una gran colección de documentos

La búsqueda en una colección de documentos con un LLM generalmente implica generación aumentada por recuperación (RAG). Sin embargo, en escenarios que involucran documentos grandes o cuando la recuperación precisa de información es crucial, un enfoque RAG básico puede ser insuficiente. Los documentos indexados por resumen son un enfoque RAG avanzado que proporciona una forma más eficiente de clasificar documentos para recuperación, utilizando menos contexto que los métodos RAG tradicionales. En este enfoque, primero usas Claude para generar un resumen conciso para cada documento en tu corpus, y luego usas Clade para clasificar la relevancia de cada resumen para la consulta que se está haciendo. Para más detalles sobre este enfoque, incluido un ejemplo basado en código, consulta la sección de documentos indexados por resumen en el manual de resúmenes.

Ajusta Claude para aprender de tu conjunto de datos

Otra técnica avanzada para mejorar la capacidad de Claude para generar resúmenes es el ajuste fino. El ajuste fino implica entrenar a Claude en un conjunto de datos personalizado que se alinea específicamente con tus necesidades de resumen legal, asegurando que Claude se adapte a tu caso de uso. Aquí hay una visión general de cómo realizar el ajuste fino:

Identifica errores: Comienza recopilando instancias donde los resúmenes de Claude quedan cortos - esto podría incluir la omisión de detalles legales críticos, la incomprensión del contexto o el uso de terminología legal inapropiada.
Cura un conjunto de datos: Una vez que hayas identificado estos problemas, compila un conjunto de datos de estos ejemplos problemáticos. Este conjunto de datos debe incluir los documentos legales originales junto con tus resúmenes corregidos, asegurando que Claude aprenda el comportamiento deseado.
Realiza el ajuste fino: El ajuste fino implica reentrenar el modelo en tu conjunto de datos curado para ajustar sus pesos y parámetros. Este reentrenamiento ayuda a Claude a comprender mejor los requisitos específicos de tu dominio legal, mejorando su capacidad para resumir documentos de acuerdo con tus estándares.
Mejora iterativa: El ajuste fino no es un proceso único. A medida que Claude continúa generando resúmenes, puedes agregar iterativamente nuevos ejemplos donde ha tenido un rendimiento inferior, refinando aún más sus capacidades. Con el tiempo, este ciclo continuo de retroalimentación resultará en un modelo altamente especializado para tus tareas de resumen legal.

El ajuste fino actualmente solo está disponible a través de Amazon Bedrock. Detalles adicionales están disponibles en el blog de lanzamiento de AWS.

Manual de resúmenes

Ve un ejemplo completamente implementado basado en código de cómo usar Claude para resumir contratos.

Manual de citas

Explora nuestra receta del manual de citas para obtener orientación sobre cómo garantizar la precisión y explicabilidad de la información.

Moderación de contenido Descripción general

On this page

Antes de construir con Claude
Decide si usar Claude para resúmenes legales
Determina los detalles que quieres que extraiga el resumen
Establece criterios de éxito
Cómo resumir documentos legales usando Claude
Selecciona el modelo Claude adecuado
Transforma documentos a un formato que Claude pueda procesar
Construye un prompt sólido
Evalúa tu prompt
Implementa tu prompt
Mejora el rendimiento
Realiza meta-resúmenes para resumir documentos largos
Usa documentos indexados por resumen para explorar una gran colección de documentos
Ajusta Claude para aprender de tu conjunto de datos

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

Antes de construir con Claude

Decide si usar Claude para resúmenes legales

Determina los detalles que quieres que extraiga el resumen

Establece criterios de éxito

Cómo resumir documentos legales usando Claude

Selecciona el modelo Claude adecuado

Transforma documentos a un formato que Claude pueda procesar

Construye un prompt sólido

Evalúa tu prompt

Implementa tu prompt

Mejora el rendimiento

Realiza meta-resúmenes para resumir documentos largos

Usa documentos indexados por resumen para explorar una gran colección de documentos

Ajusta Claude para aprender de tu conjunto de datos

Manual de resúmenes

Manual de citas

Primeros pasos

Modelos y precios

Aprende sobre Claude

Capacidades

Herramientas

Protocolo de Contexto del Modelo (MCP)

Casos de uso

Ingeniería de prompts

Probar y evaluar

Fortalecer las barreras de protección

Centro legal

​Antes de construir con Claude

​Decide si usar Claude para resúmenes legales

​Determina los detalles que quieres que extraiga el resumen

​Establece criterios de éxito

​Cómo resumir documentos legales usando Claude

​Selecciona el modelo Claude adecuado

​Transforma documentos a un formato que Claude pueda procesar

​Construye un prompt sólido

​Evalúa tu prompt

​Implementa tu prompt

​Mejora el rendimiento

​Realiza meta-resúmenes para resumir documentos largos

​Usa documentos indexados por resumen para explorar una gran colección de documentos

​Ajusta Claude para aprender de tu conjunto de datos

Manual de resúmenes

Manual de citas

Antes de construir con Claude

Decide si usar Claude para resúmenes legales

Determina los detalles que quieres que extraiga el resumen

Establece criterios de éxito

Cómo resumir documentos legales usando Claude

Selecciona el modelo Claude adecuado

Transforma documentos a un formato que Claude pueda procesar

Construye un prompt sólido

Evalúa tu prompt

Implementa tu prompt

Mejora el rendimiento

Realiza meta-resúmenes para resumir documentos largos

Usa documentos indexados por resumen para explorar una gran colección de documentos

Ajusta Claude para aprender de tu conjunto de datos