Definire se utilizzare Claude per l’instradamento dei ticket

Ecco alcuni indicatori chiave che suggeriscono di utilizzare un LLM come Claude invece degli approcci ML tradizionali per il tuo compito di classificazione:


Costruire e implementare il tuo flusso di lavoro di supporto LLM

Comprendere il tuo approccio di supporto attuale

Prima di immergerti nell’automazione, è fondamentale comprendere il tuo sistema di ticketing esistente. Inizia investigando come il tuo team di supporto gestisce attualmente l’instradamento dei ticket.

Considera domande come:

  • Quali criteri vengono utilizzati per determinare quale SLA/offerta di servizio viene applicata?
  • L’instradamento dei ticket viene utilizzato per determinare a quale livello di supporto o specialista di prodotto viene assegnato un ticket?
  • Ci sono già regole o flussi di lavoro automatizzati in atto? In quali casi falliscono?
  • Come vengono gestiti i casi limite o i ticket ambigui?
  • Come fa il team a dare priorità ai ticket?

Più conosci come gli umani gestiscono determinati casi, meglio sarai in grado di lavorare con Claude per svolgere il compito.

Definire le categorie di intento dell’utente

Un elenco ben definito di categorie di intento dell’utente è cruciale per una classificazione accurata dei ticket di supporto con Claude. La capacità di Claude di instradare efficacemente i ticket all’interno del tuo sistema è direttamente proporzionale a quanto sono ben definite le categorie del tuo sistema.

Ecco alcune categorie e sottocategorie di intento dell’utente di esempio.

Oltre all’intento, l’instradamento e la prioritizzazione dei ticket possono essere influenzati anche da altri fattori come l’urgenza, il tipo di cliente, gli SLA o la lingua. Assicurati di considerare altri criteri di instradamento quando costruisci il tuo sistema di instradamento automatizzato.

Stabilire criteri di successo

Lavora con il tuo team di supporto per definire criteri di successo chiari con parametri di riferimento misurabili, soglie e obiettivi.

Ecco alcuni criteri e parametri di riferimento standard quando si utilizzano gli LLM per l’instradamento dei ticket di supporto:

Ecco alcuni criteri di successo comuni che potrebbero essere utili indipendentemente dal fatto che venga utilizzato un LLM:

Scegliere il modello Claude giusto

La scelta del modello dipende dai compromessi tra costo, accuratezza e tempo di risposta.

Molti clienti hanno trovato claude-3-5-haiku-20241022 un modello ideale per l’instradamento dei ticket, poiché è il modello più veloce ed economico della famiglia Claude 3 pur offrendo risultati eccellenti. Se il tuo problema di classificazione richiede una profonda competenza in materia o un grande volume di categorie di intento con ragionamento complesso, potresti optare per il modello Sonnet più grande.

Costruire un prompt forte

L’instradamento dei ticket è un tipo di attività di classificazione. Claude analizza il contenuto di un ticket di supporto e lo classifica in categorie predefinite in base al tipo di problema, all’urgenza, all’esperienza richiesta o ad altri fattori rilevanti.

Scriviamo un prompt di classificazione dei ticket. Il nostro prompt iniziale dovrebbe contenere il contenuto della richiesta dell’utente e restituire sia il ragionamento che l’intento.

Prova il generatore di prompt sulla Console Anthropic per far scrivere a Claude una prima bozza per te.

Ecco un esempio di prompt di classificazione per l’instradamento dei ticket:

def classify_support_request(ticket_contents):
    # Definisci il prompt per l'attività di classificazione
    classification_prompt = f"""You will be acting as a customer support ticket classification system. Your task is to analyze customer support requests and output the appropriate classification intent for each request, along with your reasoning. 

        Here is the customer support request you need to classify:

        <request>{ticket_contents}</request>

        Please carefully analyze the above request to determine the customer's core intent and needs. Consider what the customer is asking for has concerns about.

        First, write out your reasoning and analysis of how to classify this request inside <reasoning> tags.

        Then, output the appropriate classification label for the request inside a <intent> tag. The valid intents are:
        <intents>
        <intent>Support, Feedback, Complaint</intent>
        <intent>Order Tracking</intent>
        <intent>Refund/Exchange</intent>
        </intents>

        A request may have ONLY ONE applicable intent. Only include the intent that is most applicable to the request.

        As an example, consider the following request:
        <request>Hello! I had high-speed fiber internet installed on Saturday and my installer, Kevin, was absolutely fantastic! Where can I send my positive review? Thanks for your help!</request>

        Here is an example of how your output should be formatted (for the above example request):
        <reasoning>The user seeks information in order to leave positive feedback.</reasoning>
        <intent>Support, Feedback, Complaint</intent>

        Here are a few more examples:
        <examples>
        <example 2>
        Example 2 Input:
        <request>I wanted to write and personally thank you for the compassion you showed towards my family during my father's funeral this past weekend. Your staff was so considerate and helpful throughout this whole process; it really took a load off our shoulders. The visitation brochures were beautiful. We'll never forget the kindness you showed us and we are so appreciative of how smoothly the proceedings went. Thank you, again, Amarantha Hill on behalf of the Hill Family.</request>

        Example 2 Output:
        <reasoning>User leaves a positive review of their experience.</reasoning>
        <intent>Support, Feedback, Complaint</intent>
        </example 2>
        <example 3>

        ...

        </example 8>
        <example 9>
        Example 9 Input:
        <request>Your website keeps sending ad-popups that block the entire screen. It took me twenty minutes just to finally find the phone number to call and complain. How can I possibly access my account information with all of these popups? Can you access my account for me, since your website is broken? I need to know what the address is on file.</request>

        Example 9 Output:
        <reasoning>The user requests help accessing their web account information.</reasoning>
        <intent>Support, Feedback, Complaint</intent>
        </example 9>

        Remember to always include your classification reasoning before your actual intent output. The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
        """

Analizziamo i componenti chiave di questo prompt:

  • Utilizziamo le f-string di Python per creare il modello di prompt, consentendo l’inserimento di ticket_contents nei tag <request>.
  • Diamo a Claude un ruolo chiaramente definito come sistema di classificazione che analizza attentamente il contenuto del ticket per determinare l’intento e le esigenze principali del cliente.
  • Istruiamo Claude sul corretto formato di output, in questo caso per fornire il suo ragionamento e analisi all’interno dei tag <reasoning>, seguito dall’etichetta di classificazione appropriata all’interno dei tag <intent>.
  • Specifichiamo le categorie di intento valide: “Support, Feedback, Complaint”, “Order Tracking” e “Refund/Exchange”.
  • Includiamo alcuni esempi (noti come few-shot prompting) per illustrare come dovrebbe essere formattato l’output, il che migliora l’accuratezza e la coerenza.

Il motivo per cui vogliamo che Claude divida la sua risposta in varie sezioni di tag XML è per poter utilizzare espressioni regolari per estrarre separatamente il ragionamento e l’intento dall’output. Questo ci consente di creare passaggi successivi mirati nel flusso di lavoro di instradamento dei ticket, come utilizzare solo l’intento per decidere a quale persona instradare il ticket.

Implementare il tuo prompt

È difficile sapere quanto funziona bene il tuo prompt senza implementarlo in un ambiente di test di produzione e eseguire valutazioni.

Costruiamo la struttura di implementazione. Iniziamo definendo la firma del metodo per avvolgere la nostra chiamata a Claude. Prenderemo il metodo che abbiamo già iniziato a scrivere, che ha ticket_contents come input, e ora restituiremo una tupla di reasoning e intent come output. Se hai un’automazione esistente che utilizza ML tradizionale, vorrai seguire quella firma del metodo invece.

import anthropic
import re

# Crea un'istanza del client API di Anthropic
client = anthropic.Anthropic()

# Imposta il modello predefinito
DEFAULT_MODEL="claude-3-5-haiku-20241022"

def classify_support_request(ticket_contents):
    # Definisci il prompt per l'attività di classificazione
    classification_prompt = f"""You will be acting as a customer support ticket classification system. 
        ...
        ... The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
        """
    # Invia il prompt all'API per classificare la richiesta di supporto.
    message = client.messages.create(
        model=DEFAULT_MODEL,
        max_tokens=500,
        temperature=0,
        messages=[{"role": "user", "content": classification_prompt}],
        stream=False,
    )
    reasoning_and_intent = message.content[0].text

    # Usa la libreria di espressioni regolari di Python per estrarre `reasoning`.
    reasoning_match = re.search(
        r"<reasoning>(.*?)</reasoning>", reasoning_and_intent, re.DOTALL
    )
    reasoning = reasoning_match.group(1).strip() if reasoning_match else ""

    # Allo stesso modo, estrai anche l'`intent`.
    intent_match = re.search(r"<intent>(.*?)</intent>", reasoning_and_intent, re.DOTALL)
    intent = intent_match.group(1).strip() if intent_match else ""

    return reasoning, intent

Questo codice:

  • Importa la libreria Anthropic e crea un’istanza del client utilizzando la tua chiave API.
  • Definisce una funzione classify_support_request che prende una stringa ticket_contents.
  • Invia i ticket_contents a Claude per la classificazione utilizzando il classification_prompt
  • Restituisce il reasoning e l’intent del modello estratti dalla risposta.

Poiché dobbiamo attendere che l’intero testo di ragionamento e intento venga generato prima di analizzarlo, impostiamo stream=False (il valore predefinito).


Valutare il tuo prompt

Il prompting spesso richiede test e ottimizzazione per essere pronto per la produzione. Per determinare la prontezza della tua soluzione, valuta le prestazioni in base ai criteri di successo e alle soglie che hai stabilito in precedenza.

Per eseguire la tua valutazione, avrai bisogno di casi di test su cui eseguirla. Il resto di questa guida presuppone che tu abbia già sviluppato i tuoi casi di test.

Costruire una funzione di valutazione

La nostra valutazione di esempio per questa guida misura le prestazioni di Claude lungo tre metriche chiave:

  • Accuratezza
  • Costo per classificazione

Potresti dover valutare Claude su altri assi a seconda dei fattori importanti per te.

Per valutare questo, dobbiamo prima modificare lo script che abbiamo scritto e aggiungere una funzione per confrontare l’intento previsto con l’intento effettivo e calcolare la percentuale di previsioni corrette. Dobbiamo anche aggiungere funzionalità di calcolo dei costi e misurazione del tempo.

import anthropic
import re

# Crea un'istanza del client API di Anthropic
client = anthropic.Anthropic()

# Imposta il modello predefinito
DEFAULT_MODEL="claude-3-5-haiku-20241022"

def classify_support_request(request, actual_intent):
    # Definisci il prompt per l'attività di classificazione
    classification_prompt = f"""You will be acting as a customer support ticket classification system. 
        ...
        ...The reasoning should be enclosed in <reasoning> tags and the intent in <intent> tags. Return only the reasoning and the intent.
        """

    message = client.messages.create(
        model=DEFAULT_MODEL,
        max_tokens=500,
        temperature=0,
        messages=[{"role": "user", "content": classification_prompt}],
    )
    usage = message.usage  # Ottieni le statistiche di utilizzo per la chiamata API per quanti token di input e output sono stati utilizzati.
    reasoning_and_intent = message.content[0].text

    # Usa la libreria di espressioni regolari di Python per estrarre `reasoning`.
    reasoning_match = re.search(
        r"<reasoning>(.*?)</reasoning>", reasoning_and_intent, re.DOTALL
    )
    reasoning = reasoning_match.group(1).strip() if reasoning_match else ""

    # Allo stesso modo, estrai anche l'`intent`.
    intent_match = re.search(r"<intent>(.*?)</intent>", reasoning_and_intent, re.DOTALL)
    intent = intent_match.group(1).strip() if intent_match else ""

      # Verifica se la previsione del modello è corretta.
    correct = actual_intent.strip() == intent.strip()

    # Restituisci il ragionamento, l'intento, la correttezza e l'utilizzo.
    return reasoning, intent, correct, usage

Analizziamo le modifiche che abbiamo apportato:

  • Abbiamo aggiunto l’actual_intent dai nostri casi di test nel metodo classify_support_request e impostato un confronto per valutare se la classificazione dell’intento di Claude corrisponde alla nostra classificazione dell’intento di riferimento.
  • Abbiamo estratto le statistiche di utilizzo per la chiamata API per calcolare il costo in base ai token di input e output utilizzati

Eseguire la tua valutazione

Una valutazione adeguata richiede soglie e parametri di riferimento chiari per determinare cosa sia un buon risultato. Lo script sopra ci darà i valori di runtime per l’accuratezza, il tempo di risposta e il costo per classificazione, ma avremmo ancora bisogno di soglie chiaramente stabilite. Per esempio:

  • Accuratezza: 95% (su 100 test)
  • Costo per classificazione: riduzione del 50% in media (su 100 test) rispetto al metodo di instradamento attuale

Avere queste soglie ti consente di determinare rapidamente e facilmente su larga scala, e con empirismo imparziale, quale metodo è migliore per te e quali modifiche potrebbero essere necessarie per adattarsi meglio alle tue esigenze.


Migliorare le prestazioni

In scenari complessi, potrebbe essere utile considerare strategie aggiuntive per migliorare le prestazioni oltre alle tecniche standard di ingegneria dei prompt e strategie di implementazione delle guardrail. Ecco alcuni scenari comuni:

Utilizzare una gerarchia tassonomica per casi con più di 20 categorie di intento

Man mano che il numero di classi cresce, anche il numero di esempi richiesti si espande, rendendo potenzialmente il prompt ingombrante. In alternativa, puoi considerare l’implementazione di un sistema di classificazione gerarchico utilizzando una miscela di classificatori.

  1. Organizza i tuoi intenti in una struttura ad albero tassonomica.
  2. Crea una serie di classificatori a ogni livello dell’albero, abilitando un approccio di instradamento a cascata.

Ad esempio, potresti avere un classificatore di primo livello che categorizza ampiamente i ticket in “Problemi tecnici”, “Domande di fatturazione” e “Richieste generali”. Ciascuna di queste categorie può quindi avere il proprio sotto-classificatore per raffinare ulteriormente la classificazione.

  • Pro - maggiore sfumatura e accuratezza: Puoi creare prompt diversi per ogni percorso genitore, consentendo una classificazione più mirata e specifica al contesto. Questo può portare a una maggiore accuratezza e a una gestione più sfumata delle richieste dei clienti.

  • Contro - maggiore latenza: Tieni presente che più classificatori possono portare a una maggiore latenza, e consigliamo di implementare questo approccio con il nostro modello più veloce, Haiku.

Utilizzare database vettoriali e ricerca di similarità per gestire ticket altamente variabili

Nonostante fornire esempi sia il modo più efficace per migliorare le prestazioni, se le richieste di supporto sono altamente variabili, può essere difficile includere abbastanza esempi in un singolo prompt.

In questo scenario, potresti impiegare un database vettoriale per fare ricerche di similarità da un dataset di esempi e recuperare gli esempi più rilevanti per una data query.

Questo approccio, descritto in dettaglio nella nostra ricetta di classificazione, ha dimostrato di migliorare le prestazioni dal 71% di accuratezza al 93% di accuratezza.

Tenere conto specificamente dei casi limite previsti

Ecco alcuni scenari in cui Claude potrebbe classificare erroneamente i ticket (potrebbero essercene altri unici per la tua situazione). In questi scenari, considera di fornire istruzioni esplicite o esempi nel prompt di come Claude dovrebbe gestire il caso limite:


Integrare Claude nel tuo flusso di lavoro di supporto più ampio

Un’integrazione adeguata richiede che tu prenda alcune decisioni riguardo a come il tuo script di instradamento dei ticket basato su Claude si adatta all’architettura del tuo sistema di instradamento dei ticket più ampio. Ci sono due modi in cui potresti farlo:

  • Basato su push: Il sistema di ticket di supporto che stai utilizzando (ad es. Zendesk) attiva il tuo codice inviando un evento webhook al tuo servizio di instradamento, che poi classifica l’intento e lo instrada.
    • Questo approccio è più scalabile per il web, ma richiede che tu esponga un endpoint pubblico.
  • Basato su pull: Il tuo codice estrae gli ultimi ticket in base a una pianificazione data e li instrada al momento dell’estrazione.
    • Questo approccio è più facile da implementare ma potrebbe effettuare chiamate non necessarie al sistema di ticket di supporto quando la frequenza di estrazione è troppo alta o potrebbe essere eccessivamente lento quando la frequenza di estrazione è troppo bassa.

Per entrambi questi approcci, dovrai avvolgere il tuo script in un servizio. La scelta dell’approccio dipende da quali API fornisce il tuo sistema di ticketing di supporto.