logo weirdoo

AI

DEVELOPMENT

MARKETING

EGG Finance | AI-powered Feature Extraction per CRM Finanziario

CLIENTE

EGG Finance

ROLE

AI, R&D

ANNO

2023, 2024

TAGS

Python, Machine Learning, Deep Learning

Contesto

EGG Finance è un CRM verticale per il mondo finanziario. Gestisce dati sensibili, flussi operativi serrati e operatori che non hanno tempo di fare data entry campo per campo. La richiesta è semplice da dire e complessa da realizzare: uno strumento interno (niente giri su servizi terzi) capace di leggere documenti (identità e documenti fiscali come 730, buste paga, codice fiscale) ed estrarre automaticamente le informazioni per pre-compilare le schede del CRM sia in inserimento (operatore davanti alla schermata) sia in bulk (centinaia o migliaia di documenti a colpo). Obiettivo: velocità, accuratezza, tracciabilità. E, soprattutto, privacy by design: i dati non escono dal perimetro EGG.

La sfida

Nessun documento è “standard”. Le buste paga sembrano uguali finché le metti una accanto all’altra: formati diversi, layout creativi, sezioni che migrano, diciture che cambiano con l’aria. I 730? Stesso film, capitolo nuovo. In mezzo, PDF nativi (ricercabili) alternati a scansioni borderline: storte, sgranate, con timbri sopra i numeri. Il sistema deve riconoscere che cosa ha davanti, scegliere la strategia giusta e non impazzire quando i casi limite bussano alla porta. Il tutto con latenze compatibili con l’uso in back-office e tassi di errore che non costringano gli operatori a rifare il lavoro a mano.

L’approccio

Niente bacchette magiche. Solo R&D metodica, parecchia ingegneria dei dati e un’architettura che cresce per moduli. Abbiamo lavorato a quattro mani col team di EGG Finance, dal primo spike fino a un sistema che oggi è un ensemble ragionato: più modelli, più regole, decision trees a orchestrare il tutto.

  1. Capire qual è il documento
    Prima di estrarre, classifichiamo. Un modello individua la famiglia (730, busta paga, documento identità, codice fiscale…). Dentro la famiglia, un secondo livello riconosce la variante (sì, anche “busta paga versione forgiata su stampante degli anni ’90”). Questa informazione decide il flow successivo.
  2. Scegliere la strada più corta
    Se il file è un PDF ricercabile, andiamo di euristiche posizionali + parsing testuale per cogliere i campi in coordinate note e in pattern consolidati.
    Se il file è scansito, passiamo da OCR e poi da modelli deep per key-value detection e normalizzazione. In mezzo ci sono regole semantiche per interpretare diciture equivalenti, gestire rumore e ambiguità (il totale netto che non è totale, i numeri con separatori esotici, i codici fiscali con O/0 ballerini, ecc.).
  3. Far dialogare i cervelli (l’ensemble)
    Ogni famiglia ha più estrattori: alcuni veloci e deterministici, altri più lenti ma intelligenti. Un decision tree sceglie quale usare e quanto fidarsi dei risultati. A livello di campo, calcoliamo uno score di confidenza e applichiamo regole di coerenza trasversali (se il codice fiscale racconta una data di nascita impossibile, non passa; se le cifre non tornano tra lordo, trattenute e netto, si ricalcola o si chiede conferma).
  4. Human-in-the-loop, ma quando serve davvero
    L’operatore vede schede pre-compilate con highlight dei campi incerti. Può correggere al volo: quelle correzioni alimentano un ciclo di apprendimento (dataset di verità, retraining periodico, nuove regole). Non addestriamo un LLM ogni mattina: aggiorniamo dove conviene e quando i dati lo chiedono.

Dentro il motore

Il sistema è scritto per vivere dentro EGG Finance. API interne e job schedulati gestiscono due scenari: real-time assistito in fase di inserimento e bulk ingestion per import massivi. Tutto è idempotente: lo stesso documento non crea doppioni, ma versioni e audit. La pipeline logga ogni passaggio (classificazione, estrazione, validazioni, errori gestiti) per consentire monitoraggio e diagnostica: se una variante di busta paga “nuova” inizia a girare nel mercato, la vediamo dai drift sugli score e interveniamo.

Sul fronte sicurezza: cifratura in transito e a riposo, controllo accessi per ruolo, nessuna chiamata verso l’esterno con PII. Il principio resta quello: tutto in casa.

Cosa cambia per chi lavora in CRM

La differenza si nota prima che qualcuno chieda “quanto tempo abbiamo risparmiato?”. Gli operatori non partono più da zero: i campi cruciali arrivano già al loro posto, con un tono di grigio diverso se il sistema è meno sicuro. Meno noia, meno errori di battitura, meno doppie verifiche. Nel bulk sparisce l’incubo del “carica file → torna domani”: l’estrazione gira, logga, e allinea i record in modo tracciabile. Nessun fuoco d’artificio, solo fluidità nell’operativo quotidiano.

Perché un ensemble

Perché i documenti cambiano. Perché la qualità dell’immagine oscilla. Perché i casi limite esistono. Un ensemble ben orchestrato ti permette di adattarti senza stravolgere tutto: aggiungi un estrattore, modifichi un ramo del decision tree, non tocchi il resto. È manutenibile.

R&D: cosa abbiamo fatto davvero

Dalla raccolta e normalizzazione dei campioni (anonimizzati) alla definizione delle tassonomie di campo per ogni documento; dalla progettazione dei feature extractor specifici alla costruzione di golden set per i test di regressione; dalla validazione dei punteggi per campo a regole di coerenza inter-documento (quando più file di uno stesso cliente devono raccontare la stessa storia). Abbiamo iterato su precisione/recall a livello di campo (non solo “il documento è buono?” ma “questo campo è corretto?”), e messo in piedi metriche che gli stakeholder capiscono: quanto lavoro in meno per l’operatore, quante correzioni residuali, dove intervenire per guadagnare il prossimo punto percentuale.

Risultato

Un sistema in produzione che riconosce il tipo di documento, seleziona la tattica migliore, estrae i dati e popola le schede di EGG Finance sia in assistito sia in bulk, con controlli di qualità, log e una strada chiara per nuove famiglie di documenti. Non promettiamo “zero errori” (chi lo fa, mente); promettiamo una piattaforma che migliora nel tempo, non rompe i flussi e rispetta i dati.

Cosa c’è dopo

Tre direzioni naturali:

In due righe

EGG Finance aveva bisogno di “far parlare” i documenti dentro il proprio perimetro. Abbiamo costruito un sistema che ascolta, capisce, estrae e compila.

Vai ad un'altra area del progetto

Leggi di più sul nostro blog

Design

Titolo articolo legato al progetto o simil.

8 Settembre, 2023

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

Nome Cognome

Leggi anche 👀

TrenDevice

Calton V3