logo weirdoo

AI

DEVELOPMENT

MARKETING

Motore interno di estrazione dati da documenti per CRM finanziario (AI-powered)

CLIENTE

[Intenal]

ROLE

AI, R&D

ANNO

2023, 2024

TAGS

Python, Machine Learning, Deep Learning

Contesto

In un CRM verticale per il mondo finanziario convivono dati sensibili, flussi operativi serrati e operatori che non possono permettersi data entry manuale campo per campo. Da qui la necessità di uno strumento interamente interno (nessun passaggio su servizi terzi) capace di leggere documenti — identità e documenti fiscali come 730, buste paga, tessera/codice fiscale e simili — ed estrarre automaticamente le informazioni utili per pre-compilare le schede del CRM:

Obiettivi: velocità, accuratezza, tracciabilità e soprattutto privacy by design: i dati restano nel perimetro aziendale.

Il sistema è stato validato internamente su N clienti, coprendo un’ampia varietà di formati, layout e qualità delle sorgenti.

La sfida

Nel mondo documentale “standard” è l’eccezione. Le buste paga sembrano simili finché non le confronti: layout differenti, intestazioni variabili, sezioni che migrano, diciture non uniformi. I 730 seguono lo stesso copione: moduli riconoscibili, ma differenze continue.

In mezzo ci sono:

Il motore deve riconoscere che cosa ha davanti, scegliere la strategia più adatta e reggere i casi limite senza degradare i flussi. Il tutto con latenze compatibili con l’uso in back-office e con un tasso di errore che non trasformi l’automazione in lavoro doppio.

Approccio

Niente scorciatoie: R&D metodica, ingegneria dei dati e architettura modulare. Il sistema è un ensemble orchestrato: più estrattori, più regole, una logica decisionale che seleziona la pipeline migliore in base al documento e al contesto.

1) Capire che documento è

Prima di estrarre, si classifica:

La classificazione decide il flusso successivo.

2) Scegliere la strada più corta (e più affidabile)

3) Far dialogare i “cervelli” (ensemble)

Ogni famiglia documentale ha più estrattori:

Una logica di orchestrazione decide quale usare e quanto fidarsi dei risultati.
A livello di campo, si calcola uno score di confidenza e si applicano controlli di coerenza trasversali, ad esempio:

4) Human-in-the-loop, solo dove serve

L’operatore trova la scheda pre-compilata con evidenza dei campi meno certi. Le correzioni (quando necessarie) alimentano un ciclo di miglioramento: golden set, retraining periodico, nuove regole mirate. Non “si addestra tutto sempre”: si migliora dove il dato lo giustifica.
Architettura operativa

Il motore è pensato per vivere dentro il perimetro del CRM:

La pipeline è idempotente: lo stesso documento non produce doppioni, ma versioni e audit.
Ogni passaggio viene loggato (classificazione, estrazione, validazioni, errori gestiti) per monitoraggio e diagnostica: se una nuova variante inizia a circolare, lo si vede dal drift sugli score e si interviene.

Sicurezza:

Impatto sul lavoro quotidiano

Il cambiamento è immediato: l’operatore non parte più da zero. I campi cruciali arrivano già compilati, e ciò che è incerto viene segnalato.
Risultato: meno data entry, meno errori, meno verifiche ripetute.

In bulk, scompare l’incubo “carica oggi, controlla domani”: l’estrazione gira, traccia, allinea e rende auditabile l’intero processo.

Perché un ensemble

Perché i documenti cambiano, la qualità oscilla e i casi limite non sono rari. Un ensemble ben orchestrato consente di evolvere in modo incrementale: aggiungi un estrattore, modifichi un ramo decisionale, senza riscrivere tutto. È manutenibile e scalabile.

R&D: cosa è stato fatto

Risultato

Un sistema in produzione che:

Non promette “zero errori”. Promette una piattaforma che migliora nel tempo, non interrompe i flussi e rispetta i dati.

Vai ad un'altra area del progetto

Leggi di più sul nostro blog

Design

Titolo articolo legato al progetto o simil.

8 Settembre, 2023

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.

Nome Cognome

Leggi anche 👀

TrenDevice

Calton V3