Per anni Stripe ha utilizzato modelli di machine learning addestrati su feature discrete (BIN, codice postale, metodo di pagamento, ecc.) per migliorare i propri prodotti. Questi approcci feature-by-feature hanno funzionato sorprendentemente bene: +15% di conversioni, -30% di frodi. Tuttavia, i limiti sono evidenti.
Ogni modello richiede la selezione delle feature, limitando il suo raggio di azione, e va addestrato separatamente per ogni compito: autorizzazioni, frodi, dispute, e così via.
Con la potenza di apprendimento delle architetture transformer generalizzate, ci siamo chiesti se un approccio in stile LLM potesse funzionare nel mondo dei pagamenti. Non era affatto ovvio. I pagamenti somigliano al linguaggio per certi aspetti: strutture ripetitive, sequenzialità temporale, legami logici tra elementi. Ma differiscono radicalmente: pochi token distinti, contesti molto rari, assenza di regole grammaticali evidenti.
Stripe ha quindi costruito un payments foundation model, una rete auto-supervisionata che impara vettori densi e generali per ogni transazione, simile a come un modello linguistico rappresenta le parole. Addestrato su decine di miliardi di transazioni, il modello sintetizza i segnali chiave di ciascun addebito in un singolo embedding versatile.
Il risultato può essere pensato come una vasta distribuzione di pagamenti in uno spazio vettoriale ad alta dimensione. La posizione di ciascun embedding cattura informazioni ricche: le relazioni tra elementi, le somiglianze tra transazioni e persino pattern sottili che sfuggono all’occhio umano. Transazioni dello stesso emittente si raggruppano, quelle della stessa banca ancora più vicino, mentre quelle che condividono un indirizzo email risultano quasi identiche.
Questi embeddings avanzati semplificano enormemente il riconoscimento di pattern fraudolenti sofisticati e consentono di costruire classificatori più precisi, basati sia sulle caratteristiche di una singola transazione sia sulle relazioni sequenziali tra transazioni.
Prendiamo il card-testing. Negli ultimi anni, gli approcci ML tradizionali (nuove feature, etichettatura di pattern emergenti, retraining rapido dei modelli) hanno ridotto i tentativi di card-testing per gli utenti Stripe dell’80%. I card tester più sofisticati nascondono pattern nuovi nei volumi dei grandi clienti, rendendoli difficili da individuare con metodi tradizionali.
Stripe ha sviluppato un classificatore che riceve sequenze di embeddings dal foundation model e prevede se un determinato segmento di traffico è sotto attacco. Utilizza l’architettura transformer per rilevare pattern sottili lungo sequenze di transazioni. Tutto questo avviene in tempo reale, bloccando gli attacchi prima che colpiscano le aziende.
Il risultato? Il tasso di rilevamento dei card-testing sui grandi utenti è passato dal 59% al 97% dall’oggi al domani. L’impatto è immediato per le aziende di maggiori dimensioni. Ma il vero potenziale del foundation model risiede nella versatilità degli embeddings, applicabili anche ad altri compiti come dispute o autorizzazioni.
Forse il punto più profondo: i pagamenti hanno un significato semantico. Proprio come le parole in una frase, le transazioni mostrano dipendenze sequenziali complesse e interazioni latenti tra feature che non possono essere catturate dall’ingegneria manuale.
A quanto pare, l’attenzione era tutto ciò di cui i pagamenti avevano bisogno.
Più dettagli