Abstract (Italiano)
La possibilità di ricreare popolazioni umane in digitale è ormai a portata di mano, eppure la domanda fondamentale resta senza risposta: ci possiamo fidare? Il dato più citato sull'affidabilità dei Digital Twin — l'85% dello studio Stanford-Google DeepMind del 2023 — viene invocato ovunque, raramente compreso, e quasi mai contestualizzato rispetto agli usi reali di queste entità.
Questo paper affronta la questione partendo da una premessa scomoda: i metodi tradizionali per misurare l'affidabilità — questionari, confronti letterali, match semantici — non sono adeguati. L'affidabilità di un gemello digitale dipende da cosa gli chiediamo di fare, e nel contesto della simulazione di mercato ciò che conta non è che dica le stesse cose di una persona reale, ma che condivida lo stesso spazio di bisogni, problemi, valori e criteri di scelta.
Abbiamo condotto un esperimento su 200 individui reali distribuiti in 20 segmenti di mercato B2C e B2B, confrontando tre tipi di Digital Twin: quelli costruiti a partire da interviste reali, quelli sintetici modellati da Aipermind, e quelli generati con un semplice prompt su un LLM generico. Li abbiamo valutati con un framework che abbiamo chiamato coerenza funzionale, usando due modelli linguistici indipendenti come valutatori.
I risultati ci hanno detto alcune cose che ci aspettavamo e altre che non ci aspettavamo. Alcune confermano ciò che il mercato già intuisce; altre lo mettono in discussione.
Un avvertimento: non troverete una risposta semplice, un numero magico, né una conclusione applicabile a qualsiasi contesto. Non esiste un "85% di affidabilità" buono per tutti gli usi, e chi ve lo promette non ha capito la domanda. Quello che troverete è un'analisi rigorosa — non esaustiva, ma onesta — di cosa funziona, cosa no, e perché. Se cercate scorciatoie, questo non è il documento giusto. Se invece volete capire davvero di cosa fidarvi e a quali condizioni, vale la pena di proseguire.
Abstract (English)
The ability to recreate human populations in digital form is now within reach, yet one fundamental question remains unanswered: can we trust them? The most frequently quoted figure about Digital Twin reliability — the “85%” from the 2023 Stanford–Google DeepMind study — is cited everywhere, rarely understood, and almost never contextualized to how these entities are actually used.
This paper starts from an uncomfortable premise: traditional methods for measuring reliability — surveys, literal comparisons, semantic matching — are not sufficient. The reliability of a digital twin depends on what we ask it to do, and in the context of market simulation what matters is not whether it says the same things as a real person, but whether it inhabits the same space of needs, problems, values, and decision criteria.
We ran an experiment on 200 real individuals across 20 B2C and B2B market segments, comparing three types of Digital Twins: those built from real interviews, synthetic twins modeled by Aipermind, and twins generated via a simple prompt to a generic LLM. We evaluated them using a framework we call functional coherence, with two independent language models acting as evaluators.
The results revealed some things we expected and others we did not. Some confirm what the market already senses; others challenge its assumptions.
A word of caution: you will not find here a simple answer, a magic number, or a conclusion that applies to every context. There is no single “85% reliability” that is good for all uses, and anyone who promises that has not understood the question. What you will find is a rigorous — not exhaustive, but honest — analysis of what works, what does not, and why. If you are looking for shortcuts, this is not the right document. If instead you want to truly understand what to trust and under which conditions, it is worth continuing.