La fase pionieristica e ancora poco regolamentata, della psicometria.
In questo articolo approfondiremo:
L’epoca della psicometria
Negli anni 2000 e all’inizio degli anni 2010, le scienze comportamentali hanno vissuto la loro epoca d’oro. Grandi teorie, affermazioni audaci e libri bestseller le hanno rese uno dei rami più popolari della psicologia, amate per i loro insight apparentemente infallibili sia da dipartimenti HR che dalle istituzioni pubbliche. Ma come sottolinea Helen Coffey in un articolo estremamente rilevante di “The Independent”, oltre ai titoli sensazionalistici dei giornali stava emergendo un problema più silenzioso. Mentre alcuni costruivano la propria reputazione attraverso la pubblicazione di studi che facevano scalpore, il rigore scientifico veniva messo in secondo piano. Gli psicologi spesso non erano in grado di replicare i risultati preannunciati e diventava difficile distinguere ciò che è davvero rilevante dalla “junk science”.
La conseguenza è stata un’ondata di ritrattazioni di alto livello, fiducia infranta nella ricerca comportamentale e confusione su ciò a cui dovremmo credere. E quell’eredità persiste ancora oggi. Noi crediamo invece che la scienza debba riconquistare quella fiducia e che questo processo debba iniziare con il denunciare le cattive pratiche e dimostrare che cosa sia realmente una “buona scienza”. Se volete dotarvi di strumenti psicometrici, ecco alcune delle pratiche di junk science a cui prestare attenzione quando scegliete il vostro partner per gli assessment.
Distinguersi dai test inattendibili
1. p-Hacking: il problema di cui non avete mai sentito parlare
Si tratta di una pratica di manipolazione dei dati, spesso intenzionale, finché gli stessi non raggiungono un risultato statisticamente significativo (tipicamente p < 0,05). Questo può comportare la rimozione di dati errati, anomali o una selezione molto mirata dei dati da includere.
Quando vengono utilizzate per “forzare” un esito desiderato, compromettono l’affidabilità dello studio. Si può anche arrivare al valore statistico desiderato e pubblicare la ricerca ma a scapito della solidità scientifica: i risultati rischiano di non essere autentici.
Nel 2011, un celebre studio ha affermato di aver trovato prove di precognizione, promulgando la tesi che le persone potessero prevedere il futuro. Lo studio è stato pubblicato in una rivista accademica prestigiosa e ha superato la peer review, ma la comunità scientifica rimase sbalordita. Perché?
Perché si basava su manipolazioni sottili dei dati e su una selezione mirata dei risultati: tattiche classiche di p-hacking. Lo studio non fu replicabile e il contraccolpo ha innescato un importante movimento di riforma nel mondo della psicologia.
E noi come evitiamo il p-hacking?
- Pre–registriamo ipotesi e piani di analisi prima ancora di raccogliere i dati, così da evitare di decidere cosa misurare solo dopo aver visto i risultati
- Incoraggiamo i nostri psicologi a condividere anche risultati che sembrano andare contro alle ipotesi iniziali e a testare di nuovo, invece di manipolare i dati per “farli funzionare”
- Diamo priorità all’accuratezza a lungo termine rispetto ai titoli sensazionalistici a breve termine
Il concetto è che: se non funziona per i nostri stakeholder, non funziona neanche per noi: per questo, ripetiamo gli studi chiave per assicurarci di ottenere i medesimi risultati con partecipanti diversi.
2. Salami Slicing: uno studio, molte storie
Perché limitarsi a una sola ricerca quando se ne possono fare due? Chi adotta questa pratica compromette la validità della propria ricerca suddividendo un unico set di dati in più articoli, al fine di aumentare il numero di pubblicazioni e l’impatto percepito. Usare lo stesso campione di partecipanti per più studi senza dichiararlo può dare l’impressione che risultati simili siano stati replicati, quando in realtà i risultati provengono da un’unica ricerca. Brian Wansink, un importante ricercatore nel campo delle scienze alimentari presso la Cornell University, ha compromesso la propria credibilità scientifica adottando questo approccio. È stato scoperto che aveva suddiviso un unico studio in diversi articoli e incoraggiato i suoi studenti a fare lo stesso.
Sebbene a un occhio non esperto ciò possa non sembrare irragionevole, presentare frammenti di uno studio come risultati distinti rimuove il contesto e può portare a conclusioni discutibili.
Come evitiamo il salami-slicing in Thomas:
- Non gonfiamo l’impatto duplicando i risultati
- Pubblichiamo studi completi e autonomi, solidi e verificabili
- Prendiamo seriamente i nostri standard di raccolta dati e non replichiamo mai ricerche importanti su campioni di dati diversi
3. Considerare campioni piccoli: non sono rappresentativi
Questo errore consiste nel trarre conclusioni generalizzate partendo da dataset minuscoli, spesso non rappresentativi e utilizzando studenti universitari di psicologia come soggetti di studio, data la loro facile accessibilità per gli accademici.
Soprattutto gli studenti conoscono bene le dinamiche della ricerca e possono modificare consapevolmente o inconsapevolmente il proprio comportamento per confermare ciò che credono lo studio voglia dimostrare. Questo compromette fortemente i risultati della ricerca.
Il famoso studio del 2010 di Amy Cuddy sul “power posing“, utilizzato in modo discutibile dal partito conservatore, affermava che un linguaggio del corpo dominante potesse stimolare la produzione di ormoni e favorire il successo nei colloqui di lavoro. Un’idea interessante, ma basata su soli 42 partecipanti e non replicabile in condizioni più rigorose.
Noi in Thomas:
- Non usiamo mai campioni di studenti poichè non rilevanti per il contesto lavorativo a cui ci rivolgiamo
- La nostra ricerca è condotta su adulti lavoratori, provenienti da un panel occupazionale specifico
- Essendo un’organizzazione globale che fornisce assessment, disponiamo di campioni ampi e diversificati
Questo garantisce che i nostri strumenti siano validati sulle stesse persone per cui sono stati progettati: professionisti in contesti lavorativi reali, non soggetti presi da contesti poco rilevanti o del tutto diversi ma da campioni adatti al luogo in cui saranno applicati i test.
Perché queste caratteristiche sono fondamentali
Il rigore scientifico non è solo un optional, bensì è l’elemento fondamentale, che dà struttura, attendibilità e reale utilità ai processi di assessment. In Thomas, costruiamo i nostri prodotti, pensando al lungo termine. Questo comporta:
- Pratiche di ricerca trasparenti
- Test nel mondo reale
- Validazione continua
- E sì, a volte pubblicare risultati che sfidano ciò che ci aspettavamo o credevamo in precedenza
Potrebbe non essere così emozionante come la psicometria degli anni 2000, ma è affidabile. Come afferma Stephen Cuppello, Director of Psychology di Thomas:
“Basiamo tutti i nostri risultati sulla letteratura accademica, per assicurarci di non riportare dati inaffidabili. Inoltre, incoraggiamo i nostri psicologi ricercatori a fallire! È importante valutare il successo della ricerca basandosi su ciò che abbiamo imparato, non su ciò che abbiamo trovato. Non sempre troviamo conferma delle nostre ipotesi, ma la scienza non consiste nell’avere sempre ragione: consiste nell’imparare qualcosa di significativo.”
Quindi, se state utilizzando strumenti psicometrici per assumere, sviluppare o guidare le persone, domandatevi sempre: su chi sono stati testati? Qual era la dimensione del campione? Potrebbe essere stato replicato?
FAQ
- Perché la qualità scientifica di uno strumento psicometrico dovrebbe influenzare le decisioni di selezione e sviluppo in azienda?
Gli assessment comportamentali non sono strumenti neutri: traducono caratteristiche umane complesse in dati su cui si basano decisioni ad alto impatto, chi assumere, chi promuovere, chi inserire in un percorso di leadership. Se i dati in uscita da questi strumenti sono costruiti su ricerche metodologicamente fragili, le decisioni che ne derivano perdono ogni base oggettiva, anche quando sembrano supportate da numeri e grafici.
- Quali rischi concreti corre un’organizzazione che adotta strumenti psicometrici senza verificarne il rigore metodologico?
Il rischio più immediato è quello decisionale: valutazioni di potenziale, fit culturale o capacità di leadership basate su strumenti non validati adeguatamente producono profili inaffidabili, con un effetto diretto su hiring, succession planning e talent development. A livello organizzativo, si aggiunge un rischio di perdita di credibilità della funzione HR: se uno strumento viene contestato, perché basato su campioni non rappresentativi o su ricerche non replicabili, l’intero processo di assessment perde legittimità agli occhi del management.
Infine, esiste un rischio legale crescente: in un contesto normativo sempre più attento all’equità nei processi di selezione e valutazione, l’uso di strumenti privi di validazione scientifica robusta può esporre l’azienda a contestazioni formali.
- Cosa si intende con “replicabilità” di uno studio psicometrico e perché è il primo indicatore di affidabilità da verificare?
Uno studio è replicabile quando i suoi risultati si confermano su campioni diversi, in momenti diversi, con ricercatori diversi.
In psicometria, la replicabilità è il filtro più semplice per distinguere una ricerca solida da una che ha prodotto risultati validi per caso o per effetto di manipolazioni, anche inconsapevoli, dei dati.
Se un fornitore di assessment non è in grado di mostrare studi indipendenti che confermano le proprietà del proprio strumento, il livello di fiducia che si può riporre nei profili prodotti è strutturalmente limitato.
- Come si riconosce in pratica uno strumento psicometrico basato su pratiche di ricerca poco rigorose, senza dover essere uno psicologo?
Esistono segnali riconoscibili anche per chi non ha una formazione tecnica in metodologia della ricerca. Il primo è la provenienza del campione di validazione: se lo strumento è stato testato prevalentemente su studenti universitari, la sua rilevanza per il mondo del lavoro adulto è già limitata in partenza. Il secondo è la dimensione del campione: affermazioni forti su tratti di personalità o potenziale basate su poche decine di partecipanti sono un campanello d’allarme immediato. Il terzo riguarda la trasparenza: un fornitore affidabile condivide apertamente la documentazione tecnica, le condizioni di raccolta dati e i risultati, inclusi quelli che non hanno confermato le ipotesi iniziali.
- La solidità scientifica di uno strumento psicometrico è sufficiente da sola o servono altri criteri di valutazione nella scelta di un partner di assessment?
La validità scientifica è la condizione necessaria, non sufficiente. Uno strumento può essere metodologicamente rigoroso e risultare comunque inadeguato se non è stato sviluppato su popolazioni lavorative comparabili al proprio contesto, se non viene aggiornato periodicamente per mantenere la rilevanza del campione normativo, o se non è integrato in un framework interpretativo che supporti decisioni concrete, di selezione, di sviluppo e succession planning. La scelta di un partner di assessment va valutata su tre livelli: la qualità della ricerca alla base, la pertinenza del campione al proprio settore e al proprio contesto geografico, e la capacità del partner di trasformare i dati in azioni organizzative difendibili.


