Vero o falso? Si può usare la radiomica per riconoscere i deepfake?

La radiomica è una metodica di analisi delle immagini mediche volta a rilevare caratteristiche di queste immagini non evidenti alla loro semplice analisi visiva. Di solito queste metodiche sono implementate estraendo dalle immagini stesse degli indicatori quantitativi che vengono poi confrontati tramite sistemi automatici basati sull’Intelligenza Artificiale con l’obbiettivo di trovare correlazioni fra questa variabili e la clinica/prognosi dei pazienti. Come già anticipato in un articolo di alcuni mesi fa il problema principale dell’utilizzo di queste IA è che spesso i risultati da queste fornite sono pubblicati in modo acritico dai ricercatori.

Gli esperimenti condotti sull’argomento spesso utilizzano un approccio induttivo invece che deduttivo (come vorrebbe il metodo scientifico); questo approccio, combinato con una scelta dei pazienti spesso mal fatta ed una numerosità dei campioni spesso molto bassa, porta inevitabilmente a trovare fra i risultati correlazioni “spurie”, che se non adeguatamente spiegate razionalmente da una mente umana portano gli esperimenti a conclusioni errate, che si scoprono errate quando questi modelli decisionali sono impiegati in ambito clinico. (correlazione non sempre significa causalità!).

Un altro modo di studiare i descrittori quantitativi estratti dalle immagini tramite la “texture analisys” è mediante il “radiomic mapping”, procedura che sostanzialmente consiste nel costruire un immagine parametrica dove per ogni punto è calcolato il valore del descrittore scelto calcolato includendo nell’analisi i pixel/voxel entro un determinato diametro detto “kernel”. Questo approccio, molto meno utilizzato, permette quindi di vedere ad occhio nudo, anche con un analisi puramente visiva, come i descrittori sono distribuiti nelle immagini… tuttavia l’osservazione critica di queste mappe richiede cervello, motivo per cui quasi nessuno segue questo aproccio in ricerca clinica.

Dato che uno dei miei obbiettivi in questo campo è sempre stato cercare di capire cosa vedono le IA tramite le loro inesplorabili “black box”, ho pensato fin da subito di seguire questo secondo approccio, purtroppo al momento però non dispongo più di immagini cliniche per i motivi che ho già spiegato, di conseguenza dovevo inventarmi qualcosa… ho provato a vedere se le stesse metodiche che per anni ho impiegato sui pazienti potessero avere un’utilità anche in altri campi. In letteratura ho trovato diversi altri usi di queste tecniche nello studio dei materiali, dei beni culturali ed anche ad esempio per il riconoscimento di dipinti o banconote false. Quando ho sentito parlare dei deepfake e della difficoltà nel loro riconoscimento ho quindi pensato di provare a fare qualcosa in questo campo, anche perchè non ho trovato nulla a riguardo in letteratura.

Dato che un video deepfake altro non è che il volto di una persona sovrapposto sul video di un altra in ogni fotogramma, la prima cosa che ho pensato è che la texture della cute del volto nei video fake doveva essere diversa rispetto a quelle di altre aree di cute ma non alterate dal software (come ad esempio il collo). Ho quindi rispolverato il vecchio programma che utilizzavo per creare queste mappe (LifeX) e gli ho dato in pasto 2 fotogrammi: uno preso dal deepfake di Matteo Renzi creato da Striscia la Notizia e l’altro in cui è raffigurato l’attore reale a cui è stata scambiata la faccia.

Per creare velocemente le 2 mappe ho scomposto i 2 fotogrammi nei 3 colori RGB, quindi per ogni colore ho creato 2 ROI (Regioni di Interesse) includenti solo i 2 volti in modo da dare meno pixel possibili da elaborare al software (in modo da accorciare i tempi). L’elaborazione successiva è stata condotta impostando 64 valori di grigio per la matrice GLCM (l’unica di cui LifeX è in grado di creare mappe) fra 0 e 256 (dimensione del bin pari a 4). L’elaborazione a 64 valori di grigio è la più simile a quella utilizzata in clinica e con un range di valori da 0 a 256 sono sicuro di includere tutti i valori di grigio dell’immagine. E’ stato usato un diametro del kernel pari a 7 pixel (il massimo consentito da LifeX) in quanto il segnale che cerchiamo è molto debole ma al contempo la foto presenta una risoluzione spaziale molto più alta delle immagini di medicina nucleare, che quindi può essere agevolmente sacrificata senza dare troppi problemi

L’immagine che vedete in cima all’articolo raffronta le 2 immagini con le rispoettive mappe della GLCM entropia così calcolate per il rosso (il colore che ho trovato funzionare meglio). Ho osservato per ore senza successo queste ed altre immagini, ottenute anche con altri fotogrammi presi da altri video ed elaborati in modo differente, nel tentativo di trovare differenze fra la cute del volto fake e quella del corrispondente attore reale o fra la cute del volto e quella del collo, fintanto che ho smesso di soffermarmi sulla cute e ho portato il mio sguardo alla bocca:

Solo dopo un bel po’ mi sono accorto in questo ed altri frame che nella mappa della GLCM entropia, ricavata con le impostazioni descritte sopra, le LABBRA nei video fake sono molto meno intense che nelle controparti autentiche! Ho provato a soffermarmi quindi sulla bocca di un altra decina di confronti analoghi fra deepfake e reale, notando praticamente SEMPRE questo particolare! … con solo 2 eccezioni:

-un volto con una barba molto folta

-un deepfake di Barak Obama

Ma ho presto capito che questi due casi probabilmente sono un’eccezione a questa regola generale; nel primo caso infatti la folta barba presenta un elevata GLCM entropia vicino alle labbra (in quanto è una texture molto disomogenea), rendendo difficile l’analisi, mentre nel secondo caso l’attore ha la pelle nera (in tutti gli altri casi ho studiato attori bianchi) quindi probabilmente in tali casi la metodica va modificata.

In alcuni casi inoltre sono presenti oggetti fra le labbra e la telecamera, come il microfono in questo fotogramma fake, che possono ingannare chi non fa attenzione, lo stesso vale per la bocca aperta (il cavo orale ha GLCM entropia sempre elevata e non va confuso con le labbra). In tali casi aiuta molto sovrapporre la mappa all’immagine originale (la stessa cosa che si fa in PET quando si sovrappone l’immagine funzionale alla TC coregistrata per localizzare gli accumuli di radiofarmaco), facendo attenzione a non farsi ingannare dallo smoothing nelle mappe dato da un kernel troppo ampio in caso di immagini a bassa risoluzione.

In altri casi l’intensità delle labbra non sempre è così bassa da renderle indistinguibili dal fondo dell’immagine, ma è comunque ridotta rispetto al fotogramma reale, ad esempio in questo deepfake di Putin confrontato con un sui video reale:

In tali casi le labbra appaiono oltre che meno intense anche meno definite, in modo simile a quanto avviene ai nuclei della base nella SPECT con FP-CIT anormale (i nuclei della base nella foto sotto sono le strutture gialle a forma di virgola, a sx un’immagine normale, a destra una patologica, fonte: Wikipedia):

Per aiutare nel decidere in questi casi dubbi potrebbe essere una buona idea effettuare come si fa con queste SPECT un’analisi semiquantitativa creando delle ROI sulle labbra ed altre ROI per la stima del fondo dell’immagine ad esempio sulla fronte. Il rapporto della GLCM entropia fre queste 2 aree potrebbe poi essere utilizzato come parametro decisionale. Lo studio semiquantitativo delle immagini così come lo studio di un maggior numero di fotogrammi e di differenti video sarà necessario per validare questa metodica e verificare che effettivamente funzioni (magari i risultati che finora ho ottenuto su solo una decina di fotogrammi sono venuti per caso), tuttavia quanto mostrato potrebbe essere un buon metodo di studio sia in questo campo sia in altri in cui si utilizzano immagini (compresa la clinica). Fatemi sapere nei commenti cosa ve ne pare.

Un pensiero riguardo “Vero o falso? Si può usare la radiomica per riconoscere i deepfake?

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...