
ATTENZIONE!!! Il software descritto in questo articolo NON E’ APPROVATO PER ESSERE UTILIZZATO IN AMBITO CLINICO!!! Il programma non è mai stato valutato dal punto di vista scientifico ed è nato come esperimento per cercare di capire il funzionamento di software simili e provare a realizzarne uno in licenza libera. Ogni uso sui pazienti di questo programma è assolutamente sconsigliato in quanto a volte fornisce informazioni errate!
Se mai un giorno questo software sarà validato l’uso sarà riservato esclusivamente al personale sanitario, l’unico in grado di fornire i comandi corretti e riconoscere eventuali errori, oltre che in grado di prendersi la responsabilità piena per il suo utilizzo di fronte alla legge.
Gli articoli scientifici usati nel training sono forniti e redistribuiti secondo licenze Creative Commons (alcuni pubblico dominio) che ne permettono l’utilizzo in opere derivate (vedere i singoli articoli scaricabili dallo zip sotto, per ogni segnalazione relativa ad errori o al copyright utilizzare la mail agalatiml@gmail.com o questo blog)
Sono finalmente riuscito a confrontare MMGPT 0.2 beta con ChatGPT. Per farlo ho utilizzato tutti e 3 i sistemi mediante GPTaAll (per poter utilizzare ChatGPT da software locale ho acquistato un’API key da OpenAI, oltre a ChatGPT Plus per poter utilizzare ChatGPT 4). Come casi clinici da passare ai chatbot ho preso quelli di un elenco di quiz per il test di ingresso alle specialità mediche, apportando alcune modifiche ai testi per evitare problemi di copyright (l’intero database di studio sarà reso pubblico) pur preservandone il senso logico. Tutti e 103 i casi clinici presi in esame sono stati quindi passati ai 3 chatbot ed è stato registrato il numero di risposte corrette, usando le soluzioni inserite nel libro dei quiz come gold standard (anche se alcune erano a mio parere errate non ho cambiato il mio giudizio in funzione delle mie opinioni. Ad ogni modo ho riportato nel database il mio disaccordo in questi pochi casi, ove spesso tutti i chatbot d’altronde fornivano la risposta “errata”…). Il confronto fra le frequenze di risposte giuste/sbagliate per i 3 sistemi è stato quindi fatto mediante il test del Chi Quadrato, per vedere se esistono differenze statisticamente significative fra un test e l’altro. I risultati sono poi discussi a fine articolo.
Risultati:

Come potete vedere dalla figura sopra il test del chi quadrato non ha mostrato differenze statisticamente significative fra i 3 chatbot, anche se ChatGPT4 e ChatGPT 3.5 sembrano come media di risposte azzeccate leggermente superiori ad MMGPT. Tuttavia è da notare come anche il Chatbot migliore (ChatGPT 4) da un sacco di risposte errate anche su quesiti clinici banali (vedi database che verrà pubblicato a breve) e pertanto nessuno di questi sistemi è a mio avviso adatto ad un uso clinico. Ho inoltre provato a creare una nuova versione di MMGPT inserendogli articoli aggiuntivi per vedere se così riusciva a correggere le risposte sbagliate… ma ciò avviene a scapito di altri errori commessi su risposte prima corrette (per tal motivo appena mi sono accorto di come andavano i risultati ho interrotto questo studio parallelo).
Conclusioni:
Nonostante tutta la buona volontà messa nel cercare di creare un chatbot che provasse a correggere il problema delle allucinazioni mediante documenti locali, è possibile affermare che tale obbiettivo, almeno da me, non è stato raggiunto (per ora…). Un dato tuttavia importante che emerge da questo studio è che i chatbot locali presentano comunque un’attendibilità sostanzialmente sovrapponibile a quelli sviluppati dalle Big Tech. Questo quindi rende a mio avviso assolutamente valide le conclusioni che ho espresso nell’articolo sull’AI-opticon uscito poco tempo fa. Sviluppi importanti di queste tecnologie a mio avviso saranno possibili soprattutto per le applicazioni creative più che per quelle “critiche” come l’ambito sanitario.
2 pensieri riguardo “Confronto fra MMGPT e ChatGPT”