Confronto fra MMGPT e ChatGPT

S-MAN è la nuova mascotte eletta “a furor di popolo” del progetto MMGPT! Il suo corpo è un triangolo di Sierpiński capovolto che rappresenta la matematica e l’informatica. MMGPT però tenta anche di avere un “volto umano” ed essere quindi utile all’uomo. Le Intelligenze Artificiali sono tutte “scatole nere” (non si sa in realtà come funzionano internamente)…ma perchè fanno anche paura come l’Uomo Nero di cui ci raccontavano da bambini?

 

Sono finalmente riuscito a confrontare MMGPT 0.2 beta con ChatGPT. Per farlo ho utilizzato tutti e 3 i sistemi mediante GPTaAll (per poter utilizzare ChatGPT da software locale ho acquistato un’API key da OpenAI, oltre a ChatGPT Plus per poter utilizzare ChatGPT 4). Come casi clinici da passare ai chatbot ho preso quelli di un elenco di quiz per il test di ingresso alle specialità mediche, apportando alcune modifiche ai testi per evitare problemi di copyright (l’intero database di studio sarà reso pubblico) pur preservandone il senso logico. Tutti e 103 i casi clinici presi in esame sono stati quindi passati ai 3 chatbot ed è stato registrato il numero di risposte corrette, usando le soluzioni inserite nel libro dei quiz come gold standard (anche se alcune erano a mio parere errate non ho cambiato il mio giudizio in funzione delle mie opinioni. Ad ogni modo ho riportato nel database il mio disaccordo in questi pochi casi, ove spesso tutti i chatbot d’altronde fornivano la risposta “errata”…). Il confronto fra le frequenze di risposte giuste/sbagliate per i 3 sistemi è stato quindi fatto mediante il test del Chi Quadrato, per vedere se esistono differenze statisticamente significative fra un test e l’altro. I risultati sono poi discussi a fine articolo.

Risultati:

Confronto fra i 3 test. I risultati non evidenziano differenze statisticamente significative fra i 3 test

Come potete vedere dalla figura sopra il test del chi quadrato non ha mostrato differenze statisticamente significative fra i 3 chatbot, anche se ChatGPT4 e ChatGPT 3.5 sembrano come media di risposte azzeccate leggermente superiori ad MMGPT. Tuttavia è da notare come anche il Chatbot migliore (ChatGPT 4) da un sacco di risposte errate anche su quesiti clinici banali (vedi database che verrà pubblicato a breve) e pertanto nessuno di questi sistemi è a mio avviso adatto ad un uso clinico. Ho inoltre provato a creare una nuova versione di MMGPT inserendogli articoli aggiuntivi per vedere se così riusciva a correggere le risposte sbagliate… ma ciò avviene a scapito di altri errori commessi su risposte prima corrette (per tal motivo appena mi sono accorto di come andavano i risultati ho interrotto questo studio parallelo).

Conclusioni:

Nonostante tutta la buona volontà messa nel cercare di creare un chatbot che provasse a correggere il problema delle allucinazioni mediante documenti locali, è possibile affermare che tale obbiettivo, almeno da me, non è stato raggiunto (per ora…). Un dato tuttavia importante che emerge da questo studio è che i chatbot locali presentano comunque un’attendibilità sostanzialmente sovrapponibile a quelli sviluppati dalle Big Tech. Questo quindi rende a mio avviso assolutamente valide le conclusioni che ho espresso nell’articolo sull’AI-opticon uscito poco tempo fa. Sviluppi importanti di queste tecnologie a mio avviso saranno possibili soprattutto per le applicazioni creative più che per quelle “critiche” come l’ambito sanitario.

2 pensieri riguardo “Confronto fra MMGPT e ChatGPT

Rispondi