Puncte Cheie
Performanța LLM-urilor în domeniul medical
Progresul în domeniul modelelor de învățare a limbajului (LLMs) ridică întrebări despre modul în care acestea pot aduce beneficii societății în sectoare precum cel medical.
Un studiu recent realizat de Școala de Medicină Clinică a Universității Cambridge a constatat că GPT-4 de la OpenAI a avut o performanță aproape la fel de bună ca experții într-o evaluare oftalmologică, potrivit Financial Times.
Studiul și rezultatele sale
În studiu, publicat în PLOS Digital Health, cercetătorii au testat LLM, predecesorul său GPT-3.5, PaLM 2 de la Google și LLaMA de la Meta cu 87 de întrebări cu variante multiple de răspuns.
Cinci oftalmologi experți, trei oftalmologi în formare și doi medici juniori nespecializați au primit același examen simulat.
Întrebările au provenit dintr-un manual pentru pregătirea rezidenților pe teme variate, de la sensibilitatea la lumină la leziuni.
Conținutul nu este disponibil public, astfel că cercetătorii cred că LLM-urile nu ar fi putut fi antrenate anterior pe acestea.
ChatGPT, echipat cu GPT-4 sau GPT-3.5, a avut trei șanse de a răspunde definitiv sau răspunsul său a fost marcat ca nul.
Scorurile obținute
GPT-4 a obținut un scor mai mare decât rezidenții și medicii juniori, răspunzând corect la 60 din cele 87 de întrebări.
Deși acesta a fost semnificativ mai mare decât media medicilor juniori de 37 de răspunsuri corecte, a depășit cu puțin media celor trei rezidenți de 59.7.
Un oftalmolog expert a răspuns corect doar la 56 de întrebări, dar cei cinci au avut o medie de 66.4 de răspunsuri corecte, depășind mașina.
PaLM 2 a obținut un scor de 49, iar GPT-3.5 a obținut un scor de 42.
LLaMa a obținut cel mai mic scor, 28, fiind sub medicii juniori.
Aceste teste au avut loc la mijlocul anului 2023.
Riscuri și preocupări
Deși aceste rezultate au beneficii potențiale, există și destul de multe riscuri și preocupări.
Cercetătorii au remarcat că studiul a oferit un număr limitat de întrebări, în special în anumite categorii, ceea ce înseamnă că rezultatele reale ar putea fi variate.
LLM-urile au, de asemenea, tendința de a „halucina” sau de a inventa lucruri.
Aceasta este o problemă dacă este vorba de un fapt irelevant, dar pretinderea că există o cataractă sau un cancer este o altă poveste.
În multe cazuri de utilizare a LLM-urilor, sistemele lipsesc de nuanță, creând astfel mai multe oportunități de inexactitate.

