Inteligența artificială a atins performanțe remarcabile la testele academice, dar noile descoperiri arată că aceste rezultate nu reflectă, întotdeauna, o adevărată înțelegere a cunoștințelor

Inteligența artificială a atins performanțe remarcabile la testele academice, dar noile descoperiri arată că aceste rezultate nu reflectă, întotdeauna, o adevărată înțelegere a cunoștințelor. În timp ce modelele AI, precum GPT-4 și Claude 3.5, au raportat scoruri impresionante în testele tradiționale, cercetătorii internaționali au dat un nou ton discuției despre limitele acestor sisteme. Un proiect de amploare a fost dedicat dezvoltării unui examen menit să evalueze competențele AI-urilor dincolo de simplele răspunsuri bine formulate: „Humanity’s Last Exam”, sau „Ultimul examen al umanității”.

Un test menit să expună limitele adevărate ale AI-urilor

Dezvoltarea acestui nou tip de examen a fost răspunsul la creșterea rapidly a performanței mașinilor în fața testelor clasice. Întrebările, concepute de specialiști din întreaga lume, au fost gândite pentru a fi dificil de rezolvat de către AI și pentru a împiedica găsirea rapidă a răspunsurilor printr-o simplă căutare pe internet. Proiectul a reunit aproape o mie de cercetători, fiecare contribuind în procesul de redactare și revizuire pentru a asigura acuratețea și complexitatea întrebărilor.

Testul constă în 2.500 de întrebări, acoperind domenii extrem de diverse, precum matematica avansată, istoria limbilor antice sau anatomia speciilor rare de păsări. Fiecare entrebare a fost proiectată cu rigurozitate pentru a explica clar răspunsul și pentru a evita ca soluțiile să fie obținute prin metode rapide sau simple căutări. În plus, testul urmărește să evalueze nu doar cunoștințele, ci și capacitatea de gândire critică și de interpretare a sistemelor AI, în condiții care să reflecte provocările din lumea reală.

Performanțele modelelor AI: departe de a fi totul

Rezultatele inițiale au confirmat că noul examen face diferența între AI-uri și înțelepciunea umană. Modele precum GPT-4, de exemplu, au reușit cel mai mult, atingând un scor de doar 2,7%. La polul opus, Claude 3.5 Sonnet a înregistrat un rezultat de 4,1%, în timp ce un model mai puțin cunoscut al OpenAI a ajuns până la 8%. Cele mai avansate sisteme de inteligență artificială, precum Gemini 3.1 Pro și Claude Opus 4.6, au obținut scoruri situate între 40% și 50%.

Asta înseamnă că, deși aceste modele pot fi extrem de performante la testele convenționale, atunci când sunt puse în fața unei evaluări riguroase și cu întrebări din domenii specializate, rămân departe de un nivel de înțelepciune comparabil cu cel al unui expert uman. Cercetătorii subliniază că aceste scoruri mari nu reflectă, în mod necesar, o „inteligență autentică”, ci mai degrabă o capacitate de a satisface sarcini specifice pentru care au fost programați.

Această distincție este esențială, având în vedere că valoarea și potențialul AI-urilor trebuie judecate în contextul aplicabilităților reale. „Testele de referință măsoară în principal cât de bine poate AI să îndeplinească sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înțelegere mai profundă”, explică cercetătorii.

Viitorul inteligenței artificiale și importanța unor standarde solide

Rezultatele acestor cercetări subliniază necesitatea de a dezvolta cadrul de evaluare al AI-urilor, dar și ideea că progresul tehnologic nu trebuie confundat cu înțelepciunea umană. În ciuda numeroaselor succese, aceste sisteme continuă să fie dependente de seturi de date și de algoritmi, fără o înțelegere autentică a contextului în care operează.

Proiectul „Humanity’s Last Exam” are scopul de a servi drept reper pentru viitoarele dezvoltări în domeniul inteligenței artificiale, insistând pe nevoia de a crea un standard transparent și durabil. Pe măsură ce tehnologia avansează, iar modelele devin tot mai sofisticate, astfel de evaluări vor fi esențiale pentru a determina dacă AI-urile devin cu adevărat partneri de încredere pentru societate sau doar unele instrumente performante, dar lipsite de o înțelegere profundă. În final, cercetările confirmă ceea ce specialiștii de ani de zile avertizează: deși AI-urile pot părea inteligente, adevărata lor „înțelepciune” încă rămâne un teritoriu aproape inexplorat.

Ana Vasilescu

Autor

Lasa un comentariu