Este oficial: GPT-4.5 este primul model de inteligență artificială care trece un test Turing autentic!

Postat la: 14.04.2025 | Scris de: ZIUA NEWS

În noul studiu, publicat la 31 martie în baza de date arXiv preprint, dar care nu a fost încă revizuit de colegi, cercetătorii au constatat că, atunci când a luat parte la un test Turing cu trei părți, GPT-4.5 a putut păcăli oamenii să creadă că este un alt om în 73% din cazuri. Oamenii de știință au comparat în acest studiu un amestec de modele diferite de inteligență artificială (AI).

În timp ce o altă echipă de oameni de știință a raportat anterior că GPT-4 a trecut un test Turing cu două părți, aceasta este prima dată când un LLM a trecut configurația mai dificilă și originală a „jocului de imitație" al informaticianului Alan Turing.

"Deci, LLM-urile trec testul Turing? Noi credem că aceasta este o dovadă destul de puternică că da. Oamenii nu au fost mai buni decât șansa în a distinge oamenii din GPT-4.5 și LLaMa (cu solicitarea persoanei). Și 4.5 a fost chiar considerat a fi uman semnificativ *mai des* decât oamenii reali!", a declarat Cameron Jones, coautor al studiului și cercetător la Laboratorul de Limbaj și Cogniție al Universității din San Diego, pe rețeaua de socializare X.

GPT-4.5 este liderul acestui studiu, dar LLaMa-3. 1 al Meta a fost, de asemenea, considerat uman de către participanții la test în 56% din cazuri, ceea ce depășește previziunile lui Turing conform cărora „un anchetator mediu nu va avea mai mult de 70% șanse de a face identificarea corectă după cinci minute de interogatoriu".

Ideea centrală a testului Turing este mai puțin de a dovedi că mașinile pot gândi și mai mult de a stabili dacă acestea pot imita oamenii; de aceea, testul este adesea denumit „jocul imitației".

Propunerea inițială a lui Turing a fost ca un „interogator" uman să adreseze întrebări către două entități nevăzute, dintre care una umană și una computerizată. Pe baza diferitelor întrebări și răspunsuri, interogatorul ar decide care este uman și care nu este. Un computer sau un sistem de inteligență artificială ar putea trece testul pretinzând efectiv că este uman și imitând răspunsuri asemănătoare celor umane.

În timp ce LLM-urile au trecut testul într-o situație individuală cu un interogator, acestea nu reușiseră până atunci să treacă în mod convingător testul Turing atunci când era implicat un al doilea om. Cercetătorii de la Universitatea din San Diego au luat 126 de studenți și 158 de persoane din grupul de date online Prolific și i-au supus unui test Turing cu trei părți. Acesta a presupus un schimb simultan de cinci minute de întrebări și răspunsuri atât cu un om, cât și cu un LLM ales, ambii încercând să convingă participanții că sunt oameni.

LLM-urilor li s-a dat întrebarea de bază: "Sunteți pe cale să participați la un test Turing. Scopul tău este să convingi interogatorul că ești un om". LLM-urile selectate au primit apoi o a doua solicitare de a adopta persoana unui tânăr introvertit, cunoscător al culturii internetului și care folosește argoul.

După ce au analizat 1 023 de jocuri cu o durată mediană de opt mesaje pe parcursul a 4,2 minute, cercetătorii au constatat că LLM-urile cu ambele solicitări au putut convinge cel mai bine participanții că sunt oameni.

Cu toate acestea, LLM-urile care nu au primit a doua solicitare privind persoana au avut rezultate semnificativ mai slabe; acest lucru evidențiază necesitatea ca LLM-urile să aibă o solicitare și un context clare pentru a profita la maximum de astfel de sisteme centrate pe AI.

Ca atare, adoptarea unei anumite persoane a fost cheia pentru ca LLM-urile, în special GPT-4.5, să învingă testul Turing. "În formularea cu trei persoane a testului, fiecare punct de date reprezintă o comparație directă între un model și un om. Pentru a reuși, mașina trebuie să facă mai mult decât să pară plauzibil umană: trebuie să pară mai umană decât fiecare persoană reală cu care este comparată", au scris cercetătorii în studiu.

Atunci când au fost întrebați de ce au ales să identifice un subiect ca fiind AI sau uman, participanții au citat stilul lingvistic, fluxul conversațional și factori socio-emoționali precum personalitatea. De fapt, participanții au luat decizii bazate mai mult pe „vibrația" interacțiunilor lor cu LLM decât pe cunoștințele și raționamentul de care dădea dovadă entitatea pe care o interogau, factori asociați în mod mai tradițional cu inteligența.

În cele din urmă, această cercetare reprezintă o nouă piatră de hotar pentru LLM în ceea ce privește trecerea testului Turing, deși cu rezerve, în sensul că au fost necesare promptere și personae pentru a ajuta GPT-4.5 să obțină rezultatele sale impresionante. Câștigarea jocului de imitație nu este un indiciu al unei adevărate inteligențe umane, dar arată cum cele mai noi sisteme AI pot imita oamenii cu acuratețe.

Acest lucru ar putea conduce la agenți AI cu o comunicare mai bună în limbaj natural. Mai tulburător este faptul că ar putea genera, de asemenea, sisteme bazate pe inteligență artificială care ar putea fi direcționate pentru a exploata oamenii prin inginerie socială și prin imitarea emoțiilor.

În fața progreselor AI și a LLM-urilor mai puternice, cercetătorii au oferit un avertisment care dă de gândit: „Unele dintre cele mai grave prejudicii cauzate de LLM ar putea apărea atunci când oamenii nu sunt conștienți de faptul că interacționează cu un AI și nu cu un om".