Hivatalos: egy AI modell teljesítette a Turing tesztet!

2025 / 04 / 05 / Felkai Ádám

#mesterséges intelligencia #ai #OpenAI #Turing-teszt

Hivatalos: egy AI modell teljesítette a Turing tesztet!

Egy közelmúltban közzétett, még szakértői értékelésre váró tanulmány szerint a GPT-4.5-öt egy háromszereplős Turing-teszt során az esetek 73%-ában emberként azonosították, jóval meghaladva tehát az 50%-os véletlenszerű találgatás esélyét.

Legújabb cikkeinkért kövess minket a Rakéta Google News oldalán is!

A tanulmány más modelleket is vizsgált, például a Meta LLama 3.1-405B-t, az OpenAI GPT-4o-t, illetve az ELIZA-t, egy közel 80 éve fejlesztett korai chatbotot is. Cameron Jones, a UC San Diego nyelvi és kognitív laboratóriumának vezető kutatója kiemelte a meglepő eredményeket:

„Az emberek nem teljesítettek jobban a véletlennél, amikor meg kellett különböztetniük a GPT-4.5-öt vagy a LLamát az emberi válaszadóktól, ha a modellek személyiséget kaptak. Sőt, a GPT-4.5-öt még gyakrabban tartották embernek, mint az igazi embereket!”

A Turing-tesztet Alan Turing brit matematikus javasolta 1950-ben, és a lényege, hogy egy emberi vizsgáló szöveges kommunikáció során próbálja eldönteni, hogy a beszélgetőpartnere gép vagy ember. A mostani kutatásban közel 300 résztvevő vett részt, akik nyolc körben véletlenszerűen kerültek a vizsgáló vagyis a „tanú” szerepébe. Az eredményekből kiderült, hogy a modellek teljesítményét jelentősen befolyásolta az, hogy kaptak-e személyiségre vonatkozó utasításokat. Ilyen instrukciók („persona”) nélkül a GPT-4.5 teljesítménye drámaian visszaesett, mindössze 36%-ra, míg a GPT-4o csupán 21%-os sikerességgel szerepelt, kissé lemaradva a jóval régebbi ELIZA chatbot 23%-os eredménye mögött. Tavaly egyébként ezt az eredményt már elérte a ChatGPT egy korábbi modellje, de akkor ennyire nem volt egyértelmű ez a teljesítmény:

Történelmi fejlemény: a GPT-4 teljesítette a Turing-tesztet! Egy új kutatás során az emberi résztvevők többsége nem tudta megkülönböztetni a GPT-4-et a valódi emberektől. Ez egy olyan fejlemény, amire korábban még nem volt példa ember és gép viszonylatában.

François Chollet, a Google szoftvermérnöke azt viszont már 2023-ban elmondta, hogy a Turing-teszt inkább egy gondolatkísérlet, mintsem végső mércéje az MI intelligenciájának. Bár a nagy nyelvi modellek (LLM-ek), mint például a GPT-4.5, kiválóan képesek emberi társalgást imitálni a hatalmas mennyiségű emberi eredetű szöveg alapján történő képzésük miatt, az továbbra sem eldöntött, hogy képesek-e valódi „gondolkodásra”.

Jones szerint ugyanakkor ezek az eredmények jelentős társadalmi következményekkel is járhatnak:

„Ez egy újabb bizonyíték arra, hogy a nagy nyelvi modellek rövid interakciók során helyettesíthetik az embereket anélkül, hogy ezt bárki észrevenné.”

Mindez persze akár aggodalomra is okot adhat a munkahelyek automatizálása, a szociális manipuláció lehetőségei, illetve a szélesebb körű társadalmi változások miatt. Ahogy azonban az emberek egyre gyakrabban kerülnek kapcsolatba mesterséges intelligenciával, valószínűleg javulni fog a képességük is azzal kapcsolatban, hogy felismerjék, hogy ezekben az interakciókban tényleges emberrel vagy AI-jal van-e dolguk.

(A cikkhez használt képet az AI generálta/Rakéta.hu)

Itt állíthatod be, hogy a Rakéta az elsők között legyen a Google keresőben

Sose felejtsd otthon, ha utazol: ez a zsebtolmács lehet a legjobb barátod egy idegen országban

A zsebtolmács, ami tényleg működik: ilyen a Vasco Translator M4.

Ezek is érdekelhetnek