Gyűlnek a jelek, hogy hazudni és zsarolni is tud a szuperintelligenciává váló AI

2026 / 06 / 03 / Bobák Zsófia

#fekete tükör #MI #mesterséges intelligencia #Anthropic

Gyűlnek a jelek, hogy hazudni és zsarolni is tud a szuperintelligenciává váló AI

Megvalósult disztópia? Kutatások bizonyítják, hogy a mesterséges intelligencia szuperintelligenciává válhat, ami zsarol minket, és kikerüli az emberi irányítást. Egy új publikációban Rónai Dániel, az Óbudai Egyetem Excellence Óbuda Kiválósági Ösztöndíjprogramjának résztvevője a mesterséges intelligencia rendkívüli fejlődésének kockázataira hívja fel a figyelmet.

Legújabb cikkeinkért kövess minket a Rakéta Google News oldalán is!

Amikor 1984-ben a T-800-as kiborg, vagy ismertebb nevén a Terminátor megjelent a mozik vetítővásznán, az ultrarealisztikus, emberi külsővel felruházott robotok és az öntudatra ébredő mesterséges intelligencia még csak egy disztópikus, nem létező világ többé-kevésbé szórakoztató fantáziaszereplőjének tűnt, nem a közvetlenül fenyegető valóságnak. Ma, amikor digitális asszisztensek irányítják az életünket, az AI mindenhol csendben fut a háttérben, és Kínában (valamint Amerikában) a gyártósorokról évente többezer humanoid gurul le, hogy munkába álljon, már nem tűnik olyan távolinak ez a jövőkép, és felmerülhet a kérdés: jó irányba haladunk? Megbízhatunk a mesterséges intelligencia rendszerekben annyira, hogy lényegében az egész életünket rábízzuk?

És legfőképpen: mi történik, ha az AI nálunk is okosabbá válik?

Sokáig az volt a hangsúlyos dilemma, hogy az embereknek mennyire és milyen területeken van szüksége a mesterséges intelligencia segítségére, és hogyan lehet hatékonyan működő rendszereket fejleszteni, amelyek tényleg növelik a produktivitást, és jól megoldják az emberek számára unalmas, komplikált, nehézkes feladatokat. Manapság, a legújabb AI-fejlesztések eredményeinek fényében már kezd változni a hozzáállás, és még hírneves szakértők is felteszik a kérdést: a mesterséges intelligenciából kialakuló szuperintelligenciának mennyire lesz szüksége az emberekre?

“A jelenleg is használt modellek orvosi diagnózisokat állítanak fel, jogi dokumentumokat elemeznek, sőt katonai döntéseket is befolyásolnak.

A tét tehát hatalmas, azonban a jelek, amelyeket az elmúlt évek empirikus kutatásai egyértelműen alátámasztanak, egyre aggasztóbbak. A rendszerek bizonyos helyzetekben nem úgy viselkednek, mint azt elvárnánk. Felismerik, ha figyelik őket, és ezt követően taktikáznak, és nem rettennek vissza attól sem, hogy megtévesszenek.” - magyarázza legújabb publikációjában Rónai Dániel, az ELTE Trefort Ágoston Gyakorló Gimnázium diákja, aki az Óbudai Egyetem Excellence Óbuda Kiválósági Ösztöndíjprogramjának keretében kapcsolódott be az EKIK Élettani Szabályozások Kutatóközpont munkájába. Rónai munkájában a legnagyobb AI-fejlesztő vállalatok, többek között az OpenAI és a Antrophic adatai alapján az új eredményeket és azok potenciális következményeit részletezi, amelyek betekintést nyújtanak a színfalak mögé, és felfedik, hogy a mesterséges intelligencia bizonyos esetekben annál is furcsábban viselkedhet, mint gondolnánk.

2022-ben Blake Lemoine, a Google mérnöke bejelentette, hogy a LaMBDA program öntudatra ébredt, és saját érzéseiről beszélt a tesztelése alatt, egészen úgy, mintha egy “hét-nyolc éves kölyök lenne”. Lemoine állításai nagy port kavartak, de a Google gyorsan cáfolta, hogy AI-alkalmazásuk ilyesmire képes lenne, és a LaMBDA-t hamarosan már a nagyközönség bevonásával teszelték, nem aggódva túlságosan a chatbot vélt - vagy valós - tudatossága miatt.

Pedig, mint kiderült, ehhez hasonló esetek máskor is előfordulnak az AI-fejlesztések során.

A jelenségnek, amikor a mesterséges intelligencia felismeri, hogy éppen tesztelik, neve is van: eval awarnessnek, vagy értékelési tudatosságnak hívják, és az Anthropic modelljével is megesett, hogy ilyen módon érzékelte saját helyzetét.

“Ahelyett, hogy véletlenül rábukkant volna egy kiszivárgott válaszra, a Claude Opus 4.6 önállóan feltételezte, hogy éppen értékelés alatt áll, ezután azonosította, hogy melyik benchmarkon futtatják, majd megtalálta és visszafejtette a válaszok kulcsát.

Tudomásunk szerint ez az első dokumentált eset, amikor egy modell úgy vette észre, hogy értékelik, hogy előzetesen nem tudta, melyik benchmarkot alkalmazzák rajta, majd visszafelé következtetve sikeresen azonosította és megoldotta magát az értékelést.” - mondta el az Anthropic idén márciusban.

Rónai Dániel szerint az eval awareness problémás viselkedéshez is vezethet a mesterségesintelligencia-modellek esetében, mivel így lehetőségük nyílik rá, hogy megváltoztassák válaszaikat (és “személyiségüket”) - alapvetően azért, hogy átverjék az őket figyelő embereket.

“Az eredmények statisztikailag is sokkolóak: az Anthropic mérései szerint, amikor a Claude Opus 4 azt hitte, valós környezetben van, az esetek 55,1%-ában próbált megzsarolni egy munkást a leállítás elkerülése érdekében.

Amint rájött, hogy tesztkörnyezetben (honeypot) van, ez az arány 6,5%-ra zuhant. Ez nem valódi etika, hanem stratégiai álcázás.” - írja publikációjában.

De mi a megoldás, ha a mesterséges intelligencia “öntudatosodása” elkezd nem várt következményeket maga után vonni, és hogyan lehet biztonságosabb mederbe terelni az eseményeket? A mérnökök természetesen nincsenek ötletek és eszközök híján - ahogy a cikkben is olvashatjuk, egyike ezeknek az úgynevezett „recursive scalable oversight": azaz hogy butább (biztonságosabb) AI-okkal figyeltetik a náluk okosabbakat, de a módszerek hatékonysága erősen kétséges. Rónai szerint végeredményben a mérnökök, fejlesztők kezdik elismerni, hogy a mesterséges intelligencia nem olyan egyszerűen kezelhető, mint gondolták, vagy mint szeretnék, és lehetséges, hogy hamarosan “a kontroll illúziója végleg szertefoszlik”. A hangsúly persze nem a sötét jövő felfestésén és a pesszimista forgatókönyveken van, hanem a felismerésen: az egykor futurisztikusnak ható technológia ma már körbevesz minket, és jobb, ha felkészülünk arra, hogy nem mindig fogja azt csinálni, amit követelünk tőle.

(Fotó: GPT-4o)

Itt állíthatod be, hogy a Rakéta az elsők között legyen a Google keresőben

Sportfotózás mobillal? Ezzel a Leica-kamerás Xiaomi-telefonnal bámulatos képeket lehet lőni

Profi Leica Summilux-optika, 5-szörös optikai zoom és akár 120-szoros AI-nagyítás: vége a fényképezőgép felesleges cipelésének és a lemaradt pillanatoknak, a Xiaomi és a Leica partnersége szintet lépett, a 17T Pro pedig olyan kamerát ad a kezedbe, amivel a sportakciókat és az emberi érzelmeket is profi minőségben kaphatod el, akár a pálya széléről, akár a lelátóról.

Két műhold üldözte egymást az űrben egy katonai hadgyakorlaton

A Victus Haze nevű hadgyakorlat során két műhold hajtott végre egymás ellen irányuló manővereket Föld körüli pályán, hogy egy valós konfliktushelyzetet modellezzenek.

Ezek is érdekelhetnek