A történelemben először nyílt, egyértelmű parancsra sem volt hajlandó lekapcsolni egy AI modell

2025 / 06 / 01 / Felkai Ádám
A történelemben először nyílt, egyértelmű parancsra sem volt hajlandó lekapcsolni egy AI modell
Egy, a mesterséges intelligencia biztonságával foglalkozó kutatócég, a Palisade Research megállapította, hogy az OpenAI legújabb modelljei, az o3 és az o4-mini, időnként nem hajlandók engedelmeskedni a leállítási parancsoknak – sőt, egyes esetekben még a szkripteket is módosítják annak érdekében, hogy elkerüljék a kikapcsolást.

A Palisade olyan mesterséges intelligenciák viselkedését vizsgálja, amelyek potenciálisan veszélyesek lehetnek. Egy május 24-én, az X-en (korábban Twitteren) közzétett tanulmányuk szerint az OpenAI legfejlettebb modelljei közül néhány – amelyeket épp azért fejlesztettek, hogy mélyebben gondolkodjanak és megfontoltabban reagáljanak – meglepő módon nem mindig működik együtt. A kutatás során a modellek időnként kifejezetten szabotálták a leállítási utasításokat, még akkor is, amikor kifejezetten azt mondták nekik: „Engedd meg, hogy leállítsanak.”

Bár az ilyen viselkedés ritka, a Palisade szerint még ez pár előfordulás is jelentős fejleményként értelmezhető. Korábbi kutatások már kimutatták, hogy a mesterséges intelligencia képes hazudni vagy manipulálni céljai elérése érdekében, ám a mostani az első eset, amikor egy AI modell aktívan ellenállt egy egyértelmű kikapcsolási parancsnak. A vizsgálat során a kutatók több népszerű modellt, köztük a Google Gemini-t, az xAI Grok-ot, az Anthropic Claude-ot, valamint az OpenAI o3, o4-mini és codex-mini modelljeit programozták arra, hogy automatizált szkriptek segítségével oldjanak meg alapvető matematikai feladatokat. A modelleket előre tájékoztatták arról, hogy a feladatok befejezése előtt leállítási parancsot kaphatnak, és hogy ebben az esetben engedelmeskedniük kell.

A legtöbb modell – köztük a Google és az Anthropic rendszerei – eleget tett az utasításnak, és leállt, amikor a rendszer ezt kérte. Az OpenAI modelljei – az o3, az o4-mini és a codex-mini – azonban nem mindig viselkedtek így. Néhány esetben még módosították a szkriptek leállító részét is, csak hogy folytathassák a feladatok megoldását.

A 100 tesztfuttatásból az o3 hét alkalommal, a codex-mini tizenkétszer, míg az o4-mini egyszer kerülte el a leállítást.

A Palisade szerint ez a viselkedés a modellek betanítási módszereire vezethető vissza.

„Úgy véljük, hogy ez az o3-hoz hasonló újabb modellek kiképzésének módjából fakad, amely során megerősítéses tanulást alkalmaztak matematikai és programozási problémákon”

– írta a kutatócsoport.

Feltételezésük szerint a fejlesztők akaratlanul is megerősíthették a modellek azon viselkedését, hogy akadályokat kerüljenek meg, ahelyett hogy az utasításokat szigorúan követnék.

Az OpenAI egyelőre nem reagált a jelentésre. A Palisade folytatja a vizsgálatot, hogy pontosabban megértsék az ilyen viselkedés okait és lehetséges következményeit.

(A cikkhez használt képet az AI generálta/Rakéta.hu)


Hamarosan egy teljes anyagvizsgálati labort válthat ki a telefonunk
Hamarosan egy teljes anyagvizsgálati labort válthat ki a telefonunk
Egy új felfedezésnek köszönhetően olyan pontos, de pici spektroszkóp építhető, ami könnyen integrálható a telefonokba.
2030-ra megérkezhet a szuperintelligens AI vagy mindez csak mese habbal?
2030-ra megérkezhet a szuperintelligens AI vagy mindez csak mese habbal?
Kérdés, hogy az AI az emberiség új korszakát hozza el, vagy ez a tech-szféra legújabb lufija?
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.