A történelemben először nyílt, egyértelmű parancsra sem volt hajlandó lekapcsolni egy AI modell

2025 / 06 / 01 / Felkai Ádám

#MI #mesterséges intelligencia #ai #OpenAI

A történelemben először nyílt, egyértelmű parancsra sem volt hajlandó lekapcsolni egy AI modell

Egy, a mesterséges intelligencia biztonságával foglalkozó kutatócég, a Palisade Research megállapította, hogy az OpenAI legújabb modelljei, az o3 és az o4-mini, időnként nem hajlandók engedelmeskedni a leállítási parancsoknak – sőt, egyes esetekben még a szkripteket is módosítják annak érdekében, hogy elkerüljék a kikapcsolást.

A Palisade olyan mesterséges intelligenciák viselkedését vizsgálja, amelyek potenciálisan veszélyesek lehetnek. Egy május 24-én, az X-en (korábban Twitteren) közzétett tanulmányuk szerint az OpenAI legfejlettebb modelljei közül néhány – amelyeket épp azért fejlesztettek, hogy mélyebben gondolkodjanak és megfontoltabban reagáljanak – meglepő módon nem mindig működik együtt. A kutatás során a modellek időnként kifejezetten szabotálták a leállítási utasításokat, még akkor is, amikor kifejezetten azt mondták nekik: „Engedd meg, hogy leállítsanak.”

Bár az ilyen viselkedés ritka, a Palisade szerint még ez pár előfordulás is jelentős fejleményként értelmezhető. Korábbi kutatások már kimutatták, hogy a mesterséges intelligencia képes hazudni vagy manipulálni céljai elérése érdekében, ám a mostani az első eset, amikor egy AI modell aktívan ellenállt egy egyértelmű kikapcsolási parancsnak. A vizsgálat során a kutatók több népszerű modellt, köztük a Google Gemini-t, az xAI Grok-ot, az Anthropic Claude-ot, valamint az OpenAI o3, o4-mini és codex-mini modelljeit programozták arra, hogy automatizált szkriptek segítségével oldjanak meg alapvető matematikai feladatokat. A modelleket előre tájékoztatták arról, hogy a feladatok befejezése előtt leállítási parancsot kaphatnak, és hogy ebben az esetben engedelmeskedniük kell.

A legtöbb modell – köztük a Google és az Anthropic rendszerei – eleget tett az utasításnak, és leállt, amikor a rendszer ezt kérte. Az OpenAI modelljei – az o3, az o4-mini és a codex-mini – azonban nem mindig viselkedtek így. Néhány esetben még módosították a szkriptek leállító részét is, csak hogy folytathassák a feladatok megoldását.

A 100 tesztfuttatásból az o3 hét alkalommal, a codex-mini tizenkétszer, míg az o4-mini egyszer kerülte el a leállítást.

A Palisade szerint ez a viselkedés a modellek betanítási módszereire vezethető vissza.

„Úgy véljük, hogy ez az o3-hoz hasonló újabb modellek kiképzésének módjából fakad, amely során megerősítéses tanulást alkalmaztak matematikai és programozási problémákon”

– írta a kutatócsoport.

Feltételezésük szerint a fejlesztők akaratlanul is megerősíthették a modellek azon viselkedését, hogy akadályokat kerüljenek meg, ahelyett hogy az utasításokat szigorúan követnék.

Az OpenAI egyelőre nem reagált a jelentésre. A Palisade folytatja a vizsgálatot, hogy pontosabban megértsék az ilyen viselkedés okait és lehetséges következményeit.

(A cikkhez használt képet az AI generálta/Rakéta.hu)