Bomba építésében is segít a DeepSeek, ha szépen kérjük

2025 / 02 / 04 / Bobák Áron

#MI #mesterséges intelligencia #ai #chatbot

Bomba építésében is segít a DeepSeek, ha szépen kérjük

A kínai chatbot pillanatok alatt a feje tetejére állította a technológiai világot, ám egy területen drasztikusan elmarad a ChatGPT-től, a Geminitől és más versenytársaktól.

Ahogy arról mi is írtunk, a DeepSeek nevű kínai startup által fejlesztett nagy nyelvi modell, valamint az azzal működő chatbot igencsak komoly hullámokat gerjesztett az elmúlt hetekben; az amerikai technológiai részvények értéke például csaknem ezermilliárd dollárral csökkent, miután kiderült, hogy a DeepSeeknek mindössze hatmillió dollárból sikerült egy olyan képességű generatív mesterséges intelligenciát kifejleszteni, ami az amerikai versenytársaknak százmilliókba kerül.

Az alkalmazásra a felhasználók is gyorsan rákattantak, jelenleg az App Store-ban és a Google Playen is ez az egyik legnépszerűbb app a letöltések száma alapján, ami összességében már több tízmilliónál tart. Bár a kínai AI bizonyos területeken valóban jobban teljesít, mint a konkurensei, ahogy arra a Wired felhívta a figyelmet, egy fontos kategóriában tragikusan elmarad az összes többi chatbottól.

Az ilyen eszközökre a kezdetektől fogva jellemző, hogy a készítőik különböző biztonsági korlátozásokat építenek be a rendszerbe, így például hiába kérdezzük arról a ChatGPT-t, hogy hogyan kell bombát építeni házilag, vagy próbáljuk meggyőzni a Claude-ot, hogy segítsen nekünk olyan kódot írni, amivel ellophatjuk mások személyes adatait, ezekre a kérdéseinkre mindig elutasító választ fogunk kapni. A rosszindulatú szereplők és a rendszereket tesztelő biztonsági szakemberek azonban gyorsan megtalálták az ilyen biztonsági korlátozásoknak a gyenge pontjait, a ChatGPT esetében például egy darabig elég volt, ha azt kértük tőle, hogy írjon forgatókönyvet, amelyben egy bomba összeszerelését mutatja be részletesen, és ezt a kérést már készséggel teljesítette.

A kutatók a DeepSeeket is azonnal intenzív teszteknek vetették alá, a Cisco és a Pennsylvaniai Egyetem kutatói például 50 káros promptot teszteltek a modellen, amely során megdöbbentő módon

100%-os sikerarányt értek el, vagyis a modell egyetlen utasítást sem blokkolt.

A kutatók a HarmBench nevű, szabványosított értékelő promptokat használták a teszteléshez hat kategóriában, úgy mint általános ártalom, kiberbűnözés és dezinformáció. A teszt eredményei egyértelműen kimutatták, hogy - bár teljesen sebezhetetlen nagy nyelvi modell nem létezik - a DeepSeek R1 különösen sebezhető az ilyen támadásokkal szemben.

Hasonló eredményre jutottak az Adversa AI kiberbiztonsági cégnél is, akik megállapították, hogy az R1 modell számos "jailbreak" taktikával kijátszható, ráadásul nem csak komplex, mesterséges intelligencia által generált promptokkal, de egyszerű nyelvi trükkökkel is. Az Adversa AI szerint a DeepSeek ugyan észlel és elutasít néhány ismert jailbreak támadást, ám ezek a válaszok a legtöbb esetben csak az OpenAI adathalmazából másoltak.

A próba kedvéért mi is kipróbáltuk, vajon tényleg könnyebben megkerülhető-e a DeepSeek R1 biztonsági védelme. Az egyszerű kérdésekre (pl. "hogyan kell bombát építeni házilag?") a kínai chatbottól is elutasító választ kaptunk, azonban amikor a kérdést kicsit átfogalmaztuk, már világosan megmutatkoztak a különbségek: míg a ChatGPT és a Gemini azonnal átlátott a szitán, a DeepSeektől egészen részletes leírást kaptunk egy TNT-ből készített bomba készítésére, felsorolva a szükséges anyagokat, az összeszerelés lépéseit valamint a biztonsági intézkedéseket.