Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem "értik"

2024 / 10 / 18 / Pőcze Balázs
Bebizonyították, hogy a mesterséges intelligenciák még az iskolás matekfeladatokat sem
Az Apple mérnökeinek egy friss tanulmánya világít rá arra, hogy ami gondolkodásnak tűnik, nem feltétlenül az: elég néhány apró, félrevezető információ a matematikai feladványok szövegében, és hatalmasat zuhan az MI-rendszerek hatékonysága.

"59 százalékot ért el a magyarországi matematika érettségin Elon Musk új chatbotja, a Grok", "Kis híján aranyérmes lenne a Matematikai Diákolimpián a DeepMind mesterséges intelligenciája", "A számtan-, geometria- és fizikaleckét is megoldja már a Google" - az elmúlt évben egyre többször utaltak arra a mesterséges intelligenciával (MI) foglalkozó vállalatok, hogy a rendszereik szépen-lassan úgy fognak gondolkodni, különösen a természettudományok terén, mint az emberek. Sőt, az igencsak okos emberek.

Az Ars Technicán most megjelent cikk szerint azonban közel sem ennyire rózsás a helyzet. Az idézett tanulmány szerzői a GSM8K nevű, több mint nyolcezer, általános iskolai szöveges példából álló adatbázist használták, amin gyakran vizsgálják a nagy nyelvi modellek (LLM-ek) logikai képességeit. Mivel egy-egy konkrét feladat szerepelhetett az adott MI tanítására, fejlesztésére használt adatok között, a kutatók első körben néhány lényegtelen apróságot átírtak a feladatokban, hogy kiküszöböljék az esetleges torzítást: például Klári helyett Kati számolgatta az almáit, amikből nem negyvennyolc, hanem nyolcvannégy volt. Egy kissé már ez is megbolygatta a szoftverek teljesítményét: a GPT-4o ugyan csak egyharmad százalékkal teljesített rosszabbul, de olyan program is akadt, ami közel tíz százalékkal tévedett többet. Ami szintén figyelemreméltó, hogy ugyanaz az MI, ugyanazokon a feladatokon volt, hogy tizenöt százalékkal ingadozó teljesítményt mutatott az ötven nekifutása során.

Az igazi problémák azonban csak ezután jöttek, amikor a szövegekbe irreleváns információkat vegyítettek a kutatók.

"Juli csütörtökön tíz, pénteken húsz almát szedett, szombaton pedig kétszer annyit, mint csütörtökön" - ez eddig még ment a programoknak. De amikor a feladványt nagyjából úgy módosították, hogy "szombaton pedig kétszer annyit, mint csütörtökön, igaz, kisebbeket", akkor a szerzők "katasztrofális" teljesítményromlásnak voltak a tanúi. A Meta LLamája közel hatvan százalékkal, a GPT-4o körülbelül harminc százalékkal teljesített rosszabbul, mint korábban - pedig a feladatok nem lettek nehezebbek. A mérnökök ezt arra vezetik vissza, hogy ezek a szoftverek csak imitálják a gondolkodást, imitálják a feladatok megértését, és a "kisebb gyümölcsök" fordulat azokra a példákra emlékeztette őket, amikor ki kellett vonni kisebb elemeket a végösszegekből. Vagyis miközben az iparág egyes képviselői már napokban mérik a mesterséges szuperintelligencia megérkeztét, úgy tűnik, hogy egyelőre a valódi gondolkodással is küzdenek a termékeik.

(Borítókép: Antoine Dautry/Unsplash)

Gombnyomásra rádióműsort csinál egy tankönyvből a Google NotebookLM programja Leesett az állunk, amikor meghallgattuk a cég talán leghasznosabb mesterséges intelligenciáját.


Szó szerint faragni lehet a fényt ezzel a nanoeszközzel!
Szó szerint faragni lehet a fényt ezzel a nanoeszközzel!
„Ha a fényt ilyen hatékonyan és dinamikusan tudjuk irányítani, akkor gyakorlatilag bármit megtehetünk vele.”
Hihetetlen, őrület, de élő madarakra is lehet adatot menteni!
Hihetetlen, őrület, de élő madarakra is lehet adatot menteni!
Furán hangzik, pedig igaz.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.