A ChatGPT megtanult beszélni és látni

2023 / 09 / 26 / Pőcze Balázs
A ChatGPT megtanult beszélni és látni
Új képességekkel ruházták fel a világ legismertebb generatív mesterséges intelligenciáját, a ChatGPT-t. A szoftvert mostantól képek és élőbeszéd segítségével is vezérelhetjük.

Az Ars Technicán olvasható hír szerint az ingyenesen elérhető GPT-3.5-öt és a fizetős GPT-4-et is érinti a fejlesztés, ám azzal egyelőre csak a Plus és az Enterprise, azaz a fizetős és a vállalati felhasználók találkozhatnak majd.

A két újdonság közül egyértelműen a képalapú interakció az érdekesebb, és talán a hasznosabb is. A vállalat által közölt példában valaki egy hétköznapi kérdéssel fordul a chatbothoz: nem tudja, hogy hogyan emelje meg a biciklije ülését. Ezt két ember pillanatok alatt megbeszélné, ám egy számítógép milliónyi módon tudna lyukra futni a tanácsaival. A videóban azt látjuk, ahogy a felhasználó azzal kezdi a beszélgetést, hogy megoszt egy fényképet a biciklijéről, majd leírja a problémáját. A rendszer először elmondja az általános megoldást gyorszáras és anélküli nyergeknél. Innen lesz igazán érdekes a történet: a chatelő bizonytalan, hogy az övén melyik fajta zár van, ezért egy újabb, közeli fotót posztol arról. Amikor kiderül, hogy a feladathoz szerszám fog kelleni, a használati utasítást és a szerszámosládája fényképét is megosztja a chatbottal, ami alapján a ChatGPT pontosan megmondja, hogy melyik kulcsra lesz szüksége. Ez egy képernyővideó, aminek a felvételekor a cég számtalanszor végigpróbálhatta a konkrét folyamatot, így nem biztos, hogy a valóságban is minden ilyen simán fog menni, de az egyértelműen látszik, hogy

a multimodális, azaz például képet és szöveget is használó interakciók új fejezetet nyithatnak a ChatGPT-nél.

A háttérben a rendszer valószínűleg közös nyelvre fordítja a kapott információkat, majd az eddig ismert módon dolgozik azokkal - hasonlóan a Google multisearch-höz, amiről tavaly írtunk a Rakétán. A ChatGPT másik új képessége ennél kevésbé forradalmi, de lehet, hogy többeknek jelent majd praktikus segítséget: a mobilalkalmazást mostantól hanggal is irányíthatjuk, illetve az képes nekünk öt szintetikus hang egyikén válaszolni.

Mindezt érthető, hogy az OpenAI úgy állítja be, mintha a szoftverük "látni", "hallani" vagy "beszélni" tanulna, de az Ars Technica aláhúzza: akad szakértő, aki szerint veszélyes így beszélni egy számítógépes programról. "Az örökké hangoztatott szolgálati közlemény: ne kezeld az MI-modelleket emberekként. Nem, a ChatGPT nem "lát, hall és beszél". Integrálható olyan szenzorokkal, amelyek különböző módokon juttatják adatokhoz" - fogalmazott a Hugging Face nevű MI-cég kutatója, Dr. Sasha Luccioni.

(Fotó: Growtika/Unsplash)


Szó szerint faragni lehet a fényt ezzel a nanoeszközzel!
Szó szerint faragni lehet a fényt ezzel a nanoeszközzel!
„Ha a fényt ilyen hatékonyan és dinamikusan tudjuk irányítani, akkor gyakorlatilag bármit megtehetünk vele.”
Hihetetlen, őrület, de élő madarakra is lehet adatot menteni!
Hihetetlen, őrület, de élő madarakra is lehet adatot menteni!
Furán hangzik, pedig igaz.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.