A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott

2024 / 12 / 13 / Bobák Áron
A Google bejelentette az új csodafegyverét, de az OpenAI azonnal rákontrázott
Kétségtelen, hogy 2024 egészen elsöprő iramot diktált a generatív mesterséges intelligencia fejlesztésében, hiszen szinte nem telt el úgy hét, hogy a területen érdekelt cégek ne jelentettek volna be valamilyen forradalminak tekinthető újdonságot. December viszont még az eddigi tempóhoz képest is igazi tűzijátékot hozott, amelynek a főszereplői természetesen az OpenAI és a Google voltak.

Hogy az év vége közeledtével mennyire besűrűsödtek a nagy bejelentések, ahhoz elég megnéznünk az elmúlt hét nap történéseit: először a Meta mutatta be az új Llama 3.3 modelljét, majd az OpenAI tette elérhetővé az o1 modell fejlettebb Pro verzióját, néhány nappal később pedig ezt is megfejelték a Sora nevű videógenerátor nyilvánosan elérhető verziójával. Ekkor talán kevesen gondolták volna, de a java még hátra volt.

Gemini 2.0

A két nagy cég közül először a Google lépett, akik szerdán bejelentették a Gemini nevű nagy nyelvi modelljük (LLM) következő generációját, a Gemini 2-t. Ezt egyelőre a fejlesztők számára tették elerhetővé, ugyanakkor a Gemini 2.0 Flasht már beépítették a chatbot webes verziójába is, így a Gemini oldalán már mindenki kipróbálhatja, mennyit fejlődött a Google mesterséges intelligenciája. Ehhez nincs más dolgunk, mint a bal felső sarokban található legördülő menüből kiválasztani a 2.0 Flash Experimentalt.

A cég blogbejegyzése szerint a 2.0 Flash majdnem mindenben előrelép a jelenleg alapméretezett 1.5 Pro modellhez képest, többek között matematikai feladatok megoldásában, kódolásban, tényszerűségben és érvelésben valamint a képek és videók értelmezésében is jobb, mint az elődje, ráadásul a multimodalitás területén is sokat fejlődött. Ez azt jelenti, hogy a Gemini immár nem csak értelmezni tudja a képeket, hangokat és videókat, de a válaszaiban is képes kombinálni a különböző formátumokat.

Hogy az új mesterséges intelligencia mi mindenre lesz képes, abból elég jó ízelítőt ad a Yaron Been által készített videó, akinek a Gemini először ahhoz adott tippeket a kamera képét valós időben értelmezve, hogy hogyan lenne érdemes beállítani a fényeket a videóhoz, majd a képernyőmegosztás funkciót használva segített a videó készítőjének különböző feladatok megoldásában és a képernyőn megjelenő szövegek felolvasásában és összefoglalásában.

A Google a blogbejegyzésben nagy hangsúlyt fektetett az ágensekre, vagyis az olyan alkalmazásokra, amelyek segítségével a Gemini a jövőben valódi asszisztensként funkcionálva különböző feladatokat végezhet el helyettünk. A cég jelentősen továbbfejlesztette a májusban bemutatott - egyelőre csak egy szűk kör számára elérhető - Project Astrát, ami immár több nyelven is képes kommunikálni, tudja használni a Google keresőt, a Google Lens-t és a Google Mapset is, emellett sokkal gyorsabban reagál az elhangzottakra és a memóriája is 10 percre növekedett. A Google szerint az ágenst hamarosan kísérleti okosszemüvegeken is elkezdik tesztelni, de ezekről ennél több információt egyelőre nem osztottak meg.

Legalább ilyen érdekes a most bejelentett Project Mariner is, ami - ahogy azt a neve is jelzi - egyelőre szintén fejlesztési fázisban van, és a számítógépet fogja tudni kezelni helyettünk. Ahogy a Been videójában is látható, a Gemini igencsak jó abban, hogy értelmezze a számítógép képernyőjén megjelenő szövegeket, programkódokat, képeket és egyéb alakzatokat, a Project Mariner pedig ezt azzal egészíti ki, hogy a generatív AI egy Chrome-bővítmény segítségével képes lesz gépelni, scrollozni és a kurzort irányítani is, így passzív szemlélőből egy valódi asszisztenssé válik, aki az utasításunkra bármilyen feladatot elvégez majd.

A Google emellett bejelentett egy Jules névre keresztelt ágenst, ami a fejlesztőknek segít a programozási feladatokban, valamint egy olyan asszisztenst is, ami videójátékokban tud segíteni a felhasználóknak. Utóbbiról egy demóvideót is kiadtak, ahol a Clash of Clans és a Hay Day nevű játékokon mutatták be, hogyan segítheti a játékost a Gemini.

Szemeket kapott a ChatGPT

Az OpenAI idei egyik legizgalmasabb újdonsága a ChatGPT-hez bejelentett Advanced Voice Mode (magyarul Speciális Hang mód) volt, amelyet májusban többek között azzal demóztak, hogy a szinte emberien kommunikáló hangasszisztens a kamera segítségével immár az őt körülvevő világot is képes érzékelni, így akár arra is képes, hogy kő-papír-ollóban bíráskodjon. A korábbinál jóval fejlettebb hangos mód végül szeptemberben (az EU-ban pedig októberben) vált elérhetővé a felhasználók számára, sokak csalódására viszont a "látás" funkció ekkor még nem volt hozzáférhető.

Ezt az adósságát pótolta most az OpenAI, akik csütörtökön bejelentették, hogy a héten valamint a jövő hét folyamán a ChatGPT Plus valamint Pro előfizetők rendelkezésére bocsátják az Advanced Voice Mode with vision funkciót. Az új szolgáltatás szinte kimeríthetetlen lehetőségeket tartogat: a chatbotot használhatjuk idegenvezetőként, egy magántanárhoz hasonlóan segíthet a matematikai feladványok megoldásában, de akár az öltözködésünkkel kapcsolatban is kérhetünk tőle tanácsot, vagy egyszerűen megkérhetjük, hogy mondja el, hogy mit lát - utóbbi funkció többek között a látássérülteknek is hasznos segítség lehet. A Speciális Hang mód ráadásul nem csak a kamera képét tudja értelmezni, de képernyőtükrözéssel a telefonunk vagy számítógépünk képét is megoszthatjuk vele, így hasznos tanácsokat tud adni például a programok kezelésével, dokumentumok kitöltésével és egyebekkel kapcsolatban is.

Ahogy arról a TechCrunch beszámolt, a funkció az EU-ban egyelőre nem lesz elérhető, de a Speciális Hang mód példájából kiindulva joggal reménykedhetünk benne, hogy nem kell rá hónapokat várni, mire hozzánk is eljut.

Öt fantasztikus funkció, amire használhatjuk a ChatGPT új hangos módját Ahogy korábban írtunk róla, a ChatGPT Speciális Hang módja immár Magyarországon is elérhető, így rá is vetettük magunkat a chatbotra, hogy megnézzük, hol vannak a mesterséges intelligencia határai. Nem nagyon találtuk meg őket.


Fedezze fel a teljesen elektromos Porsche Macant! Tegye egyedivé, konfiguráljon most!
Legyen szó városi használatról vagy ingázásról, a teljesen elektromos Macan elemében van mindenhol, különösen, ha az egyéniség is számít. Az új modell mindenhol hirdeti a megújulás diadalát.
Továbbra is hódít a párját ritkító hungarikum, ami a jövő tudósait és művészeit adja a világnak
Továbbra is hódít a párját ritkító hungarikum, ami a jövő tudósait és művészeit adja a világnak
Az Országos Tudományos Diákköri Tanács (OTDT) által szervezett Országos Tudományos Diákköri Konferencia (OTDK) sok évtizedes hagyománya mára széles körű népszerűséget ért el, és fontos kiindulási pont lehet a hazai és határon túli tehetségek számára a jövőbeli karrierjük felé vezető úton. A 2025-ös, 37. konferencia előtt az OTDK céljáról és működéséről Prof. Dr. Szendrő Péter örökös elnök úrral és dr. Cziráki Szabinával, az OTDT titkárával beszélgettünk.
Kínában elkészítették az elpusztíthatatlan okostelefont, ami már itthon is kapható
Kínában elkészítették az elpusztíthatatlan okostelefont, ami már itthon is kapható
Túrázóknak és a világvégére készülőknek is érdekes lehet a kínai Unihertz beszédes nevű mobilja, a Tank 3 Pro, amibe az óriási akkumulátor mellé még egy beépített projektor is belefért.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.