Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja

2024 / 02 / 03 / Bobák Áron
Már képeket is tud generálni és magyarul is jobban működik a Google chatbotja
A Gemini nagy nyelvi modellel felturbózott Bard sokat fejlődött például a hosszabb szövegek összefoglalásában, emellett angol nyelvterületen már arra is képes, hogy a beírt szövegnek megfelelő képeket generáljon.

Utóbbi funkció komoly fegyvertény a Google-nek, hiszen amíg a nagy konkurens ChatGPT esetében hasonló képességekkel egyelőre csak a fizetős verzió rendelkezik, a Bard bárki számára ingyen hozzáférhető, így az MI által készített képekért sem kell külön fizetnünk.

Bár a Google az erről szóló blogbejegyzésében azt írja, hogy a funkció angolul érhető el, tapasztalataink szerint nem elegendő, ha angolra állítjuk át a nyelvet; a képgenerátor nekünk csak akkor működött, ha VPN-nel “átteleportáltuk” magunkat (vagyis az IP címünket) az USA-ba, máskülönben a Bard csak annyit mondott a kérésünkre, hogy a képgenerálás egyelőre még nem elérhető.

Maga a funkció a DeepMind által kifejlesztett Imagen 2 text-to-image (szövegből kép) technológiát használja, amiről a Google a következőket írja a blogbejegyzésben: “Az Imagen 2-t jobb minőségű kép-leírás párosításokon tanítottuk be és aprólékosabb képeket generál, amelyek jobban megfelelnek az emberi utasítások szemantikájának. Az Imagen 2 pontosabban dolgozza fel a részleteket, mint a korábbi rendszerünk és alkalmasabb az apró részletek megjelenítésére - ezáltal fotorealisztikusabb képeket hoz létre számos stílusban”. A Google ehhez azt is hozzáteszi, hogy a modelljük olyan, a mesterséges intelligencia számára sok nehézséget okozó területen is kiemelkedően teljesít, mint példaul a kezek vagy az arcok élethű megjelenítése.”

Rövid tesztünk alapján az Imagen 2 valóban kifejezett jó minőségű képeket készít, amelyeken tényleg a leírásnak megfelelő témák jelennek meg, ugyanakkor nem meglepő, hogy a Google különállóan eddig nem tette elérhetővé a szolgáltatást: az Imagen 2 jelenleg egyértelműen le van maradva a DALLE-3-tól, ami a Microsoft Bingen keresztül már jóideje ingyenesen elérhető a felhasználók számára.

  • "Egy úriember elegáns felöltőben és sétabottal a kezében sétál egy 19. századi városban, klasszicista stílusban épült bérházak között, mellette éppen elhalad egy lovaskocsi, miközben az út szélén gyerekek labdáznak" (balra: DALL-E, jobbra: Bard)

  • "Egy nyuszijelmezt viselő medve megérkezik a halloweeni buliba" (balra: DALL-E, jobbra: Bard)

  • "Egy ködbeburkolózó falu fekszik egy völgyben, magas sziklák övezik, amelyekről vízesések erednek, felettük süt a nap, a háttérben pedig a távolban egy hatalmas, hófödte hegycsúcs magasodik" (balra: DALL-E, jobbra: Bard)

  • "Csendélet egy delfinekből álló virágcsokorról, Salvador Dalí stílusában" (balra: DALL-E, jobbra: Bard)

Miközben az OpenAI mesterséges intelligenciája néhány próbálkozásból rendszerint tökéletesen az utasításoknak megfelelő képet hoz létre, a Bard egyelőre rendszeresen lehagy a képről olyan dolgokat, amik a szövegben szerepelnek, emellett a képek minősége sem éri el azt a szintet, amit a DALL-E-től várhatunk. Az is igaz, hogy a Google képgenerátora valamivel magasabb felbontásra képes, hiszen a Bard 1536x1536 képpontos képeket generál, szemben a DALL-E 1024x1024 pixeles limitjével.

A Google a képgenerálás engedélyezésével együtt arról is igyekezett gondoskodni, hogy a funkciót ne használhassák fel rossz célokra: az Imagen által generált képeket a SynthID segítségével a képpontokba ágyazott vízjellel jelölik meg, így utólag is visszaellenőrizhető, hogy a képet mesterséges intelligencia generálta.

A Bard egy másik fontos újítást is kapott, hiszen a két hónappal ezelőtt bejelentett Gemini Pro nagy nyelvi modell immár a chatbot által támogatott összes nyelven - így többek között magyarul is - elérhető. Ezt egyelőre nem volt túl sok időnk tesztelni, de a tapasztalataink alapján a bemásolt - akár idegen nyelvű - szövegeket valóban egészen jól foglalja össze, ha pedig egy szöveggel kapcsolatban azt kérjük tőle, hogy azt foglalja pontokba, csaknem tökéletes munkát végez. A Luca Parmitano balul elsült űrsétájáról szóló cikkünket például így foglalta össze:

Szintén minden, a Bard által támogatott nyelven elérhető immár az ellenőrzés funkció is, ami annyit tesz, hogy a chatbot által adott válasz alatt a Google jelre (G) kattintva a Bard az interneten fellelhető források alapján ellenőrzi a válaszban szereplő állításokat, majd azokat megjelöli aszerint, hogy egybecsengenek vagy ellentmondanak az eredeti válasznak. Ezeket forrásmegjelöléssel is ellátja, így a felhasználóknak elméletileg nem is kell külön keresgélniük, bár az is igaz, hogy mi találtunk olyan forrást, amit nem feltétlenül neveznénk megbízhatónak.

(A borítókép a Google Barddal készült.)


Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek ki hajót sínágyúval – és nem az amerikaiak voltak
Először lőttek éles célpontra hajóra szerelt sínágyúval, látványos mérföldkőhöz érve az elektromágneses fegyverfejlesztésben.
Hamarosan időkristályokkal fogunk fizetni
Hamarosan időkristályokkal fogunk fizetni
Az első, szabad szemmel is látható időkristályok fényben „pszichedelikus tigriscsíkokként” villannak fel.
Ezek is érdekelhetnek
HELLO, EZ ITT A
RAKÉTA
Kövess minket a Facebookon!
A jövő legizgalmasabb cikkeit találod nálunk!
Hírlevél feliratkozás

Ne maradj le a jövőről! Iratkozz fel a hírlevelünkre, és minden héten elküldjük neked a legfrissebb és legérdekesebb híreket a technológia és a tudomány világából.



This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.