Google spaja Gemini i Veo AI modele

Demis Hasabis govori o planovima za spajanje Gemini i Veo modela

Demis Hasabis, izvršni direktor kompanije Google DeepMind, izjavio je u nedavnom gostovanju na podkastu Possible da Google ima dugoročnu nameru da spoji svoje Gemini modele veštačke inteligencije sa Veo sistemima za generisanje video sadržaja.

Prema njegovim rečima, ova integracija bi trebalo da unapredi sposobnost Gemini modela da razume fizički svet, što je ključno za razvoj univerzalnog digitalnog asistenta koji može da pomaže korisnicima u svakodnevnim realnim situacijama.

„Od početka smo gradili Gemini kao multimodalni sistem, jer imamo viziju univerzalnog asistenta koji stvarno pomaže u stvarnom svetu“, rekao je Hasabis.

Industrija veštačke inteligencije se sve više kreće ka takozvanim „omni“ modelima – sistemima sposobnim da analiziraju i generišu tekst, zvuk, sliku i video. Gemini već sada može da generiše tekst, slike i zvuk, dok OpenAI i Amazon razvijaju slične multimodalne modele. Amazon je najavio lansiranje „any-to-any“ modela do kraja godine.

Za obuku ovakvih modela potrebna je ogromna količina podataka, uključujući i video snimke. Hasabis je otkrio da Veo koristi ogroman broj YouTube videa – u vlasništvu Google-a – kako bi model učio o zakonitostima fizičkog sveta.

„Gledanjem velikog broja YouTube snimaka, Veo 2 model uspeva da razume fizičke principe sveta oko nas“, naveo je Hasabis.

Google je prethodno saopštio da njegovi AI modeli mogu biti trenirani na nekim YouTube sadržajima, u skladu sa sporazumima koje ima sa kreatorima.

Ovakva praksa otvara i etička pitanja o privatnosti i upotrebi sadržaja sa platformi kao što je YouTube, ali istovremeno ukazuje na pravac u kom se razvijaju moćni modeli veštačke inteligencije – prema sve većoj integraciji medijskih formata i razumevanju kompleksnog realnog sveta.