Amazon je lansirao Nova Sonic, svoj novi generativni AI glasovni model koji obećava konkurenciju najboljima u industriji, uključujući OpenAI i Google. Model je sposoban za prirodnu dvosmernu glasovnu interakciju sa minimalnim kašnjenjem i greškama u prepoznavanju govora.
Nova Sonic je dostupan putem Amazonove platforme Bedrock, a koristi novu bi-direkcionu striming API infrastrukturu. Amazon tvrdi da je ovaj model i do 80% jeftiniji od OpenAI GPT-4o, što ga čini izuzetno privlačnim za poslovne korisnike.
Tehnologija već pokreće funkcije u okviru Alexa+, unapređene verzije Amazonovog glasovnog asistenta. Zahvaljujući naprednim mogućnostima orkestracije API poziva, Nova Sonic zna kada treba da pretraži internet, pristupi eksternim aplikacijama ili koristi interne baze podataka – sve uz prirodan tok razgovora.
Model je posebno efikasan u bučnim okruženjima i kada korisnici ne govore savršeno jasno. Na Multilingual LibriSpeech testu, postigao je WER (word error rate) od samo 4,2% prosečno na pet jezika, uključujući engleski, nemački i španski.
U testovima sa više učesnika u razgovoru, Nova Sonic je bio gotovo 47% precizniji od GPT-4o transkripcionog modela. Brzina odgovora iznosi prosečno 1,09 sekundi, što ga čini jednim od najbržih sistema ovog tipa.
Ovaj model je deo šire strategije Amazona za razvoj AGI sistema – veštačke opšte inteligencije koja može da obavlja bilo koji zadatak kao čovek za računarom. Planovi uključuju podršku za slike, video, zvuk i druge senzorske podatke.
Uticaj na AI tržište i potencijal za primenu
Nova Sonic donosi sveobuhvatnu podršku za programere koji žele da integrišu glasovne funkcije u aplikacije, uključujući real-time asistente, korisničku podršku i automatizovane sisteme. Za kompanije i startape sa Balkana, ovo otvara pristup vrhunskoj tehnologiji po znatno nižoj ceni, bez potrebe za sopstvenim modelima.