Dok tehnološki giganti ulažu stotine miliona dolara u velike jezičke modele poput ChatGPT-a, nova generacija istraživača sve više pažnje posvećuje – malim modelima. Mali jezički modeli (SLM) sa nekoliko milijardi parametara predstavljaju efikasnu alternativu, posebno za specifične zadatke i uređaje sa ograničenim resursima.
Zašto mali modeli imaju smisla
Treniranje velikih modela zahteva ogromne resurse – Google je potrošio 191 milion dolara za treniranje Gemini Ultra modela. Takođe, velika AI infrastruktura troši znatno više energije – jedno pitanje ChatGPT-u troši deset puta više struje nego Google pretraga.
Mali modeli se, s druge strane, mogu pokretati na običnom laptopu ili čak pametnom telefonu. Iako ne mogu da zamene generalističke AI alate, izuzetni su za konkretne zadatke: medicinski chatbotovi, uređaji za pametni dom, ili sažimanje razgovora.
Učenje od velikih: znanje kroz destilaciju
Jedna od tehnika je knowledge distillation – kada se veliki model koristi za kreiranje visokokvalitetnih podataka koje potom koristi mali model tokom treninga. Takođe, metod pruning omogućava uklanjanje nepotrebnih delova već treniranih mreža, čime se modeli dodatno smanjuju bez gubitka efikasnosti.
Idealni za istraživanje i eksperimentisanje
SLM modeli su jeftiniji, brži za treniranje i lakši za analizu, što ih čini idealnim za istraživače koji žele da eksperimentišu sa arhitekturama i ponašanjem modela. Zahvaljujući svojoj jednostavnosti, mogu ponuditi bolji uvid u to kako AI zaista funkcioniše.
Zaključak: Mali jezički modeli nisu samo „lite“ verzije velikih, već moćni alati za nišne zadatke. U vremenu kada energetska efikasnost i dostupnost postaju sve važniji, SLM bi mogli igrati ključnu ulogu u budućnosti AI razvoja.