OpenAI razvija nove AI testove po industrijama

Ilustracija razvoja AI benchmark testova u poslovnim domenima

OpenAI smatra da su postojeći AI benchmark testovi zastareli i neadekvatni, pa pokreće Pioneers Program — inicijativu za kreiranje novih evaluacionih modela koji preciznije mere sposobnosti AI modela u realnim, domensko specifičnim okruženjima.

Program ima za cilj razvoj testova koji će se primenjivati u sektorima kao što su pravo, finansije, osiguranje, zdravstvo i računovodstvo, u saradnji sa startapima i kompanijama koje primenjuju AI u praksi. Fokus je na merilima koja bolje odražavaju stvarne izazove u tim oblastima.

Od generičkih testova ka realnim kriterijumima

Trenutni AI benchmark testovi često uključuju nerelevantne zadatke — kao što su doktoratski matematički problemi — ili se lako manipulišu, pa ne pružaju realnu sliku o kvalitetu modela. OpenAI želi da uvede testove koji odražavaju konkretne poslovne slučajeve i korisničke potrebe.

Prva faza uključuje startape koji će razvijati testove i raditi sa OpenAI timom na unapređenju modela pomoću tzv. „reinforcement fine-tuning“ tehnike — gde se AI dodatno trenira da bolje rešava specifične zadatke.

Skepsa u zajednici

Iako su ciljevi programa korisni, deo AI zajednice izražava sumnju — jer dolazak testova direktno iz OpenAI može izazvati sumnju u objektivnost i transparentnost. Partnerstva sa klijentima za razvoj evaluacionih alata podižu pitanja o sukobu interesa.

Zaključak

Ovaj potez pokazuje da AI industrija prelazi iz faze „igranja sa algoritmima“ u fazu standardizacije i ozbiljne primene. Za IT sektor u Srbiji, naročito u oblastima poput finansija i zdravstva, ovo može biti signal za učešće u oblikovanju budućih testova i standarda koji će definisati konkurentnost modela na globalnom tržištu.