Utrka u razvoju

Sve popularnija tehnika za brže i jeftinije stvaranje novih AI modela: ‘Ovo je izazov za velike igrače‘

Destilacija zapravo znači da veliki AI modeli ‘podučavaju‘ manje. Prijenos znanja tako postaje znatno brži, a stvaranje manjeg modela jednostavnije i jeftinije

Deepseek i OpenAI (ilustracija)

 Lionel Bonaventure/Afp

Predvodnici razvoja umjetne inteligencije - uključujući OpenAI, Microsoft i Metu - okreću se "destilaciji", tehnici stvaranja modela umjetne inteligencije koji je jeftiniji i za tvrtke i za krajnje korisnike. Tehnika je privukla široku pozornost javnosti nakon što ju je kineski DeepSeek iskoristio kako bi izgradio snažne i učinkovite AI modele koji se temelje na sustavima otvorenog koda koje su objavili konkurenti. To je čak narušilo povjerenje u vodstvo Silicijske doline kada je riječ o odlukama u području umjetne inteligencije, piše Financial Times.

Destilacija zapravo znači da veliki AI modeli podučavaju manje. Funkcionira tako da tvrtke uzimaju veliki jezični model (nazvan modelom učitelja) koji generira sljedeću vjerojatnu riječ u rečenici, a tako dobiveni podaci zatim se koriste za "obučavanje" manjeg modela učenika. Prijenos znanja tako postaje znatno brži, a stvaranje manjeg modela jednostavnije i jeftinije.

Iako se destilacija već godinama naširoko koristi, nedavni napredak je potaknuo stručnjake u industriji da otkriju sve prednosti ovog procesa za novoosnovana poduzeća koja traže isplative načine za izgradnju aplikacija koje koriste umjetnu inteligenciju.

Razvoj i održavanje velikih jezičnih modela, poput OpenAI-jevog GPT-4, Googleovog Geminija i Metinog Llame, zahtijeva ogromne količine podataka i računalnih resursa. Iako točni troškovi treniranja nisu javno dostupni, procjenjuje se da je riječ o stotinama milijuna dolara.

Destilacija omogućuje razvojnim programerima i tvrtkama pristup mogućnostima ovih modela po znatno nižoj cijeni, čime se ubrzava implementacija AI modela na uređajima poput prijenosnih računala i pametnih telefona. Microsoft, najveći investitor u OpenAI, iskoristio je GPT-4 za destilaciju svog manjeg modela Phi. Bio je to dio poslovnog partnerstva nakon što su u tvrtku uložili gotovo 14 milijardi dolara. OpenAI vjeruje da je DeepSeek destilirao njihove modele, što bi bilo protiv njihovih uvjeta pružanja usluge. Kineski rival nije komentirao te tvrdnje.

Stručnjaci upozoravaju da modeli koji nastanu destilacijom ipak imaju vrlo ograničene sposobnosti.

- Destilacija predstavlja zanimljiv kompromis; ako smanjite modele, neizbježno smanjujete njihovu sposobnost. Destilirani model se, primjerice, može dizajnirati tako da bude vrlo dobar u sažimanju e-pošte, ali stvarno ne bi bio dobar ni u čemu drugom - objasnio je Ahmed Awadallah iz Microsoft Researcha za Financial Times.

David Cox, potpredsjednik za AI modele u IBM Researchu, ističe da većina tvrtki ne treba masivni model za pokretanje svojih proizvoda pa su i destilirani modeli dovoljno snažni za ono što im treba - najčešće su to chatbotovi za korisničku službu ili rad na manjim uređajima poput telefona.

To predstavlja izazov za poslovne modele vodećih AI tvrtki jer se destilirani modeli nude po nižoj cijeni, no voditelj proizvoda za platformu OpenAI Olivier Godement uvjeren je da će kompanije i dalje biti spremne platiti više za "visoku razinu točnosti i pouzdanosti". Osim toga, jedino veliki modeli mogu otkriti nove mogućnosti koje se kasnije mogu destilirati u manje.

OpenAI ima timove koji prate korištenje modela i mogu ukinuti pristup korisnicima za koje sumnjaju da generiraju velike količine podataka u svrhu izvoza i treniranja konkurentskih modela, što je očito učinjeno s računima za koje vjeruju da su povezani s DeepSeekom. Međutim, većina tih radnji provodi se retroaktivno pa je destilaciju teško u potpunosti izbjeći.

S druge strane, ova je tehnika svojevrsna pobjeda za zagovornike otvorenih modela, gdje je tehnologija besplatno dostupna programerima za nadogradnju. DeepSeek je svoje najnovije modele također otvorio za programere.

Želite li dopuniti temu ili prijaviti pogrešku u tekstu?
02. ožujak 2025 12:07