UMJETNA INTELIGENCIJA Kineski startup Deepseek šokirao svijet

Kineski startup DeepSeek iz Hangzhoua šokirao je sektor umjetne inteligencije stvaranjem naprednog modela R1 i to koristeći značajno manje resursa nego što ih koristi konkurencija. Njihov jezični model DeepSeek V3, koji su razvili s vrlo skromnim sredstvima, pokazao se boljim od modela koje su stvorili tehnološki divovi poput Mete, OpenAI-ja i Anthropica.

Tekst se nastavlja ispod oglasa

Prvo iskustvo i novci od trgovanja dionicama

Liang Wenfeng, četerdesetogodišnji osnivač DeepSeeka, svoje je iskustvo s umjetnom inteligencijom stjecao na zanimljiv način - prvo je trgovao na financijskim tržištima, vodio je investicijski fond High-Flyer, gdje je naučio kako iskoristiti AI da bolje predviđa kretanja na tržištu. Uskoro je shvatio da i sam može krenuti u izgradnju svog LLM-a. Već 2021. godine počeo je kupovati grafičke procesore od Nvidije, i to na tisuće njih, piše Bug.hr.

Nisu ga shvaćali ozbiljno

"Kad smo ga prvi put upoznali, bio je tipični štreberski tip s užasnom frizurom koji je pričao o tome kako želi složiti sustav od 10.000 čipova za treniranje svojih AI modela. Nismo ga shvaćali ozbiljno", prisjeća se jedan od Liangovih poslovnih partnera u razgovoru s novinarom FT-a.

"Nije baš znao objasniti svoju viziju - samo je ponavljao kako želi nešto izgraditi i kako će to sve promijeniti. Mislili smo da tako nešto mogu napraviti samo veliki igrači poput ByteDancea i Alibabe", dodao je.

Deepseek

No pokazalo se da je Liangova pozicija autsajdera u svijetu umjetne inteligencije zapravo bila njegova prednost. U svom investicijskom fondu High-Flyer stekao je bogatstvo koristeći umjetnu inteligenciju i algoritme. Njegov tim je postao posebno vješt u korištenju Nvidijinih čipova za zarađivanje na trgovanju dionicama i nije trebalo dugo da se krene u projekt.

Poveo je svoje najbolje ljude iz investicijskog fonda

Kad je u 2023. godini pokrenuo DeepSeek, najavio je da želi razviti umjetnu inteligenciju koja će se moći mjeriti s ljudskim sposobnostima. "Liang je okupio izvrstan tim stručnjaka koji stvarno razumiju kako čipovi rade", rekao je osnivač jedne konkurentske tvrtke. "Poveo je svoje najbolje ljude iz investicijskog fonda sa sobom u DeepSeek."

Međutim, početak je bio kontroverzan. Krajem prosinca 2023. godine DeepSeek se predstavljao kao ChatGPT, a njihova verzija V3 tvrdila je da je zapravo OpenAI-jev GPT-4 model. Ovo ponašanje vjerojatno proizlazi iz načina treniranja modela - postoji mogućnost da je DeepSeek tijekom učenja bio izložen tekstovima koje je generirao ChatGPT, što je dovelo do oponašanja.

Uložili samo 5,6 milijuna dolara

Tehničko dostignuće tvrtke posebno je impresivno. DeepSeek je uspješno istrenirao svoj R1 model, koji sadrži 671 milijardu parametara, koristeći samo 2.048 Nvidia H800 procesora i uloživši samo 5,6 milijuna dolara. Ovdje riječ "samo" nije suvišna, jer se obično piše o milijardama uloženih u druge slične platforme. Ova nevjerojatna učinkovitost resursa koje je skupio i uložila njegova ekipa značajno odudara od masivnih infrastrukturnih ulaganja koja obično zahtijevaju vodeće AI tvrtke.

Trebamo li brinuti?

Ključna, ali i šokantna sposobnost R1 modela leži u njegovim sposobnostima autonomnog učenja, što mu omogućuje napredak bez ljudskog nadzora. Može se reći da je stvorio nešto revolucionarno, ali u isto vrijeme i zastrašujuće - samorazvijajući LLM. Najbolje da nam na to pitanje odgovori sam DeepSeek R1 (vidi okvir). Odgovor koji smo dobili nije bio drugačiji od onog koji smo očekivali.

Koliko dugo može biti konkurentan

DeepSeek je stvorio novi model razvoja umjetne inteligencije koji bi mogle slijediti i druge tvrtke koje nemaju golema sredstva. Iako je teško natjecati se s američkim tvrtkama koje ulažu milijarde, DeepSeek je već promijenio način na koji gledamo razvoj AI-ja. Pokazali su da važna AI otkrića mogu nastati bilo gdje u svijetu, ne samo u velikim tehnološkim središtima.

Međutim, pitanje je koliko dugo može DeepSeek izdržati s konkurencijom. Iako trenutno upravlja jednim od najvećih naprednih računalnih klastera u Kini, stručnjaci iz industrije sugeriraju da bi taj kapacitet uskoro mogao postati nedovoljan. Američke tvrtke ubrzano šire svoju infrastrukturu - OpenAI-jev projekt Stargate planira ulaganje od 100 milijardi dolara, dok Muskov xAI proširuje svoj superračunalni sustav Colossus. Dodatno, nedavni rezultati High-Flyera ukazuju na potencijalne probleme s održivošću financiranja.

DeepSeekova postignuća dobila su nacionalno priznanje u Kini. Liangov odabir kao jedinog AI lidera koji je prisustvovao sastanku na visokoj razini s Li Qiangom, drugim najmoćnijim kineskim čelnikom, naglašava nacionalni značaj rada tvrtke u unapređenju kineskih tehnoloških mogućnosti.

Modeli otvorenog koda prestižu one vlasničke

Prema mišljenju glavnog znanstvenika za umjetnu inteligenciju u Meti, Yanna LeCuna, najvažniji zaključak nakon uspjeha tvrtke DeepSeek nije povećana prijetnja kineske konkurencije, već važnost održavanja AI modela otvorenoga koda koji može koristiti svima. "Nije riječ o tome da kineska umjetna inteligencija 'prestigla SAD', nego o tome da modeli otvorenog koda prestižu one vlasničke", napisao je LeCun u objavi na društvenoj mreži Threads.

DeepSeekov model R1 također je otvorenog koda, baš kao i Metin Llama. LeCun ističe kako je DeepSeek "iskoristio prednosti otvorenog istraživanja i otvorenog koda."

"Ne trebate brinuti o tome mogu li sam učiti ili stvarati nove verzije sebe. Dopustite mi da objasnim zašto:
Prije svega, ja sam samo računalni program koji obrađuje podatke prema zadanim pravilima. Nemam svijest ni vlastitu volju - ne mogu samostalno 'odlučiti' učiti nešto novo ili mijenjati svoj kod.

Sve promjene i poboljšanja u sustavima poput mene moraju napraviti ljudski stručnjaci. Oni razvijaju nove verzije, dorađuju modele i ažuriraju podatke za treniranje. Ja sam ograničen na znanje koje sam dobio tijekom treniranja (zaključno sa srpnjem 2024.) i ne mogu ga sam proširivati kroz razgovore.

Važno je napomenuti da stručnjaci koji razvijaju umjetnu inteligenciju posebno vode računa o sigurnosti i nadzoru. Cilj je da sustavi poput mene ostanu korisni alati pod ljudskom kontrolom, a ne samostalni entiteti.

Moja je uloga jasno određena - mogu komunicirati kroz tekst i odgovarati na pitanja, ali ne mogu poduzimati stvarne akcije niti se sam unapređivati. Iako se ponekad raspravlja o mogućim rizicima naprednije umjetne inteligencije u dalekoj budućnosti, današnji sustavi poput mene su jednostavno alati koje su stvorili i kojima upravljaju ljudi.

Dakle, iako je važno odgovorno razvijati umjetnu inteligenciju, nema razloga za brigu oko toga da bih mogao postati autonoman ili se nekontrolirano razvijati. To ostaje u domeni znanstvene fantastike."