Bár valószínűleg pár hónappal ezelőtt még szinte alig hallott róluk valaki, az elmúlt egy hetet pénzügyi körökben a kínai AI-fejlesztés bajnoka, a DeepSeek nevű vállalat határozta meg. A cég “DeepSeek R” nevű applikációja ugyanis időközben Amerikában a leggyakrabban letöltött telefonos programmá vált. A hivatalos vélemény szerint ráadásul a modell az OpenAI által fejlesztett ChatGPT o1-es verziójával lényegében egy szinten áll, mindezt úgy, hogy annak fejlesztési költsége elvileg utóbbinak csak a töredéke volt.
A fentiek alapján nem meglepő módon sokan a DeepSeek színrelépését a szovjetek Szputnyik-1 nevű műholdjának az 1957-es fellövéséhez hasonlították, mely hasonlóan hidegzuhanyként érte az amerikaikat, akik addig meg voltak győződve az űrtechnológia terén a vezető szerepükről.
Ezzel együtt fontos aláhúzni, hogy a DeepSeek szakmai körökben már korábban is ismert volt, és a modelljeik kínai viszonylatban eddig is a legjobbak közé tartoztak. A DeepSeeket fejlesztő csapat ráadásul ugyanabból a - kínai viszonylatban - szűk, műszaki elitegyetemi közegből (Tsinghua és Zhejiang Egyetemek) került aki, ahonnan például a Tiktokot jegyző ByteDance vagy éppen a Baidu alapítói, és részben személyi átfedések is vannak.
Félbillió dollárnyi sokk
A DeepSeeket övező nagyobb publicitás január 24-én kezdődött, amikor a cég bemutatta legújabb modelljét. A tőzsde válasza a rákövetkező kereskedési napon, azaz hétfőn (január 27) az amerikai, AI-al kapcsolatos részvények masszív eladása lett. A legnagyobb veszteséget az NVIDIA szenvedte el, itt egy nap alatt több mint félbillió dollárnyi (500 milliárd dollár) értékcsökkenés történt.

A fősodratú értelmezés szerint ugyanis a DeepSeek sikere nem mást jelent, mint hogy az NVIDIA által fejlesztett legfejlettebb chipekre (GPU-kra) - melyekhez hivatalosan kínai cégek már nem is juthatnak hozzá (erről lásd részletesebben alább) - sokkal kisebb szükség lesz.
Kikerülve azt, hogy nagyon belemenjünk a technikai részletekbe (erről itt van egy alapos összefoglaló), röviden a DeepSeek szakított az AI modellek korábbi paradigmáival, és jelentősen optimalizálta a működést. Csak egy példa: míg az OPEN AI modellje több billió paraméterrel rendelkezett, és ezeket mindig használta is, addig a DeepSeek esetében már csak milliárdos nagyságrendről beszélhetünk, és a használatban lévő paraméterek száma tovább csökken az adott feladattól függően. Ez pedig értelemszerűen a szükséges számítási kapacitást is lecsökkenti. Ennek a következménye, hogy a DeepSeek saját bevallása szerint képes volt a modell fejlesztését mindössze 6 millió dolláros infrastruktúrával - alig több mint 2000 db NVIDIA H800-as chip - elvégezni. A szenzációt az adta, hogy ezzel szemben például a Chat GPT-t fejlesztő OPEN AI egy-egy modelljének az infrastuktúra-büdzséje a százmillió dolláros tartományban van, miközben a két modell teljesítménye közel azonos.
A DeepSeeknek viszont van egy talán ennél is fontosabb újítása, nevezetesen, hogy az OPEN AI-al ellentétben az alapmodellje nyílt forráskódú, mely az alacsony rendszerkövetelmények miatt akár egy asztali gépen is elfuthat. Éppen ezért a fentieknek létezik egy közgazdaságilag “kontrariánus” értelmezése is, ami alapján a DeepSeek új modellje hosszútávon mégiscsak kedvező lehet az NVIDIA számára, hiszen az sokkal szélesebb körben teszi elérhetővé az AI alkalmazását.

Applikáció-infláció
Ezzel együtt a DeepSeek az OPEN AI-hoz hasonlóan szintén elérhetővé tett egy applikációt, ami az “R1” nevet kapta, és amit sokan a Chat GPT riválisának látnak. Hasonlóan a Chat GPT-hez maga az applikáció már nem nyílt forráskódú és szintén fizetős, a válaszadáshoz szükséges számításokat ugyanis távoli data centerek végzik el. Persze a felhasználók száma (még) nagyon alacsony, mindössze töredéke a Chat GPT-t használók 300 milliós táborához.
Itt viszont elméleti szinte már felmerülhet, hogy a kínai vezetés befolyásszerzésre próbálja meg felhasználni az applikáció sikerét. Ennek az elhanyagolhatóbb vetülete, hogy a DeepSeek kerülni fog bizonyos kényesebb témákat, például már most sem válaszol a Tiananmen téri vérengzéssel kapcsolatos kérdésekre. A fontosabb dimenzió, hogy a felhasználói információk vajon kínai vagy amerikai szervereken lesznek tárolva-e. Ne feledjük, hogy a Tiktokkal szembeni fő kritika is az, hogy az adatokat ott szingapúri data centerekben tárolják.
Ezzel együtt mégsem valószínű, hogy Kínának a DeepSeekkel egy “második Tiktok” felépítése lenne a szándéka, mely szintén amerikaiak tízmillióinak az adatait kezeli. Ahogy ugyanis a Tiktoknál is láttuk, a cég működésének egy adott országban való korlátozása viszonylag egyszerűen kivitelezhető. Éppen ezért ha a DeepSeek applikációja nagyobb népszerűségre is tesz szert, az feltehetően nyugati data centereket fog majd használni, ami egyébként szintén az NVIDIA-t és hasonló félvezetőipari vállalatokat támogat hosszútávon.
Szankciók és kérdőjelek
A kínai “AI áttörés” járadékos hatása viszont a félvezetőexportot érintő amerikai szankciók újabb felülvizsgálata lehet. Persze maga a felülvizsgálat, azaz a szankciók folyamatosa szigorítása már több mint két éve zajlik, hiszen a szankciók első generációját még 2022 őszén vezették be. Ezekről összességében kijelenthető, hogy viszonylag alacsony hatásfokkal működtek, és folyamatosan maradtak jogi kiskapuk (erről részletesebben itt írtunk).
Jelenleg az elsődleges kérdés, hogy maga a DeepSeek igazat mond-e a felhasznált chipek számáról. Elon Musk szerint például legalább 50.000 chipre lehetett szükség egy ilyen modell tréningezéséhez, viszont ha a kínai cég ezt bevallja, akkor szinte borítékolhatóan vizsgálat indul ellene. Ebből következően pedig egy harmadik lehetőség, hogy a DeepSeek valóban több chippel rendelkezik a bevallott 2.000 ezernél, viszont azokra tényleg nem volt szükség a modell tréningezéséhez.
A kontextushoz hozzátartozik, hogy a már említett H800-as chipeket az NVIDIA úgy tervezte meg, hogy azok megfeleljenek a 2022-es őszi, félvezetőipart érintő amerikai szankciós csomagnak. Ez ugyanis az akkor legfejlettebbnek számító H100-as chipek kínai exportját már nem engedélyezte, a 2023-ban kiadott H800-as így ennek lett lényegében a kínai piacra “lebutított” verziója.
A tisztánlátást tovább nehezíti, hogy az 2023 őszén elfogadott, újabb szankciók viszont már a H800-as exportját is korlátozták, magyarán legálisan H800-asokat alig több mint fél évig lehetett Kínába eladni. Elvi alapon persze nem zárható ki hogy a DeepSeek (akárcsak a nagyobb kínai cégek, mint például a Huawei), gyorsan betárazott előre. Viszont az is egy lehetőség, hogy a DeepSeek (sok más kínai céghez hasonlóan) szatelittvállalatokon keresztül jut hozzá továbbra is az NVIDIA-s chipekhez.
A hivatalos adatok szerint például a mindössze 5 millió fős - viszont Kínával gazdaságilag erősen összefonódott - Szingapúr az NVIDIA teljes árbevételének az ötödéért felelős, és jelenleg amerikai vizsgálat folyik arról, hogy vajon Szingapúron keresztül kaphatott-e chipeket a DeepSeek. De további aggályokra ad az is okot, hogy az OPEN AI-hoz köthető források szerint a DeepSeek mérnökei miközben a Chat GPT aktuális verzióját használták, többször megsértették a szerződési feltételeket, és részben annak segítségével fejlesztették a saját modelljüket. Bár mindkét esetben egyelőre gyanúról van csak szó, ezek tisztázása előtt mindenképpen óvatosan kell bánni a valós kínai képességek megítélésével.
Sprint vagy maraton?
A kérdőjelek ellenére a hivatalos narratíva mégis egyre inkább az, hogy az amerikai és kínai AI képességek közt a különbség minimálissá vált. Ezzel együtt viszont talán érdemes egy újabb dimenziót is behozni, ami nem más, mint az AI alkalmazásának az elterjedtsége. Fontos aláhúzni, hogy az AI mai alkalmazási területei elsősorban civil jellegűek, így elsődlegesen gazdasági előnyökről beszélhetünk. Nem lehet kizárni persze, hogy az AI idővel a hadászat terén is döntő fontosságúvá válik, és hasonló szerepet kap, mint az atombomba a második világháború végén. Itt viszont még nem tartunk.
Jeffrey Ding amerikai gazdaságtörténész kétféle technológiát különböztet meg: “egyedieket” és “általános felhasználásúakat” (general purpose technology - GPT), utóbbira példáként az elektromosságot és a számítástechnikát hozza fel. Röviden ezek olyan technológiák, melyek a mindennapi élet nagyon széles spektrumán alkalmazhatóak. Ding elmélete szerint az elmúlt 200 évben mindig a GPT-k elterjedése (és nem a kifejlesztése) döntötte el egy-egy nagyhatalom párharcát.
Az 1870-es években kezdődő második ipari forradalom egyszersmind Amerika felemelkedésének időszaka is, annak ellenére, hogy a legnagyobb felfedezések ekkor még Európához köthetőek. Ding érvei alapján erre azért volt lehetőség, mert az amerikai gazdaság járt legelöl az elektrifikáció és az elektromos gépek alkalmazása terén.
Ding szerint hasonló folyamat zajlott le az USA és Japán közt az 1980-as és 90-es években is az infokommunikációban. Ekkoriban még nagyon messze vagyunk a mai, kvázi monopol amerikai pozíciótól a félvezetők terén, a globális chipgyártás legalább fele japán cégekhez köthető. Viszont a félvezetők adta lehetőségek, úgymint az asztali számítógépek mégis sokkal inkább elterjedtek az amerikai gazdaságban, ami a produktivitás gyors növekedéséhez vezetett. Japán ezen a téren sokkal jobban elmaradt, és a 90-es években a gazdasága stagnálni kezdett. A gazdasági stagnálás viszont idővel a félvezetőipari cégekre is visszahatott, hiszen bevételeik nem megfelelő ütemben nőttek, így pedig a kutatás-fejlesztési büdzséjük sem.
Demokratikus AI
Ezt pedig a mai helyzetre alkalmazva úgy is összegezhetjük, hogy bár a DeepSeek mérnöki újítása elvitathatatlan, a jelentősége viszont a kínai-amerikai technológiai háborúban már sokkal marginálisabb. Bár eddig valóban az volt a feltételezés, hogy az AI modellek terén Kína 1-2 évvel le van maradva az USA-hoz képest, és ezt Kína valóban be is hozta, ez a verseny ezzel egyszersmind irrelevánssá is vált.
A DeepSeek ugyanis már elkötelezte magát a nyílt forráskódú modellek mellett, azaz kvázi demokratizálta a területet, és ezen a téren változás az amerikai félvezetőipari dominancia mellett nem is várható. A kínaiaknak ugyanis az az érdeke, hogy olyan modellek jöjjenek létre, melyek egyszerűbb GPU-kon, azaz egy átlagos asztali gépen is futnak, hiszen azokra nem terjednek ki a szankciók. Feltételezve tehát, hogy az amerikai cégek nem tesznek újból előnyre szert, az új, most kezdődő verseny már kizárólag az AI disszeminációjáról fog szólni.
Ez egyszersmind azt is jelenti, hogy potenciálisan akár egy kevésbébb fejlett ország is rövid idő alatt nagyon jelentős produktivitás-növekedésen eshet át komolyabb, fizikai infrastukturális befektetés nélkül. Az igazi kérdés pedig innentől kezdve az, hogy - akárcsak a 80-as években a személyi számítógépek esetében - ma melyik társadalom lesz a leginkább adaptív, és hol válik az AI valóban a mindennapjainkat meghatározó tényezővé.
Ha érdekel Ázsia és szeretnél a hasonló bejegyzésekről azonnal értesítést kapni, iratkozz fel ingyenes hírlevelünkre.