
Tavaly év végén szélsebesen bejárta a technológiai világot egy hír: a kínai DeepSeek vállalat bemutatta R1 elnevezésű nagyméretű nyelvi modelljét. A mesterséges intelligencia pillanatok alatt hatalmas érdeklődést keltett, részben elképesztő teljesítménye, de még inkább a képzési költségei miatt. Az első beszámolók szerint az R1-Zero, a modell előzetes kiadásának betanítása csupán töredékébe került annak, amit a versenytársak hasonló rendszereik fejlesztésére fordítottak.
A DeepSeek fejlesztői később egy részletes tanulmányban konkretizálták ezeket az adatokat, egy döbbenetes számot említve: mindössze 294 ezer dolláros ráfordításról beszéltek, ami mellé természetesen 512 darab Nvidia H800 chip is szükséges volt. Elképzelhetetlennek tűnt ez az összeg, hiszen mindössze cseppnek számított a dollármilliárdokhoz képest, melyeket más AI-óriások, főleg az amerikai fejlesztők, ezen a területen megmozgattak. A nagy kérdés persze azonnal felmerült: hogyan lehetséges ez a bravúr?
A DeepSeek állítása szerint a titok az úgynevezett megerősítéses tanulásban (reinforcement learning) rejlik. De mi is pontosan ez a varázslat, ami ennyire más utat engedett a DeepSeek-nek? A legtöbb, komplex logikai feladatokat ellátó mesterséges intelligencia eddig emberi annotációkkal ellátott adatok tömegén és bemutatókon keresztül sajátította el a problémamegoldás fortélyait. Ez a hagyományos eljárás viszont nemcsak iszonyatosan drága, hanem rendkívül időigényes is, ahogy a modelleknek egyre bonyolultabb kihívásokkal kell megküzdeniük.
A DeepSeek viszont egy teljesen új irányt vett. Ahelyett, hogy előre megírt leckéket magoltatott volna be a modellel, egy folyamatos próbálkozáson és hibázáson alapuló mechanizmust alkalmazott. A rendszer addig „kísérletezik”, amíg meg nem találja a helyes választ, ezzel optimalizálva logikai és kimeneti teljesítményét. Képzeljük csak el, ahogy egy videojátékban egy gyermek lépésről lépésre tanulja meg, mely cselekvésekért jár pont (például érmék gyűjtése), és melyekért veszíti el őket.
„Ahogy a gyermek navigálja avatárját a játék világában, próbálgatás és hiba útján megtanulja, hogy egyes műveletekkel (például érmék gyűjtésével) pontokat tud szerezni, míg mások nullára állítják vissza a pontszámukat. Hasonlóképpen, a DeepSeek-R1 magas pontszámot kap, ha helyesen válaszol a kérdésekre, és alacsonyat, ha rossz válaszokat ad. Ez ellentétben áll a korábbi, felszólításon alapuló megközelítésekkel, amelyek inkább ahhoz hasonlítottak, mintha azt várták volna el a gyermektől, hogy úgy sajátítsa el a videojátékok menetét, hogy elolvassa az utasításokat, illetve a felügyelt tanuláson alapuló megközelítésekhez, amelyek ahhoz hasonlíthatók, mintha azt kérték volna el a gyermektől, hogy úgy ismerje meg a játékot, hogy több százszor nézi, ahogy a testvére játssza” – magyarázzák a kutatók a módszer lényegét.
Ez a pontozási rendszer, ahol a helyes válaszokért több pont járt, lehetővé tette az R1 számára, hogy önállóan képes legyen a helyes következtetésre jutni, miközben folyamatosan a magasabb pontszámra törekedett. Ez a megközelítés különösen hatékonynak bizonyult a matematikai és programozási feladatoknál, ahol a válaszok ellenőrizhetően egyértelműek. A gyakorlati tesztek azonban nem voltak teljesen egyértelműek. Bár a DeepSeek áttörése a költséghatékonyság terén igen ígéretes volt, az összehasonlítás a ChatGPT-vel vegyes képet mutatott. Például a modell időnként váltott az angol és a kínai nyelv között, amikor logikai levezetést kértünk tőle, és hajlamos volt tízezer szót meghaladó magyarázatokat adni. És ami még érdekesebb volt: a tesztelők erős cenzúrával is találkoztak bizonyos témákban.
Aztán jött a feketeleves, és a kezdeti lelkesedést némileg árnyalta a valóság. A Nature folyóiratban közzétett, 294 ezer dolláros képzési költség körüli számok máris éles vitát robbantottak ki. A The Register szaklap szerint a kínai kutatók összekeverték a betanítás *utáni* megerősítéses tanulási fázist a DeepSeek V3, az R1 alapjául szolgáló modell sokkal költségesebb *előzetes betanítási* folyamatával. A DeepSeek kutatócsoportja ugyanis maga hozta nyilvánosságra, hogy mennyi számítási energiát igényelt az alapmodell betanítása. A DeepSeek V3-at 2048 darab H800-as GPU-n tréningezték nagyjából két hónapon át. Ez összesen 2,79 millió GPU-órát jelentett, melynek becsült ára 5,58 millió dollárra rúgott.
Mivel az R1 lényegében nem létezhetett volna a V3 megépítése nélkül, a modell tényleges költsége közelebb állt az 5,87 millió dollárhoz. Ez bizony komoly hullámokat vetett. Az, hogy az adatok szándékos alábecslése történt-e annak érdekében, hogy a nyugati modellfejlesztőket a „hype-függőség” vádjával illessék, jelenleg is heves vita tárgya. Mindenesetre az az elképzelés, hogy a DeepSeek jelentősen olcsóbb vagy sokkal hatékonyabb lenne a nyugati óriások modelljeihez képest, a pontosított adatok fényében túlzottnak tűnik – összegzi a The Register. A technológia maga mégis ígéretes utat mutat a jövő AI-fejlesztései számára, hiszen a megerősítéses tanulásban rejlő potenciál megkérdőjelezhetetlen, még akkor is, ha a kezdeti költségígéretek a valóságban bonyolultabbak voltak.