„DeepSeek“: revoliucija, keičianti dirbtinio intelekto aplinką

AIPU WATON GRUPĖ

Įvadas

Nuolatinis nerimas tarp konkuruojančių didelių modelių, dėl rinkos dalies konkuruojančių debesijos paslaugų teikėjų ir darbščių lustų gamintojų – „DeepSeek“ efektas išlieka.

Artėjant pavasario festivaliui, „DeepSeek“ aplinka vis dar tvyro stiprus jaudulys. Neseniai vykusios šventės išryškino didelę konkurenciją technologijų pramonėje, daugelis diskutuoja ir analizuoja šį „šamą“. Silicio slėnis išgyvena precedento neturinčią krizę: atvirojo kodo šalininkai vėl reiškia savo nuomonę, ir net „OpenAI“ iš naujo vertina, ar uždarojo kodo strategija buvo geriausias pasirinkimas. Naujoji mažesnių skaičiavimo sąnaudų paradigma sukėlė grandininę reakciją tarp lustų gigantų, tokių kaip „Nvidia“, dėl kurios JAV akcijų rinkos istorijoje vienos dienos rinkos vertė sumažėjo rekordiškai, o vyriausybinės agentūros tiria „DeepSeek“ naudojamų lustų atitiktį reikalavimams. Nors užsienyje „DeepSeek“ sulaukia prieštaringų atsiliepimų, šalies viduje ji patiria nepaprastą augimą. Po R1 modelio pristatymo susijusi programėlė pastebėjo srauto šuolį, o tai rodo, kad taikomųjų programų sektorių augimas skatins visą dirbtinio intelekto ekosistemą. Teigiamas aspektas yra tas, kad „DeepSeek“ išplės taikymo galimybes, o tai rodo, kad ateityje pasikliauti „ChatGPT“ nebus taip brangu. Šis pokytis atsispindėjo pastaruoju metu vykusioje „OpenAI“ veikloje, įskaitant samprotavimo modelio, vadinamo „o3-mini“, pateikimą nemokamiems vartotojams reaguojant į „DeepSeek R1“, taip pat vėlesnius atnaujinimus, dėl kurių „o3-mini“ idėjų grandinė tapo vieša. Daugelis užsienio vartotojų išreiškė dėkingumą „DeepSeek“ už šiuos patobulinimus, nors ši idėjų grandinė yra tik santrauka.

Optimistiškai vertinant, akivaizdu, kad „DeepSeek“ vienija vietinius žaidėjus. Dėmesį sutelkiant į mokymo išlaidų mažinimą, įvairūs lustų gamintojai, tarpiniai debesijos paslaugų teikėjai ir daugybė startuolių aktyviai prisijungia prie ekosistemos, didindami „DeepSeek“ modelio naudojimo sąnaudų efektyvumą. Remiantis „DeepSeek“ dokumentais, visiškam V3 modelio mokymui reikia tik 2,788 mln. H800 GPU valandų, o mokymo procesas yra labai stabilus. MoE (Mixture of Experts) architektūra yra labai svarbi norint dešimt kartų sumažinti išankstinio mokymo išlaidas, palyginti su „Llama 3“ su 405 mlrd. parametrų. Šiuo metu V3 yra pirmasis viešai pripažintas modelis, demonstruojantis tokį didelį MoE retumą. Be to, MLA (Multi Layer Attention) veikia sinergiškai, ypač samprotavimo aspektuose. „Kuo retesnis MoE, tuo didesnis paketo dydis reikalingas samprotavimo metu, kad būtų galima visiškai išnaudoti skaičiavimo galią, o KVCache dydis yra pagrindinis ribojantis veiksnys; MLA žymiai sumažina KVCache dydį“, – pažymėjo „Chuanjing Technology“ tyrėjas AI Technology Review analizėje. Apskritai „DeepSeek“ sėkmė slypi ne vienos, o įvairių technologijų derinyje. Pramonės atstovai giria „DeepSeek“ komandos inžinerinius gebėjimus, atkreipdami dėmesį į jų meistriškumą lygiagrečiame mokyme ir operatorių optimizavime, pasiekiant novatoriškų rezultatų tobulinant kiekvieną detalę. „DeepSeek“ atvirojo kodo metodas dar labiau skatina bendrą didelių modelių kūrimą, ir tikimasi, kad jei panašūs modeliai išsiplės į vaizdus, ​​vaizdo įrašus ir kt., tai žymiai paskatins paklausą visoje pramonėje.

Trečiųjų šalių samprotavimo paslaugų galimybės

Duomenys rodo, kad nuo išleidimo „DeepSeek“ vos per 21 dieną sukaupė 22,15 mln. aktyvių kasdienių vartotojų (DAU), pasiekdama 41,6 % „ChatGPT“ vartotojų bazės ir viršydama 16,95 mln. aktyvių kasdienių „Doubao“ vartotojų skaičių, todėl tapo sparčiausiai augančia programa pasaulyje, 157 šalyse / regionuose aplenkdama „Apple App Store“. Tačiau, nors vartotojų plūdo miniomis, kibernetiniai įsilaužėliai negailestingai puolė „DeepSeek“ programėlę, sukeldami didelę apkrovą jos serveriams. Pramonės analitikai mano, kad tai iš dalies lėmė tai, kad „DeepSeek“ diegė korteles mokymui, nors neturėjo pakankamai skaičiavimo galios samprotauti. Pramonės atstovas „AI Technology Review“ informavo: „Dažnas serverių problemas galima lengvai išspręsti imant mokesčius arba finansuojant daugiau mašinų įsigijimą; galiausiai tai priklauso nuo „DeepSeek“ sprendimų.“ Tai yra kompromisas tarp technologijų ir produktų kūrimo. „DeepSeek“ daugiausia rėmėsi kvantiniu kvantizavimu, kad išsilaikytų, nes gavo mažai išorinio finansavimo, todėl pinigų srautų spaudimas buvo santykinai mažas, o technologinė aplinka buvo grynesnė. Šiuo metu, atsižvelgiant į minėtas problemas, kai kurie vartotojai socialiniuose tinkluose ragina „DeepSeek“ padidinti naudojimo ribas arba įdiegti mokamas funkcijas, siekiant pagerinti naudotojų patogumą. Be to, kūrėjai optimizavimui pradėjo naudoti oficialią API arba trečiųjų šalių API. Tačiau „DeepSeek“ atvira platforma neseniai paskelbė: „Dabartiniai serverio ištekliai yra riboti, o API paslaugų papildymas buvo sustabdytas.“

 

Tai neabejotinai atveria daugiau galimybių trečiųjų šalių tiekėjams dirbtinio intelekto infrastruktūros sektoriuje. Neseniai daugybė vietinių ir tarptautinių debesijos gigantų pristatė „DeepSeek“ modelių API – užsienio gigantai „Microsoft“ ir „Amazon“ buvo tarp pirmųjų, prisijungusių sausio pabaigoje. Vietinė lyderė „Huawei Cloud“ žengė pirmąjį žingsnį, vasario 1 d. bendradarbiaudama su „Silicon“ įsikūrusia „Flow“ išleisdama „DeepSeek R1“ ir „V3“ samprotavimo paslaugas. „AI Technology Review“ ataskaitos rodo, kad „Silicon“ įsikūrusios „Flow“ paslaugos sulaukė vartotojų antplūdžio, o tai faktiškai „sugriovė“ platformą. Trys didžiosios technologijų bendrovės – BAT („Baidu“, „Alibaba“, „Tencent“) ir „ByteDance“ – taip pat nuo vasario 3 d. paskelbė pigius, riboto laiko pasiūlymus, primenančius praėjusių metų debesijos tiekėjų kainų karus, kuriuos įžiebė „DeepSeek“ V2 modelio pristatymas, kai „DeepSeek“ pradėta vadinti „kainų žudike“. Įnirtingi debesijos tiekėjų veiksmai atkartoja ankstesnius tvirtus „Microsoft Azure“ ir „OpenAI“ ryšius, kai 2019 m. „Microsoft“ investavo didelę 1 mlrd. JAV dolerių investiciją į „OpenAI“ ir sėmėsi naudos po „ChatGPT“ paleidimo 2023 m. Tačiau šie glaudūs santykiai ėmė nykti po to, kai „Meta“ atvirojo kodo „Llama“ platformą atvėrė, leisdama kitiems tiekėjams, nepriklausantiems „Microsoft Azure“ ekosistemai, konkuruoti su jų dideliais modeliais. Šiuo atveju „DeepSeek“ ne tik pralenkė „ChatGPT“ pagal produktų populiarumą, bet ir pristatė atvirojo kodo modelius po „o1“ išleidimo, panašiai kaip entuziazmas dėl „Llama“ GPT-3 atgaivinimo.

 

Iš tikrųjų debesijos paslaugų teikėjai taip pat pozicionuoja save kaip dirbtinio intelekto programų srauto vartus, o tai reiškia, kad glaudesni ryšiai su kūrėjais suteikia prevencinių pranašumų. Ataskaitose teigiama, kad „Baidu Smart Cloud“ modelio pristatymo dieną „DeepSeek“ modelį per „Qianfan“ platformą naudojo daugiau nei 15 000 klientų. Be to, kelios mažesnės įmonės siūlo sprendimus, įskaitant „Silicon-based Flow“, „Luchen Technology“, „Chuanjing Technology“ ir įvairius dirbtinio intelekto infrastruktūros teikėjus, kurie pradėjo teikti paramą „DeepSeek“ modeliams. „AI Technology Review“ sužinojo, kad dabartinės lokalizuoto „DeepSeek“ diegimo optimizavimo galimybės daugiausia egzistuoja dviejose srityse: viena – optimizuoti MoE modelio retumo charakteristikas, naudojant mišrų samprotavimo metodą, kad 671 milijardo parametrų MoE modelis būtų diegiamas lokaliai, kartu naudojant hibridinį GPU/CPU išvadą. Be to, labai svarbu optimizuoti MLA. Tačiau abu „DeepSeek“ modeliai vis dar susiduria su tam tikrais diegimo optimizavimo iššūkiais. „Dėl modelio dydžio ir daugybės parametrų optimizavimas iš tiesų yra sudėtingas, ypač vietiniams diegimams, kur pasiekti optimalią našumo ir sąnaudų pusiausvyrą bus sudėtinga“, – teigė „Chuanjing Technology“ tyrėjas. Didžiausia kliūtis – įveikti atminties talpos ribas. „Mes taikome heterogeninio bendradarbiavimo metodą, kad visiškai išnaudotume procesoriaus ir kitus skaičiavimo išteklius, CPU/DRAM atmintyje patalpindami tik nebendrinamus retos MoE matricos skyrius, kad apdorojimas būtų atliekamas naudojant didelio našumo procesoriaus operatorius, o tankios dalys lieka GPU“, – toliau aiškino jis. Ataskaitose teigiama, kad „Chuanjing“ atvirojo kodo sistema „KTransformers“ pirmiausia įterpia įvairias strategijas ir operatorius į originalų „Transformers“ diegimą per šabloną, žymiai padidindama išvadų darymo greitį, naudodama tokius metodus kaip „CUDAGraph“. „DeepSeek“ sukūrė galimybių šiems startuoliams, nes augimo nauda tampa akivaizdi; daugelis įmonių pranešė apie pastebimą klientų skaičiaus augimą po „DeepSeek“ API paleidimo, gavusios užklausas iš ankstesnių klientų, ieškančių optimizavimo. Pramonės atstovai pastebėjo: „Anksčiau šiek tiek įsitvirtinusios klientų grupės dažnai buvo pririštos prie standartizuotų didesnių įmonių paslaugų, griežtai saistomos savo kainos pranašumų dėl masto. Tačiau baigus diegti „DeepSeek-R1/V3“ prieš pavasario šventę, staiga gavome bendradarbiavimo prašymų iš kelių gerai žinomų klientų, ir net anksčiau neveikę klientai pradėjo susisiekti, kad pristatytų mūsų „DeepSeek“ paslaugas.“ Šiuo metu atrodo, kad „DeepSeek“ modelių išvadų našumą daro vis svarbesnį, o plačiau diegiant didelius modelius, tai ir toliau reikšmingai paveiks dirbtinio intelekto infrastruktūros pramonės plėtrą. Jei „DeepSeek“ lygio modelį būtų galima diegti vietoje mažomis sąnaudomis, tai labai padėtų vyriausybės ir įmonių skaitmeninės transformacijos pastangoms. Tačiau iššūkiai išlieka, nes kai kurie klientai gali turėti didelių lūkesčių dėl didelių modelių galimybių, todėl akivaizdu, kad praktinio diegimo metu gyvybiškai svarbu suderinti našumą ir sąnaudas. 

Norint įvertinti, ar „DeepSeek“ yra geresnis už „ChatGPT“, būtina suprasti jų pagrindinius skirtumus, stipriąsias puses ir naudojimo atvejus. Pateikiame išsamų palyginimą:

Funkcija / aspektas DeepSeek PokalbiųGPT
Nuosavybė Sukūrė Kinijos įmonė Sukūrė OpenAI
Šaltinio modelis Atvirojo kodo Patentuotas
Kaina Nemokamas naudojimas; pigesnės API prieigos parinktys Prenumeratos arba mokėjimo už naudojimą kainodara
Pritaikymas Labai pritaikoma, leidžianti vartotojams ją koreguoti ir kurti toliau Ribotas pritaikymo pasirinkimas
Našumas atliekant konkrečias užduotis Puikiai tinka tam tikrose srityse, tokiose kaip duomenų analizė ir informacijos paieška. Universalus, pasižymi puikiais kūrybinio rašymo ir pokalbio užduočių rezultatais
Kalbų palaikymas Didelis dėmesys kinų kalbai ir kultūrai Platus kalbų palaikymas, bet orientuotas į JAV
Mokymo kaina Mažesnės mokymo išlaidos, optimizuotos efektyvumui Didesnės mokymo išlaidos, reikalaujančios didelių skaičiavimo išteklių
Atsakymo variacija Gali pasiūlyti skirtingus atsakymus, galbūt paveiktus geopolitinio konteksto Nuoseklūs atsakymai, pagrįsti mokymo duomenimis
Tikslinė auditorija Skirta kūrėjams ir tyrėjams, norintiems lankstumo Skirta paprastiems vartotojams, ieškantiems pokalbių galimybių
Naudojimo atvejai Efektyvesnis kodo generavimui ir greitoms užduotims Idealiai tinka teksto generavimui, užklausų atsakymams ir dialogui

Kritinis požiūris į „Nvidia sutrikdymą“

Šiuo metu, be „Huawei“, keli vietiniai lustų gamintojai, tokie kaip „Moore Threads“, „Muxi“, „Biran Technology“ ir „Tianxu Zhixin“, taip pat prisitaiko prie dviejų „DeepSeek“ modelių. Vienas lustų gamintojas „AI Technology Review“ teigė: „„DeepSeek“ struktūra demonstruoja inovacijas, tačiau ji išlieka LLM. Mūsų adaptacija prie „DeepSeek“ daugiausia skirta programų samprotavimui, todėl techninis įgyvendinimas yra gana paprastas ir greitas.“ Tačiau MoE metodas reikalauja didesnių saugojimo ir paskirstymo reikalavimų, kartu užtikrinant suderinamumą diegiant su vietiniais lustais, o tai kelia daugybę inžinerinių iššūkių, kuriuos reikia išspręsti adaptacijos metu. „Šiuo metu vietinė skaičiavimo galia neprilygsta „Nvidia“ naudojimo patogumui ir stabilumui, todėl reikalingas originalus gamyklos dalyvavimas programinės įrangos aplinkos nustatymui, trikčių šalinimui ir pagrindiniam našumo optimizavimui“, – teigė pramonės specialistas, remdamasis praktine patirtimi. Tuo pačiu metu: „Dėl didelės „DeepSeek R1“ parametrų skalės vietinei skaičiavimo galiai reikia daugiau mazgų lygiagretumui. Be to, vietinės aparatinės įrangos specifikacijos vis dar šiek tiek atsilieka; pavyzdžiui, „Huawei 910B“ šiuo metu negali palaikyti „DeepSeek“ įdiegtos FP8 išvados.“ Vienas iš „DeepSeek V3“ modelio akcentų yra mišraus tikslumo mokymo sistemos, kuri buvo efektyviai patvirtinta itin dideliame modelyje, pristatymas, o tai žymi reikšmingą pasiekimą. Anksčiau tokie dideli žaidėjai kaip „Microsoft“ ir „Nvidia“ siūlė susijusį darbą, tačiau pramonėje vis dar abejojama dėl jo įgyvendinamumo. Suprantama, kad, palyginti su INT8, pagrindinis FP8 privalumas yra tas, kad kvantavimas po mokymo gali pasiekti beveik be nuostolių tikslumą, tuo pačiu žymiai padidinant išvadų greitį. Palyginti su FP16, FP8 gali pasiekti iki dviejų kartų didesnį „Nvidia H20“ pagreitį ir daugiau nei 1,5 karto didesnį „H100“ pagreitį. Pažymėtina, kad diskusijoms apie vietinės skaičiavimo galios ir vietinių modelių tendenciją įgaunant pagreitį, vis dažniau spėliojama, ar „Nvidia“ gali būti sutrikdyta ir ar galima apeiti CUDA barjerą. Neginčijama, kad „DeepSeek“ iš tiesų smarkiai sumažino „Nvidia“ rinkos vertę, tačiau šis pokytis kelia klausimų dėl „Nvidia“ aukščiausios klasės skaičiavimo galios patikimumo. Anksčiau priimti naratyvai apie kapitalo valdomą skaičiavimo kaupimą yra abejojami, tačiau „Nvidia“ vis dar sunku visiškai pakeisti mokymo scenarijuose. „DeepSeek“ gilaus CUDA naudojimo analizė rodo, kad lankstumas, pavyzdžiui, SM naudojimas komunikacijai ar tiesioginis tinklo plokščių valdymas, nėra įmanomas įprastoms GPU. Pramonės požiūriu pabrėžiama, kad „Nvidia“ gynybos linija apima visą CUDA ekosistemą, o ne tik pačią CUDA, o PTX (lygiagretaus gijų vykdymo) instrukcijos, kurias naudoja „DeepSeek“, vis dar yra CUDA ekosistemos dalis. „Trumpuoju laikotarpiu „Nvidia“ skaičiavimo galios negalima apeiti – tai ypač akivaizdu mokymo metu; tačiau vietinių plokščių diegimas samprotavimui bus santykinai lengvesnis, todėl pažanga greičiausiai bus greitesnė. Vietinių plokščių pritaikymas daugiausia dėmesio skiria išvadoms; niekam dar nepavyko apmokyti „DeepSeek“ našumo modelio vietinėse plokštėse dideliu mastu“, – „AI Technology Review“ pastebėjo pramonės analitikas. Apskritai, išvadų požiūriu, aplinkybės yra daug žadančios vietiniams didelių modelių lustams. Vietinių lustų gamintojų galimybės išvadų srityje yra akivaizdesnės dėl pernelyg aukštų mokymo reikalavimų, kurie trukdo patekti į rinką. Analitikai teigia, kad pakanka tiesiog panaudoti vietines išvadų korteles; prireikus galima įsigyti papildomą kompiuterį, o mokymo modeliai kelia unikalių iššūkių – didesnio mašinų skaičiaus valdymas gali tapti sudėtingas, o didesnis klaidų lygis gali neigiamai paveikti mokymo rezultatus. Mokymas taip pat turi specifinius klasterių masto reikalavimus, o klasterių reikalavimai išvadoms nėra tokie griežti, todėl GPU reikalavimai sušvelnėja. Šiuo metu „Nvidia“ vienos „H20“ kortelės našumas nepralenkia „Huawei“ ar „Cambrian“; jos stiprybė slypi klasterizavime. Remdamasis bendru poveikiu skaičiavimo galios rinkai, „Luchen Technology“ įkūrėjas You Yang interviu „AI Technology Review“ pažymėjo: „„DeepSeek“ gali laikinai pakenkti itin didelių mokymo skaičiavimo klasterių kūrimui ir nuomai. Ilgainiui, žymiai sumažinus su dideliu modelių mokymu, samprotavimais ir taikymais susijusias išlaidas, rinkos paklausa greičiausiai išaugs. Todėl vėlesnės dirbtinio intelekto iteracijos, pagrįstos tuo, nuolat skatins nuolatinę paklausą skaičiavimo galios rinkoje.“ Be to, „padidėjusi „DeepSeek“ samprotavimo ir tikslinimo paslaugų paklausa labiau atitinka vietinę skaičiavimo aplinką, kurioje vietiniai pajėgumai yra gana silpni, o tai padeda sumažinti nenaudojamų išteklių švaistymą po klasterių įkūrimo; tai sukuria perspektyvių galimybių gamintojams įvairiuose vietinės skaičiavimo ekosistemos lygiuose.“ „Luchen Technology“ bendradarbiavo su „Huawei Cloud“, kad pristatytų „DeepSeek R1“ serijos samprotavimo API ir debesijos vaizdavimo paslaugas, pagrįstas vietine skaičiavimo galia. You Yang išreiškė optimizmą dėl ateities: „„DeepSeek“ skatina pasitikėjimą vietiniais sprendimais, skatina didesnį entuziazmą ir investicijas į vietinius skaičiavimo pajėgumus ateityje.“

微信图片_20240614024031.jpg1

Išvada

Ar „DeepSeek“ yra „geresnis“ nei „ChatGPT“, priklauso nuo konkrečių vartotojo poreikių ir tikslų. Užduotims, kurioms reikalingas lankstumas, maža kaina ir pritaikymas, „DeepSeek“ gali būti pranašesnis. Kūrybiniam rašymui, bendriems tyrimams ir patogioms naudoti pokalbių sąsajoms „ChatGPT“ gali būti geriausias pasirinkimas. Kiekvienas įrankis skirtas skirtingiems tikslams, todėl pasirinkimas labai priklausys nuo konteksto, kuriame jie naudojami.

Raskite ELV kabelių sprendimą

Valdymo kabeliai

BMS, magistralinių, pramoninių, prietaisų kabeliams.

Struktūrizuota kabelių sistema

Tinklas ir duomenys, šviesolaidinis kabelis, jungiamasis laidas, moduliai, priekinė plokštė

2024 m. parodų ir renginių apžvalga

2024 m. balandžio 16–18 d., Artimųjų Rytų energetikos paroda Dubajuje

2024 m. balandžio 16–18 d. „Securika“ Maskvoje

2024 m. gegužės 9 d. NAUJŲ PRODUKTŲ IR TECHNOLOGIJŲ PRISTATYMO RENGINYS Šanchajuje

2024 m. spalio 22–25 d. Pekine vyks „SAUGUMO KINIJA“ konferencija

2024 m. lapkričio 19–20 d. „Connected World“ Saudo Arabijoje


Įrašo laikas: 2025 m. vasario 10 d.