DeepSeek: Den disruptive som revolusjonerer AI-landskapet

AIPU WATON GROUP

Introduksjon

Vedvarende angst blant konkurrerende store modeller, skyleverandører som konkurrerer om markedsandeler og hardtarbeidende chipprodusenter – DeepSeek-effekten vedvarer.

Når vårfestivalen går mot slutten, er spenningen rundt DeepSeek fortsatt sterk. Den nylige høytiden fremhevet en betydelig følelse av konkurranse innen teknologibransjen, og mange diskuterer og analyserer denne "mallen". Silicon Valley opplever en enestående følelse av krise: Forkjempere for åpen kildekode gir uttrykk for sine meninger igjen, og til og med OpenAI revurderer om deres lukkede kildekode-strategi var det beste valget. Det nye paradigmet med lavere beregningskostnader har utløst en kjedereaksjon blant chipgiganter som Nvidia, noe som har ført til rekordhøye markedsverditap på én dag i det amerikanske aksjemarkedets historie, mens myndigheter undersøker samsvaret til brikkene som brukes av DeepSeek. Midt blandede anmeldelser av DeepSeek i utlandet opplever den ekstraordinær vekst innenlands. Etter lanseringen av R1-modellen har den tilhørende appen sett en økning i trafikken, noe som indikerer at veksten i applikasjonssektorer vil drive det generelle AI-økosystemet fremover. Det positive aspektet er at DeepSeek vil utvide applikasjonsmulighetene, noe som tyder på at det å stole på ChatGPT ikke vil være like dyrt i fremtiden. Dette skiftet har blitt reflektert i OpenAIs nylige aktiviteter, inkludert levering av en resonnementsmodell kalt o3-mini til gratis brukere som svar på DeepSeek R1, samt påfølgende oppgraderinger som gjorde tankekjeden til o3-mini offentlig. Mange utenlandske brukere uttrykte takknemlighet til DeepSeek for denne utviklingen, selv om denne tankekjeden fungerer som et sammendrag.

Optimistisk sett er det tydelig at DeepSeek forener innenlandske aktører. Med fokus på å redusere opplæringskostnader, blir diverse oppstrøms brikkeprodusenter, mellomliggende skyleverandører og en rekke oppstartsbedrifter aktivt med i økosystemet, noe som forbedrer kostnadseffektiviteten ved bruk av DeepSeek-modellen. I følge DeepSeeks artikler krever fullstendig opplæring av V3-modellen bare 2,788 millioner H800 GPU-timer, og opplæringsprosessen er svært stabil. MoE-arkitekturen (Mixture of Experts) er avgjørende for å redusere kostnadene før opplæring med en faktor på ti sammenlignet med Llama 3 med 405 milliarder parametere. For øyeblikket er V3 den første offentlig anerkjente modellen som demonstrerer så høy sparsitet i MoE. I tillegg fungerer MLA (Multi Layer Attention) synergistisk, spesielt innen resonnement. "Jo sparsommere MoE, desto større batchstørrelse trengs under resonnement for å utnytte beregningskraften fullt ut, med størrelsen på KVCache som den viktigste begrensende faktoren. MLA reduserer KVCache-størrelsen betydelig," bemerket en forsker fra Chuanjing Technology i en analyse for AI Technology Review. Alt i alt ligger DeepSeeks suksess i kombinasjonen av ulike teknologier, ikke bare én enkelt. Bransjefolk roser DeepSeek-teamets ingeniørferdigheter, og bemerker deres fortreffelighet innen parallell opplæring og operatøroptimalisering, og oppnår banebrytende resultater ved å forbedre hver eneste detalj. DeepSeeks åpen kildekode-tilnærming driver den generelle utviklingen av store modeller ytterligere, og det forventes at hvis lignende modeller utvides til bilder, videoer og mer, vil dette stimulere etterspørselen betydelig i hele bransjen.

Muligheter for tredjeparts resonneringstjenester

Data indikerer at DeepSeek siden lanseringen har oppnådd 22,15 millioner daglige aktive brukere (DAU) i løpet av bare 21 dager, og oppnådd 41,6 % av ChatGPTs brukerbase og overgått 16,95 millioner daglige aktive brukere av Doubao. Dette har blitt den raskest voksende applikasjonen globalt, og toppet Apple App Store i 157 land/regioner. Mens brukerne strømmet til i hopetall, har imidlertid cyberhackere angrepet DeepSeek-appen nådeløst, noe som forårsaket betydelig belastning på serverne. Bransjeanalytikere mener dette delvis skyldes at DeepSeek distribuerer kort for trening, mens de mangler tilstrekkelig beregningskraft for resonnering. En bransjeinnsider informerte AI Technology Review: «De hyppige serverproblemene kan enkelt løses ved å kreve gebyrer eller finansiere kjøp av flere maskiner. Til syvende og sist avhenger det av DeepSeeks beslutninger.» Dette representerer en avveining mellom fokus på teknologi kontra produktifisering. DeepSeek har i stor grad vært avhengig av kvantekvantisering for selvforsørgelse, etter å ha mottatt lite ekstern finansiering, noe som resulterer i relativt lavt kontantstrømpress og et renere teknologisk miljø. I lys av de nevnte problemene oppfordrer noen brukere DeepSeek på sosiale medier til å heve bruksgrensene eller introdusere betalte funksjoner for å forbedre brukerkomforten. I tillegg har utviklere begynt å bruke det offisielle API-et eller tredjeparts API-er for optimalisering. DeepSeeks åpne plattform kunngjorde imidlertid nylig: «Nåværende serverressurser er knappe, og API-tjenestepåfylling er suspendert.»

 

Dette åpner utvilsomt flere muligheter for tredjepartsleverandører innen AI-infrastruktursektoren. Nylig har en rekke innenlandske og internasjonale skygiganter lansert DeepSeeks modell-API-er – utenlandske giganter som Microsoft og Amazon var blant de første som ble med i slutten av januar. Den innenlandske lederen, Huawei Cloud, tok det første steget og lanserte resonneringstjenestene DeepSeek R1 og V3 i samarbeid med Silicon-baserte Flow 1. februar. Rapporter fra AI Technology Review indikerer at Silicon-baserte Flows tjenester har sett en tilstrømning av brukere, noe som effektivt har «krasjet» plattformen. De tre store teknologiselskapene – BAT (Baidu, Alibaba, Tencent) og ByteDance – ga også ut lavpristilbud med begrenset tid fra 3. februar, noe som minner om fjorårets priskriger blant skyleverandører som ble antent av DeepSeeks V2-modelllansering, der DeepSeek begynte å bli kalt «prisslakteren». De hektiske handlingene til skyleverandørene gjenspeiler de tidligere sterke båndene mellom Microsoft Azure og OpenAI, der Microsoft i 2019 investerte betydelig 1 milliard dollar i OpenAI og høstet fordelene etter ChatGPTs lansering i 2023. Dette nære forholdet begynte imidlertid å smuldre etter at Meta ga Llama åpen kildekode, slik at andre leverandører utenfor Microsoft Azure-økosystemet kunne konkurrere med deres store modeller. I dette tilfellet har DeepSeek ikke bare overgått ChatGPT når det gjelder produktvarme, men har også introdusert modeller med åpen kildekode etter o1-lanseringen, i likhet med begeistringen rundt Llamas gjenoppliving av GPT-3.

 

I realiteten posisjonerer skyleverandører seg også som trafikkportaler for AI-applikasjoner, noe som betyr at tettere bånd med utviklere fører til forebyggende fordeler. Rapporter indikerer at Baidu Smart Cloud hadde over 15 000 kunder som brukte DeepSeek-modellen via Qianfan-plattformen på modellens lanseringsdag. I tillegg tilbyr flere mindre firmaer løsninger, inkludert Silicon-based Flow, Luchen Technology, Chuanjing Technology og diverse AI Infra-leverandører som har lansert støtte for DeepSeek-modeller. AI Technology Review har erfart at nåværende optimaliseringsmuligheter for lokaliserte distribusjoner av DeepSeek primært eksisterer på to områder: det ene er å optimalisere for sparsitetsegenskapene til MoE-modellen ved å bruke en blandet resonnementstilnærming for å distribuere MoE-modellen med 671 milliarder parametere lokalt samtidig som man bruker hybrid GPU/CPU-inferens. I tillegg er optimalisering av MLA viktig. DeepSeeks to modeller står imidlertid fortsatt overfor noen utfordringer innen distribusjonsoptimalisering. «På grunn av modellens størrelse og mange parametere er optimalisering virkelig komplekst, spesielt for lokale distribusjoner der det vil være utfordrende å oppnå en optimal balanse mellom ytelse og kostnad», uttalte en forsker fra Chuanjing Technology. Den største hindringen ligger i å overvinne begrensningene i minnekapasitet. «Vi bruker en heterogen samarbeidstilnærming for å utnytte CPUer og andre beregningsressurser fullt ut, og plasserer bare de ikke-delte delene av den sparsomme MoE-matrisen på CPU/DRAM for behandling ved hjelp av CPU-operatorer med høy ytelse, mens de tette delene forblir på GPU-en», forklarte han videre. Rapporter indikerer at Chuanjings åpen kildekode-rammeverk KTransformers primært injiserer ulike strategier og operatorer i den opprinnelige Transformers-implementeringen gjennom en mal, noe som forbedrer inferenshastigheten betydelig ved hjelp av metoder som CUDAGraph. DeepSeek har skapt muligheter for disse oppstartsbedriftene, ettersom vekstfordeler blir tydelige. Mange firmaer har rapportert merkbar kundevekst etter lanseringen av DeepSeek API, og mottatt henvendelser fra tidligere kunder som ser etter optimaliseringer. Bransjefolk har bemerket: «Tidligere var noe etablerte kundegrupper ofte låst til standardiserte tjenester fra større selskaper, tett bundet av deres kostnadsfordeler på grunn av skala. Etter å ha fullført utrullingen av DeepSeek-R1/V3 før vårfestivalen, mottok vi imidlertid plutselig samarbeidsforespørsler fra flere kjente kunder, og selv tidligere sovende kunder tok kontakt for å introdusere våre DeepSeek-tjenester.» For tiden ser det ut til at DeepSeek gjør modellinferensytelse stadig viktigere, og med bredere bruk av store modeller vil dette fortsette å påvirke utviklingen i AI-infrastrukturbransjen betydelig. Hvis en modell på DeepSeek-nivå kunne distribueres lokalt til en lav kostnad, ville det i stor grad hjelpe myndigheter og bedrifter med digital transformasjon. Utfordringene vedvarer imidlertid, ettersom noen kunder kan ha høye forventninger til store modellegenskaper, noe som gjør det tydeligere at det å balansere ytelse og kostnader blir avgjørende i praktisk utrulling. 

For å vurdere om DeepSeek er bedre enn ChatGPT, er det viktig å forstå deres viktigste forskjeller, styrker og bruksområder. Her er en omfattende sammenligning:

Funksjon/aspekt DeepSeek ChatGPT
Eie Utviklet av et kinesisk selskap Utviklet av OpenAI
Kildemodell Åpen kildekode Proprietær
Koste Gratis å bruke; billigere API-tilgangsalternativer Abonnement eller betaling per bruk-priser
Tilpasning Svært tilpassbar, slik at brukerne kan justere og bygge videre på den Begrenset tilpasning tilgjengelig
Ytelse i spesifikke oppgaver Utmerker seg innen visse områder som dataanalyse og informasjonsinnhenting Allsidig med sterke resultater innen kreativ skriving og samtaleoppgaver
Språkstøtte Sterkt fokus på kinesisk språk og kultur Bred språkstøtte, men USA-sentrert
Opplæringskostnader Lavere opplæringskostnader, optimalisert for effektivitet Høyere opplæringskostnader, som krever betydelige beregningsressurser
Variasjon i respons Kan tilby ulike svar, muligens påvirket av geopolitisk kontekst Konsekvente svar basert på treningsdata
Målgruppe Rettet mot utviklere og forskere som ønsker fleksibilitet Rettet mot vanlige brukere som ønsker samtalemuligheter
Brukstilfeller Mer effektivt for kodegenerering og raske oppgaver Ideell for å generere tekst, svare på spørsmål og delta i dialog

Et kritisk perspektiv på «Å forstyrre Nvidia»

For tiden tilpasser flere innenlandske chipprodusenter, i tillegg til Huawei, seg også til DeepSeeks to modeller. En chipprodusent fortalte AI Technology Review: «DeepSeeks struktur demonstrerer innovasjon, men det er fortsatt en LLM. Vår tilpasning til DeepSeek fokuserer primært på resonneringsapplikasjoner, noe som gjør teknisk implementering ganske enkel og rask.» MoE-tilnærmingen krever imidlertid høyere krav til lagring og distribusjon, kombinert med å sikre kompatibilitet ved distribusjon med innenlandske brikker, noe som presenterer en rekke tekniske utfordringer som må løses under tilpasningen. «For øyeblikket matcher ikke innenlandsk beregningskraft Nvidia i brukervennlighet og stabilitet, og krever opprinnelig fabrikkdeltakelse for oppsett av programvaremiljø, feilsøking og grunnleggende ytelsesoptimalisering», sa en bransjepraktiker basert på praktisk erfaring. Samtidig: «På grunn av den store parameterskalaen til DeepSeek R1, krever innenlandsk beregningskraft flere noder for parallellisering. I tillegg henger de innenlandske maskinvarespesifikasjonene fortsatt noe bak; for eksempel kan ikke Huawei 910B for øyeblikket støtte FP8-inferensen introdusert av DeepSeek.» Et av høydepunktene ved DeepSeek V3-modellen er introduksjonen av et FP8-rammeverk for blandet presisjonstrening, som har blitt effektivt validert på en ekstremt stor modell, noe som markerer en betydelig prestasjon. Tidligere har store aktører som Microsoft og Nvidia foreslått relatert arbeid, men det er fortsatt tvil i bransjen om gjennomførbarhet. Det er forstått at FP8s primære fordel, sammenlignet med INT8, er at kvantisering etter trening kan oppnå nesten tapsfri presisjon samtidig som inferenshastigheten forbedres betydelig. Sammenlignet med FP16 kan FP8 oppnå opptil dobbelt så høy akselerasjon på Nvidias H20 og over 1,5 ganger så høy akselerasjon på H100. Det er verdt å merke seg at diskusjoner rundt trenden med innenlandsk beregningskraft pluss innenlandske modeller får fart, og spekulasjoner om hvorvidt Nvidia kan bli forstyrret, og om CUDA-vollgraven kan omgås, blir stadig mer utbredt etter hvert som diskusjoner rundt trenden med innenlandsk beregningskraft pluss innenlandske modeller får fart. Et ubestridelig faktum er at DeepSeek faktisk har forårsaket et betydelig fall i Nvidias markedsverdi, men dette skiftet reiser spørsmål angående Nvidias integritet innen avansert beregningskraft. Tidligere aksepterte fortellinger om kapitaldrevet beregningsakkumulering blir utfordret, men det er fortsatt vanskelig for Nvidia å bli fullt erstattet i treningsscenarier. Analyse av DeepSeeks dyptgående bruk av CUDA viser at fleksibilitet – som å bruke SM for kommunikasjon eller direkte manipulering av nettverkskort – ikke er mulig for vanlige GPU-er å imøtekomme. Bransjesynspunkter understreker at Nvidias vollgrav omfatter hele CUDA-økosystemet snarere enn bare CUDA i seg selv, og PTX-instruksjonene (Parallel Thread Execution) som DeepSeek bruker er fortsatt en del av CUDA-økosystemet. «På kort sikt kan ikke Nvidias beregningskraft omgås – dette er spesielt tydelig i trening. Det vil imidlertid være relativt enklere å distribuere innenlandske kort for resonnement, så fremgangen vil sannsynligvis gå raskere. Tilpasningen av innenlandske kort fokuserer primært på inferens. Ingen har ennå klart å trene en modell av DeepSeeks ytelse på innenlandske kort i stor skala», bemerket en bransjeanalytiker til AI Technology Review. Alt i alt, fra et inferensperspektiv, er omstendighetene oppmuntrende for innenlandske store modellbrikker. Mulighetene for innenlandske brikkeprodusenter innen inferens er tydeligere på grunn av opplæringens overdrevent høye krav, noe som hindrer inntreden. Analytikere hevder at det er tilstrekkelig å bare utnytte innenlandske inferenskort. Om nødvendig er det mulig å anskaffe en ekstra maskin, mens opplæringsmodeller byr på unike utfordringer – det kan bli byrdefullt å administrere et økt antall maskiner, og høyere feilrater kan påvirke opplæringsresultatene negativt. Opplæring har også spesifikke krav til klyngeskala, mens kravene til klynger for inferens ikke er like strenge, noe som letter GPU-kravene. For øyeblikket overgår ikke ytelsen til Nvidias enkelt H20-kort Huawei eller Cambrian; styrken ligger i klynging. Basert på den samlede innvirkningen på markedet for datakraft, bemerket grunnleggeren av Luchen Technology, You Yang, i et intervju med AI Technology Review: "DeepSeek kan midlertidig undergrave etablering og utleie av ultrastore treningsklynger for datakraft. På lang sikt, ved å redusere kostnadene forbundet med trening, resonnement og applikasjoner for store modeller betydelig, vil etterspørselen i markedet sannsynligvis øke. Påfølgende iterasjoner av AI basert på dette vil derfor kontinuerlig drive vedvarende etterspørsel i markedet for datakraft." I tillegg er «DeepSeeks økte etterspørsel etter resonnements- og finjusteringstjenester mer kompatibel med det innenlandske beregningslandskapet, der lokal kapasitet er relativt svak, noe som bidrar til å redusere svinn fra inaktive ressurser etter etablering av klynger. Dette skaper levedyktige muligheter for produsenter på tvers av ulike nivåer av det innenlandske beregningsøkosystemet.» Luchen Technology har samarbeidet med Huawei Cloud for å lansere DeepSeek R1-serien av resonnements-API-er og skybaserte bildetjenester basert på innenlandsk beregningskraft. You Yang uttrykte optimisme for fremtiden: «DeepSeek innpoder tillit til innenlandsk produserte løsninger, og oppmuntrer til større entusiasme og investering i innenlandske beregningsmuligheter fremover.»

微信图片_20240614024031.jpg1

Konklusjon

Om DeepSeek er «bedre» enn ChatGPT avhenger av brukerens spesifikke behov og mål. For oppgaver som krever fleksibilitet, lave kostnader og tilpasning, kan DeepSeek være bedre. For kreativ skriving, generelle spørsmål og brukervennlige samtalegrensesnitt kan ChatGPT ta ledelsen. Hvert verktøy tjener forskjellige formål, så valget vil i stor grad avhenge av konteksten de brukes i.

Finn ELV-kabelløsning

Kontrollkabler

For BMS, BUS, industri og instrumentkabel.

Strukturert kabelsystem

Nettverk og data, fiberoptisk kabel, patchledning, moduler, frontplate

Gjennomgang av utstillinger og arrangementer i 2024

16.–18. april 2024 Midtøsten-energi i Dubai

16.–18. april 2024 Securika i Moskva

9. mai 2024 LANSERING AV NYE PRODUKTER OG TEKNOLOGIER i Shanghai

22.–25. oktober 2024 SIKKERHET KINA i Beijing

19.–20. november 2024 CONNECTED WORLD KSA


Publisert: 10. feb. 2025