Tester «verdens smarteste» Grok3

AIPU WATON GROUP (1)

Introduksjon

Tror du Grok3 vil bli «endepunktet» for forhåndstrente modeller?

Elon Musk og xAI-teamet lanserte offisielt den nyeste versjonen av Grok, Grok3, under en direktesending. Før dette arrangementet økte en betydelig mengde relatert informasjon, kombinert med Musks døgnåpne reklame, de globale forventningene til Grok3 til enestående nivåer. For bare en uke siden uttalte Musk selvsikkert under en direktesending mens han kommenterte DeepSeek R1: «xAI er i ferd med å lansere en bedre AI-modell.» Fra dataene som ble presentert direkte, har Grok3 angivelig overgått alle nåværende vanlige modeller i benchmarks for matematikk, naturfag og programmering, og Musk hevdet til og med at Grok3 vil bli brukt til beregningsoppgaver relatert til SpaceXs Mars-oppdrag, og spådde «gjennombrudd på Nobelprisnivå innen tre år.» Dette er imidlertid foreløpig bare Musks påstander. Etter lanseringen testet jeg den nyeste betaversjonen av Grok3 og stilte det klassiske lurespørsmålet for store modeller: «Hvilken er større, 9.11 eller 9.9?» Dessverre, uten noen kvalifikatorer eller markeringer, kunne den såkalte smarteste Grok3 fortsatt ikke svare riktig på dette spørsmålet. Grok3 klarte ikke å identifisere betydningen av spørsmålet nøyaktig.

 

Denne testen fikk raskt betydelig oppmerksomhet fra mange venner, og tilfeldigvis har diverse lignende tester i utlandet vist at Grok3 sliter med grunnleggende fysikk-/matematikkspørsmål som «Hvilken ball faller først fra Det skjeve tårnet i Pisa?» Dermed har den blitt humoristisk stemplet som «et geni som ikke er villig til å svare på enkle spørsmål».

640

Grok3 er bra, men det er ikke bedre enn R1 eller O1-Pro.

Grok3 opplevde «feil» på mange vanlige kunnskapstester i praksis. Under lanseringsarrangementet for xAI demonstrerte Musk hvordan han brukte Grok3 til å analysere karakterklassene og effektene fra spillet Path of Exile 2, som han hevdet å spille ofte, men de fleste svarene fra Grok3 var feil. Musk la ikke merke til dette åpenbare problemet under direktesendingen.

 

Denne feilen ga ikke bare ytterligere bevis for at utenlandske nettbrukere kunne håne Musk for å ha «funnet en erstatning» innen spilling, men reiste også betydelig bekymring angående Grok3s pålitelighet i praktiske applikasjoner. For et slikt «geni», uavhengig av dets faktiske evner, er det fortsatt tvilsomt om dets pålitelighet i ekstremt komplekse applikasjonsscenarier, som Mars-utforskningsoppgaver.

 

For tiden peker mange testere som fikk tilgang til Grok3 for uker siden, og de som nettopp testet modellens funksjoner i noen timer i går, alle på en felles konklusjon: «Grok3 er bra, men det er ikke bedre enn R1 eller o1-Pro.»

640 (1)

Et kritisk perspektiv på «Å forstyrre Nvidia»

I den offisielt presenterte PowerPoint-presentasjonen under utgivelsen ble Grok3 vist å ligge «langt foran» i Chatbot-arenaen, men denne brukte smart grafiske teknikker: den vertikale aksen på resultattavlen viste bare resultater i poengsummen 1400–1300, noe som gjorde at den opprinnelige forskjellen på 1 % i testresultatene virket usedvanlig signifikant i denne presentasjonen.

640

I faktiske modellresultater ligger Grok3 bare 1–2 % foran DeepSeek R1 og GPT-4.0, noe som samsvarer med mange brukeres erfaringer i praktiske tester som ikke fant noen merkbar forskjell. Grok3 overgår bare etterfølgerne med 1–2 %.

640

Selv om Grok3 har scoret høyere enn alle modeller som for tiden er offentlig testet, er det mange som ikke tar dette på alvor: tross alt har xAI tidligere blitt kritisert for «poengsummanipulering» i Grok2-æraen. Etter hvert som resultattavlen straffet stilen med svarlengde, sank poengsummene kraftig, noe som førte til at bransjefolk ofte kritiserte fenomenet «høy poengsum, men lav evne».

 

Enten det er gjennom «manipulering» av ledertavler eller designtriks i illustrasjoner, avslører de xAI og Musks besettelse av ideen om å «lede an» innen modellegenskaper. Musk betalte en høy pris for disse marginene: under lanseringen skrøt han av å ha brukt 200 000 H100 GPU-er (og hevdet «over 100 000» under direktesendingen) og oppnådd en total treningstid på 200 millioner timer. Dette fikk noen til å tro at det representerer en annen betydelig velsignelse for GPU-industrien og anse DeepSeeks innvirkning på sektoren som «tåpelig». Det er verdt å merke seg at noen mener at ren beregningskraft vil være fremtiden for modelltrening.

 

Noen nettbrukere sammenlignet imidlertid forbruket til 2000 H800 GPU-er over to måneder for å produsere DeepSeek V3, og beregnet at Grok3s faktiske treningsstrømforbruk er 263 ganger høyere enn V3s. Forskjellen mellom DeepSeek V3, som scoret 1402 poeng, og Grok3 er rett under 100 poeng. Etter publiseringen av disse dataene innså mange raskt at bak Grok3s tittel som "verdens sterkeste" ligger en klar marginal nytteeffekt – logikken om at større modeller genererer sterkere ytelse har begynt å vise avtagende avkastning.

640 (2)

Selv med «høy poengsum, men lav evne», hadde Grok2 enorme mengder førstepartsdata av høy kvalitet fra X (Twitter)-plattformen for å støtte bruken. I treningen av Grok3 møtte imidlertid xAI naturlig nok det «taket» som OpenAI for tiden står overfor – mangelen på førsteklasses treningsdata avslører raskt den marginale nytten av modellens muligheter.

 

Utviklerne av Grok3 og Musk er sannsynligvis de første til å forstå og identifisere disse faktaene i dybden, og det er derfor Musk gjentatte ganger har nevnt på sosiale medier at versjonen brukerne opplever nå er «fortsatt bare betaversjonen» og at «fullversjonen vil bli utgitt i løpet av de kommende månedene». Musk har tatt på seg rollen som Grok3s produktsjef, og foreslår at brukerne gir tilbakemeldinger på ulike problemer som oppstår i kommentarfeltet. Han er kanskje den mest fulgte produktsjefen på jorden.

 

Likevel, i løpet av en dag, skapte Grok3s ytelse utvilsomt alarm hos de som håpet å stole på «massiv beregningsmuskel» for å trene sterkere store modeller: basert på offentlig tilgjengelig Microsoft-informasjon har OpenAIs GPT-4 en parameterstørrelse på 1,8 billioner parametere, over ti ganger så stor som GPT-3. Rykter antyder at parameterstørrelsen til GPT-4.5 kan være enda større.

 

Etter hvert som modellparameterstørrelsene øker, skyter også opplæringskostnadene i været. Med Grok3s tilstedeværelse må konkurrenter som GPT-4.5 og andre som ønsker å fortsette å «brenne penger» for å oppnå bedre modellytelse gjennom parameterstørrelse, vurdere taket som nå er tydelig i sikte og tenke over hvordan de kan overvinne det. I dette øyeblikket uttalte Ilya Sutskever, tidligere sjefforsker ved OpenAI, tidligere i desember i fjor: «Foropplæringen vi er kjent med vil ta slutt», noe som har dukket opp igjen i diskusjoner, noe som har ført til forsøk på å finne den sanne veien for opplæring av store modeller.

640 (3)

Ilyas synspunkt har slått alarm i bransjen. Han forutså nøyaktig den forestående uttømmingen av tilgjengelige nye data, som ville føre til en situasjon der ytelsen ikke kan fortsette å forbedres gjennom datainnsamling, og sammenlignet det med uttømmingen av fossilt brensel. Han indikerte at «i likhet med olje er menneskeskapt innhold på internett en begrenset ressurs». I Sutskevers spådommer vil neste generasjon modeller, etter før-trening, ha «ekte autonomi» og resonneringsevner «tilsvarende den menneskelige hjernen».

 

I motsetning til dagens forhåndstrente modeller som primært er avhengige av innholdsmatching (basert på innholdet i modellen som er lært tidligere), vil fremtidige AI-systemer kunne lære og etablere metoder for å løse problemer på en måte som ligner på den menneskelige hjernens "tenkning". Et menneske kan oppnå grunnleggende ferdigheter i et emne med bare grunnleggende faglitteratur, mens en stor AI-modell krever millioner av datapunkter for å oppnå bare den mest grunnleggende effektiviteten på inngangsnivå. Selv når ordlyden endres litt, kan det hende at disse grunnleggende spørsmålene ikke forstås riktig, noe som illustrerer at modellen ikke har blitt virkelig forbedret i intelligens: de grunnleggende, men uløselige spørsmålene som er nevnt i begynnelsen av artikkelen, representerer et tydelig eksempel på dette fenomenet.

微信图片_20240614024031.jpg1

Konklusjon

Men utover rå makt, hvis Grok3 faktisk lykkes med å avsløre for bransjen at «forhåndstrente modeller nærmer seg slutten», vil det ha betydelige implikasjoner for feltet.

Kanskje etter at vanviddet rundt Grok3 gradvis avtar, vil vi være vitne til flere tilfeller som Fei-Fei Lis eksempel på «tuning av høyytelsesmodeller på et spesifikt datasett for bare $50», og til slutt oppdage den sanne veien til AGI.

Finn ELV-kabelløsning

Kontrollkabler

For BMS, BUS, industri og instrumentkabel.

Strukturert kabelsystem

Nettverk og data, fiberoptisk kabel, patchledning, moduler, frontplate

Gjennomgang av utstillinger og arrangementer i 2024

16.–18. april 2024 Midtøsten-energi i Dubai

16.–18. april 2024 Securika i Moskva

9. mai 2024 LANSERING AV NYE PRODUKTER OG TEKNOLOGIER i Shanghai

22.–25. oktober 2024 SIKKERHET KINA i Beijing

19.–20. november 2024 CONNECTED WORLD KSA


Publisert: 19. feb. 2025