Testing av "smarteste i verden" GROK3

Aipu Waton Group (1)

Introduksjon

Tror du GROK3 vil være "endepunktet" for forhåndsutdannede modeller?

Elon Musk og XAI -teamet lanserte offisielt den siste versjonen av GROK, GROK3, under en livestream. Før denne hendelsen økte en betydelig mengde relatert informasjon, kombinert med Musks 24/7 salgsfremmende hype, globale forventninger til GROK3 til enestående nivåer. For bare en uke siden uttalte Musk selvsagt under en livestream mens han kommenterte DeepSeek R1, "Xai er i ferd med å lansere en bedre AI -modell." Fra dataene som ble presentert live, har GROK3 angivelig overgått alle nåværende mainstream -modeller i benchmarks for matematikk, vitenskap og programmering, med Musk til og med hevdet at GROK3 vil bli brukt til beregningsoppgaver relatert til SpaceXs Mars -oppdrag, og forutsi "gjennombrudd på nobelprisnivået i løpet av tre år." Imidlertid er dette foreløpig bare Musks påstander. Etter lanseringen testet jeg den siste beta -versjonen av GROK3 og stilte det klassiske triks -spørsmålet for store modeller: "Som er større, 9.11 eller 9.9?" Dessverre, uten kvalifiseringskamp eller markeringer, kunne den såkalte smarteste GROK3 fremdeles ikke svare på dette spørsmålet riktig. GROK3 klarte ikke nøyaktig å identifisere betydningen av spørsmålet.

 

Denne testen trakk raskt betydelig oppmerksomhet fra mange venner, og tilfeldigvis har forskjellige lignende tester utenlands vist at GROK3 sliter med grunnleggende fysikk/matematikkspørsmål som "Hvilken ball faller først fra det lente tårnet til Pisa?" Dermed har det blitt humoristisk merket som "et geni som ikke er villig til å svare på enkle spørsmål."

640

GROK3 er bra, men det er ikke bedre enn R1 eller O1-Pro.

GROK3 opplevde "feil" på mange vanlige kunnskapstester i praksis. Under XAI -lanseringsarrangementet demonstrerte Musk å bruke GROK3 for å analysere karakterklassene og effektene fra spillveien til eksil 2, som han hevdet å spille ofte, men de fleste av svarene som ble gitt av GROK3 var feil. Musk under livestream la ikke merke til dette åpenbare problemet.

 

Denne feilen ga ikke bare ytterligere bevis for utenlandske netizens for å spotte Musk for å "finne en erstatning" i spill, men vakte også betydelige bekymringer angående GROK3s pålitelighet i praktiske anvendelser. For et slikt "geni," uavhengig av dets faktiske evner, forblir påliteligheten i ekstremt komplekse applikasjonsscenarier, for eksempel Mars Exploration Tasks, i tvil.

 

For øyeblikket peker mange testere som fikk tilgang til GROK3 uker siden, og de som nettopp testet modellfunksjonene i noen timer i går, alt sammen på en felles konklusjon: "GROK3 er bra, men det er ikke bedre enn R1 eller O1-Pro."

640 (1)

Et kritisk perspektiv på "Disrupting Nvidia"

I den offisielt presenterte PPT under utgivelsen ble GROK3 vist å være "langt foran" på chatbot-arenaen, men denne smart brukte grafiske teknikker: den vertikale aksen på topplisten bare oppførte resultater i denne presentasjonen.

640

I faktiske resultatresultater er GROK3 bare 1-2% foran DeepSeek R1 og GPT-4.0, noe som tilsvarer mange brukernes opplevelser i praktiske tester som fant "ingen merkbar forskjell." GROK3 overstiger bare etterfølgere med 1%-2%.

640

Selv om GROK3 har scoret høyere enn alle for øyeblikket offentlig testede modeller, tar mange ikke dette på alvor: tross alt har Xai tidligere blitt kritisert for "score manipulasjon" i GROK2 -tiden. Da topplisten straffet svarlengde -stilen, reduserte scoreene kraftig, og førte industriinnsidere til ofte å kritisere fenomenet "høy scoring, men lav evne."

 

Enten gjennom topplisten "manipulasjon" eller designtriks i illustrasjoner, avslører de Xai og Musks besettelse av forestillingen om å "lede pakken" i modellfunksjoner. Musk betalte en bratt pris for disse marginene: Under lanseringen skrøt han av å bruke 200 000 H100 GPU -er (påstått "over 100 000" under livestreamet) og oppnådde en total treningstid på 200 millioner timer. Dette førte til at noen trodde det representerer en annen betydelig velsignelse for GPU -industrien og anså DeepSeeks innvirkning på sektoren som "tåpelig." Spesielt tror noen at ren beregningskraft vil være fremtiden for modelltrening.

 

Noen netizens sammenlignet imidlertid forbruket av 2000 H800 GPUer over to måneder for å produsere DeepSeek V3, og beregnet at GROK3s faktiske treningskonsum for trening er 263 ganger den for V3. Gapet mellom DeepSeek V3, som scoret 1402 poeng, og GROK3 er i underkant av 100 poeng. Etter utgivelsen av disse dataene, innså mange raskt at bak GROK3s tittel som "verdens sterkeste" ligger en klar marginal nytteffekt - logikken til større modeller som genererer sterkere ytelse har begynt å vise reduserende avkastning.

640 (2)

Selv med "høy scoring, men lav evne", hadde GROK2 enorme mengder av høykvalitets førstepartsdata fra X (Twitter) -plattformen for å støtte bruken. I opplæringen av GROK3 møtte imidlertid Xai naturlig "taket" som Openai for tiden står overfor - mangelen på premium treningsdata raskt utsetter den marginale nytten av modellens evner.

 

Utviklerne av GROK3 og Musk er sannsynligvis de første til å forstå og identifisere disse fakta dypt, og det er grunnen til at Musk kontinuerlig har nevnt på sosiale medier som versjonen brukere opplever nå er "fremdeles bare beta" og at "fullversjonen vil bli utgitt i løpet av de kommende månedene." Musk har tatt på seg rollen som GROK3s produktsjef, og antyder at brukere gir tilbakemelding på forskjellige problemer som er oppstått i kommentarfeltet.

 

Likevel, i løpet av en dag, økte GROK3s ytelse utvilsomt alarmer for de som håper å stole på "massiv beregningsmuskel" for å trene sterkere store modeller: basert på offentlig tilgjengelig Microsoft-informasjon, har Openais GPT-4 en parameterstørrelse på 1,8 billioner parametere, over ti ganger den av GPT-3. Ryktene antyder at parameterstørrelsen til GPT-4.5 kan være enda større.

 

Når modellparameterstørrelsene svever, øker treningskostnadene også. Med GROK3s tilstedeværelse, må utfordrere som GPT-4.5 og andre som ønsker å fortsette å "brenne penger" for å oppnå bedre modellytelse gjennom parameterstørrelse, vurdere taket som nå er tydelig i sikte og overveie hvordan man kan overvinne det. I dette øyeblikket hadde Ilya Sutskever, tidligere sjefforsker i Openai, tidligere uttalt i desember i fjor, "den pre-treningen vi er kjent med vil komme til slutt," som har dukket opp igjen i diskusjoner, noe som førte til innsats for å finne den sanne veien for å trene store modeller.

640 (3)

Ilyas synspunkt har gitt alarmen i bransjen. Han forutså nøyaktig den overhengende utmattelsen av tilgjengelige nye data, noe som fører til en situasjon der ytelsen ikke kan fortsette å bli forbedret gjennom datainnsamling, og sammenligner den med utmattelse av fossilt brensel. Han indikerte at "som olje, menneskelig generert innhold på internett er en begrenset ressurs." I Sutskever's spådommer vil neste generasjon modeller, etter pre-trening, ha "ekte autonomi" og resonnementfunksjoner "som ligner på den menneskelige hjernen."

 

I motsetning til dagens forhåndsutdannede modeller som først og fremst er avhengige av innholdsmatching (basert på det tidligere lærte modellinnholdet), vil fremtidige AI-systemer kunne lære og etablere metodologier for å løse problemer på en måte som tilsvarer "tankegangen til den menneskelige hjernen. Et menneske kan oppnå grunnleggende ferdigheter i et emne med bare grunnleggende profesjonell litteratur, mens en AI-stor modell krever millioner av datapunkter for å oppnå bare den mest grunnleggende effekten på inngangsnivå. Selv når ordlyden endres litt, kan det hende at disse grunnleggende spørsmålene ikke blir riktig forstått, noe som illustrerer at modellen ikke virkelig har forbedret seg i intelligens: de grunnleggende, men likevel uløselige spørsmålene som er nevnt i begynnelsen av artikkelen, representerer et klart eksempel på dette fenomenet.

微信图片 _20240614024031.jpg1

Konklusjon

Imidlertid, Beyond Brute Force, hvis GROK3 virkelig lykkes med å avsløre for industrien at "forhåndsutdannede modeller nærmer seg deres slutt," vil det føre til betydelige implikasjoner for feltet.

Kanskje etter at vanviddet rundt GROK3 gradvis avtar, vil vi være vitne til flere tilfeller som Fei-Fei Lis eksempel på "innstilling av høyytelsesmodeller på et spesifikt datasett for bare $ 50," til slutt å oppdage den sanne veien til AGI.

Finn ELV -kabelløsning

Kontrollkabler

For BMS, buss, industriell, instrumenteringskabel.

Strukturert kablingssystem

Nettverk og data, fiberoptisk kabel, lappledning, moduler, frontplate

2024 Exhibitions & Events Review

16.-18. 2024 Midt-East-energi i Dubai

16.-18. 2024 Securika i Moskva

9. mai 2024 Nye produkter og teknologiske lanseringsarrangement i Shanghai

22.-25. 2024 Sikkerhet Kina i Beijing

19. til 20. november 2024 tilkoblet verden KSA


Post Time: Feb-19-2025