Hva slags brikke trenger ChatGPT? - Industrinyheter

Nylig har ChatGPT blitt det nye hot spot for AI, med Microsoft og Google i Silicon Valley som investerer tungt i slik teknologi (Microsoft har en eierandel på 10 milliarder dollar i OpenAI, selskapet bak ChatGPT, og Google har nylig sluppet sin egen BARD-modell). mens internettteknologiselskaper i Kina, representert ved Baidu og andre, også har indikert at de utvikler slik teknologi og vil gå live i nær fremtid. I Kina har Baidu og andre Internett-teknologiselskaper også indikert at de utvikler slike teknologier og vil gå live i nær fremtid.

De generative modellene representert av ChatGPT har et fellestrekk, det vil si at de bruker massive data for forhåndstrening, og er ofte sammenkoblet med en kraftigere språkmodell. Språkmodellens hovedfunksjon er å lære av det massive eksisterende korpuset, og etter læring kan den forstå brukerens språklige instruksjoner, eller dessuten generere relevant tekstutgang i henhold til brukerens instruksjoner.

Generative modeller kan grovt klassifiseres i to kategorier, den ene er språkbaserte generative modeller og den andre er bildebaserte generative modeller. De språkbaserte generative modellene er representert av ChatGPT, hvis språkmodell ikke bare kan lære å forstå betydningen av brukerkommandoer (f.eks. "skriv et dikt, i stil med Li Bai"), men også generere relevant tekst basert på bruker kommandoer etter trening med massive data (i eksemplet ovenfor, å skrive et dikt i stil med Li Bai). dikt). Dette betyr at ChatGPT må ha en stor språkmodell (LLM) som forstår brukerens språk og kan produsere høykvalitets språkutdata - for eksempel må modellen forstå hvordan man genererer dikt, hvordan man genererer dikt i stilen til Li Bai , og så videre. Dette betyr også at store språkmodeller i språkbasert generativ AI krever et veldig stort antall parametere for å kunne utføre denne typen kompleks læring og huske så mye informasjon. ChatGPT har for eksempel 175 milliarder parametere (700 GB lagringsplass hvis standard flytende kommatall brukes), noe som viser hvor "stor" språkmodellen er.

En annen klasse generative modeller er bildegenereringsmodellen representert av Diffusion, typisk Dalle fra OpenAI, ImaGen fra Google, og for tiden den mest populære Stable Diffusion fra Runway AI. Disse bildelignende generasjonsmodellene bruker også en språkmodell for å forstå brukerens språklige kommandoer og genererer deretter bilder av høy kvalitet basert på disse kommandoene. I motsetning til språkbaserte generative modeller, bruker språkmodellen som brukes her hovedsakelig språk for å forstå brukerinndata uten å generere språkutdata, så antallet parametere kan være ganske lite (i størrelsesorden noen hundre millioner), mens antallet parametere for bildebaserte diffusjonsmodeller er relativt små, i størrelsesorden noen få milliarder totalt sett, men beregningsinnsatsen er ikke liten fordi oppløsningen til de genererte bildene eller videoene kan være svært høy.

Generative modeller kan produsere enestående høykvalitetsoutput gjennom massiv dataopplæring, og det finnes allerede en rekke klare applikasjonsmarkeder, inkludert søk, dialogroboter, bildegenerering og redigering osv. Flere applikasjoner forventes i fremtiden, noe som også setter etterspørsel etter relaterte sjetonger.

Behovet for brikker for å generere klassemodeller

Som nevnt tidligere, representerer ChatGPT en generativ modell som må lære av store mengder treningsdata for å oppnå høykvalitets generative resultater. For å støtte effektiv opplæring og slutning, har generative modeller sine egne krav til relaterte sjetonger.

Den første er behovet for distribuert beregning; antall parametere for språkgenerative modeller som ChatGPT er i hundrevis av milliarder, og det er nesten umulig å bruke enkeltdatamaskinopplæring og inferens, men mye distribuert beregning må brukes. I distribuert databehandling har datasammenkoblingsbåndbredden mellom maskiner og databrikken for slik distribuert databehandling (som RDMA) stor etterspørsel, fordi flaskehalsen til oppgaven ofte ikke er i databehandling, men i datasammenkoblingen ovenfor, spesielt i denne typen distribuert databehandling i stor skala, har brikken for effektiv støtte for distribuert databehandling blitt mer kritisk.

Neste er minnekapasiteten og båndbredden. Selv om distribuert trening og inferens er uunngåelig for språkbaserte generative modeller, vil det lokale minnet og båndbredden til hver brikke i stor grad bestemme utførelseseffektiviteten til en enkelt brikke (fordi hver brikkes minne brukes til det ytterste). For bildebaserte generative modeller er det mulig å legge modellene (rundt 20 GB) alle i minnet til brikken, men ettersom bildebaserte generative modeller utvikler seg videre i fremtiden, er det sannsynlig at minnekravene også vil øke ytterligere . Fra dette perspektivet vil minneteknologi med ultrahøy båndbredde representert av HBM bli det uunngåelige valget for relaterte akseleratorbrikker, mens modellene i generativ klasse også vil akselerere HBM-minne for å øke kapasiteten og båndbredden ytterligere. I tillegg til HBM, vil nye lagringsteknologier som CXL kombinert med programvareoptimaliseringer også ha potensial til å øke kapasiteten og ytelsen til lokal lagring i slike applikasjoner og antas å få mer industriell adopsjon fra fremveksten av den generative klassemodellen.

Til slutt, beregning, både språkbaserte og bildebaserte generative klassemodeller har en stor beregningsmessig etterspørsel, og bildebaserte generative modeller kan ha en mye høyere etterspørsel etter aritmetisk kraft ettersom de genererer høyere og høyere oppløsninger og beveger seg mot videoapplikasjoner - nåværende Vanlige bildegenererende modeller har et beregningsvolum på rundt 20 TFlops, og når det gjelder høy oppløsning og bilder, er 100-1000 TFLOPS av aritmetisk etterspørsel sannsynligvis normen.

For å oppsummere, tror vi at kravene til generative modeller for brikker inkluderer distribuert databehandling, lagring og beregning, som kan sies å involvere alle aspekter av brikkedesign, og enda viktigere, hvordan kombinere alle disse kravene sammen på en rimelig måte for å sikre at et enkelt aspekt ikke blir en flaskehals, som også vil bli et systemteknisk problem for chipdesign.

GPU og den nye AI-brikken, hvem har en bedre sjanse

Generative modeller har en ny etterspørsel etter chips. Hvem har en bedre sjanse til å fange denne nye etterspørselen og markedet for GPUer (representert av Nvidia og AMD) og nye AI-brikker (representert av Habana, GraphCore)?

For det første, fra perspektivet til språkbaserte generative modeller, er GPU-leverandører som for tiden har en komplett layout i denne typen økologi mer fordelaktige på grunn av det enorme antallet deltakere og behovet for god distribuert databehandlingsstøtte. Dette er et systemteknisk problem som krever en komplett programvare- og maskinvareløsning, og i denne forbindelse har Nvidia kombinert sine GPU-er for å lansere Triton-løsningen, som støtter distribuert opplæring og distribuert slutning, slik at en modell kan deles inn i flere deler og behandles. på forskjellige GPUer, og løser dermed problemet med for mange parametere som ikke kan håndteres av hovedminnet til en GPU. Dette løser problemet med for mange parametere for én GPUs hovedminne. Enten du bruker Triton direkte eller gjør videreutvikling på basis av Triton i fremtiden, er det mer praktisk å ha en komplett økologisk GPU. Fra et beregningsmessig synspunkt, siden hovedberegningen til den språkbaserte generasjonsmodellen er matriseberegning, som er styrken til GPU, har ikke den nye AI-brikken en åpenbar fordel i forhold til GPU fra dette synspunktet.

Fra synspunktet til bildebaserte generasjonsmodeller er antallet parametere for slike modeller også stort, men en til to størrelsesordener mindre enn de språkbaserte generasjonsmodellene, i tillegg til beregningen vil fortsatt bli brukt i en stor antall konvolusjonsberegninger, så slutningsapplikasjoner, hvis du kan gjøre en veldig god optimalisering, kan AI-brikker ha noen muligheter. Her inkluderer optimeringen en stor mengde lagring på brikken for å imøtekomme parametere og mellomliggende beregningsresultater, for konvolusjon og effektiv støtte for matriseoperasjoner.

Generelt er den nåværende generasjonen AI-brikker designet for å målrette mot mindre modeller (antall parametere på milliardnivå, beregning på 1TOPS-nivå), mens etterspørselen etter generative modeller fortsatt er relativt større enn det opprinnelige designmålet. GPUer er designet for å være mer fleksible på bekostning av effektivitet, mens AI-brikker er designet for å gjøre det motsatte, for å forfølge effektiviteten til målapplikasjonen. Derfor tror vi at GPU-er fortsatt vil dominere slik generativ modellakselerasjon i løpet av de neste årene eller to, men ettersom generative modelldesigner blir mer stabile og AI-brikkedesign har tid til å ta igjen generative modelliterasjoner, har AI-brikker muligheten til å overgå GPUer i det generative modellrommet fra et effektivitetsperspektiv.

ND2N9T12-full-automatic5