GetUSB.info Logo

Berichten met een Label ‘AI-infrastructuur’

Waarom AI rekenkracht dichter bij opslag brengt

Diagram uit de serie over AI-geheugeninfrastructuur met NAND, HBM, SCM, High Bandwidth Flash, DRAM-beperkingen, harde schijven en rekenkracht die dichter bij opslag komt

Als je de eerdere delen in deze serie hebt gevolgd, heb je waarschijnlijk gemerkt dat er langzaam een patroon zichtbaar wordt.

In het eerste artikel bespraken we hoe NAND-flash niet verdwijnt, maar juist onderdeel wordt van een veel grotere AI-geheugenhiërarchie. Daarna keken we naar High Bandwidth Memory (HBM) en waarom moderne GPU’s afhankelijk zijn van data die fysiek dichter bij de processor staat. Vervolgens gingen we verder met Storage Class Memory, High Bandwidth Flash, de beperkingen van DRAM-schaalbaarheid en uiteindelijk waarom zelfs traditionele harde schijven nog steeds belangrijk blijven, omdat AI-infrastructuur op een schaal werkt die de meeste mensen behoorlijk onderschatten.

Op het eerste gezicht lijken dat misschien losse onderwerpen.

Dat zijn ze niet.

Ze zijn allemaal symptomen van dezelfde onderliggende druk: AI-systemen worstelen niet langer vooral met rekenkracht. Ze worstelen met hoe efficiënt ze data kunnen verplaatsen.

Die verschuiving verandert bijna alles aan de manier waarop infrastructuur wordt ontworpen.

Decennialang volgde computing een vrij stabiel model. Opslag bewaarde de data, geheugen zette die klaar en processors haalden op wat ze nodig hadden. Naarmate processors sneller werden, probeerde het systeem ze simpelweg efficiënter te voeden met betere bussen, grotere caches en snellere geheugentechnologieën.

AI heeft de schaal van het probleem veranderd.

Moderne GPU-clusters kunnen informatie met zo’n enorme snelheid verwerken dat het verplaatsen van data binnen het systeem zelf een van de grootste knelpunten in de hele architectuur is geworden. In sommige omgevingen is de processor zelf niet langer het trage onderdeel. De vertraging ontstaat doordat de juiste data niet snel en consistent genoeg bij de processor komt om die volledig bezig te houden.

Dat besef duwt de industrie stilletjes in een nieuwe richting.

In plaats van steeds grotere hoeveelheden data voortdurend heen en weer door het systeem te sturen, begint AI-infrastructuur delen van de rekenkracht dichter te plaatsen bij waar de data al staat.

En zodra je begrijpt waarom dat gebeurt, beginnen veel van de eerdere artikelen in deze serie veel duidelijker in elkaar te passen.

AI begint tegen een muur van dataverplaatsing aan te lopen

Een van de belangrijkste ideeën uit het eerdere HBM-artikel was dat moderne AI-systemen vaak niet vertragen omdat de processor te weinig rekenvermogen heeft, maar omdat het systeem de data niet snel genoeg kan aanleveren om de processor bezig te houden.

Dat probleem wordt veel serieuzer zodra AI-workloads zich uitbreiden over volledige racks en clusters.

Een moderne AI-accelerator kan verbazingwekkende hoeveelheden informatie parallel verwerken. Het probleem is dat datasets niet langer klein genoeg zijn om volledig binnen de snelste geheugenlagen te passen. Zelfs met HBM en grote hoeveelheden DRAM moeten enorme datavolumes nog steeds reizen via interconnects, bussen, fabrics, opslaglagen en netwerkinfrastructuur.

Die beweging heeft een prijs.

Dat zie je terug als latency, maar dat is slechts een deel van het verhaal. Je ziet het ook terug als stroomverbruik, warmte, koelbehoefte, congestie, synchronisatievertragingen en stilstaande rekencycli. Zoals we in het DRAM-deel bespraken, worden zelfs kleine vertragingen verrassend duur zodra duizenden GPU’s tegelijk aan het werk zijn. Een korte pauze vermenigvuldigd over een groot AI-cluster kan een enorme hoeveelheid verloren benutting betekenen.

Dat verandert de technische prioriteiten.

Jarenlang werd infrastructuur grotendeels ontworpen rond het maximaliseren van rekenprestaties. AI-systemen dwingen engineers nu om minstens zo zwaar na te denken over datalokaliteit, dus waar informatie fysiek staat ten opzichte van de processor die die informatie probeert te gebruiken.

Simpel gezegd: afstand doet er nu veel meer toe dan vroeger.

GPU’s werden zo snel dat de rest van het systeem begon achter te lopen

Een van de vreemde dingen aan AI-infrastructuur is dat vooruitgang op één gebied vaak zwakke plekken ergens anders blootlegt.

Naarmate GPU’s sneller werden, werd geheugenbandbreedte het knelpunt. Dat leidde tot HBM. Toen de capaciteitsbeperkingen van HBM duidelijker werden, begon de industrie tussenlagen zoals Storage Class Memory te introduceren. Toen DRAM-schaalbaarheid duurder en fysiek lastiger werd, begonnen systemen zwaarder op NAND te leunen, terwijl tegelijk concepten zoals High Bandwidth Flash werden onderzocht.

En terwijl AI-datasets bleven groeien richting petabytes en exabytes, bleven harde schijven stilletjes essentieel, omdat de economie van het opslaan van zoveel informatie simpelweg niet op een andere manier kon werken.

Elk artikel in deze serie wees eigenlijk vanuit een andere hoek naar dezelfde conclusie.

De oude aanname dat rekenkracht hier zit en opslag daar, begint uit elkaar te vallen. De reden is vrij eenvoudig: GPU’s kunnen data tegenwoordig sneller verwerken dan traditionele architecturen die data comfortabel kunnen aanleveren.

Dat zorgt voor een situatie waarin enorme hoeveelheden systeemactiviteit simpelweg worden besteed aan het vervoeren van informatie van de ene plek naar de andere. In praktische termen beginnen sommige AI-omgevingen minder op pure rekenproblemen te lijken en meer op logistieke problemen.

De industrie begon een andere vraag te stellen

Lange tijd richtte innovatie in opslag zich vooral op het sneller maken van opslagapparaten. Snellere SSD’s, snellere interfaces, snellere NAND en snellere controllers deden er allemaal toe, en dat doen ze vandaag nog steeds.

Maar AI-workloads begonnen een dieper probleem daaronder bloot te leggen.

Op een gegeven moment begonnen engineers te beseffen dat het probleem niet altijd de snelheid van het opslagapparaat zelf was. Het probleem was het herhaaldelijk heen en weer verplaatsen van enorme hoeveelheden data door het hele systeem.

Dat subtiele onderscheid is belangrijk, want zodra het probleem dataverplaatsing wordt in plaats van eenvoudige opslagsnelheid, begint de oplossing ook te veranderen.

In plaats van eindeloos te vragen hoe opslag sneller kan worden gemaakt, begon de industrie te vragen hoe ver de data überhaupt moet reizen.

Die vraag beïnvloedt nu bijna elk onderdeel van modern AI-infrastructuurontwerp.

Rekenkracht dichter brengen bij waar de data al staat

Hier begint de architectuur te verschuiven.

In plaats van opslag te behandelen als een volledig passieve laag die alleen maar op verzoeken wacht, beginnen nieuwere systemen bepaalde taken dichter bij de data zelf uit te voeren. Niet per se volledige GPU-verwerking, maar lokale bewerkingen die onnodige verplaatsing door de rest van het systeem verminderen.

Sommige systemen voeren nu filtering, indexering, zoekbewerkingen, compressie, voorbereiding voor ophalen en dataorganisatie dichter bij de opslaglaag uit, voordat de informatie ooit de primaire rekenmachines bereikt.

Het doel is niet om GPU’s te elimineren of snel geheugen te vervangen. Het doel is verspilling verminderen.

Als het systeem kan voorkomen dat enorme hoeveelheden onnodige data door de infrastructuur worden vervoerd, wordt het hele platform efficiënter. Dit is een van de redenen waarom de grens tussen rekenkracht en opslag begint te vervagen.

Opslag gedraagt zich niet langer als een volledig inactieve bestemming onderaan de hiërarchie. Het wordt actiever betrokken bij hoe data wordt voorbereid, klaargezet, gefilterd en stroomopwaarts wordt aangeleverd.

Als je terugdenkt aan het eerdere artikel over High Bandwidth Flash, is deze richting heel logisch. Dat artikel liet zien hoe NAND zelf richting meer geheugengedrag werd geduwd. Dit artikel trekt hetzelfde idee nog een stap verder door te laten zien hoe de omliggende architectuur zich ook aanpast rond de kosten van dataverplaatsing.

De magazijnanalogie begint er anders uit te zien

De magazijnanalogie die we in deze serie hebben gebruikt, werkt hier nog steeds, maar het magazijn zelf is gaan veranderen omdat de workload binnen dat magazijn is veranderd.

In de eerdere delen was de indeling vrij overzichtelijk. HBM stelde het laadperron voor waar de volgende pallet al klaarstond naast de werknemers. DRAM was de actieve werkvloer waar het directe sorteren en verwerken plaatsvond. Storage Class Memory werd de voorbereidingsruimte net achter het laadperron, terwijl NAND de hoofdstellingen verder achterin het magazijn vertegenwoordigde. Harde schijven verzorgden de diepere bulkopslag waar langetermijnvoorraad stond, omdat capaciteit belangrijker was dan directe toegangssnelheid.

Dat model blijft in grote lijnen overeind, maar AI-systemen beginnen inefficiënties bloot te leggen in hoeveel beweging er tussen die gebieden plaatsvindt.

Stel je een magazijn voor waar werknemers meer tijd kwijt zijn aan het heen en weer rijden met heftrucks door het gebouw dan aan het daadwerkelijk verwerken van voorraad. Eerst reageert het management door snellere heftrucks te kopen, de gangpaden breder te maken en de laadperrons te verbeteren. Die upgrades helpen een tijdje, maar uiteindelijk bereikt de operatie een punt waarop het transport zelf het probleem wordt. De vertragingen worden niet langer veroorzaakt door trage werknemers of onvoldoende apparatuur. De vertragingen komen door de enorme hoeveelheid beweging die nodig is om de workflow draaiende te houden.

Dat is steeds vaker waar grote AI-systemen tegenaan lopen.

Het probleem is niet meer alleen hoe snel data kan worden verwerkt zodra die bij de GPU aankomt. Het probleem is hoeveel infrastructuurinspanning wordt besteed aan het steeds opnieuw vervoeren van die data door het systeem.

Dus in plaats van transport eindeloos te optimaliseren, begint de indeling te veranderen. Kleine werkstations verschijnen dichter bij de stellingen zelf. Bepaalde sorteertaken gebeuren lokaal. Filtering gebeurt lokaal. Datavoorbereiding begint dichter plaats te vinden bij waar de informatie al staat, waardoor het systeem minder vaak enorme hoeveelheden materiaal heen en weer door de volledige operatie hoeft te verplaatsen.

Die verschuiving is in feite wat AI-infrastructuur op architectuurniveau begint te doen. Het doel is niet om opslag in een processor te veranderen of centrale rekenkracht volledig te elimineren. Het doel is onnodige beweging verminderen, omdat op AI-schaal zelfs kleine inefficiënties verrassend duur worden zodra ze worden vermenigvuldigd over duizenden accelerators die tegelijk draaien.

AI-infrastructuur wordt uit noodzaak meer gedistribueerd

Een van de interessantere gevolgen van deze verschuiving is dat AI-infrastructuur veel meer gedistribueerd begint te worden dan traditionele computeromgevingen ooit nodig hadden.

Oudere architecturen gingen ervan uit dat het belangrijkste werk vooral op centrale rekenlocaties zou plaatsvinden, terwijl opslag grotendeels passief bleef en gescheiden was van de verwerkingslaag. Dat model werkte decennialang redelijk goed, omdat de hoeveelheid data die door het systeem bewoog nog beheersbaar was ten opzichte van de snelheid van de processors die die data verbruikten.

AI verandert de schaal van de vergelijking volledig.

De hoeveelheid informatie die wordt verwerkt, opnieuw bekeken, klaargezet, gecachet, geïndexeerd en opgehaald is nu zo groot dat centrale verplaatsing zelf inefficiënties begint te veroorzaken. In plaats van dat rekenkracht simpelweg naar beneden reikt in opslag wanneer er iets nodig is, proberen systemen nuttige data steeds vaker dichter te positioneren bij waar die waarschijnlijk als volgende wordt gebruikt.

Dat is een deel van de reden waarom technologieën zoals vectordatabases, gedistribueerde inferentiesystemen, retrieval-lagen, lokale caching en near-data processing zoveel aandacht beginnen te krijgen. Op het eerste gezicht lijken dit misschien losse technologieën die niet-gerelateerde problemen oplossen, maar daaronder reageren ze allemaal op dezelfde druk. De industrie probeert te verminderen hoe vaak enorme hoeveelheden informatie lange afstanden door de infrastructuur moeten afleggen voordat zinvol werk kan beginnen.

Zoals je waarschijnlijk in deze serie hebt gemerkt, wordt de geheugenhiërarchie zelf geleidelijk minder rigide dan vroeger. De nette scheiding tussen “rekenkracht hier” en “opslag daar” begint zachter te worden, omdat AI-workloads systemen belonen die data fysiek dichter houden bij waar verwerking plaatsvindt.

Die trend zal waarschijnlijk doorgaan, omdat de economie van grootschalige AI steeds meer efficiëntie in verplaatsing beloont, net zo goed als ruwe rekenkracht.

De geheugenhiërarchie begint in elkaar over te lopen

Een van de stillere thema’s onder elk deel van deze serie is de geleidelijke erosie van de oude grenzen tussen geheugen, opslag en rekenkracht.

In het HBM-artikel keken we naar hoe geheugen fysiek dichter bij de processor zelf werd geplaatst, omdat zelfs traditionele DRAM-plaatsing vertragingen begon te veroorzaken die op AI-schaal groot genoeg waren om ertoe te doen. In het deel over Storage Class Memory verschoof de aandacht naar het verminderen van de scherpe overgang tussen snel geheugen en tragere persistente opslag. High Bandwidth Flash duwde NAND naar een actievere rol binnen het werkende datapad, terwijl het DRAM-artikel liet zien waarom het simpelweg eindeloos opschalen van traditioneel geheugen zowel economisch als fysiek moeilijk wordt.

Nu duwt dit artikel diezelfde ontwikkeling nog een stap verder door te laten zien hoe de architectuur zelf zich aanpast rond de kosten van dataverplaatsing.

Wat dit bijzonder interessant maakt, is dat geen van deze technologieën elkaar echt vervangt. De industrie heeft NAND niet opgegeven toen HBM arriveerde. Ze heeft DRAM niet vervangen alleen omdat Storage Class Memory verscheen. Ook harde schijven blijven diep relevant, ondanks decennia aan voorspellingen dat solid-state opslag ze volledig zou wegvagen.

In plaats daarvan wordt het systeem gelaagder, gespecialiseerder en bewuster van waar data fysiek bestaat ten opzichte van de rekenmiddelen die die data proberen te gebruiken.

Dat onderscheid is belangrijk, omdat het verandert hoe we over de toekomst van AI-infrastructuur moeten nadenken. De evolutie gebeurt niet omdat één doorbraaktechnologie plotseling alles heeft opgelost. De evolutie gebeurt omdat de workload zelf de industrie dwong om opnieuw te organiseren hoe elke laag meedoet aan het efficiënt voeden van informatie richting de rekenkant.

Als je een stap terug doet en naar het grotere geheel kijkt, wordt het patroon veel makkelijker te zien. Elke grote verschuiving die we in deze serie hebben besproken, wijst uiteindelijk naar hetzelfde doel: minder tijd, energie en infrastructuuroverhead besteden aan het simpelweg verplaatsen van informatie van de ene plek naar de andere.

De toekomst kan meer afhangen van dataplacement dan van ruwe rekenkracht

Heel lang mat de technologie-industrie vooruitgang vooral aan de hand van ruwe rekenkracht. Snellere processors, grotere accelerators, meer cores en meer parallelisme werden gezien als de belangrijkste signalen van vooruitgang, omdat betere rekenprestaties bij de meeste traditionele workloads meestal het hele systeem verbeterden.

AI dwingt een genuanceerder gesprek af.

Zodra processors snel genoeg worden, verschuift de grotere uitdaging van het kunnen uitvoeren van bewerkingen naar het consequent genoeg voeden van die processors met nuttige data om dure stilstand te voorkomen. Die subtiele verandering beïnvloedt nu bijna elke grote architectuurbeslissing binnen moderne AI-infrastructuur.

Het interessante is dat de oplossing niet langer simpelweg bestaat uit snellere opslagapparaten bouwen of grotere geheugenpools los van elkaar maken. In plaats daarvan richt de industrie zich steeds meer op waar data zich in het systeem bevindt, hoe vaak die beweegt en hoe slim de architectuur onnodig transport kan beperken voordat rekenmiddelen überhaupt betrokken raken.

Daarom is nabijheid zo’n terugkerend thema geworden in elk artikel van deze serie. HBM bracht geheugen fysiek dichter bij de GPU. Storage Class Memory verkleinde de kloof tussen geheugen en opslag. High Bandwidth Flash probeerde NAND actiever te laten deelnemen aan de geheugenhiërarchie. Gedistribueerde opslagsystemen en near-data-processing-architecturen proberen nu te verminderen hoeveel beweging er binnen de infrastructuur zelf plaatsvindt.

Al deze ontwikkelingen reageren op hetzelfde inzicht.

Op AI-schaal wordt data efficiënt verplaatsen bijna net zo belangrijk als de data verwerken zodra die aankomt.

En dat kan uiteindelijk een van de bepalende architectuurverschuivingen van het hele AI-tijdperk worden.


Serie over AI-geheugeninfrastructuur

Dit artikel maakt deel uit van onze lopende serie over hoe AI-infrastructuur de relatie tussen geheugen, opslag en rekenkracht opnieuw vormgeeft. Als je hier in de discussie instapt, bieden de eerdere delen de basis om te begrijpen waarom deze verschuiving plaatsvindt.

Deel één:
NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash

Deel twee:
Wat is High Bandwidth Memory (HBM) en waarom AI ervan afhankelijk is?

Deel drie:
Storage Class Memory uitgelegd: de ontbrekende laag tussen DRAM en NAND

Deel vier:
High Bandwidth Flash: kan NAND zich eindelijk als geheugen gedragen?

Deel vijf:
Waarom DRAM alleen niet langer kan meekomen met AI

Deel zes:
Waarom harde schijven nog steeds belangrijk zijn voor AI-infrastructuur

Deel zeven:
Waarom AI rekenkracht dichter bij opslag brengt

Redactionele noot: Dit artikel maakt deel uit van de lopende serie over AI-infrastructuur en geheugenarchitectuur die wordt gepubliceerd door GetUSB.info. Het artikel is onderzocht en geschreven met AI-ondersteunde redactionele hulp voor structuur en leesbaarheid, en daarna beoordeeld en verfijnd door het redactionele team van GetUSB op technische nauwkeurigheid, samenhang en duidelijkheid.

Over de auteur
Dit artikel is ontwikkeld onder leiding van Matt LeBoff, een langdurige bijdrager aan GetUSB.info met meer dan twintig jaar ervaring in USB-technologie, het gedrag van flashgeheugen en systemen voor dataopslag. Het perspectief dat hier wordt gepresenteerd, weerspiegelt praktische branchekennis en voortdurende analyse van hoe echte systemen presteren onder veranderende workloads, waaronder AI-infrastructuur.

Lees verder

Wist u eigenlijk dat de stakingsdreiging bij Samsung de geheugentoevoer kan beïnvloeden?

Stakingsdreiging bij Samsung kan de geheugentoevoer beïnvloeden, afbeelding van een fabriek

Waarom een arbeidsconflict binnen Samsungs halfgeleiderdivisie ineens de wereldwijde geheugenindustrie wakker schudt

De meeste mensen horen “Samsung” en denken meteen aan smartphones of televisies. Maar achter de schermen is Samsung ook een van de belangrijkste halfgeleiderbedrijven ter wereld, vooral als het gaat om de productie van geheugen.

Daarom krijgt een mogelijke staking bij het bedrijf in Zuid-Korea zoveel aandacht binnen de technologie-industrie.

Het huidige conflict gaat over medewerkers van Samsung Electronics die betrokken zijn bij de halfgeleideractiviteiten, waaronder medewerkers in chipfabricage, engineers, technisch personeel en ondersteuningsteams. Volgens berichten dreigt de vakbond met een staking van 18 dagen als de onderhandelingen over lonen en bonusstructuren mislukken.

Op het eerste gezicht klinkt dat misschien niet als iets waar de gemiddelde consument zich druk om zou maken. Maar hier zit het punt: Samsung is een van de grootste producenten van NAND-flashgeheugen en DRAM ter wereld. Die componenten zitten in alles, van SSD’s en laptops tot AI-servers en cloudinfrastructuur.

Met andere woorden: dit is niet zomaar een lokaal arbeidsconflict.

Waarom de geheugenindustrie oplet

Halfgeleiderproductie is heel anders dan traditioneel fabriekswerk. Moderne chipfabrieken draaien continu met zeer gespecialiseerde apparatuur, robotische verwerkingssystemen, cleanrooms en strak gecontroleerde productieschema’s.

Hoewel de faciliteiten sterk geautomatiseerd zijn, blijven ze afhankelijk van ervaren engineers en technisch personeel om de productie efficiënt draaiende te houden.

Als een grootschalige arbeidsactie de productie vertraagt, kan de impact verder reiken dan de stakingsdagen zelf. Halfgeleiderproductie kent lange productiecycli, wat betekent dat gemiste wafer-starts of onderbroken schema’s de output kunnen blijven beïnvloeden, zelfs nadat medewerkers weer aan het werk zijn.

Dat is een van de redenen waarom analisten deze situatie nauwlettend volgen.

Een verstoring waarbij Samsung betrokken is, kan mogelijk invloed hebben op:

  • de toevoer van NAND-flash
  • productieschema’s voor SSD’s
  • enterprise-opslagsystemen
  • AI-serverinfrastructuur
  • geheugenprijzen

Ook de timing doet ertoe, omdat de vraag naar AI-hardware snel blijft groeien. Geheugen is een van de kritieke knelpunten geworden in moderne AI-infrastructuur.

De arbeidssituatie bij Samsung is veranderd

Historisch gezien stond Samsung niet bekend om arbeidsstakingen. Sterker nog, het bedrijf had decennialang de reputatie sterk anti-vakbond te zijn.

Dat begon in 2024 te veranderen, toen Samsung-medewerkers verschillende arbeidsacties hielden, waaronder werkonderbrekingen en kortdurende stakingen rond beloning en bonussen.

De huidige situatie voelt belangrijker omdat de halfgeleidermarkt zelf wereldwijd veel belangrijker is geworden. Samsung concurreert fel op het gebied van geavanceerde geheugentechnologieën, waaronder producten die worden gebruikt in AI-servers en high-performance computing-systemen.

Werknemers lijken te vinden dat zij directer moeten meeprofiteren van de winsten die door de AI-boom worden gecreëerd.

Het grotere probleem dat de meeste consumenten nooit zien

Een interessant onderdeel van dit verhaal is hoe onzichtbaar de halfgeleiderindustrie meestal is voor gewone consumenten.

Mensen merken het wanneer een smartphone later verschijnt of wanneer grafische kaarten duur worden. Maar ze denken zelden aan de geheugenketen die onder die producten ligt.

De realiteit is dat moderne technologie sterk afhankelijk is van bedrijven zoals Samsung, SK Hynix, Micron en Kioxia, die geheugen op enorme schaal blijven produceren.

Zelfs een tijdelijke verstoring kan rimpel-effecten veroorzaken in de hele opslagindustrie.

Voor lezers die meer willen weten over de diepere productie- en NAND-marktkant van dit verhaal, is de volledige analyse hier beschikbaar bij GFM:

Samsung Strike Threat Explained: What It Means for Memory Chips and NAND Supply

De bredere discussie over de geheugenmarkt sluit ook aan bij het groeiende belang van opslag voor AI-infrastructuur, vooral nu traditionele harde schijven en NAND-flash samen blijven werken binnen enorme datacenters. We hebben dat onderwerp onlangs behandeld in ons artikel over waarom AI-servers tegenwoordig afhankelijk zijn van meer dan alleen flash.

Kort gezegd: de meeste consumenten horen misschien nooit iets over de Samsung-stakingskwestie, maar binnen de halfgeleiderwereld letten mensen er heel goed op.

Lees verder

Waarom harde schijven nog steeds cruciaal zijn voor AI-infrastructuur

Wanneer de meeste mensen over AI-infrastructuur horen, gaat het gesprek meestal over GPU’s, High Bandwidth Memory (HBM) of ultrasnelle solid-state opslag. De aanname is dat kunstmatige intelligentie volledig draait op hypermoderne hardware, waar alles wordt gemeten in nanoseconden en terabytes per seconde.

Die aanname is niet verkeerd, maar wel onvolledig.

Waarom harde schijven nog steeds cruciaal zijn voor AI-infrastructuur

De werkelijkheid is dat moderne AI-systemen nog steeds sterk afhankelijk zijn van een van de oudste technologieën in het datacenter: de mechanische harde schijf.

Dat klinkt misschien vreemd, zeker omdat we eerder al hebben besproken hoe AI-servers zich verplaatsen voorbij traditioneel flashgeheugen in ons artikel: NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash. We hebben ook bekeken waarom technologieën zoals High Bandwidth Memory (HBM) essentieel worden om AI-systemen snel genoeg van data te voorzien en zo GPU-knelpunten te voorkomen.

Maar er is nog een andere kant van dit verhaal die veel minder aandacht krijgt: pure schaal.

AI heeft niet alleen snelle opslag nodig. AI heeft een bijna onvoorstelbare hoeveelheid opslag nodig.

En harde schijven zijn nog steeds de enige technologie die die capaciteit kan leveren tegen een prijs die de industrie realistisch kan dragen.

De opslaghiërarchie van AI begrijpen

De eenvoudigste manier om moderne AI-infrastructuur te begrijpen, is door niet langer aan één enkele computer te denken, maar aan een volledige logistieke operatie.

HBM werkt als het laadperron waar data met ongelooflijke snelheid wordt verplaatst. DRAM functioneert als de actieve werkruimte waar informatie voortdurend wordt bewerkt. NAND-flash gedraagt zich meer als nabijgelegen stellingen, waar snelle toegang nog steeds belangrijk is, maar langdurige opslag ook begint mee te tellen.

Harde schijven zijn echter het magazijn.

Niet het meest opvallende deel van de operatie. Ook niet het snelste deel. Maar absoluut het grootste.

Technologie Typische capaciteit Belangrijkste kracht Belangrijkste AI-rol
HBM 80GB–192GB Extreme bandbreedte Actieve GPU-berekening
DRAM Honderden GB’s Lage latency Werkgeheugen
NAND SSD Meerdere TB’s Snelle persistente opslag Dataset-staging en caching
Harde schijven Petabytes tot exabytes Capaciteitsefficiëntie Bulkopslag en archieven

Dat onderscheid is belangrijk, omdat AI-trainingssystemen data verbruiken op een schaal die de meeste mensen bij normaal computergebruik nooit tegenkomen.

Een consumentenlaptop kan misschien een paar terabytes aan data opslaan. Zelfs een high-end workstation komt vaak niet verder dan tientallen terabytes. AI-infrastructuur werkt meerdere ordes van grootte daarboven.

Waar een consumentenlaptop in terabytes denkt, denken AI-clusters in exabytes.

Eén enkele exabyte is gelijk aan één miljoen terabytes.

Als een moderne enterprise harde schijf 30TB opslaat, zijn er nog steeds meer dan 33.000 harde schijven nodig om één enkele exabyte aan ruwe opslagcapaciteit te bouwen.

Grote AI-operators bouwen niet één exabyte. Ze bouwen meerdere exabytes, verspreid over regio’s, redundantielagen, trainingsomgevingen, back-upsystemen en archiefopslag.

Het exabyteprobleem

Het trainen van een groot taalmodel kan petabytes aan tekst, afbeeldingen, video, telemetrie, checkpoints en opgeslagen trainingsstatussen omvatten. Zodra die datasets zijn verzameld, worden ze zelden verwijderd. Ze blijven groeien naarmate modellen opnieuw worden getraind, verfijnd en uitgebreid.

Tijdens AI-training maken systemen voortdurend checkpoints aan, in feite enorme opslagmomenten van het model terwijl het leert. Als een cluster halverwege een trainingscyclus van meerdere weken uitvalt, kunnen die checkpoints het enige zijn dat voorkomt dat miljoenen dollars aan rekentijd verloren gaan.

Dat betekent dat opslaginfrastructuur niet langer alleen om snelheid draait, maar ook om het in stand houden van gigantische pools met toegankelijke data.

Hier blijven harde schijven stilletjes dominant.

In 2010 voelde een harde schijf van 2TB enorm. Enterprise-omgevingen gebruikten vaak SAS-schijven van 300GB of 600GB, en alles boven een paar terabytes werd gezien als premiumcapaciteit.

Vandaag worden enterprise harde schijven van 24TB en 30TB standaard ingezet in grote datacenters. Fabrikanten testen al schijven van meer dan 40TB met technologieën zoals HAMR (Heat-Assisted Magnetic Recording), waarmee de oppervlaktedichtheid wordt verhoogd zonder de fysieke afmetingen van de schijf zelf te vergroten.

Om die groei in perspectief te plaatsen: één modern opslagrack kan tegenwoordig meer data bevatten dan een compleet middelgroot enterprise-datacenter uit 2010.

Zo drastisch is de vraag naar opslag veranderd.

En AI is een van de belangrijkste redenen daarvoor.

AI draait op meer dan snelheid alleen

De publieke discussie rond AI richt zich meestal op GPU’s, omdat GPU’s het zichtbare werk doen. Ze genereren de antwoorden, maken de afbeeldingen en verwerken de tokens.

Opslag doet het onzichtbare werk: het bewaren van de intelligentiepijplijn zelf.

GPU’s zijn alleen nuttig als ze continu toegang hebben tot enorme hoeveelheden trainingsdata.

Die data moet ergens staan.

Niet in HBM. Niet in DRAM. En zeker niet volledig in dure NAND-opslaglagen.

Die data leeft voornamelijk op enorme infrastructuur met harde schijven.

Een modern AI-datacenter kan honderden petabytes aan opgeslagen data bevatten. Sommige hyperscale-omgevingen gaan waarschijnlijk nog veel verder richting architecturen op exabyteschaal. Alles volledig op NAND-flash opslaan zou financieel onrealistisch zijn, zelfs voor de grootste cloudproviders.

Dit is het deel dat veel mensen missen wanneer ze over AI-hardware praten.

Prestaties zijn belangrijk, maar economie is dat ook.

De industrie verkoopt graag IOPS en benchmarkcijfers, maar grote AI-implementaties worden uiteindelijk beperkt door de totale eigendomskosten.

Harde schijven blijven de laagste kosten per terabyte bieden bij grootschalige implementaties. Ze blijven ook bijzonder efficiënt voor het opslaan van koude data, gearchiveerde datasets, back-up-snapshots, modelcheckpoints en grote hoeveelheden trainingsinformatie die geen toegangstijden op nanosecondeniveau nodig hebben.

Waarom harde schijven nog steeds werken voor AI

Er is ook nog een ander misverstand dat de moeite waard is om recht te zetten: mensen gaan er vaak van uit dat harde schijven onbruikbaar traag zijn voor AI-omgevingen.

Dat is niet helemaal waar.

Eén enkele harde schijf is traag vergeleken met DRAM of NAND-flash, ja. Maar AI-datacenters werken niet met losse schijven. Ze werken met enorme storage-arrays met parallelle toegang over duizenden schijven tegelijk.

Belangrijker nog: veel AI-workloads bestaan uit sequentiële streaming van grote datasets, in plaats van kleine willekeurige transacties. Sequentiële workloads zijn juist een van de gebieden waarin moderne enterprise-arrays met harde schijven nog verrassend goed presteren.

Met andere woorden: AI-infrastructuur vraagt niet altijd: “Wat is de snelst mogelijke opslag?”

Soms vraagt het:

Wat is de snelste praktische manier om 500 petabytes op te slaan zonder het bedrijf failliet te maken?

Dat is een heel ander technisch probleem.

AI-infrastructuur wordt een gelaagd geheugenecosysteem

Dit verklaart ook waarom nieuwere technologieën in lagen aan AI-systemen worden toegevoegd, in plaats van oudere technologieën volledig te vervangen.

In ons artikel over Storage Class Memory: de ontbrekende laag tussen DRAM en NAND hebben we bekeken hoe de industrie steeds opnieuw tussenlagen creëert om snelheid, persistentie en economie in balans te brengen.

We hebben ook onderzocht hoe NAND probeert dichter bij geheugenniveauprestaties te komen in: High Bandwidth Flash: kan NAND zich eindelijk als geheugen gedragen?.

AI-infrastructuur wordt precies dat: een gelaagd geheugenecosysteem.

HBM verwerkt de directe berekeningen. DRAM beheert actieve workloads. NAND-flash vangt snelle persistente opslagtaken op. Storage-class technologieën proberen latencygaten te overbruggen. Harde schijven leveren de enorme capaciteitsbasis onder alles.

De toekomst van AI-opslag is niet dat één technologie een andere vervangt.

Het is een stapeling van meerdere technologieën, omdat geen enkel geheugentype elk probleem goed oplost.

Dat is waarschijnlijk het grootste misverstand rond AI-infrastructuur vandaag. Mensen nemen aan dat de nieuwste technologie automatisch de oudere doodmaakt.

Maar zo werkt de geschiedenis van computing zelden.

Harde schijven overleefden SSD’s omdat de wereld sneller meer data bleef produceren dan flashprijzen konden dalen. Nu versnelt AI die trend nog verder. De hoeveelheid informatie die wordt gegenereerd, bewaard, gekopieerd en opnieuw getraind explodeert zo snel dat capaciteit zelf een strategische hulpbron is geworden.

Ironisch genoeg geldt: hoe geavanceerder AI wordt, hoe belangrijker grootschalige opslaginfrastructuur daarnaast wordt.

Dat betekent dat een van de oudste technologieën in het datacenter mogelijk veel langer een cruciale rol blijft spelen in AI dan de meeste mensen hadden verwacht.


Redactionele noot: Dit artikel maakt deel uit van de doorlopende serie over AI-infrastructuur en geheugenarchitectuur die door GetUSB.info wordt gepubliceerd. Het artikel is onderzocht en geschreven met AI-ondersteunde redactionele hulp voor structuur en leesbaarheid, en daarna beoordeeld en verfijnd door het redactieteam van GetUSB op technische nauwkeurigheid, continuïteit en helderheid.

De begeleidende afbeelding die in dit artikel wordt gebruikt, is een originele foto gemaakt door het team van GetUSB.info en is geen stockfotografie.

Lees verder

Waarom DRAM alleen niet langer kan meekomen met AI

fast compute slow data idle gpu wasted cost ai doesnt wait

Zodra je echt gaat kijken naar hoe AI-systemen in elkaar zitten, kom je al snel uit bij een heel natuurlijke conclusie, en eerlijk gezegd klinkt die in eerste instantie volkomen logisch.

Als NAND voor bepaalde delen van de workload te traag is, en zelfs geavanceerde flash-architecturen nog altijd genoeg vertraging introduceren om merkbaar te zijn, dan lijkt het voor de hand liggende antwoord te zijn om gewoon meer DRAM toe te voegen. DRAM is tenslotte altijd de snelle laag geweest. Het is de plek waar actieve data leeft, het reageert snel, en al tientallen jaren is het het deel van het systeem waarop je leunt als je niet wilt dat de processor werkloos zit te wachten tot iets arriveert.

Dus de aanname is snel gemaakt: als snelheid het probleem is, vergroot dan gewoon het snelste wat je hebt.

Die logica houdt verrassend goed stand – totdat AI in beeld komt en DRAM in een rol duwt waarvoor het eigenlijk nooit echt ontworpen is. Het probleem is niet dat DRAM ineens traag is geworden, of verouderd, of op de een of andere manier minder nuttig dan vroeger. Het probleem is dat AI-workloads er veel meer van vragen dan alleen optreden als een snelle werklaag tussen compute en storage.

Voor het bredere kader achter deze verschuiving sluit dit artikel direct aan op het hoofdartikel van deze reeks: NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash.

DRAM is gebouwd voor snelheid, niet om het hele systeem te dragen

Het eerste dat je moet begrijpen, is dat DRAM altijd is geoptimaliseerd voor snelheid en reactievermogen, niet voor het vasthouden van enorme hoeveelheden data op grote schaal. In traditionele computing was dat onderscheid zelden een probleem, omdat de meeste workloads een vrij duidelijke scheiding hadden tussen actieve data en opgeslagen data. Het systeem hield wat het direct nodig had in geheugen, haalde de rest uit storage wanneer dat nodig was, en die overdracht werkte meestal goed genoeg dat bijna niemand er verder over nadacht.

AI verandert die balans behoorlijk drastisch. In plaats van met bescheiden stukken actieve data te werken en dan verder te gaan, hergebruiken AI-modellen grote datasets steeds opnieuw, verplaatsen ze informatie parallel en houden ze een veel groter deel van de working set binnen bereik van de compute-laag, en dat ook nog eens veel langer. Dat betekent dat DRAM niet langer alleen wordt gevraagd om de huidige taak vast te houden. Het wordt gevraagd om mee te helpen een enorme en voortdurend verschuivende massa data dichtbij te houden, omdat het systeem die vrijwel altijd in de buurt wil hebben.

Dat is een heel andere taak.

Dat is ook precies waarom technologieën boven en rond DRAM belangrijker zijn geworden. In het eerdere artikel over wat High Bandwidth Memory is en waarom AI ervan afhankelijk is, lag de focus op het extreem dicht bij de processor brengen van een kleinere hoeveelheid kritieke data, zodat de GPU gevoed blijft. Dat artikel maakt duidelijk dat nabijheid ertoe doet, maar onthult tegelijk stilletjes het volgende probleem, want zodra de working set groter wordt dan die directe laag, moet het systeem nog steeds bepalen waar al het andere moet leven.

De eerste muur is de kostprijs, en die duikt snel op

Een van de redenen waarom mensen het idee van “voeg gewoon meer DRAM toe” aantrekkelijk vinden, is dat het schoon en direct klinkt. In de praktijk wordt het echter heel snel duur. DRAM is simpelweg niet geprijsd zoals NAND, en zodra je systemen opschaalt naar AI-niveau, heb je het niet meer over een beetje extra geheugen in een server. Dan heb je het over honderden gigabytes, soms veel meer, verspreid over meerdere nodes, racks en clusters.

Vanaf dat punt voelt DRAM niet langer als een prestatie-upgrade, maar eerder als een infrastructurele last. De kostencurve loopt niet rustig op. Die stijgt snel genoeg dat het idee om DRAM te gebruiken om elk probleem rond datalokaliteit op te lossen, onder zijn eigen economische gewicht begint uiteen te vallen.

Dat is een van de redenen waarom de geheugenstack dieper wordt in plaats van eenvoudiger. De industrie beweegt niet weg van DRAM omdat het niet meer waardevol is. Ze beweegt weg van de aanname dat DRAM alleen het antwoord kan zijn op elk latencygevoelig probleem op AI-schaal.

De tweede muur is energie, en dat probleem slaapt nooit

Zelfs als de kosten makkelijker te rechtvaardigen zouden zijn, loopt DRAM nog tegen een ander probleem aan dat onmogelijk te negeren wordt zodra systemen groot genoeg worden, en dat is energieverbruik. DRAM moet constant van stroom worden voorzien om zijn toestand vast te houden. Dat hoort nu eenmaal bij de technologie. Dus hoe meer je toevoegt, hoe meer energie het systeem verbruikt alleen al om die data daar klaar te laten staan.

In kleinere omgevingen voelt die overhead misschien acceptabel. In dichte AI-systemen die continu draaien, begint het een serieus operationeel probleem te worden. Meer DRAM betekent meer stroomverbruik, meer warmte, meer koeling en meer ontwerpdruk op het hele platform. Opeens gaat de beslissing niet meer alleen over geheugencapaciteit. Dan gaat het over thermische grenzen, efficiëntie van het datacenter en de vraag of de ondersteunende infrastructuur de kosten kan dragen van zoveel actief geheugen dat dag en nacht in leven moet worden gehouden.

Dat is ook waar de rol van tussenlagen logischer begint te worden. In het vorige deel over storage class memory, de ontbrekende laag tussen DRAM en NAND, was het idee niet om DRAM te vervangen, maar om een deel van de druk ervan af te halen door een laag toe te voegen die meer data dichter bij compute houdt zonder alles in de duurste en meest energiehongerige tier te duwen.

Dan is er nog de fysieke realiteit van nabijheid

Er is nog een andere reden waarom DRAM niet oneindig goed schaalt in AI-systemen, en die heeft minder met budget te maken en meer met natuurkunde. DRAM levert zijn waarde deels doordat het relatief dicht bij de processor zit. Hoe dichter geheugen bij compute zit, hoe lager de latency meestal is en hoe responsiever het hele systeem aanvoelt. Maar nabijheid is niet iets dat je zonder gevolgen eindeloos kunt uitbreiden.

Er zijn fysieke limieten aan hoeveel geheugen je in de buurt van een CPU of GPU kunt plaatsen voordat layout-complexiteit, trace-lengte, signaalintegriteit en packagingbeperkingen tegen je beginnen te werken. Dat is precies waarom geavanceerde geheugenverpakking in de eerste plaats is ontstaan. HBM bestaat omdat traditionele plaatsing van DRAM maar tot een bepaald punt werkt, en zodra de compute-kant snel genoeg wordt, gaan die afstanden en verbindingstrajecten zwaarder meetellen dan vroeger.

Maar HBM is ook geen volledig antwoord op het capaciteitsvraagstuk. Het biedt ongelooflijke bandbreedte, maar geen onbeperkt volume. Daardoor leeft het systeem uiteindelijk in een voortdurende balans tussen wat heel dichtbij geplaatst kan worden en wat verder weg moet blijven. AI-workloads rekken dat evenwicht veel harder op dan conventionele systemen ooit hebben gedaan.

AI maakt kleine vertragingen duur

Een van de interessantere dingen aan AI-infrastructuur is dat het inefficiënties blootlegt die oudere workloads grotendeels konden verbergen. In een traditioneler systeem hoeft een kleine vertraging in datatoegang niet zo veel te betekenen. De processor wacht even, de taak is iets later klaar, en de gebruiker merkt er niets van. AI-systemen zijn veel minder vergevingsgezind, omdat ze werken met zoveel parallellisme en omdat er zoveel geld vastzit in de compute-laag.

Als een GPU niet op tijd de data krijgt die hij nodig heeft, is dat niet alleen een technisch ongemak. Het is dure idle time. Vermenigvuldig dat over veel accelerators die parallel draaien, en zelfs heel kleine vertragingen beginnen zichtbaar te worden als echte verliezen in benutting.

Daardoor verandert ook het doel. Het doel is niet simpelweg snel geheugen hebben. Het doel is om de datalevering consistent genoeg te houden, op een schaal die groot genoeg is om de duurste delen van het systeem voortdurend bezig te houden. Dat is een veel zwaardere eis, en precies daarom begint DRAM alleen onvoldoende te lijken zodra AI-infrastructuur voorbij een bepaald punt groeit.

ai warehouse analogy data flow memory hierarchy dram bottleneck loading dock

De magazijn-analogie werkt nog steeds – ze wordt alleen groter

Als we dezelfde magazijn-analogie uit de eerdere artikelen blijven gebruiken, dan is DRAM nog steeds het laadperron. Het is de plek waar actief werk plaatsvindt, waar items worden geopend, gesorteerd en direct in gebruik worden genomen. Jarenlang werkte dat model goed, omdat de hoeveelheid activiteit op het laadperron beheersbaar was en het systeem niet eiste dat alles daar tegelijk klaarstond.

AI verandert de schaal van de operatie. Nu wordt verwacht dat het laadperron een bijna constante stroom materiaal ondersteunt, met veel meer activiteit die parallel plaatsvindt en veel minder tolerantie voor vertraging. Op een gegeven moment kan zelfs het beste laadperron niet simpelweg blijven groeien. Er is maar zoveel ruimte, maar zoveel parallelle bewegingen die efficiënt kunnen plaatsvinden, en maar zoveel voorraad die je direct op het punt van gebruik kunt houden voordat de layout zelf onderdeel van het probleem wordt.

Dus het antwoord is niet om het laadperron oneindig groter te maken. Het antwoord is om de workflow eromheen opnieuw te ontwerpen.

Daar begint de rest van de geheugenshiërarchie zijn plaats te verdienen. HBM houdt de meest tijdkritische data direct naast de processor. Storage class memory helpt de overgang tussen actief geheugen en tragere storage af te vlakken. En in het recentere artikel over waarom moderne AI-systemen zoveel geheugen verbruiken, verschoof de focus naar hoe ook de storage-kant opnieuw wordt ontworpen zodat die intelligenter kan meedoen aan het voeden van het systeem.

Geen van die lagen bestaat omdat DRAM heeft gefaald. Ze bestaan omdat AI voorbij het idee is gegroeid dat één enkele snelle laag de hele workload in zijn eentje kan dragen.

Wat dit echt betekent voor de AI-geheugenstack

De echte conclusie hier is niet dat DRAM verdwijnt, want dat is overduidelijk niet het geval. DRAM blijft een van de belangrijkste onderdelen van de hele stack. Wat verandert, is zijn rol. In plaats van de plek te zijn waar alles wat actief is hoort te leven, wordt DRAM steeds meer de plek waar de meest urgente en tijdgevoelige data leeft, terwijl andere lagen de groeiende last van schaal, kosten en capaciteit opvangen.

Dat is een subtiele verschuiving, maar wel een belangrijke. Het betekent dat AI-infrastructuur zich verwijdert van het oudere idee van een simpel tweelaags model – geheugen hier, storage daar – en opschuift naar iets veel genuanceerders, waarin verschillende technologieën elk worden ingezet voor het deel van de workload waar ze het best geschikt voor zijn.

Simpel gezegd: DRAM blijft essentieel, maar is op zichzelf niet meer genoeg. AI heeft de grootte van de working set veranderd, de snelheid van compute, de kosten van vertraging en de economie van alles dichtbij houden. Zodra al die dingen tegelijk veranderen, moet de geheugenshiërarchie mee veranderen.

Waar dit hierna naartoe leidt

Zodra je accepteert dat DRAM zich niet ver genoeg kan uitstrekken om alles vast te houden wat AI dichtbij compute wil hebben, wordt de volgende vraag vrij vanzelfsprekend. Waar leeft de rest van die data eigenlijk, vooral wanneer de hoeveelheid informatie veel te groot is om te rechtvaardigen dat je die in geheugen houdt?

Daar draait het gesprek opnieuw, en een technologie waarvan veel mensen aannemen dat die allang opzijgeschoven is, begint op een verrassend belangrijke manier weer mee te tellen. Want terwijl DRAM moeite heeft met schaal en flash nog steeds zijn eigen kosten- en latencycompromissen met zich meebrengt, blijven harde schijven iets bieden dat de rest van de stack niet makkelijk kan vervangen: praktische capaciteit op enorme schaal.

En dat is precies waarom het volgende deel van deze reeks moet kijken naar waarom harde schijven nog steeds cruciaal zijn voor AI-infrastructuur.

Over de auteur
Dit artikel is ontwikkeld onder leiding van Greg Morris, een vaste bijdrager aan GetUSB.info met meer dan twintig jaar ervaring in USB-technologie, het gedrag van flashgeheugen en dataopslagsystemen. Het perspectief in dit artikel weerspiegelt praktijkkennis uit de sector en voortdurende analyse van hoe echte systemen presteren onder veranderende workloads, waaronder AI-infrastructuur.

Hoe dit artikel is gemaakt
De concepten, structuur en technische richting van dit artikel zijn opgesteld en beoordeeld door een menselijke vakexpert. AI-tools zijn gebruikt om te helpen met ritme, flow en leesbaarheid, zodat complexe ideeën in een natuurlijker verhaal konden worden georganiseerd zonder de onderliggende technische nauwkeurigheid of bedoeling te veranderen.

Over de beelden
De beelden in dit artikel zijn speciaal gemaakt om concepten te illustreren die lastig vast te leggen zijn met traditionele stockfotografie, zoals knelpunten in datastromen, gedrag van de geheugenshiërarchie en inefficiënties op systeemniveau. De visuals zijn bedoeld om de technische uitleg te versterken en de duidelijkheid voor lezers te verbeteren.

Lees verder

Wat is High Bandwidth Memory (HBM) en waarom AI ervan afhankelijk is

wat is high bandwidth memory hbm en waarom ai ervan afhankelijk is

AI-systemen vertragen meestal niet door beperkingen in rekenkracht, maar omdat het systeem de data niet snel genoeg kan verplaatsen om de processor continu van informatie te voorzien.

Met andere woorden: de bottleneck zit niet in het verwerken van data, maar in het leveren van die data op de snelheid die moderne AI-workloads vereisen.

Daar komt High Bandwidth Memory (HBM) in beeld als een belangrijk onderdeel van de architectuur.

Voor een breder beeld van hoe geheugen zich ontwikkelt voorbij flash en waarom AI-systemen tegenwoordig afhankelijk zijn van meerdere lagen, zie onze hoofd­analyse: NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash.

Lees verder

NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash

NAND verdwijnt niet, maar AI-servers zijn nu afhankelijk van meer dan alleen flash

Al meer dan twee decennia kijkt GetUSB naar hoe data zich daadwerkelijk verplaatst, niet alleen hoe het wordt gepresenteerd in marketing. In die tijd hebben we opslag door meerdere cycli zien evolueren, van de afname van draaiende schijven tot de opkomst van flash, en meer recent naar systemen waarin opslag niet langer slechts een passieve component is, maar onderdeel van de infrastructuur zelf.

Wat er nu gebeurt met AI-infrastructuur voelt als opnieuw zo’n overgangsmoment, maar dit keer gedreven door een ander soort druk.

NAND-flash verdwijnt niet, en daar is eigenlijk geen discussie over. Het blijft de basis van moderne opslag en doet dat werk extreem goed. Tegelijkertijd is de vraag naar NAND snel gestegen, grotendeels door AI-workloads die enorme datasets vereisen en daar continu toegang toe nodig hebben. Die vraag begint nu tegen de grenzen van het aanbod aan te lopen op manieren die steeds moeilijker te negeren zijn, of dat nu zichtbaar wordt in prijsdruk, strakkere toewijzingen of simpelweg langere levertijden voor grote implementaties.

Wanneer dit soort onevenwicht zichtbaar wordt, blijft de industrie niet stilzitten en wachten tot alles weer normaliseert. Ze gaat op zoek naar andere manieren om het probleem op te lossen, en daar begint de verschuiving.

Lees verder

Binnenin een AI-computer: waarom moderne AI-systemen zo veel geheugen verbruiken

Opschaling van een AI-server van één enkele machine naar volledige racks en een datacenter, ter illustratie waarom moderne AI-systemen zo veel geheugen nodig hebben

Hoe een AI-server er echt uitziet wanneer je de behuizing opent

Er is momenteel veel rumoer over AI die “te veel geheugen” gebruikt. De prijzen stijgen. De beschikbaarheid is beperkt. Iedereen zegt dat de vraag explodeert. Dat heb je waarschijnlijk al gelezen.

Maar het meeste wat hierover wordt geschreven, slaat het belangrijkste deel over: hoe een AI-computer er fysiek uitziet en waarom hij überhaupt zo veel geheugen nodig heeft. Niet in abstracte grafieken of marktvoorspellingen, maar in termen die je je kunt voorstellen. Zodra je begrijpt wat één enkel AI-systeem daadwerkelijk verbruikt, klinkt de rest van het verhaal niet meer dramatisch, maar onvermijdelijk.

Onlangs legde ik dit uit op een plek die niets met datacenters te maken heeft. Ik was op de school van mijn kind tijdens een “ouderdag”, stond in een klaslokaal, en een paar leerlingen begonnen vragen te stellen over AI. Geen chatbotvragen. Echte vragen. Hoe ziet de computer eruit? Waar gaan de gegevens naartoe? Waarom heeft iedereen het steeds over “geheugen”, alsof dat het hele verhaal is?

Lees verder

Copyright ©

Copyright © 2006-2019 by
USB Powered Gadgets and more…
All rights reserved.

GetUSB offers advertising opportunities on our website which has at least 1,000 unique visits per day.

For more information,

Visit Our Advertising Page