Waarom DRAM alleen niet langer kan meekomen met AI
Zodra je echt gaat kijken naar hoe AI-systemen in elkaar zitten, kom je al snel uit bij een heel natuurlijke conclusie, en eerlijk gezegd klinkt die in eerste instantie volkomen logisch.
Als NAND voor bepaalde delen van de workload te traag is, en zelfs geavanceerde flash-architecturen nog altijd genoeg vertraging introduceren om merkbaar te zijn, dan lijkt het voor de hand liggende antwoord te zijn om gewoon meer DRAM toe te voegen. DRAM is tenslotte altijd de snelle laag geweest. Het is de plek waar actieve data leeft, het reageert snel, en al tientallen jaren is het het deel van het systeem waarop je leunt als je niet wilt dat de processor werkloos zit te wachten tot iets arriveert.
Dus de aanname is snel gemaakt: als snelheid het probleem is, vergroot dan gewoon het snelste wat je hebt.
Die logica houdt verrassend goed stand – totdat AI in beeld komt en DRAM in een rol duwt waarvoor het eigenlijk nooit echt ontworpen is. Het probleem is niet dat DRAM ineens traag is geworden, of verouderd, of op de een of andere manier minder nuttig dan vroeger. Het probleem is dat AI-workloads er veel meer van vragen dan alleen optreden als een snelle werklaag tussen compute en storage.
Voor het bredere kader achter deze verschuiving sluit dit artikel direct aan op het hoofdartikel van deze reeks: NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash.
DRAM is gebouwd voor snelheid, niet om het hele systeem te dragen
Het eerste dat je moet begrijpen, is dat DRAM altijd is geoptimaliseerd voor snelheid en reactievermogen, niet voor het vasthouden van enorme hoeveelheden data op grote schaal. In traditionele computing was dat onderscheid zelden een probleem, omdat de meeste workloads een vrij duidelijke scheiding hadden tussen actieve data en opgeslagen data. Het systeem hield wat het direct nodig had in geheugen, haalde de rest uit storage wanneer dat nodig was, en die overdracht werkte meestal goed genoeg dat bijna niemand er verder over nadacht.
AI verandert die balans behoorlijk drastisch. In plaats van met bescheiden stukken actieve data te werken en dan verder te gaan, hergebruiken AI-modellen grote datasets steeds opnieuw, verplaatsen ze informatie parallel en houden ze een veel groter deel van de working set binnen bereik van de compute-laag, en dat ook nog eens veel langer. Dat betekent dat DRAM niet langer alleen wordt gevraagd om de huidige taak vast te houden. Het wordt gevraagd om mee te helpen een enorme en voortdurend verschuivende massa data dichtbij te houden, omdat het systeem die vrijwel altijd in de buurt wil hebben.
Dat is een heel andere taak.
Dat is ook precies waarom technologieën boven en rond DRAM belangrijker zijn geworden. In het eerdere artikel over wat High Bandwidth Memory is en waarom AI ervan afhankelijk is, lag de focus op het extreem dicht bij de processor brengen van een kleinere hoeveelheid kritieke data, zodat de GPU gevoed blijft. Dat artikel maakt duidelijk dat nabijheid ertoe doet, maar onthult tegelijk stilletjes het volgende probleem, want zodra de working set groter wordt dan die directe laag, moet het systeem nog steeds bepalen waar al het andere moet leven.
De eerste muur is de kostprijs, en die duikt snel op
Een van de redenen waarom mensen het idee van “voeg gewoon meer DRAM toe” aantrekkelijk vinden, is dat het schoon en direct klinkt. In de praktijk wordt het echter heel snel duur. DRAM is simpelweg niet geprijsd zoals NAND, en zodra je systemen opschaalt naar AI-niveau, heb je het niet meer over een beetje extra geheugen in een server. Dan heb je het over honderden gigabytes, soms veel meer, verspreid over meerdere nodes, racks en clusters.
Vanaf dat punt voelt DRAM niet langer als een prestatie-upgrade, maar eerder als een infrastructurele last. De kostencurve loopt niet rustig op. Die stijgt snel genoeg dat het idee om DRAM te gebruiken om elk probleem rond datalokaliteit op te lossen, onder zijn eigen economische gewicht begint uiteen te vallen.
Dat is een van de redenen waarom de geheugenstack dieper wordt in plaats van eenvoudiger. De industrie beweegt niet weg van DRAM omdat het niet meer waardevol is. Ze beweegt weg van de aanname dat DRAM alleen het antwoord kan zijn op elk latencygevoelig probleem op AI-schaal.
De tweede muur is energie, en dat probleem slaapt nooit
Zelfs als de kosten makkelijker te rechtvaardigen zouden zijn, loopt DRAM nog tegen een ander probleem aan dat onmogelijk te negeren wordt zodra systemen groot genoeg worden, en dat is energieverbruik. DRAM moet constant van stroom worden voorzien om zijn toestand vast te houden. Dat hoort nu eenmaal bij de technologie. Dus hoe meer je toevoegt, hoe meer energie het systeem verbruikt alleen al om die data daar klaar te laten staan.
In kleinere omgevingen voelt die overhead misschien acceptabel. In dichte AI-systemen die continu draaien, begint het een serieus operationeel probleem te worden. Meer DRAM betekent meer stroomverbruik, meer warmte, meer koeling en meer ontwerpdruk op het hele platform. Opeens gaat de beslissing niet meer alleen over geheugencapaciteit. Dan gaat het over thermische grenzen, efficiëntie van het datacenter en de vraag of de ondersteunende infrastructuur de kosten kan dragen van zoveel actief geheugen dat dag en nacht in leven moet worden gehouden.
Dat is ook waar de rol van tussenlagen logischer begint te worden. In het vorige deel over storage class memory, de ontbrekende laag tussen DRAM en NAND, was het idee niet om DRAM te vervangen, maar om een deel van de druk ervan af te halen door een laag toe te voegen die meer data dichter bij compute houdt zonder alles in de duurste en meest energiehongerige tier te duwen.
Dan is er nog de fysieke realiteit van nabijheid
Er is nog een andere reden waarom DRAM niet oneindig goed schaalt in AI-systemen, en die heeft minder met budget te maken en meer met natuurkunde. DRAM levert zijn waarde deels doordat het relatief dicht bij de processor zit. Hoe dichter geheugen bij compute zit, hoe lager de latency meestal is en hoe responsiever het hele systeem aanvoelt. Maar nabijheid is niet iets dat je zonder gevolgen eindeloos kunt uitbreiden.
Er zijn fysieke limieten aan hoeveel geheugen je in de buurt van een CPU of GPU kunt plaatsen voordat layout-complexiteit, trace-lengte, signaalintegriteit en packagingbeperkingen tegen je beginnen te werken. Dat is precies waarom geavanceerde geheugenverpakking in de eerste plaats is ontstaan. HBM bestaat omdat traditionele plaatsing van DRAM maar tot een bepaald punt werkt, en zodra de compute-kant snel genoeg wordt, gaan die afstanden en verbindingstrajecten zwaarder meetellen dan vroeger.
Maar HBM is ook geen volledig antwoord op het capaciteitsvraagstuk. Het biedt ongelooflijke bandbreedte, maar geen onbeperkt volume. Daardoor leeft het systeem uiteindelijk in een voortdurende balans tussen wat heel dichtbij geplaatst kan worden en wat verder weg moet blijven. AI-workloads rekken dat evenwicht veel harder op dan conventionele systemen ooit hebben gedaan.
AI maakt kleine vertragingen duur
Een van de interessantere dingen aan AI-infrastructuur is dat het inefficiënties blootlegt die oudere workloads grotendeels konden verbergen. In een traditioneler systeem hoeft een kleine vertraging in datatoegang niet zo veel te betekenen. De processor wacht even, de taak is iets later klaar, en de gebruiker merkt er niets van. AI-systemen zijn veel minder vergevingsgezind, omdat ze werken met zoveel parallellisme en omdat er zoveel geld vastzit in de compute-laag.
Als een GPU niet op tijd de data krijgt die hij nodig heeft, is dat niet alleen een technisch ongemak. Het is dure idle time. Vermenigvuldig dat over veel accelerators die parallel draaien, en zelfs heel kleine vertragingen beginnen zichtbaar te worden als echte verliezen in benutting.
Daardoor verandert ook het doel. Het doel is niet simpelweg snel geheugen hebben. Het doel is om de datalevering consistent genoeg te houden, op een schaal die groot genoeg is om de duurste delen van het systeem voortdurend bezig te houden. Dat is een veel zwaardere eis, en precies daarom begint DRAM alleen onvoldoende te lijken zodra AI-infrastructuur voorbij een bepaald punt groeit.
De magazijn-analogie werkt nog steeds – ze wordt alleen groter
Als we dezelfde magazijn-analogie uit de eerdere artikelen blijven gebruiken, dan is DRAM nog steeds het laadperron. Het is de plek waar actief werk plaatsvindt, waar items worden geopend, gesorteerd en direct in gebruik worden genomen. Jarenlang werkte dat model goed, omdat de hoeveelheid activiteit op het laadperron beheersbaar was en het systeem niet eiste dat alles daar tegelijk klaarstond.
AI verandert de schaal van de operatie. Nu wordt verwacht dat het laadperron een bijna constante stroom materiaal ondersteunt, met veel meer activiteit die parallel plaatsvindt en veel minder tolerantie voor vertraging. Op een gegeven moment kan zelfs het beste laadperron niet simpelweg blijven groeien. Er is maar zoveel ruimte, maar zoveel parallelle bewegingen die efficiënt kunnen plaatsvinden, en maar zoveel voorraad die je direct op het punt van gebruik kunt houden voordat de layout zelf onderdeel van het probleem wordt.
Dus het antwoord is niet om het laadperron oneindig groter te maken. Het antwoord is om de workflow eromheen opnieuw te ontwerpen.
Daar begint de rest van de geheugenshiërarchie zijn plaats te verdienen. HBM houdt de meest tijdkritische data direct naast de processor. Storage class memory helpt de overgang tussen actief geheugen en tragere storage af te vlakken. En in het recentere artikel over waarom moderne AI-systemen zoveel geheugen verbruiken, verschoof de focus naar hoe ook de storage-kant opnieuw wordt ontworpen zodat die intelligenter kan meedoen aan het voeden van het systeem.
Geen van die lagen bestaat omdat DRAM heeft gefaald. Ze bestaan omdat AI voorbij het idee is gegroeid dat één enkele snelle laag de hele workload in zijn eentje kan dragen.
Wat dit echt betekent voor de AI-geheugenstack
De echte conclusie hier is niet dat DRAM verdwijnt, want dat is overduidelijk niet het geval. DRAM blijft een van de belangrijkste onderdelen van de hele stack. Wat verandert, is zijn rol. In plaats van de plek te zijn waar alles wat actief is hoort te leven, wordt DRAM steeds meer de plek waar de meest urgente en tijdgevoelige data leeft, terwijl andere lagen de groeiende last van schaal, kosten en capaciteit opvangen.
Dat is een subtiele verschuiving, maar wel een belangrijke. Het betekent dat AI-infrastructuur zich verwijdert van het oudere idee van een simpel tweelaags model – geheugen hier, storage daar – en opschuift naar iets veel genuanceerders, waarin verschillende technologieën elk worden ingezet voor het deel van de workload waar ze het best geschikt voor zijn.
Simpel gezegd: DRAM blijft essentieel, maar is op zichzelf niet meer genoeg. AI heeft de grootte van de working set veranderd, de snelheid van compute, de kosten van vertraging en de economie van alles dichtbij houden. Zodra al die dingen tegelijk veranderen, moet de geheugenshiërarchie mee veranderen.
Waar dit hierna naartoe leidt
Zodra je accepteert dat DRAM zich niet ver genoeg kan uitstrekken om alles vast te houden wat AI dichtbij compute wil hebben, wordt de volgende vraag vrij vanzelfsprekend. Waar leeft de rest van die data eigenlijk, vooral wanneer de hoeveelheid informatie veel te groot is om te rechtvaardigen dat je die in geheugen houdt?
Daar draait het gesprek opnieuw, en een technologie waarvan veel mensen aannemen dat die allang opzijgeschoven is, begint op een verrassend belangrijke manier weer mee te tellen. Want terwijl DRAM moeite heeft met schaal en flash nog steeds zijn eigen kosten- en latencycompromissen met zich meebrengt, blijven harde schijven iets bieden dat de rest van de stack niet makkelijk kan vervangen: praktische capaciteit op enorme schaal.
En dat is precies waarom het volgende deel van deze reeks moet kijken naar waarom harde schijven nog steeds cruciaal zijn voor AI-infrastructuur.
Over de auteur
Dit artikel is ontwikkeld onder leiding van Greg Morris, een vaste bijdrager aan GetUSB.info met meer dan twintig jaar ervaring in USB-technologie, het gedrag van flashgeheugen en dataopslagsystemen. Het perspectief in dit artikel weerspiegelt praktijkkennis uit de sector en voortdurende analyse van hoe echte systemen presteren onder veranderende workloads, waaronder AI-infrastructuur.
Hoe dit artikel is gemaakt
De concepten, structuur en technische richting van dit artikel zijn opgesteld en beoordeeld door een menselijke vakexpert. AI-tools zijn gebruikt om te helpen met ritme, flow en leesbaarheid, zodat complexe ideeën in een natuurlijker verhaal konden worden georganiseerd zonder de onderliggende technische nauwkeurigheid of bedoeling te veranderen.
Over de beelden
De beelden in dit artikel zijn speciaal gemaakt om concepten te illustreren die lastig vast te leggen zijn met traditionele stockfotografie, zoals knelpunten in datastromen, gedrag van de geheugenshiërarchie en inefficiënties op systeemniveau. De visuals zijn bedoeld om de technische uitleg te versterken en de duidelijkheid voor lezers te verbeteren.


