High Bandwidth Flash: kan NAND zich eindelijk als geheugen gedragen?
AI-infrastructuur heeft een manier om grenzen bloot te leggen waar de meeste systemen nooit tegenaan lopen.
In de eerdere stukken hebben we gekeken naar hoe high bandwidth memory voor AI-workloads data zo dicht mogelijk bij de GPU houdt, en hoe storage class memory tussen DRAM en NAND helpt om de kloof tussen actief geheugen en traditionele flashopslag glad te strijken. Beide lagen bestaan omdat het systeem zich niet kan veroorloven om te wachten, zelfs niet voor korte momenten, zonder efficiëntie te verliezen.
Maar er is nog een andere richting waarin de industrie zich beweegt, en die draait niet om het introduceren van een volledig nieuw type geheugen.
In plaats daarvan neemt men iets dat al bestaat, NAND-flash, en duwt men het in een rol waarvoor het oorspronkelijk niet bedoeld was.
Daar begint het idee van High Bandwidth Flash in beeld te komen.
Het probleem dat NAND nooit bedoeld was om op te lossen
NAND-flash is altijd gebouwd rond een eenvoudig idee: veel data efficiënt opslaan en die terughalen wanneer dat nodig is.
Voor de meeste workloads werkt dat model prima. Data staat in de opslag, het systeem vraagt erom, en de SSD levert die snel genoeg aan zodat bijna niemand de vertraging echt opmerkt.
AI-workloads veranderen die dynamiek.
In plaats van af en toe lezen en schrijven, trekken deze systemen voortdurend data parallel naar binnen, vaak over duizenden threads tegelijk, met heel weinig tolerantie voor inconsistentie in de levering. Het gaat niet alleen om snelheid op zichzelf, maar om het vasthouden van een constante datastroom die de rekenkant volledig benut houdt.
Daar beginnen de beperkingen van traditioneel NAND-gedrag zichtbaar te worden.
Zelfs high-performance NVMe-drives, met diepe wachtrijen en sterke throughputcijfers, werken nog steeds binnen een opslagmodel dat uitgaat van pieken in activiteit, niet van een continue, geheugenachtige stroom van toegang.
Dus de vraag wordt: wat gebeurt er als je NAND niet langer als opslag behandelt, maar het meer gaat behandelen als onderdeel van het geheugensysteem?
Wat “High Bandwidth Flash” eigenlijk betekent
High Bandwidth Flash is geen formele standaard en ook geen enkele productcategorie.
Je kunt het beter zien als een architectonische richting, en daar begint het zich ook te onderscheiden van wat we behandelden bij High Bandwidth Memory.
High Bandwidth Memory is nog steeds geheugen. Het is DRAM, gebouwd en gepositioneerd om extreem snelle toegang te leveren doordat het fysiek dicht bij de processor zit. Het hele punt van HBM is nabijheid en lagere latency, data zo dicht mogelijk bij compute brengen zodat die vrijwel direct toegankelijk is.
High Bandwidth Flash lost een ander probleem op. Het accepteert dat NAND verder weg in het systeem zit en hogere latency met zich meebrengt, en richt zich er in plaats daarvan op om veel grotere hoeveelheden data parallel te verplaatsen zodat die afstand minder zwaar weegt.
Eenvoudig gezegd: HBM gaat over geheugen sneller maken door het dichterbij te brengen. High Bandwidth Flash gaat over opslag sneller laten aanvoelen door te veranderen hoe die wordt benaderd.
Dat onderscheid is belangrijk, want het doel hier is niet om NAND in DRAM te veranderen. Het doel is om NAND bruikbaar te maken in situaties waarin traditionele opslag het systeem anders zou vertragen.
Die verschuiving gebeurt op systeemniveau, niet alleen op medianiveau.
In plaats van één enkele SSD die verzoeken op de traditionele manier afhandelt, zie je steeds vaker veel NAND-kanalen die parallel werken, controllers die ontworpen zijn voor gelijktijdigheid in plaats van alleen capaciteit, bredere datapaden via PCIe Gen5- en Gen6-interfaces, en softwarelagen die data anticiperen en klaarzetten voordat die wordt opgevraagd.
Alles bij elkaar genomen nemen deze veranderingen de inherente latency van NAND niet weg, maar ze verkleinen wel hoe vaak die latency de beperkende factor in het systeem wordt.
Een andere manier om over bandbreedte na te denken
Wanneer mensen “hoge bandbreedte” horen, denken ze meestal aan pure snelheid.
Maar in deze context gaat bandbreedte eigenlijk over hoeveel data er tegelijk verplaatst kan worden, en hoe consistent die verplaatsing volgehouden kan worden.
AI-workloads hebben niet alleen snelle toegang nodig, maar voorspelbare toegang op schaal.
Als een GPU-cluster data ongelijkmatig binnenhaalt, kunnen zelfs kleine variaties ervoor zorgen dat delen van het systeem stilvallen. Vermenigvuldig dat over honderden of duizenden nodes, en die inefficiënties beginnen zichtbaar te worden op manieren die lastig te negeren zijn.
High Bandwidth Flash is een poging om dat glad te strijken, niet door de eigenschappen van NAND te elimineren, maar door het te omringen met genoeg parallelisme en intelligentie zodat die eigenschappen minder zwaar wegen voor het totale systeem.
De magazijnanalogie verder doortrekken
Als we hetzelfde magazijnmodel uit de eerdere artikelen blijven gebruiken, dan is NAND altijd de hoofdopslagvloer geweest.
Dat is de plek waar alles ligt, georganiseerd in rijen en schappen, geoptimaliseerd voor dichtheid en efficiëntie in plaats van voor toegangssnelheid.
DRAM is het laadperron, waar het actieve werk gebeurt. SCM is het staginggebied er direct achter.
High Bandwidth Flash verandert hoe het magazijn werkt.
In plaats van één medewerker die de gangpaden in loopt om artikelen één voor één te pakken, heb je nu meerdere laadperrons tegelijk open, verschillende heftrucks die parallel bewegen, en artikelen die vooraf worden klaargezet op basis van wat het systeem verwacht hierna nodig te hebben.
Het magazijn zelf is fundamenteel niet veranderd, maar de manier waarop het wordt benaderd wel.
Je verandert het magazijn niet in het laadperron, je laat het magazijn zich gedragen alsof het er veel dichter bij ligt.
Hoe dit in de praktijk wordt gebouwd
Het meeste van wat High Bandwidth Flash mogelijk maakt, komt niet uit het NAND zelf, maar uit de lagen eromheen.
Controllers spelen nu een grotere rol in hoe data wordt verdeeld, met een focus op parallelle operaties over meerdere NAND-dies en kanalen in plaats van alleen het beheren van capaciteit en slijtage. Tegelijkertijd blijft de interfacebandbreedte groeien, waardoor deze systemen meer ruimte krijgen om data te verplaatsen zonder dat de bus de beperkende factor wordt.
Wat echter het grootste verschil maakt, is hoe de software met de hardware omgaat.
Data wordt niet meer alleen opgehaald op het moment dat die wordt opgevraagd. Ze wordt voorspeld, klaargezet, gecachet en georganiseerd op manieren die aansluiten bij hoe AI-workloads zich gedragen. Dat betekent toegangspatronen vooraf inschatten, vaak gebruikte data dichter bij de top van de stack houden en minimaliseren hoe vaak het systeem moet terugvallen op tragere paden.
Niets daarvan verandert NAND in echt geheugen, maar het stelt NAND wel in staat om actiever deel te nemen aan het geheugensysteem dan voorheen.
Wat het nog steeds niet is
Ondanks al deze vooruitgang is het belangrijk om de verwachtingen realistisch te houden.
High Bandwidth Flash maakt NAND niet gelijkwaardig aan DRAM. Het is nog steeds block-based, heeft nog steeds hogere latency dan welke vorm van echt geheugen ook, en blijft sterk afhankelijk van controllers en software om goed te presteren in veeleisende omgevingen.
Die beperkingen verdwijnen niet, ze worden alleen effectiever beheerd via systeemontwerp.
Waar dit past binnen AI-infrastructuur
In echte deployments duikt High Bandwidth Flash op in systemen die extreem grote datasets moeten verwerken zonder alles in dure geheugentiers te duwen.
Hoe dat er in de praktijk echt uitziet, is een systeem dat veel actiever op NAND leunt dan vroeger, niet alleen als plek waar data wordt opgeslagen, maar als onderdeel van het werkende datapad dat compute-resources op een meer continue manier voedt.
In grootschalige inference-omgevingen bijvoorbeeld overschrijden modellen en contextdata vaak wat realistisch in DRAM past. In plaats van alles geforceerd in geheugen te stoppen, vertrouwt het systeem op high-throughput toegang tot NAND, waardoor data snel genoeg kan binnenstromen dat het zich meer gedraagt als een uitbreiding van geheugen dan als traditionele opslag.
In trainingsomgevingen, waar datasets voortdurend opnieuw worden bekeken en parallel worden verwerkt, verschuift het doel naar het onderhouden van een gestage stroom in plaats van het afhandelen van losse pieken. High Bandwidth Flash ondersteunt dat door meerdere datapaden tegelijk actief te houden, waardoor de kans kleiner wordt dat één enkel verzoek een bottleneck wordt.
Zelfs in gedistribueerde NVMe-fabric-systemen blijft het idee hetzelfde. Data is verspreid over veel apparaten en nodes, maar wordt op een gecoördineerde manier benaderd waarbij throughput en beschikbaarheid belangrijker zijn dan eenvoudige opslagcapaciteit. NAND doet nog steeds dezelfde fundamentele taak, maar de manier waarop het systeem ermee omgaat is veel dynamischer dan vroeger.
Het eindresultaat is dat NAND stopt met aanvoelen als een verre laag onderaan de stack en meer begint te voelen als onderdeel van het actieve systeem, ook al bereikt het nooit helemaal de prestatie-eigenschappen van geheugen.
Waarom deze richting ertoe doet
Als je een stap terugdoet en kijkt naar wat er in al deze drie artikelen gebeurt, begint er een patroon zichtbaar te worden.
HBM brengt geheugen dichter bij compute. SCM verkleint de kloof tussen geheugen en opslag. High Bandwidth Flash schuift opslag dichter naar geheugen toe.
Alles convergeert naar hetzelfde doel: verkleinen hoe ver data moet reizen, en hoe lang het systeem erop moet wachten.
Terug naar het grotere geheel
NAND verdwijnt niet.
Als er al iets gebeurt, is het dat NAND juist belangrijker wordt, omdat de totale hoeveelheid data die deze systemen nodig hebben blijft groeien.
Wat verandert, is hoe NAND wordt gebruikt.
Het is niet langer alleen een passieve laag onderaan de stack. Het wordt omhooggetrokken, strakker geïntegreerd en gevraagd zich te gedragen op manieren die steeds meer op geheugen lijken, ook al wordt het dat nooit helemaal.
Die verschuiving is precies waar we in het oorspronkelijke stuk op wezen: de industrie heeft NAND niet vervangen, maar eromheen gebouwd.
Wat hierna komt
Vanaf hier blijft de stack zich in beide richtingen ontwikkelen.
Bovenin wordt geheugen sneller en specialistischer. Onderin wordt opslag intelligenter en meer geïntegreerd. En ergens daartussen wordt de grens tussen die twee steeds moeilijker te trekken.
In het volgende stuk kijken we naar hoe AI-systemen werkdata in real time afhandelen, en waarom concepten als context en KV-cache beginnen te beïnvloeden hoe geheugen en opslag samen worden ontworpen.
Redactionele noot
Het perspectief, de richting en de technische inkadering van dit artikel zijn door de auteur bepaald, gebaseerd op de specifieke thema’s die in het stuk worden verkend en de bredere discussie over hoe NAND binnen AI-infrastructuur dichter naar de geheugenlaag wordt geschoven.
AI is gebruikt als schrijfassistent om te helpen met ritme, zinsverloop en structurele organisatie, maar de onderwerpkeuze, vergelijkingen en uiteindelijke redactionele intentie zijn door de auteur bepaald.
De begeleidende afbeelding is ook met AI gemaakt, niet als generieke stockvisual, maar als doelgerichte illustratie om artikelspecifieke concepten weer te geven die lastig met conventionele beelden te communiceren zijn – in het bijzonder het idee dat NAND-flash zich meer gedraagt als een actieve, geheugen-aangrenzende laag binnen een moderne data-architectuur.
Alle inhoud is door de auteur beoordeeld, verfijnd en goedgekeurd vóór publicatie.


