Waarom harde schijven nog steeds cruciaal zijn voor AI-infrastructuur
Wanneer de meeste mensen over AI-infrastructuur horen, gaat het gesprek meestal over GPU’s, High Bandwidth Memory (HBM) of ultrasnelle solid-state opslag. De aanname is dat kunstmatige intelligentie volledig draait op hypermoderne hardware, waar alles wordt gemeten in nanoseconden en terabytes per seconde.
Die aanname is niet verkeerd, maar wel onvolledig.

De werkelijkheid is dat moderne AI-systemen nog steeds sterk afhankelijk zijn van een van de oudste technologieën in het datacenter: de mechanische harde schijf.
Dat klinkt misschien vreemd, zeker omdat we eerder al hebben besproken hoe AI-servers zich verplaatsen voorbij traditioneel flashgeheugen in ons artikel: NAND verdwijnt niet, maar AI-servers zijn tegenwoordig afhankelijk van meer dan alleen flash. We hebben ook bekeken waarom technologieën zoals High Bandwidth Memory (HBM) essentieel worden om AI-systemen snel genoeg van data te voorzien en zo GPU-knelpunten te voorkomen.
Maar er is nog een andere kant van dit verhaal die veel minder aandacht krijgt: pure schaal.
AI heeft niet alleen snelle opslag nodig. AI heeft een bijna onvoorstelbare hoeveelheid opslag nodig.
En harde schijven zijn nog steeds de enige technologie die die capaciteit kan leveren tegen een prijs die de industrie realistisch kan dragen.
De opslaghiërarchie van AI begrijpen
De eenvoudigste manier om moderne AI-infrastructuur te begrijpen, is door niet langer aan één enkele computer te denken, maar aan een volledige logistieke operatie.
HBM werkt als het laadperron waar data met ongelooflijke snelheid wordt verplaatst. DRAM functioneert als de actieve werkruimte waar informatie voortdurend wordt bewerkt. NAND-flash gedraagt zich meer als nabijgelegen stellingen, waar snelle toegang nog steeds belangrijk is, maar langdurige opslag ook begint mee te tellen.
Harde schijven zijn echter het magazijn.
Niet het meest opvallende deel van de operatie. Ook niet het snelste deel. Maar absoluut het grootste.
| Technologie | Typische capaciteit | Belangrijkste kracht | Belangrijkste AI-rol |
|---|---|---|---|
| HBM | 80GB–192GB | Extreme bandbreedte | Actieve GPU-berekening |
| DRAM | Honderden GB’s | Lage latency | Werkgeheugen |
| NAND SSD | Meerdere TB’s | Snelle persistente opslag | Dataset-staging en caching |
| Harde schijven | Petabytes tot exabytes | Capaciteitsefficiëntie | Bulkopslag en archieven |
Dat onderscheid is belangrijk, omdat AI-trainingssystemen data verbruiken op een schaal die de meeste mensen bij normaal computergebruik nooit tegenkomen.
Een consumentenlaptop kan misschien een paar terabytes aan data opslaan. Zelfs een high-end workstation komt vaak niet verder dan tientallen terabytes. AI-infrastructuur werkt meerdere ordes van grootte daarboven.
Waar een consumentenlaptop in terabytes denkt, denken AI-clusters in exabytes.
Eén enkele exabyte is gelijk aan één miljoen terabytes.
Als een moderne enterprise harde schijf 30TB opslaat, zijn er nog steeds meer dan 33.000 harde schijven nodig om één enkele exabyte aan ruwe opslagcapaciteit te bouwen.
Grote AI-operators bouwen niet één exabyte. Ze bouwen meerdere exabytes, verspreid over regio’s, redundantielagen, trainingsomgevingen, back-upsystemen en archiefopslag.
Het exabyteprobleem
Het trainen van een groot taalmodel kan petabytes aan tekst, afbeeldingen, video, telemetrie, checkpoints en opgeslagen trainingsstatussen omvatten. Zodra die datasets zijn verzameld, worden ze zelden verwijderd. Ze blijven groeien naarmate modellen opnieuw worden getraind, verfijnd en uitgebreid.
Tijdens AI-training maken systemen voortdurend checkpoints aan, in feite enorme opslagmomenten van het model terwijl het leert. Als een cluster halverwege een trainingscyclus van meerdere weken uitvalt, kunnen die checkpoints het enige zijn dat voorkomt dat miljoenen dollars aan rekentijd verloren gaan.
Dat betekent dat opslaginfrastructuur niet langer alleen om snelheid draait, maar ook om het in stand houden van gigantische pools met toegankelijke data.
Hier blijven harde schijven stilletjes dominant.
In 2010 voelde een harde schijf van 2TB enorm. Enterprise-omgevingen gebruikten vaak SAS-schijven van 300GB of 600GB, en alles boven een paar terabytes werd gezien als premiumcapaciteit.
Vandaag worden enterprise harde schijven van 24TB en 30TB standaard ingezet in grote datacenters. Fabrikanten testen al schijven van meer dan 40TB met technologieën zoals HAMR (Heat-Assisted Magnetic Recording), waarmee de oppervlaktedichtheid wordt verhoogd zonder de fysieke afmetingen van de schijf zelf te vergroten.
Om die groei in perspectief te plaatsen: één modern opslagrack kan tegenwoordig meer data bevatten dan een compleet middelgroot enterprise-datacenter uit 2010.
Zo drastisch is de vraag naar opslag veranderd.
En AI is een van de belangrijkste redenen daarvoor.
AI draait op meer dan snelheid alleen
De publieke discussie rond AI richt zich meestal op GPU’s, omdat GPU’s het zichtbare werk doen. Ze genereren de antwoorden, maken de afbeeldingen en verwerken de tokens.
Opslag doet het onzichtbare werk: het bewaren van de intelligentiepijplijn zelf.
GPU’s zijn alleen nuttig als ze continu toegang hebben tot enorme hoeveelheden trainingsdata.
Die data moet ergens staan.
Niet in HBM. Niet in DRAM. En zeker niet volledig in dure NAND-opslaglagen.
Die data leeft voornamelijk op enorme infrastructuur met harde schijven.
Een modern AI-datacenter kan honderden petabytes aan opgeslagen data bevatten. Sommige hyperscale-omgevingen gaan waarschijnlijk nog veel verder richting architecturen op exabyteschaal. Alles volledig op NAND-flash opslaan zou financieel onrealistisch zijn, zelfs voor de grootste cloudproviders.
Dit is het deel dat veel mensen missen wanneer ze over AI-hardware praten.
Prestaties zijn belangrijk, maar economie is dat ook.
De industrie verkoopt graag IOPS en benchmarkcijfers, maar grote AI-implementaties worden uiteindelijk beperkt door de totale eigendomskosten.
Harde schijven blijven de laagste kosten per terabyte bieden bij grootschalige implementaties. Ze blijven ook bijzonder efficiënt voor het opslaan van koude data, gearchiveerde datasets, back-up-snapshots, modelcheckpoints en grote hoeveelheden trainingsinformatie die geen toegangstijden op nanosecondeniveau nodig hebben.
Waarom harde schijven nog steeds werken voor AI
Er is ook nog een ander misverstand dat de moeite waard is om recht te zetten: mensen gaan er vaak van uit dat harde schijven onbruikbaar traag zijn voor AI-omgevingen.
Dat is niet helemaal waar.
Eén enkele harde schijf is traag vergeleken met DRAM of NAND-flash, ja. Maar AI-datacenters werken niet met losse schijven. Ze werken met enorme storage-arrays met parallelle toegang over duizenden schijven tegelijk.
Belangrijker nog: veel AI-workloads bestaan uit sequentiële streaming van grote datasets, in plaats van kleine willekeurige transacties. Sequentiële workloads zijn juist een van de gebieden waarin moderne enterprise-arrays met harde schijven nog verrassend goed presteren.
Met andere woorden: AI-infrastructuur vraagt niet altijd: “Wat is de snelst mogelijke opslag?”
Soms vraagt het:
Wat is de snelste praktische manier om 500 petabytes op te slaan zonder het bedrijf failliet te maken?
Dat is een heel ander technisch probleem.
AI-infrastructuur wordt een gelaagd geheugenecosysteem
Dit verklaart ook waarom nieuwere technologieën in lagen aan AI-systemen worden toegevoegd, in plaats van oudere technologieën volledig te vervangen.
In ons artikel over Storage Class Memory: de ontbrekende laag tussen DRAM en NAND hebben we bekeken hoe de industrie steeds opnieuw tussenlagen creëert om snelheid, persistentie en economie in balans te brengen.
We hebben ook onderzocht hoe NAND probeert dichter bij geheugenniveauprestaties te komen in: High Bandwidth Flash: kan NAND zich eindelijk als geheugen gedragen?.
AI-infrastructuur wordt precies dat: een gelaagd geheugenecosysteem.
HBM verwerkt de directe berekeningen. DRAM beheert actieve workloads. NAND-flash vangt snelle persistente opslagtaken op. Storage-class technologieën proberen latencygaten te overbruggen. Harde schijven leveren de enorme capaciteitsbasis onder alles.
De toekomst van AI-opslag is niet dat één technologie een andere vervangt.
Het is een stapeling van meerdere technologieën, omdat geen enkel geheugentype elk probleem goed oplost.
Dat is waarschijnlijk het grootste misverstand rond AI-infrastructuur vandaag. Mensen nemen aan dat de nieuwste technologie automatisch de oudere doodmaakt.
Maar zo werkt de geschiedenis van computing zelden.
Harde schijven overleefden SSD’s omdat de wereld sneller meer data bleef produceren dan flashprijzen konden dalen. Nu versnelt AI die trend nog verder. De hoeveelheid informatie die wordt gegenereerd, bewaard, gekopieerd en opnieuw getraind explodeert zo snel dat capaciteit zelf een strategische hulpbron is geworden.
Ironisch genoeg geldt: hoe geavanceerder AI wordt, hoe belangrijker grootschalige opslaginfrastructuur daarnaast wordt.
Dat betekent dat een van de oudste technologieën in het datacenter mogelijk veel langer een cruciale rol blijft spelen in AI dan de meeste mensen hadden verwacht.
Redactionele noot: Dit artikel maakt deel uit van de doorlopende serie over AI-infrastructuur en geheugenarchitectuur die door GetUSB.info wordt gepubliceerd. Het artikel is onderzocht en geschreven met AI-ondersteunde redactionele hulp voor structuur en leesbaarheid, en daarna beoordeeld en verfijnd door het redactieteam van GetUSB op technische nauwkeurigheid, continuïteit en helderheid.
De begeleidende afbeelding die in dit artikel wordt gebruikt, is een originele foto gemaakt door het team van GetUSB.info en is geen stockfotografie.
