Bericht versturen

Nieuws

March 11, 2021

Aan het vakgebied verbonden Geheugen

De aan het vakgebied verbonden gegevensverwerking kan al woede zijn, maar het vermijdt het echte probleem.

De grotere zorg is het geheugen dat bewerkerprestaties wurgt, meer macht, verbruikt en het meeste spaandergebied opneemt. Het geheugen moet vrij van de stijve structuren breken aangewezen door bestaande software. Wanneer de algoritmen en het geheugen samen worden ontworpen, zijn de verbeteringen van prestaties significant en de verwerking kan worden geoptimaliseerd.

De aan het vakgebied verbonden verwerking werd gepopulariseerd door de lezing van Turing van 2018, een „Nieuwe Gouden Leeftijd voor Computerarchitectuur,“ door John Hennessy en David Patterson. Maar de bewerkers zijn beperkt door geheugen voor decennia. De veranderende verwerking zonder heroverweegt van geheugen en de geheugenhiërarchieën negeert de Wet van Amdahl, die verstrekt een wiskundig verband tussen mogelijk voor een systeem versnelt wanneer bepaalde stukken van dat systeem worden verbeterd. Het zegt fundamenteel u verminderende winst krijgt als u slechts zich op één stuk van het systeem eerder dan het bekijken het systeem als geheel concentreert.

Waarom zo niet concentraat op het knelpunt? Het „aan het vakgebied verbonden geheugen is enkel een nieuwe termijn, maar de architecten hebben deze soorten optimalisering lange tijd gedaan,“ zegt Prasad Saggurti, directeur van product marketing in Synopsys. „En als zij niet hebben, missen zij een truc omdat de meeste mensen het.“ hebben gedaan

Anderen gaan akkoord. „Herinner videogeheugen — BORREL met ingebouwde verschuivingsregisters?“ vraagt Michael Frank, kameraad en systeemarchitect in Arteris IP. „Misschien GDDR [1-5], speciaal cachelabelgeheugen, of associatief geheugen terug in de tijd van TTL? Heel wat deze hebben niet werkelijk overleefd omdat hun functionaliteit te specifiek was. Zij richtten een uniek apparaat. U hebt een groot genoeg domein nodig, en u vecht tegen de lage kosten van de BORREL van vandaag, die het voordeel van hoog volume en productie op grote schaal.“ heeft

Soms gaat het dieper dan dat. „U zou hardwire iets in een ROM kunnen,“ zegt Saggurti van Synopsys. „Wat wij zien is meer mensen die geheugen vandaag verfijnen. Bijvoorbeeld, met een transformatie van Fourier, of een z-transformatie, zouden de mensen de code schrijven zodanig dat u de coëfficiënten in een bepaalde orde kon opslaan. Wanneer u een matrijsvermenigvuldiging doet, kunt u de coëfficiënten in een bepaalde orde opslaan zodat lezing het uit sneller zou zijn. U kunt geen gegevens in één geheugen opslaan, in plaats daarvan, aanbrengend het drie of vier verschillend geheugen zodat u dingen door veelvoudige gegevenswegen zou kunnen lezen. Deze soorten dingen zijn.“ meer onlangs gebeurd

De verandering is hard. De „uitdaging is dat in het verleden, de mensen een aardig, abstract model voor het denken over de gegevensverwerking van systemen hadden,“ zegt mede en voorname uitvinder de van Steven Woo, in Rambus. „Zij moesten nooit werkelijk over geheugen denken. Het deed zich kostenloos voor en het programmeringsmodel maakte het dusdanig dat toen u verwijzingen naar geheugen deed, het enkel gebeurde. U moest nooit expliciet zijn over wat u.“ deed

Vooruitgang wordt geboekt in het algemeen geheugenprestaties. „De geheugencontrolemechanismen van vandaag en de gevorderde interfacenormen hebben dramatisch wat u uit geavanceerde siliciumtechnologie kunt halen,“ zeggen Frank van Arteris verbeterd. „Dit heeft diepe rijen en gevorderde planners toegelaten. Geavanceerde geheugentechnologieën, zoals hoog bandbreedtegeheugen (HBM), en de gestapelde bandbreedte van de matrijzensteun dat wij onmogelijk om enkel een decennium dachten te bereiken geleden. Maar toch komt het niet goedkoop. Sub-10 NM-laten de technologieën ook grote geheime voorgeheugens toe, zodat misschien kunnen wij dit slechte man aan het vakgebied verbonden geheugen roepen.“

Maar dit zijn alle voorbeelden van kleine stijgende veranderingen. „Architecting-de geheugensubsystemen waarin hoofdzakelijk gegevens verwerk volgt gegevens, rond eerder dan de andere manier, vereist significant van vele voorschriften dat de architecten aan gebruikelijk zijn,“ zegt Matt Horsnell, hogere belangrijkste onderzoekingenieur voor het Onderzoek en de Ontwikkelingsgroep van het Wapen heroverweegt. „Er is een kans om de programmeringsabstractie, van de typische lijst van vandaag van verrichtingen op gegevens, aan een uitgebreide vorm te verbeteren die overeenstemming inkapselt en één of ander begrip van de relatieve afstanden tussen eenheden en gegevensitems gegevens verwerk. Dergelijke abstracties konden de noodzakelijke transformaties toelaten om aan het vakgebied verbonden geheugen meer optimaal te richten wanneer de algoritmen.“ snel evolueren

Datacentra in de bestuurderszitplaats
De datacentra zijn de bestuurders vandaag voor vele technologietendensen. „Één van snelst - de groeiende toepassingen voor verwerken is in datacentra waar de softwaretoepassingen naar meer geheugencapaciteit hunkeren gegevens, zegt de bandbreedte bij lagere latentie,“ Ravi Thummarukudy, CEO voor Mobiveil. „Met de komst van de recentste de industrienorm, verwerk Uitdrukkelijke Verbinding (CXL) gegevens, kunnen de systeemarchitecten rij het geheugen nodig tussen hoofdgeheugen in DDRn DIMMS, en het op CXL-Gebaseerde nieuwere blijvende geheugen van DDRn of. De latentie en de economische kenmerken van deze rijen van geheugen zijn verschillend, en dat geeft architectenopties om het geheugen te mengen en aan te passen om hun vereisten aan te passen.“

Dat is een voortzetting van de architectuur van het erfenisgeheugen. „Vele huizen van OEMs en van het systeem ontwerpen hun eigen SoCs om silicium aan hun specifieke werkbelasting aan te passen,“ zegt Tim Kogel, belangrijkste toepassingeningenieur in Synopsys. De „grootste kans voor prestaties en machtsaanwinsten is de specialisatie van de geheugenhiërarchie samen met het steunen onderling verbindt architectuur.

Overweeg macht. „In huidige architectuur, wordt 90% van de energie voor AI werkbelasting verbruikt door gegevensbeweging, overbrengend de gewichten en de activering tussen extern geheugen, op-spaandergeheime voorgeheugens, en definitief aan het gegevensverwerkingselement zelf (zie figuur 1),“ zegt Arun Iyengar, CEO van Untether AI. „Slechts door zich op de behoeften aan gevolgtrekkingsversnelling te concentreren en machtsefficiency te maximaliseren kunnen wij ongekende computerprestaties leveren.“

De geheugenoptimalisering is een systeem-vlak probleem dat alle aspecten van het ontwerp raakt — hardware, software, en hulpmiddelen. De „strategieën om geheugen te optimaliseren zijn divers en hangen van het toepassingsdomein af,“ voegt Kogel toe. De „beste strategie moet off-chip geheugentoegang totaal vermijden. Voor aan het vakgebied verbonden architectuur, kan dit typisch door stijgend beschikbaar op-spaandergeheugen, of in de vorm van geheime voorgeheugens of toepassing beheerd geheugen worden bereikt. Vooral op het gebied van diepe het leren versnellers, is het beschikbare op-spaandergeheugen een beslissende ontwerpparameter die beïnvloedt ook hoe de neurale netwerktoepassing op de doelhardware wordt gecompileerd — bijvoorbeeld, het betegelen van de windingsexploitant.“

Vele ontwerpen zien om te gaan eruit verder dan dit. De „aan het vakgebied verbonden geheugenconcepten worden onderzocht in ruimte gegevens verwerken domein,“ zegt Horsnell van het Wapen. „Als voorbeeld, neigt DSPs om een pool van verdeeld die geheugen, vaak direct te verstrekken in software wordt geleid, die een betere pasvorm voor de bandbreedtevereisten en de toegangspatronen van gespecialiseerde toepassingen kan zijn dan traditionele delen-geheugensystemen. om het efficiencyhiaat met be*vestigen-functie ASICs te overbruggen, bieden deze bewerkers vaak één of andere vorm van geheugenspecialisatie door directe steun voor specifieke toegangspatronen (aan zoals n-Als buffer optreedt voor, FIFOs, lijnbuffers, compressie, enz.) te verlenen. Een essentieel aspect van de orkestratie binnen deze systemen, en een uitdaging in het ontwerpen van hen, bepalen juiste granularity voor gegevenstoegangen, die communicatie en synchronisatieoverheadkosten kunnen minimaliseren terwijl tegelijkertijd het maximaliseren van overeenstemming. Andere uitdagingen duren, met inbegrip van programmering, coherentie, synchronisatie, en vertaling voort, die softwareingewikkeldheid toevoegen. Nochtans, moet een mogelijke voorwaartse route zich op domein-specifieken taal (DSLs) baseren, die door de gegevensstroom van apps explicieter te maken, compilers kan toelaten om de gespecialiseerde patronen van de geheugentoegang te identificeren en hen effectiever in kaart brengen op de hardware.“

Het betaalt ook om een dichtere blik bij het geheugen zelf te nemen. De „hyper-aanpassing is de tendens dat wij wanneer het over geheugen komt,“ zeggen Anand Thiruvengadam, de op de markt brengende manager van het hoger personeelsproduct binnen Synopsys zien. „Dit betekent speciaal gebouwd geheugen voor verschillende eindtoepassingen. Zelfs binnen een bepaalde eindtoepassing zoals AI zijn er verschillende behoeften aan geheugen, zoals voor opleiding of het inferencing, het inferencing in de servers, of het inferencing in de verre rand. Elk van deze toepassingen heeft verschillende vereisten, en dat betekent u het geheugen moet aanpassen. Deze aanpassing betekent u niet meer geheugen als goederen of overal verkrijgbare producten kunt bekijken. U moet het voor een bepaalde toepassing bouwen. Dat is binnen waar de geheime sausschoppen.“

In veel gevallen verbindt het geheugen en strak wordt gekoppeld onderling. „Om het even wat gaat wanneer het over het combineren van geheugen komt en verbindt technologieën onderling om aan de vereisten van de gegevenstoegang van toepassingswerkbelasting te voldoen — bijvoorbeeld, de veelvoudige niveaus van zich het groeperen van combinerende verwerking met lokaal geheugen om uit de plaats in gegevensstroomtoepassingen, of multi-belegd reusachtig voordeel te halen/op-spaander SRAMs voor het als buffer optreden van eigenschap voor kaarten van CNN-versnellers, en diepe geheim voorgeheugenhiërarchieën met verfijnde coherentieprotocollen multi-ported om de lauwe werkset van datacentrumwerkbelasting te verlichten.“

De pasmunten kunnen grote resultaten opleveren. „Bekijk enkel het kleine mirakel dat Apple met M1 heeft uitgevoerd,“ zegt Frank. „Zij berekenden hoe te architect een geheugensubsysteem dat veelvoudige heterogeene meesters goed dient, gebruikend intelligente in het voorgeheugen onderbrengende strategie en een reusachtige, op verscheidene niveaus geheim voorgeheugenhiërarchie.“

Zoals vaak het geval is, is de software het traagheidsanker. „Wat gewoonlijk gebeurt is daar is op zijn plaats een algoritme, en wij zien een manier om het te optimaliseren, het geheugen optimaliseren, zodat het algoritme veel beter wordt uitgevoerd,“ zeggen Saggurti. „Aan de tikkant, hebben wij deze verschillende soorten geheugen. Kunt u uw algoritme om van deze nieuwe soorten geheugen gebruik te maken veranderen? In het verleden, die TCAMs gebruiken was meestal een concept van het voorzien van een netwerkdomein om op IP-adressen te kijken. Meer onlangs, beginnen de opleidingsmotoren om TCAMs te gebruiken, en dat is zulk een verschillende benadering. Dit vergt software, of ingebouwde programmatuur aan verandering op de soorten beschikbaar die geheugen wordt gebaseerd. Maar meestal, de software vaste en geheugenveranderingen blijft om de resulterende implementatie beter te maken.“

Productievoorlichting
Heel wat tijd en geld deze dagen wordt geïnvesteerd in kunstmatige intelligentie. De douanespaanders worden beperkt door productie, en dat zet de schijnwerper op het geheugen en verbindt onderling.

„Historisch, verbindt het geheugen en architectuur onderling is ontworpen gebaseerd op statische spreadsheten of de eenvoudige analysemodellen zoals het model van rooflineprestaties,“ zegt Kogel. „Voor overzichtstoepassingen, wordt dit vrij complex. Bijvoorbeeld, vereist het voorspellen van de geheugenvereisten van elke laag in een CNN de overweging van compileroptimalisering zoals het betegelen en laagfusie. Deze statische methodes worden onredelijk complex en onnauwkeurig voor de voorspelling en de optimalisering van Soc-Vlakke werkbelasting met diverse IP subsystemen en dynamische toepassingsscenario's. Anderzijds, is het runnen van de toepassing bovenop hardwarewedijver of een prototyping systeem te laat in het ontwikkelingsproces om eender welke drastische veranderingen of belangrijke optimalisering van het geheugenontwerp aan te brengen.“

Dat zet de nadruk op de voorgenomen werkbelasting. De „sleutel tot efficiënte geheugensubsystemen is de kennis van uw werkbelasting,“ zegt Frank. „Begrijpend hoe het zich gedraagt, misschien op een bepaalde manier zelfs vormend het die het met de beperking van uw geheugenhiërarchie compatibeler maakt, is dit waar de architectuur wordt uitgedaagd. De aan het vakgebied verbonden versnellers vereisen gestemde geheugensystemen — en de kunst van de bouw van de transformatiemotor dat de ‚impedantie‘ de geproduceerde massa aanpast, pagina georganiseerd, bursty toegangsborrel en het de toegangspatroon van de motor vereist inzicht in het systeemgedrag, modelleringshulpmiddelen en heel wat werkbelasting om te spelen met. Soms neemt het het veranderen van de manier de werkbelastingsprocessen de gegevens het algemene systeem kunnen verbeteren. Een goed voorbeeld was de overgang van ‚het directe‘ teruggeven aan op tegel-gebaseerde verwerking in GPUs.“

Het allen komt neer over modellering en simulatie. „Wij stellen het gebruik van virtuele prototyping hulpmiddelen voor om de toepassingswerkbelasting, samen met nauwkeurige transactie-vlakke modellen van interconnect te modelleren en de geheugenarchitectuur,“ zegt Kogel. „Deze kwantitatieve ‚architectuur‘ benadering staat eerst vroege inruilanalyse toe, resulterend in een betrouwbare implementatiespecificatie. Ten koste van extra modellering en simulatie inspanning, is het voordeel gedrukt risico om prestaties en machtsdoelstellingen te missen, of lagere kosten om de hardware overdesigning enkel om aan de veilige kant te zijn. In de era van verminderende winst van de Wet van Moore, moet de kans uit met een meer geoptimaliseerd en onderscheiden product komen.“

Dat laat het effect van algoritmische veranderingen toe om worden gezien, ook. „Er is een behoefte terug te gaan en de algoritmen te herontwerpen,“ zegt Thiruvengadam. „Zij kunnen voor de traditionele architectuur van het erfenisgeheugen herontwerpen, of zij kunnen voor nieuwe architectuur, nieuwe geheugenstijlen, nieuwe geheugenaroma's worden herontworpen. Er is deze constante duw voor prestaties het schrapen van, kosten het schrapen van, en ook het kunnen de inruil voor de verschillende toepassingen in evenwicht brengen. Dit is hoofdzakelijk de reden waarom u voortdurende ontwikkeling van MRAMs en FeRAMs ziet. Zij proberen om een zoete vlek voor minstens een paar variabelen te vinden, als niet alle variabelen. De behoefte om algoritmen samen met de geheugenarchitectuur te herontwerpen zeker wordt belangrijk.“

Het saldo is noodzakelijk. „U moet over het concept computerintensiteit denken en het type van verrichtingen in kwestie,“ zegt Frank. „Bepaalde algoritmen hebben onverzadigbare bandbreedtevereisten, terwijl anderen bewegen slechts vrij kleine hoeveelheden gegevens maar duizenden handelingen op het uitvoeren. De in-geheugenverrichting kan goed voor SIMD-Type verwerking werken, waar de instructiebandbreedte met betrekking tot de gegevensbandbreedte klein is en vele elementen gebruikend hetzelfde recept worden verwerkt. Maar zodra er opeenvolgende gebiedsdelen in de gegevensstroom of de onregelmatige gegevensstroom zijn, krimpt het voordeel van aan het vakgebied verbonden geheugen.“

Douanegeheugen
Terwijl de architecturale veranderingen grote resultaten kunnen veroorzaken, kan het optimaliseren van het geheugen aanwinsten ook verstrekken. Een „groot deel van het vermogen en het gebied van de versnellers van vandaag wordt gebruikt op geheugen,“ zegt Horsnell. „Zo om het even welke de latentie/dichtheids/energieverbeteringen bereikte door nieuwe geheugentechnologieën konden een dramatische invloed hebben.“

Het douanegeheugen wordt grote zaken. „U begint om dingen zoals in-geheugen te zien gegevens verwerken, verwerkt het dichtbijgelegen-geheugen, specifiek geheugen gegevens dat schrijven-alle-gecentreerd geheugen zou kunnen zijn — het geheugen dat voor bepaalde soorten verrichtingen,“ wordt geoptimaliseerd zegt Saggurti. „Wij zien heel wat klanten ons over MRAM, zelfs nog meer aanpassing van SRAMs, TCAMs, en bepaalde kneepjes aan TCAMs.“ vragen

De moeilijkheden blijven, niettemin. „ik heb heel wat besprekingen betreffende de ontwerpen van het douanegeheugen, waar de verwerking op de geheugenmatrijs een ‚ideale“ architectuur zou geweest zijn,“ zeg Frank gehad. „Het zou hoge bandbreedte, lage latentie, enz. verstrekt hebben. Alles was juist, behalve het feit, dat het geheugenproces welke logica zou kunnen worden geïntegreerd beperkte — drie of vier low-power metaallagen, maar langzame transistors. Die bedoelde ondoelmatigheid voor verwerkt motor gegevens. Het offeren van kloksnelheid en kringsingewikkeldheid maakte plotseling de integratie van motor niet meer gegevens verwerken zulk een goede keus.“

Maar sommige van deze veranderingen zullen noodzakelijk worden. De „mensen willen flits op spaander brengen en tot het een ingebedde flits maken,“ zegt Saggurti. „Dan wordt de vraag, ‚is het zelfs mogelijk? ‚Bij 28nm zou u ingebedde flits kunnen kunnen doen, maar de mensen beginnen om over dingen zoals MRAM bij 22nm te denken.“

Nog, zijn er andere manieren om het probleem te bekijken. „De procesveranderlijkheid over een wafeltje en over de matrijs, en zelfs na verloop van tijd, het ontwerp van het grensgeheugen,“ voegt Saggurti toe. „Wanneer u een geheugen ontwerpt, neigt eenvoudig SRAM, u om voor het geval te ontwerpen wanneer de beetjecel één manier gaat — langzaam — en de periferie gaat de andere manier — snel. Als u voor dat ontwerpt, en als de meerderheid van uw silicium typisch is, verlaat u heel wat prestaties en macht op de lijst. Als u begrijpt waar u in de proceswaaier bent en de spaanderontwerper om op die informatie toelaat te handelen, dan kunt u timing dienovereenkomstig aanpassen. Uw ontwerp zou meer optimaal kunnen zijn, en u moet niet voor in het slechtste geval ontwerpen.“

Conclusie
Terwijl het geheugen altijd een ontwerpinruil is geweest, heeft het nooit hetzelfde niveau van aandacht zoals verwerking ontvangen, alhoewel het de prestatiesbeperker in termen van bandbreedte, macht, en gebied is. AI beweegt mensen ertoe om geheugenarchitectuur uit noodzaak te heroverwegen, maar met die extra aandacht, kunnen de ontwerpteams enkele software en algoritmen ook heroverwegen die voor de systemen van het erfenisgeheugen werden geoptimaliseerd. In een wereld waar de prestatiesaanwinsten niet kostenloos om de 18 maanden komen, worden meer extreme maatregelen de enige manier om producten tegen te houden van het worden goederen. (Van Brian Bailey)

Contactgegevens