緩存在 AI 處理器設(shè)計(jì)中的作用

出處：維庫(kù)電子市場(chǎng)網(wǎng) 發(fā)布于：2024-03-22 17:06:35

　　假設(shè)我們正在設(shè)計(jì)一款包含一個(gè)或多個(gè)處理器內(nèi)核的片上系統(tǒng) (SoC) 設(shè)備。我們將在設(shè)備內(nèi)部包含相對(duì)少量的內(nèi)存，而大部分內(nèi)存將駐留在 SoC 外部的分立設(shè)備中。
　　快的存儲(chǔ)器類型是 SRAM，但每個(gè) SRAM 單元需要六個(gè)晶體管，因此 SRAM 在 SoC 內(nèi)部很少使用，因?yàn)樗拇罅靠臻g和功耗。相比之下，DRAM 每個(gè)單元只需要一個(gè)晶體管和電容器，這意味著它消耗的空間和功耗要少得多。因此，DRAM 用于在 SoC 之外創(chuàng)建大容量存儲(chǔ)設(shè)備。盡管 DRAM 提供高容量，但它的速度明顯慢于 SRAM。
　　隨著用于開發(fā)集成電路的工藝技術(shù)的發(fā)展，結(jié)構(gòu)越來越小，大多數(shù)設(shè)備變得越來越快。遺憾的是，作為 DRAM 的晶體管電容器位單元卻并非如此。事實(shí)上，由于其模擬特性，位單元的速度幾十年來基本保持不變。
　　話雖如此，從外部接口來看，DRAM 的速度在每一代新產(chǎn)品中都翻了一番。由于每次內(nèi)部訪問都相對(duì)較慢，因此實(shí)現(xiàn)這一點(diǎn)的方法是在設(shè)備內(nèi)部執(zhí)行一系列交錯(cuò)的訪問。如果我們假設(shè)我們正在讀取一系列連續(xù)的數(shù)據(jù)字，那么接收個(gè)字將需要相對(duì)較長(zhǎng)的時(shí)間，但我們會(huì)更快地看到任何后續(xù)的字。
　　如果我們希望傳輸大塊連續(xù)數(shù)據(jù)，這種方法很有效，因?yàn)槲覀冊(cè)趥鬏旈_始時(shí)進(jìn)行性命中，之后后續(xù)訪問就會(huì)高速進(jìn)行。然而，如果我們希望對(duì)較小的數(shù)據(jù)塊執(zhí)行多次訪問，就會(huì)出現(xiàn)問題。在這種情況下，我們不是性點(diǎn)擊，而是一遍又一遍地接受該點(diǎn)擊。
　　速度更快
　　解決方案是使用高速 SRAM 在處理設(shè)備內(nèi)部創(chuàng)建本地緩存存儲(chǔ)器。當(dāng)處理器首次從 DRAM 請(qǐng)求數(shù)據(jù)時(shí)，該數(shù)據(jù)的副本將存儲(chǔ)在處理器的高速緩存中。如果處理器隨后希望重新訪問相同的數(shù)據(jù)，它會(huì)使用其本地副本，這樣訪問速度會(huì)快得多。
　　在 SoC 內(nèi)部使用多級(jí)緩存是很常見的。這些級(jí)別稱為 1 級(jí) (L1)、2 級(jí) (L2) 和 3 級(jí) (L3)。級(jí)高速緩存的容量，但訪問速度，隨后的每都具有較高的容量和較低的訪問速度。如圖1所示，假設(shè)系統(tǒng)時(shí)鐘為 1 GHz 且采用 DDR4 DRAM，則處理器訪問 L1 緩存只需 1.8 ns，訪問 L2 緩存只需 6.4 ns，訪問 L3 緩存只需 26 ns。從外部 DRAM 訪問一系列數(shù)據(jù)字中的個(gè)數(shù)據(jù)需要花費(fèi) 70 納秒（數(shù)據(jù)來源Joe Chang 的服務(wù)器分析）。

　　圖 1概述了 1 GHz 時(shí)鐘和 DDR4 DRAM 的高速緩存和 DRAM 訪問速度。動(dòng)脈
　　緩存在人工智能中的作用
　　人工智能的實(shí)施和部署場(chǎng)景多種多樣。就我們的 SoC 而言，一種可能性是創(chuàng)建一個(gè)或多個(gè) AI 加速器 IP，每個(gè)都包含自己的內(nèi)部緩存。假設(shè)我們希望保持緩存一致性，我們可以將其視為與 SoC 處理器集群保持所有數(shù)據(jù)副本相同。然后，我們必須使用一致性互連形式的硬件緩存一致性解決方案，例如 AMBA 規(guī)范中定義的 CHI，并受到 Arteris IP 的 Ncore 片上網(wǎng)絡(luò) (NoC) IP 的支持（圖2a）。

　　圖 2上圖顯示了 AI 上下文中的緩存示例。動(dòng)脈
　　維護(hù)緩存一致性會(huì)帶來一定的開銷。在許多情況下，人工智能加速器不需要保持與處理器集群相同程度的緩存一致性。例如，可能只有在加速器處理完大塊數(shù)據(jù)后，才需要重新同步，這可以在軟件控制下實(shí)現(xiàn)。AI 加速器可以采用更小、更快的互連解決方案，例如 Arm 的 AXI 或 Arteris 的 FlexNoC（圖 2b）。
　　在許多情況下，加速器 IP 的開發(fā)人員在其實(shí)現(xiàn)中不包括緩存。有時(shí)，直到性能評(píng)估開始才認(rèn)識(shí)到對(duì)緩存的需求。一種解決方案是在 AI 加速器和互連之間添加特殊的緩存 IP，以提供 IP 級(jí)性能提升（圖 2c）。另一種可能性是使用緩存 IP 作為緩存來提供 SoC 級(jí)性能提升（圖 2d）。緩存設(shè)計(jì)并不容易，但設(shè)計(jì)人員可以使用可配置的現(xiàn)成解決方案。
　　許多 SoC 設(shè)計(jì)人員傾向于僅在處理器和處理器集群的背景下考慮緩存。然而，緩存的優(yōu)勢(shì)同樣適用于許多其他復(fù)雜的IP，包括AI加速器。因此，以 AI 為中心的 SoC 的開發(fā)人員越來越多地評(píng)估和部署各種支持緩存的 AI 場(chǎng)景。

關(guān)鍵詞：AI 處理器

上一篇：NAND閃存和NOR閃存的解析

下一篇：存儲(chǔ)器的常見種類

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“出處：維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品，版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng)，轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng)，http://udpf.com.cn，違反者本網(wǎng)將追究相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí)，必須保留本網(wǎng)注明的作品出處，并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。

相關(guān)技術(shù)資料

eMMC 屬于閃存還是內(nèi)存？從定義到應(yīng)用講透核心區(qū)別2025/9/15 15:24:16
ddr4和ddr5內(nèi)存接口一樣嗎？全景解析2025/9/8 17:22:03
虛擬存儲(chǔ)器的概念和特征2025/8/4 16:49:21
鐵電存儲(chǔ)器和flash的區(qū)別2025/7/30 16:56:02
內(nèi)存頻率是什么_內(nèi)存頻率高有什么好處2025/7/29 17:07:27

技術(shù)分類

熱門技術(shù)資料

最新技術(shù)資料

最新免费av在线观看,亚洲综合一区成人在线,中文字幕精品无码一区二区三区,中文人妻av高清一区二区,中文字幕乱偷无码av先锋

維庫(kù)電子市場(chǎng)網(wǎng)-十六年專注打造電子元器件采購(gòu)網(wǎng)

緩存在 AI 處理器設(shè)計(jì)中的作用

版權(quán)與免責(zé)聲明

最新免费av在线观看,亚洲综合一区成人在线,中文字幕精品无码一区二区三区,中文人妻av高清一区二区,中文字幕乱偷无码av先锋

維庫(kù)電子市場(chǎng)網(wǎng)-十六年專注打造電子元器件采購(gòu)網(wǎng)

緩存在 AI 處理器設(shè)計(jì)中的作用

版權(quán)與免責(zé)聲明

建議反饋