緩存在 AI 處理器設(shè)計(jì)中的作用
出處:維庫(kù)電子市場(chǎng)網(wǎng) 發(fā)布于:2024-03-22 17:06:35
假設(shè)我們正在設(shè)計(jì)一款包含一個(gè)或多個(gè)處理器內(nèi)核的片上系統(tǒng) (SoC) 設(shè)備。我們將在設(shè)備內(nèi)部包含相對(duì)少量的內(nèi)存,而大部分內(nèi)存將駐留在 SoC 外部的分立設(shè)備中。
快的存儲(chǔ)器類型是 SRAM,但每個(gè) SRAM 單元需要六個(gè)晶體管,因此 SRAM 在 SoC 內(nèi)部很少使用,因?yàn)樗拇罅靠臻g和功耗。相比之下,DRAM 每個(gè)單元只需要一個(gè)晶體管和電容器,這意味著它消耗的空間和功耗要少得多。因此,DRAM 用于在 SoC 之外創(chuàng)建大容量存儲(chǔ)設(shè)備。盡管 DRAM 提供高容量,但它的速度明顯慢于 SRAM。
隨著用于開發(fā)集成電路的工藝技術(shù)的發(fā)展,結(jié)構(gòu)越來越小,大多數(shù)設(shè)備變得越來越快。遺憾的是,作為 DRAM 的晶體管電容器位單元卻并非如此。事實(shí)上,由于其模擬特性,位單元的速度幾十年來基本保持不變。
話雖如此,從外部接口來看,DRAM 的速度在每一代新產(chǎn)品中都翻了一番。由于每次內(nèi)部訪問都相對(duì)較慢,因此實(shí)現(xiàn)這一點(diǎn)的方法是在設(shè)備內(nèi)部執(zhí)行一系列交錯(cuò)的訪問。如果我們假設(shè)我們正在讀取一系列連續(xù)的數(shù)據(jù)字,那么接收個(gè)字將需要相對(duì)較長(zhǎng)的時(shí)間,但我們會(huì)更快地看到任何后續(xù)的字。
如果我們希望傳輸大塊連續(xù)數(shù)據(jù),這種方法很有效,因?yàn)槲覀冊(cè)趥鬏旈_始時(shí)進(jìn)行性命中,之后后續(xù)訪問就會(huì)高速進(jìn)行。然而,如果我們希望對(duì)較小的數(shù)據(jù)塊執(zhí)行多次訪問,就會(huì)出現(xiàn)問題。在這種情況下,我們不是性點(diǎn)擊,而是一遍又一遍地接受該點(diǎn)擊。
速度更快
解決方案是使用高速 SRAM 在處理設(shè)備內(nèi)部創(chuàng)建本地緩存存儲(chǔ)器。當(dāng)處理器首次從 DRAM 請(qǐng)求數(shù)據(jù)時(shí),該數(shù)據(jù)的副本將存儲(chǔ)在處理器的高速緩存中。如果處理器隨后希望重新訪問相同的數(shù)據(jù),它會(huì)使用其本地副本,這樣訪問速度會(huì)快得多。
在 SoC 內(nèi)部使用多級(jí)緩存是很常見的。這些級(jí)別稱為 1 級(jí) (L1)、2 級(jí) (L2) 和 3 級(jí) (L3)。級(jí)高速緩存的容量,但訪問速度,隨后的每都具有較高的容量和較低的訪問速度。如圖1所示,假設(shè)系統(tǒng)時(shí)鐘為 1 GHz 且采用 DDR4 DRAM,則處理器訪問 L1 緩存只需 1.8 ns,訪問 L2 緩存只需 6.4 ns,訪問 L3 緩存只需 26 ns。從外部 DRAM 訪問一系列數(shù)據(jù)字中的個(gè)數(shù)據(jù)需要花費(fèi) 70 納秒(數(shù)據(jù)來源Joe Chang 的服務(wù)器分析)。
緩存在人工智能中的作用
人工智能的實(shí)施和部署場(chǎng)景多種多樣。就我們的 SoC 而言,一種可能性是創(chuàng)建一個(gè)或多個(gè) AI 加速器 IP,每個(gè)都包含自己的內(nèi)部緩存。假設(shè)我們希望保持緩存一致性,我們可以將其視為與 SoC 處理器集群保持所有數(shù)據(jù)副本相同。然后,我們必須使用一致性互連形式的硬件緩存一致性解決方案,例如 AMBA 規(guī)范中定義的 CHI,并受到 Arteris IP 的 Ncore 片上網(wǎng)絡(luò) (NoC) IP 的支持(圖2a) 。
維護(hù)緩存一致性會(huì)帶來一定的開銷。在許多情況下,人工智能加速器不需要保持與處理器集群相同程度的緩存一致性。例如,可能只有在加速器處理完大塊數(shù)據(jù)后,才需要重新同步,這可以在軟件控制下實(shí)現(xiàn)。AI 加速器可以采用更小、更快的互連解決方案,例如 Arm 的 AXI 或 Arteris 的 FlexNoC(圖 2b)。
在許多情況下,加速器 IP 的開發(fā)人員在其實(shí)現(xiàn)中不包括緩存。有時(shí),直到性能評(píng)估開始才認(rèn)識(shí)到對(duì)緩存的需求。一種解決方案是在 AI 加速器和互連之間添加特殊的緩存 IP,以提供 IP 級(jí)性能提升(圖 2c)。另一種可能性是使用緩存 IP 作為緩存來提供 SoC 級(jí)性能提升(圖 2d)。緩存設(shè)計(jì)并不容易,但設(shè)計(jì)人員可以使用可配置的現(xiàn)成解決方案。
許多 SoC 設(shè)計(jì)人員傾向于僅在處理器和處理器集群的背景下考慮緩存。然而,緩存的優(yōu)勢(shì)同樣適用于許多其他復(fù)雜的IP,包括AI加速器。因此,以 AI 為中心的 SoC 的開發(fā)人員越來越多地評(píng)估和部署各種支持緩存的 AI 場(chǎng)景。
上一篇:NAND閃存和NOR閃存的解析
下一篇:存儲(chǔ)器的常見種類
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://udpf.com.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- eMMC 屬于閃存還是內(nèi)存?從定義到應(yīng)用講透核心區(qū)別2025/9/15 15:24:16
- ddr4和ddr5內(nèi)存接口一樣嗎?全景解析2025/9/8 17:22:03
- 虛擬存儲(chǔ)器的概念和特征2025/8/4 16:49:21
- 鐵電存儲(chǔ)器和flash的區(qū)別2025/7/30 16:56:02
- 內(nèi)存頻率是什么_內(nèi)存頻率高有什么好處2025/7/29 17:07:27