(資料圖)
智通財經(jīng)APP獲悉,廣發(fā)證券發(fā)布研報稱,AI的Memory時刻,AI記憶成為支撐上下文連續(xù)性、個性化與歷史信息復(fù)用的底層能力,持續(xù)擴(kuò)展模型能力邊界,有望促進(jìn)AI Agent等應(yīng)用加速落地。AI記憶的價值正從“費(fèi)用項”轉(zhuǎn)變?yōu)椤百Y產(chǎn)項”,相關(guān)上游基礎(chǔ)設(shè)施價值量、重要性將不斷提升。建議關(guān)注產(chǎn)業(yè)鏈核心受益標(biāo)的。
廣發(fā)證券主要觀點如下:
英偉達(dá)推出AI推理上下文存儲平臺ICMS
隨用戶多輪會話與Agent持續(xù)運(yùn)行帶來的KVCache不斷累積,系統(tǒng)對可長期留存并按需回填的分層KVCache形成剛性需求,推動上下文從HBM外溢至DRAM、SSD等分層介質(zhì)承接。為此,NVIDIA推出上下文記憶存儲架構(gòu)ICMS,面向Agent與多輪推理場景提供“長期上下文記憶層”,一方面承載更大規(guī)模KVCache,另一方面以低延遲將歷史KVCache回填到多GPU節(jié)點的多回合推理會話;其KV訪問模式呈現(xiàn)低TTFT約束下的高并發(fā)、高吞吐隨機(jī)讀取。
ICMS平臺對SSD使用效果好
經(jīng)濟(jì)性與擴(kuò)展性方面,SSD單位成本顯著低于GPU內(nèi)存,且可按TB、PB容量擴(kuò)展,是長期上下文的天然承載介質(zhì)??尚行苑矫妫鶕?jù)《Context Memory Storage Systems, Disruption ofAgentic AITokenomics, and Memory Pooling Flash vs DRAM》,ICMS引入PB級存儲層后,其訪問延遲僅較池化DRAM略高。實證方面,WEKA對其增強(qiáng)型內(nèi)存網(wǎng)格(AMG)進(jìn)行性能評估,AMG是一種與NVIDIA的ICMS兼容的上下文存儲解決方案。測試在decode階段模擬用戶池持續(xù)擴(kuò)張:(1)當(dāng)初期用戶池較小,KVCache基本駐留在GPUHBM,三種方案(HBM+WEKAAMG、HBM+DRAM、HBM+DRAM+POSIX文件系統(tǒng))的token吞吐均能維持在高位。(2)隨著用戶數(shù)持續(xù)增長,KVCache會外溢到更低層級的內(nèi)存/存儲,token吞吐開始下滑;但WEKAAMG憑借更高容量、以及更強(qiáng)的網(wǎng)絡(luò)與并發(fā)隨機(jī)訪問能力,能夠更快完成上下文預(yù)取與回填,降低冷啟動與阻塞,從而在大用戶池階段保持更高且更穩(wěn)定的token吞吐,相較HBM+DRAM與HBM+DRAM+POSIX方案,其吞吐提升最高可達(dá)4倍,驗證ICMS可有效承接長期上下文并維持吞吐穩(wěn)定性。
ICMS平臺打開存儲市場空間
參考vastdata,該行對上下文存儲空間大小進(jìn)行測算。(1)單個token所需存儲空間:假設(shè)有10萬個同時在線用戶或Agent使用Llama 3.1405B,則單個token的存儲空間為504KB/token;(2)用戶上下文窗口所需存儲空間:若每個上下文窗口為64000 tokens,則對應(yīng)存儲約為30GB。(3)留存倍數(shù):為獲得更好的用戶體驗,假設(shè)留存倍數(shù)為15×。在上述假設(shè)下,10萬用戶的總存儲需求約為45PB,即若要在具備強(qiáng)對話歷史能力的大上下文模型上穩(wěn)定支持10萬用戶/Agent,所需上下文存儲規(guī)??蛇_(dá)PB級。
風(fēng)險提示
AI產(chǎn)業(yè)發(fā)展以及需求不及預(yù)期;AI服務(wù)器出貨量不及預(yù)期,國產(chǎn)廠商技術(shù)和產(chǎn)品進(jìn)展不及預(yù)期。
關(guān)鍵詞: 產(chǎn)業(yè)鏈 上下文 廣發(fā)證券 dram