(資料圖)
智通財經APP獲悉,廣發(fā)證券發(fā)布研報稱,AI的Memory時刻,AI記憶成為支撐上下文連續(xù)性、個性化與歷史信息復用的底層能力,持續(xù)擴展模型能力邊界,有望促進AI Agent等應用加速落地。AI記憶的價值正從“費用項”轉變?yōu)椤百Y產項”,相關上游基礎設施價值量、重要性將不斷提升。建議關注產業(yè)鏈核心受益標的。
廣發(fā)證券主要觀點如下:
英偉達推出AI推理上下文存儲平臺ICMS
隨用戶多輪會話與Agent持續(xù)運行帶來的KVCache不斷累積,系統(tǒng)對可長期留存并按需回填的分層KVCache形成剛性需求,推動上下文從HBM外溢至DRAM、SSD等分層介質承接。為此,NVIDIA推出上下文記憶存儲架構ICMS,面向Agent與多輪推理場景提供“長期上下文記憶層”,一方面承載更大規(guī)模KVCache,另一方面以低延遲將歷史KVCache回填到多GPU節(jié)點的多回合推理會話;其KV訪問模式呈現(xiàn)低TTFT約束下的高并發(fā)、高吞吐隨機讀取。
ICMS平臺對SSD使用效果好
經濟性與擴展性方面,SSD單位成本顯著低于GPU內存,且可按TB、PB容量擴展,是長期上下文的天然承載介質??尚行苑矫?,根據《Context Memory Storage Systems, Disruption ofAgentic AITokenomics, and Memory Pooling Flash vs DRAM》,ICMS引入PB級存儲層后,其訪問延遲僅較池化DRAM略高。實證方面,WEKA對其增強型內存網格(AMG)進行性能評估,AMG是一種與NVIDIA的ICMS兼容的上下文存儲解決方案。測試在decode階段模擬用戶池持續(xù)擴張:(1)當初期用戶池較小,KVCache基本駐留在GPUHBM,三種方案(HBM+WEKAAMG、HBM+DRAM、HBM+DRAM+POSIX文件系統(tǒng))的token吞吐均能維持在高位。(2)隨著用戶數持續(xù)增長,KVCache會外溢到更低層級的內存/存儲,token吞吐開始下滑;但WEKAAMG憑借更高容量、以及更強的網絡與并發(fā)隨機訪問能力,能夠更快完成上下文預取與回填,降低冷啟動與阻塞,從而在大用戶池階段保持更高且更穩(wěn)定的token吞吐,相較HBM+DRAM與HBM+DRAM+POSIX方案,其吞吐提升最高可達4倍,驗證ICMS可有效承接長期上下文并維持吞吐穩(wěn)定性。
ICMS平臺打開存儲市場空間
參考vastdata,該行對上下文存儲空間大小進行測算。(1)單個token所需存儲空間:假設有10萬個同時在線用戶或Agent使用Llama 3.1405B,則單個token的存儲空間為504KB/token;(2)用戶上下文窗口所需存儲空間:若每個上下文窗口為64000 tokens,則對應存儲約為30GB。(3)留存倍數:為獲得更好的用戶體驗,假設留存倍數為15×。在上述假設下,10萬用戶的總存儲需求約為45PB,即若要在具備強對話歷史能力的大上下文模型上穩(wěn)定支持10萬用戶/Agent,所需上下文存儲規(guī)模可達PB級。
風險提示
AI產業(yè)發(fā)展以及需求不及預期;AI服務器出貨量不及預期,國產廠商技術和產品進展不及預期。