10 月 28 日,百度智能云宣布攜手SGLang 社區(qū),將一套針對DeepSeek-V3.2推理性能優(yōu)化的 MTP(Multi-Token Prediction,多token預測)技術代碼正式開源。SGLang 社區(qū)實測顯示,采用這套技術, DeepSeek-V3.2 模型解碼吞吐量能提升超過 2 倍。?
據(jù)了解,這套技術代碼來自于百度智能云內(nèi)部百舸AI計算平臺團隊。代碼開源之前也已經(jīng)在百度內(nèi)部核心業(yè)務中長期運行,性能與穩(wěn)定性上均經(jīng)過嚴苛考驗。社區(qū)用戶可以結合自身業(yè)務場景,“開箱即用”地使用這套代碼能力。


今年年初,DeepSeek以低成本和高性能橫空出世,迅速吸引全球科技圈關注。而MTP正是其實現(xiàn)這一效果的核心技術創(chuàng)新之一。
在DeepSeek之前,大模型和推理多采用傳統(tǒng)的自回歸解碼方式,模型每次只生成一個 token,生成下一個時必須等待上一個完成。如同逐字輸入,過程穩(wěn)定但速度存在瓶頸。
MTP則采用的是批量生成、集中驗證的機制。模型會一次性智能地推算出多個后續(xù) token 作為候選,然后統(tǒng)一進行驗證。這好比從逐字輸入升級為智能聯(lián)想輸入,一次性能提供多個候選詞句,從而大幅減少生成輪次,突破序列化瓶頸。
在訓練階段,MTP有助于大模型更好地理解詞元之間的依賴關系,從而提升大模型整體性能;在推理階段,MTP快速生成多個候選詞元,并由主模型進行一次前向傳播來驗證和修正,從而實現(xiàn)推理加速。
作為模型的配套技術,MTP需要與大模型自身的架構保持深度適配。這也導致最新的 DeepSeek-V3.2由于采用了與過往不同的的 DSA(DeepSeek Sparse Attention,稀疏注意力)架構,使得此前適用于 DeepSeek 老版本的 MTP 代碼無法直接復用于 DeepSeek-V3.2,急需全新的系統(tǒng)級優(yōu)化和深度適配工作。
百度百舸團隊此次開源的MTP 方案,與 DeepSeek-V3.2的 DSA架構進行了深度適配,并在百度集團內(nèi)部業(yè)務中進行了生產(chǎn)級場景的完整驗證。此次開源,使得 SGLang 社區(qū)開發(fā)者無需重復底層探索與試錯,能夠直接獲得性能倍增且穩(wěn)定可靠的推理能力。
未來,百度百舸團隊將持續(xù)開源生產(chǎn)級別核心代碼,方便中小企業(yè)及開發(fā)者快速、穩(wěn)定、低成本地部署先進AI能力,加速創(chuàng)新落地。
百度百舸AI計算平臺是百度智能云打造的面向大模型訓推一體化的基礎設施,可以從資源準備、模型開發(fā)、模型訓練到模型部署,為AI工程全周期提供豐富特性和極致易用體驗。今年8月,百度智能云正式發(fā)布百度百舸5.0,在網(wǎng)絡、算力、推理系統(tǒng),以及訓推一體系統(tǒng)等四大方向上全面升級,并正式上線了昆侖芯超節(jié)點公有云服務。
代碼地址:https://github.com/sgl-project/sglang/pull/11652?
?
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據(jù)。
關鍵詞: