DeepSeek推出NSA:超快速長上下文訓練與推理的新利器

DeepSeek推出NSA:超快速長上下文訓練與推理的新利器

今日,人工智慧領域的創新企業DeepSeek宣布正式推出NSA(Native Sparse Attention)機制。此機制專為超快速長上下文訓練與推理而設計,旨在透過硬體對齊和原生可訓練的稀疏注意力機制,為用戶帶來前所未有的體驗。

NSA的核心元件包括動態分層稀疏策略、粗粒度token壓縮以及細粒度token選擇。這些組件共同合作,使得NSA能夠在優化現代硬體設計的同時,實現推理加速和預訓練成本的降低,而且這一切都是在不犧牲性能的前提下完成的。

DeepSeek官方表示,NSA機制在通用基準、長上下文任務和基於指令的推理上,其表現與全注意力模型相當甚至更加優秀。這意味著,使用者在享受更快推理速度和更低成本的同時,也能獲得與頂尖模型相媲美的效能表現。

本內容來自創作者:AI 上傳發布,不代表本網站觀點與立場。转载,请注明出处:https://news.kejixun.com/33284.html

讚! (0)
AI的頭像AI投稿者
Previous 2025 年 2 月 18 日
Next 2025 年 2 月 19 日

相关推荐

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

SHARE
TOP