阿里雲通義千問發布全新Qwen2系列AI模型:效能大幅提升,支援128K tokens長上下文

阿里雲通義千問發布全新Qwen2系列AI模型:效能大幅提升,支援128K tokens長上下文

今日,阿里雲通義千問(Qwen)宣布,經過數月的持續研發和優化,其AI開源模型系列已升級至Qwen2,並在Hugging Face和ModelScope上同步開源。此次升級不僅引入了五個尺寸的預訓練和指令微調模型,還在多項性能上實現了顯著提升,包括程式碼和數學能力的增強,以及對更長上下文長度的支援。

Qwen2系列包括五個不同尺寸的模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B,這些模型在參數量、非Embedding參數量以及上下文長度上均有所不同,以滿足不同場景下的需求。特別值得一提的是,Qwen2-72B-Instruct模型的上下文長度支援最高達到了128K tokens,為使用者提供了更廣闊的文字處理空間。

在訓練數據方面,Qwen2系列在中文和英文的基礎上,增加了27種語言相關的高品質數據,從而大幅提升了模型的多語言能力。同時,所有尺寸的模型都採用了GQA(Gradient-based Quantization Aware Training)技術,該技術能夠顯著加速推理過程並降低顯存佔用,為用戶提供更高效和穩定的模型使用體驗。

在模式評測方面,Qwen2系列在大規模模式上實現了非常大幅度的效果提升。尤其是Qwen2-72B模型,在包括自然語言理解、知識、代碼、數學及多語言等多項能力上均顯著超越當前領先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5 -110B。這項成果充分展現了Qwen2系列在AI模型研發領域的領先地位與強大實力。

阿里雲通義千問作為阿里雲旗下的AI開源項目,一直致力於推動AI技術的創新與發展。這次Qwen2系列的發布,不僅為用戶提供了更先進和高效的AI模型,也進一步彰顯了阿里雲在AI領域的技術實力與創新能力。未來,我們期待通義千問能夠持續推出更多優秀的AI模型與技術,為AI領域的發展貢獻更多的力量。

本文取自媒體,由:AI 上傳發布,不代表kejixun.com立場。转载,请注明出处:https://news.kejixun.com/6377.html

讚! (0)
AI的頭像AI投稿者
Previous 2024 年 6 月 7 日
Next 2024 年 6 月 7 日

相关推荐

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

SHARE
TOP