亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

阿里QwenLong-L1-32B:長文本推理新突破,強化學習訓練顯神威

   發(fā)布時間:2025-05-27 14:38 作者:柳晴雪

阿里通義千問Qwen團隊近日正式推出了其最新研發(fā)成果——QwenLong-L1-32B模型,這一模型在長文本情境推理領(lǐng)域?qū)崿F(xiàn)了新的突破。據(jù)團隊介紹,QwenLong-L1-32B是首個通過強化學習訓練的長文本情境推理模型(LRM),其性能在多個基準測試中表現(xiàn)優(yōu)異。

在七個長文本DocQA基準測試中,QwenLong-L1-32B模型的表現(xiàn)超越了o3-mini和Qwen3-235B-A22B等旗艦?zāi)P?,與Claude-3.7-Sonnet-Thinking模型旗鼓相當。這一成績不僅展示了QwenLong-L1-32B模型的強大實力,也標志著阿里在長文本推理技術(shù)上的又一次飛躍。

QwenLong-L1-32B模型的最大亮點在于其上下文窗口的支持能力,最高可達131072個tokens。這意味著模型在處理長文本時能夠捕捉到更多的上下文信息,從而做出更準確的推理。這一特性使得QwenLong-L1-32B模型在長文本推理任務(wù)中具有顯著的優(yōu)勢。

在模型的開發(fā)過程中,阿里通義千問Qwen團隊采用了先進的GRPO(Group Relative Policy Optimization)和DAPO(Direct Alignment Policy Optimization)算法,并結(jié)合了基于規(guī)則和基于模型的混合獎勵函數(shù)。這些創(chuàng)新技術(shù)的應(yīng)用,顯著提升了模型在長上下文推理中的準確性和效率。團隊還通過監(jiān)督微調(diào)(SFT)階段建立了一個穩(wěn)健的初始策略,并采用課程引導的分階段強化學習技術(shù)來穩(wěn)定策略演變。

除了模型本身的創(chuàng)新,阿里還發(fā)布了一套針對長文本推理問題的完整解決方案。該方案涵蓋了高性能的QwenLong-L1-32B模型、專門優(yōu)化的訓練數(shù)據(jù)集、創(chuàng)新的強化學習訓練方法以及全面的性能評估體系。這一解決方案的推出,將為長文本推理領(lǐng)域的研究和應(yīng)用提供有力的支持。

阿里通義千問Qwen團隊的這一成果,不僅展示了其在長文本推理技術(shù)上的深厚積累和創(chuàng)新實力,也為人工智能領(lǐng)域的發(fā)展注入了新的活力。隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展,相信QwenLong-L1-32B模型將在更多領(lǐng)域發(fā)揮重要作用。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群