亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

微軟清華北大聯(lián)手,推出RRMs模型,讓AI推理更智能高效!

   發(fā)布時(shí)間:2025-05-27 14:36 作者:楊凌霄

近日,科技界迎來了一項(xiàng)新的突破,微軟研究院攜手中國(guó)頂尖學(xué)府清華大學(xué)與北京大學(xué),共同推出了一項(xiàng)名為獎(jiǎng)勵(lì)推理模型(RRMs)的創(chuàng)新技術(shù)。這項(xiàng)技術(shù)旨在通過動(dòng)態(tài)的計(jì)算資源分配,優(yōu)化復(fù)雜任務(wù)的評(píng)估效果,為人工智能領(lǐng)域帶來了新的曙光。

強(qiáng)化學(xué)習(xí)(RL)作為當(dāng)前大語言模型(LLM)后訓(xùn)練的關(guān)鍵方法,已經(jīng)引起了廣泛的關(guān)注。通過人類反饋(RLHF)或可驗(yàn)證獎(jiǎng)勵(lì)(RLVR)提供的監(jiān)督信號(hào),強(qiáng)化學(xué)習(xí)在模型訓(xùn)練中發(fā)揮著舉足輕重的作用。然而,盡管RLVR在數(shù)學(xué)推理中展現(xiàn)出巨大潛力,但其對(duì)可驗(yàn)證答案訓(xùn)練查詢的依賴,限制了其在通用領(lǐng)域的大規(guī)模應(yīng)用。

現(xiàn)有的獎(jiǎng)勵(lì)模型主要分為標(biāo)量型和生成型兩大類,但它們?cè)跍y(cè)試時(shí)計(jì)算資源的擴(kuò)展上均存在不足。傳統(tǒng)的做法是對(duì)所有輸入一視同仁,統(tǒng)一分配計(jì)算資源,這種“一刀切”的方式缺乏對(duì)復(fù)雜查詢的細(xì)致分析能力,導(dǎo)致評(píng)估結(jié)果不盡如人意。為了打破這一瓶頸,微軟研究院、清華大學(xué)和北京大學(xué)的科研團(tuán)隊(duì)聯(lián)手推出了RRMs。

RRMs的核心優(yōu)勢(shì)在于其顯式推理過程。在給出最終獎(jiǎng)勵(lì)之前,RRMs會(huì)執(zhí)行一系列復(fù)雜的推理步驟,根據(jù)任務(wù)的復(fù)雜性自適應(yīng)地分配額外的計(jì)算資源。這一創(chuàng)新機(jī)制使得RRMs在面對(duì)獎(jiǎng)勵(lì)不明顯的復(fù)雜查詢時(shí),能夠投入更多的測(cè)試時(shí)計(jì)算資源,從而得到更準(zhǔn)確的評(píng)估結(jié)果。

RRMs基于Qwen2模型,采用了Transformer-decoder架構(gòu),將獎(jiǎng)勵(lì)建模轉(zhuǎn)化為文本補(bǔ)全任務(wù)。在生成推理過程后,RRMs會(huì)給出最終的判斷。為了全面評(píng)估RRMs的性能,研究團(tuán)隊(duì)利用RewardBench庫(kù)進(jìn)行了系統(tǒng)分析,評(píng)估指標(biāo)涵蓋了指令遵循性、幫助性、準(zhǔn)確性、無害性和細(xì)節(jié)水平等多個(gè)方面。

RRMs還支持多響應(yīng)評(píng)估,通過ELO評(píng)分系統(tǒng)和淘汰賽機(jī)制,結(jié)合多數(shù)投票策略,進(jìn)一步提升了計(jì)算資源的利用率。在RewardBench和PandaLM Test基準(zhǔn)測(cè)試中,RRMs展現(xiàn)出了卓越的性能。特別是在推理類別中,RRM-32B的準(zhǔn)確率高達(dá)98.6%,與使用相同數(shù)據(jù)訓(xùn)練的DirectJudge模型相比,RRMs展現(xiàn)出了顯著的性能優(yōu)勢(shì)。

在獎(jiǎng)勵(lì)引導(dǎo)的最佳N推理(Best-of-N Inference)和后訓(xùn)練反饋中,RRMs同樣超越了所有基線模型,并進(jìn)一步提升了多數(shù)投票機(jī)制的效率。研究還發(fā)現(xiàn),隨著模型規(guī)模從7B、14B擴(kuò)展到32B,更長(zhǎng)的推理時(shí)間始終能夠帶來準(zhǔn)確性的提升。RRMs通過并行和順序擴(kuò)展方法高效地利用了計(jì)算資源,為傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)模型提供了強(qiáng)有力的替代方案。

這一創(chuàng)新成果不僅為人工智能領(lǐng)域帶來了新的突破,也為未來的智能系統(tǒng)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。RRMs的推出,標(biāo)志著我們?cè)趶?fù)雜任務(wù)評(píng)估方面邁出了重要的一步,為人工智能的廣泛應(yīng)用開辟了新的道路。

隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,我們有理由相信,未來的智能系統(tǒng)將更加智能、高效和人性化。RRMs的成功推出,無疑為這一愿景的實(shí)現(xiàn)注入了新的活力和動(dòng)力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群