亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

昆侖萬維引領(lǐng)科技前沿,開源R1V多模態(tài)視覺思維鏈推理模型

   發(fā)布時間:2025-03-18 17:23 作者:顧雨柔

昆侖萬維近日宣布了一項重大技術(shù)突破,正式向公眾開源了其自主研發(fā)的多模態(tài)思維鏈推理模型Skywork R1V。此舉標志著昆侖萬維成為中國首個在多模態(tài)推理模型領(lǐng)域進行開源的企業(yè),同時開放了模型的權(quán)重和技術(shù)報告,供業(yè)界研究與使用。

Skywork R1V模型的權(quán)重可通過Hugging Face和GitHub兩大平臺下載,分別對應的鏈接為:https://huggingface.co/Skywork/Skywork-R1V-38B和https://github.com/SkyworkAI/Skywork-R1V。

據(jù)了解,Skywork R1V是一款專注于解決復雜視覺任務(wù)的推理模型,它通過多步邏輯推理與分析,能夠精準解決視覺邏輯推理、視覺數(shù)學問題、科學現(xiàn)象分析以及醫(yī)學影像診斷等多種挑戰(zhàn)。在MATH500和AIME兩項權(quán)威基準測試中,Skywork R1V分別取得了94.0和72.0的高分,展現(xiàn)出強大的邏輯推理與數(shù)學分析能力。

在視覺理解能力方面,Skywork R1V同樣表現(xiàn)出色。通過將文本推理與思維鏈推導能力遷移到視覺任務(wù)中,該模型在MMMU和MathVista兩項視覺推理基準測試中分別獲得了69和67.5分的優(yōu)異成績。這些成就不僅證明了Skywork R1V在跨模態(tài)任務(wù)中的高效融合能力,也彰顯了其在復雜多模態(tài)任務(wù)中的卓越表現(xiàn)。

昆侖萬維團隊在Skywork R1V模型中引入了三項關(guān)鍵技術(shù)創(chuàng)新。首先,他們首次提出了利用Skywork-VL的視覺投影器,實現(xiàn)了文本推理能力向視覺任務(wù)的高效遷移,同時保留了模型原本的優(yōu)秀文本推理能力。這一創(chuàng)新無需重新訓練語言模型和視覺編碼器,大大提升了遷移效率和效果。

其次,團隊采用了多模態(tài)混合式訓練策略(Iterative SFT+GRPO),通過結(jié)合迭代監(jiān)督微調(diào)與GRPO強化學習,分階段對齊視覺-文本表征,實現(xiàn)了跨模態(tài)任務(wù)的高效融合。這一策略不僅提升了模型在MMMU和MathVista等基準測試中的表現(xiàn),還與更大規(guī)模的閉源模型基本持平。通過反復迭代地利用高質(zhì)量數(shù)據(jù)與高難度數(shù)據(jù)的組合,模型的知識鞏固與錯誤糾正能力得到了顯著提升。

最后,團隊還提出了一種基于視覺-文本復雜度的自適應推理鏈長度控制機制。這一機制能夠動態(tài)優(yōu)化模型的推理過程,避免“過度思考”,從而提升推理效率。結(jié)合多階段自蒸餾策略,進一步提升了數(shù)據(jù)生成與推理過程的質(zhì)量,促進了模型在復雜多模態(tài)任務(wù)中的表現(xiàn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群