亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

小米MiMo-VL大模型開源,多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B

   發(fā)布時(shí)間:2025-05-30 16:13 作者:馮璃月

小米公司近日宣布了一項(xiàng)重大進(jìn)展,其多模態(tài)大模型Xiaomi MiMo-VL已正式向公眾開放源代碼。這一消息由Xiaomi MiMo官方公眾號(hào)發(fā)布,標(biāo)志著小米在人工智能領(lǐng)域邁出了重要一步。

據(jù)官方介紹,Xiaomi MiMo-VL在多模態(tài)任務(wù)上表現(xiàn)出色,尤其在圖片、視頻、語(yǔ)言通用問(wèn)答及理解推理等方面,相較于同尺寸的多模態(tài)標(biāo)桿模型Qwen2.5-VL-7B,有著顯著的優(yōu)勢(shì)。更為引人注目的是,在GUI Grounding任務(wù)上,MiMo-VL的表現(xiàn)甚至可以與專用模型相媲美,預(yù)示著其在智能代理(Agent)時(shí)代的巨大潛力。

特別MiMo-VL-7B版本在保持小米MiMo-7B純文本推理能力的基礎(chǔ)上,進(jìn)一步在多模態(tài)推理任務(wù)上取得了突破。僅需7B參數(shù)規(guī)模,它就在奧林匹克競(jìng)賽(OlympiadBench)及多個(gè)數(shù)學(xué)競(jìng)賽(MathVision、MathVerse)中,大幅領(lǐng)先參數(shù)規(guī)模達(dá)10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了閉源模型GPT-4o。

在小米內(nèi)部進(jìn)行的大模型競(jìng)技場(chǎng)評(píng)估中,MiMo-VL-7B同樣表現(xiàn)出色,超越了GPT-4o,成為開源模型中的佼佼者。這一成就不僅驗(yàn)證了MiMo-VL的卓越性能,也彰顯了小米在人工智能技術(shù)研發(fā)方面的深厚實(shí)力。

MiMo-VL-7B的應(yīng)用場(chǎng)景廣泛,能夠完成復(fù)雜的圖片推理和問(wèn)答任務(wù)。在長(zhǎng)達(dá)10多步的GUI操作上,它也展現(xiàn)出了不俗的潛力。例如,用戶可以通過(guò)MiMo-VL-7B輕松地將小米SU7添加到心愿單中,享受更加便捷的智能體驗(yàn)。

小米表示,MiMo-VL的成功得益于高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強(qiáng)化學(xué)習(xí)算法(MORL)。為了訓(xùn)練這一模型,小米收集了涵蓋圖片-文本對(duì)、視頻-文本對(duì)、GUI操作序列等多種類型的高質(zhì)量數(shù)據(jù),總計(jì)達(dá)到2.4T tokens。通過(guò)分階段調(diào)整不同類型數(shù)據(jù)的比例,小米強(qiáng)化了模型的長(zhǎng)程多模態(tài)推理能力。同時(shí),混合文本推理、多模態(tài)感知+推理、RLHF等反饋信號(hào),并通過(guò)在線強(qiáng)化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練,全方位提升了模型的推理、感知性能和用戶體驗(yàn)。

目前,MiMo-VL-7B的RL前后兩個(gè)模型已經(jīng)開源,并提供了相應(yīng)的技術(shù)報(bào)告和測(cè)評(píng)任務(wù)框架。感興趣的開發(fā)者可以前往Huggingface和GitHub平臺(tái)獲取更多信息,共同探索人工智能技術(shù)的無(wú)限可能。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
微信群

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群