精品国产第一国产综合精品gif,天天操中文字幕,国产92成人精品视频免费

小米MiMo-VL大模型開源，多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B

發(fā)布時(shí)間：2025-05-30 16:13 來(lái)源：ITBEAR 作者：馮璃月

小米公司近日宣布了一項(xiàng)重大進(jìn)展，其多模態(tài)大模型Xiaomi MiMo-VL已正式向公眾開放源代碼。這一消息由Xiaomi MiMo官方公眾號(hào)發(fā)布，標(biāo)志著小米在人工智能領(lǐng)域邁出了重要一步。

據(jù)官方介紹，Xiaomi MiMo-VL在多模態(tài)任務(wù)上表現(xiàn)出色，尤其在圖片、視頻、語(yǔ)言通用問(wèn)答及理解推理等方面，相較于同尺寸的多模態(tài)標(biāo)桿模型Qwen2.5-VL-7B，有著顯著的優(yōu)勢(shì)。更為引人注目的是，在GUI Grounding任務(wù)上，MiMo-VL的表現(xiàn)甚至可以與專用模型相媲美，預(yù)示著其在智能代理（Agent）時(shí)代的巨大潛力。

特別MiMo-VL-7B版本在保持小米MiMo-7B純文本推理能力的基礎(chǔ)上，進(jìn)一步在多模態(tài)推理任務(wù)上取得了突破。僅需7B參數(shù)規(guī)模，它就在奧林匹克競(jìng)賽（OlympiadBench）及多個(gè)數(shù)學(xué)競(jìng)賽（MathVision、MathVerse）中，大幅領(lǐng)先參數(shù)規(guī)模達(dá)10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，甚至超越了閉源模型GPT-4o。

在小米內(nèi)部進(jìn)行的大模型競(jìng)技場(chǎng)評(píng)估中，MiMo-VL-7B同樣表現(xiàn)出色，超越了GPT-4o，成為開源模型中的佼佼者。這一成就不僅驗(yàn)證了MiMo-VL的卓越性能，也彰顯了小米在人工智能技術(shù)研發(fā)方面的深厚實(shí)力。

MiMo-VL-7B的應(yīng)用場(chǎng)景廣泛，能夠完成復(fù)雜的圖片推理和問(wèn)答任務(wù)。在長(zhǎng)達(dá)10多步的GUI操作上，它也展現(xiàn)出了不俗的潛力。例如，用戶可以通過(guò)MiMo-VL-7B輕松地將小米SU7添加到心愿單中，享受更加便捷的智能體驗(yàn)。

小米表示，MiMo-VL的成功得益于高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強(qiáng)化學(xué)習(xí)算法（MORL）。為了訓(xùn)練這一模型，小米收集了涵蓋圖片-文本對(duì)、視頻-文本對(duì)、GUI操作序列等多種類型的高質(zhì)量數(shù)據(jù)，總計(jì)達(dá)到2.4T tokens。通過(guò)分階段調(diào)整不同類型數(shù)據(jù)的比例，小米強(qiáng)化了模型的長(zhǎng)程多模態(tài)推理能力。同時(shí)，混合文本推理、多模態(tài)感知+推理、RLHF等反饋信號(hào)，并通過(guò)在線強(qiáng)化學(xué)習(xí)算法穩(wěn)定加速訓(xùn)練，全方位提升了模型的推理、感知性能和用戶體驗(yàn)。

目前，MiMo-VL-7B的RL前后兩個(gè)模型已經(jīng)開源，并提供了相應(yīng)的技術(shù)報(bào)告和測(cè)評(píng)任務(wù)框架。感興趣的開發(fā)者可以前往Huggingface和GitHub平臺(tái)獲取更多信息，共同探索人工智能技術(shù)的無(wú)限可能。

更多>同類內(nèi)容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

小米MiMo-VL大模型開源，多模態(tài)推理能力領(lǐng)先同尺寸標(biāo)桿Qwen2.5-VL-7B