亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

蘋果再出手,300億參數(shù)AI大模型MM1.5來(lái)了!

   發(fā)布時(shí)間:2024-10-13 13:50 作者:趙云飛

蘋果公司近期為其多模態(tài)大模型MM推出了1.5版本,新版本在延續(xù)前代MM1數(shù)據(jù)驅(qū)動(dòng)訓(xùn)練原則的基礎(chǔ)上,著重研究了混合不同類型數(shù)據(jù)對(duì)模型性能的影響。相關(guān)模型文檔已在Hugging Face上發(fā)布,并附有論文鏈接。

MM1.5版本提供了10億至300億多種參數(shù)規(guī)模的選擇,具備圖像識(shí)別和自然語(yǔ)言推理能力。蘋果的研發(fā)團(tuán)隊(duì)在新版本中改進(jìn)了數(shù)據(jù)混合策略,顯著增強(qiáng)了模型在多文本圖像理解、視覺(jué)引用與定位以及多圖像推理方面的表現(xiàn)。

根據(jù)參考論文,蘋果在MM1.5的持續(xù)預(yù)訓(xùn)練階段引入了高質(zhì)量的OCR數(shù)據(jù)和合成圖像描述,大幅提升了模型對(duì)富含文本內(nèi)容的圖像的理解能力。研究團(tuán)隊(duì)還在監(jiān)督式微調(diào)階段分析了不同數(shù)據(jù)類型對(duì)模型性能的影響,并優(yōu)化了視覺(jué)指令微調(diào)數(shù)據(jù)的混合方式,使模型實(shí)現(xiàn)了更高的效率,即便是小規(guī)模的模型(10億、30億參數(shù)版本)也能展現(xiàn)出優(yōu)秀的性能。

蘋果公司此次還推出了MM1.5-Video模型,專門用于視頻理解,以及MM1.5-UI模型,專注于移動(dòng)設(shè)備用戶界面的理解。MM1.5-UI模型未來(lái)有望成為iOS背后的“蘋果牌”AI,它能夠處理各種視覺(jué)引用與定位任務(wù),總結(jié)屏幕上的功能,或者通過(guò)對(duì)話與用戶進(jìn)行交互。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車群
科技數(shù)碼群