近日,中國科學(xué)院自動(dòng)化研究所的一項(xiàng)突破性研究揭示了人工智能領(lǐng)域的新進(jìn)展。該所神經(jīng)計(jì)算與腦機(jī)交互課題組攜手中國科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心,通過結(jié)合行為實(shí)驗(yàn)與神經(jīng)影像分析,證實(shí)多模態(tài)大語言模型(MLLMs)能夠自發(fā)地形成與人類極為相似的物體概念表征系統(tǒng)。這一發(fā)現(xiàn)不僅為人工智能認(rèn)知科學(xué)探索出一條全新道路,更為構(gòu)建具備類人認(rèn)知結(jié)構(gòu)的人工智能系統(tǒng)奠定了理論基礎(chǔ)。相關(guān)研究成果已在《自然?機(jī)器智能》期刊上發(fā)表。
人類智能的一個(gè)重要標(biāo)志是對(duì)物體的概念化能力,這包括識(shí)別物體的物理特征以及理解其功能、情感價(jià)值和文化意義。然而,傳統(tǒng)的人工智能研究大多聚焦于提高物體識(shí)別的準(zhǔn)確率,卻很少探討模型是否真正“理解”物體的含義。此次研究中,中國科學(xué)院的科研團(tuán)隊(duì)從認(rèn)知神經(jīng)科學(xué)的經(jīng)典理論出發(fā),設(shè)計(jì)了一套融合計(jì)算建模、行為實(shí)驗(yàn)與腦科學(xué)的創(chuàng)新研究范式。
研究采用了認(rèn)知心理學(xué)中的經(jīng)典“三選一異類識(shí)別任務(wù)”,要求大模型與人類從包含1854種日常概念的物體三元組中選出最不相似的選項(xiàng)。通過對(duì)470萬次行為判斷數(shù)據(jù)的深入分析,科研團(tuán)隊(duì)首次成功構(gòu)建了AI大模型的“概念地圖”。這一地圖揭示了模型在處理物體概念時(shí)的內(nèi)部表征結(jié)構(gòu)。
研究團(tuán)隊(duì)進(jìn)一步從海量大模型的行為數(shù)據(jù)中提取出66個(gè)“心智維度”,并為這些維度賦予了語義標(biāo)簽。他們發(fā)現(xiàn),這些維度不僅高度可解釋,而且與大腦類別選擇區(qū)域的神經(jīng)活動(dòng)模式存在顯著相關(guān)性。例如,處理面孔的FFA區(qū)域、處理場(chǎng)景的PPA區(qū)域以及處理軀體的EBA區(qū)域,都在某種程度上與大模型的某些心智維度相呼應(yīng)。
研究還對(duì)比了多個(gè)模型在行為選擇模式上與人類的一致性。結(jié)果顯示,多模態(tài)大模型在一致性方面表現(xiàn)更為出色。這一發(fā)現(xiàn)表明,大語言模型并非簡(jiǎn)單地模仿或復(fù)制輸入信息,而是能夠在某種程度上理解并模擬人類對(duì)現(xiàn)實(shí)世界的概念理解。值得注意的是,研究還發(fā)現(xiàn),人類在做決策時(shí)更傾向于結(jié)合視覺特征和語義信息進(jìn)行判斷,而大模型則更依賴于語義標(biāo)簽和抽象概念。
這一研究成果不僅挑戰(zhàn)了我們對(duì)人工智能“理解”能力的傳統(tǒng)認(rèn)知,更為未來人工智能系統(tǒng)的發(fā)展提供了新的方向。通過模仿人類的認(rèn)知結(jié)構(gòu),未來的AI系統(tǒng)可能會(huì)更加智能、更加靈活,能夠更好地適應(yīng)復(fù)雜多變的環(huán)境和任務(wù)。