OpenAI近期宣布了一項(xiàng)名為“OpenAI先鋒計(jì)劃”的新舉措,旨在改進(jìn)當(dāng)前AI模型的評估體系。公司指出,現(xiàn)有的AI基準(zhǔn)測試存在諸多不足,因此該計(jì)劃將致力于開發(fā)一套全新的評估標(biāo)準(zhǔn),以期設(shè)定更高的優(yōu)秀標(biāo)桿。
隨著AI技術(shù)在各行各業(yè)的廣泛應(yīng)用,準(zhǔn)確評估其在現(xiàn)實(shí)世界中的表現(xiàn)變得愈發(fā)重要。OpenAI在其官方博客中提到,針對特定領(lǐng)域開發(fā)評估指標(biāo),可以更真實(shí)地反映AI模型在實(shí)際應(yīng)用場景中的性能,從而幫助團(tuán)隊(duì)在復(fù)雜且高風(fēng)險(xiǎn)的環(huán)境中做出更準(zhǔn)確的判斷。
近期,LM Arena眾包基準(zhǔn)測試平臺與meta的Maverick模型所引發(fā)的爭議,進(jìn)一步暴露了當(dāng)前AI評估體系的局限性。許多現(xiàn)行的基準(zhǔn)測試過于關(guān)注模型在特定晦澀任務(wù)上的表現(xiàn),如解決高難度數(shù)學(xué)問題,而忽略了其在實(shí)際應(yīng)用中的價(jià)值。一些基準(zhǔn)測試還存在易于被操縱或與大眾偏好不符的問題。
OpenAI的先鋒計(jì)劃將聚焦于為法律、金融、保險(xiǎn)、醫(yī)療保健和會計(jì)等關(guān)鍵領(lǐng)域開發(fā)基準(zhǔn)測試。據(jù)透露,在未來數(shù)月內(nèi),OpenAI將與多家公司攜手,共同設(shè)計(jì)定制化的基準(zhǔn)測試,并將這些測試公開,以提供更具針對性的行業(yè)評估。
該計(jì)劃的首批參與者將聚焦于初創(chuàng)公司,這些公司將在高價(jià)值、廣應(yīng)用的AI用例中發(fā)揮關(guān)鍵作用。OpenAI將從眾多初創(chuàng)公司中精心挑選出幾家,與它們攜手奠定先鋒計(jì)劃的基礎(chǔ)。參與該計(jì)劃的公司還將有機(jī)會與OpenAI團(tuán)隊(duì)合作,利用強(qiáng)化微調(diào)技術(shù)改進(jìn)模型,以提升其在特定領(lǐng)域的表現(xiàn)。
然而,這一計(jì)劃也面臨著來自AI社區(qū)的質(zhì)疑。此前,OpenAI曾支持過基準(zhǔn)測試工作并設(shè)計(jì)了自己的評估方法。此次與客戶合作發(fā)布AI測試,可能會引發(fā)關(guān)于道德和公正性的爭議。如何在確保評估體系客觀公正的同時,又能滿足行業(yè)特定需求,將是OpenAI在推進(jìn)先鋒計(jì)劃過程中需要認(rèn)真考慮的問題。