97在线精品视频,中文字字幕码一二区,国产成人久久精品

AI評測新招：讓AI在《我的世界》中比拼建筑創(chuàng)意

發(fā)布時間：2025-03-22 16:24 來源：ITBEAR 作者：鐘景軒

在探索人工智能（AI）能力邊界的過程中，傳統(tǒng)的基準測試方法正面臨挑戰(zhàn)。為了更全面、直觀地評估AI模型的能力，開發(fā)者們正轉(zhuǎn)向一些非傳統(tǒng)途徑，其中，《我的世界》這款沙盒建造游戲成為了備受矚目的測試平臺。

據(jù)TechCrunch報道，一位名叫阿迪·辛格的高三學(xué)生，憑借對AI評測的獨到見解，創(chuàng)建了名為Minecraft Benchmark（簡稱MC-Bench）的網(wǎng)站。該網(wǎng)站利用《我的世界》作為競技場，讓AI模型在相同的提示下生成建筑作品，并通過用戶投票的方式評選出優(yōu)秀作品。投票結(jié)束后，才會揭曉每幅作品的創(chuàng)作者——即哪款A(yù)I模型。

辛格表示，選擇《我的世界》并非因為其游戲性，而是其廣泛的知名度和獨特的方塊風格。這種風格使得即便是非玩家也能輕松分辨出哪個方塊狀的建筑更加逼真。“《我的世界》為我們提供了一個直觀的窗口，讓我們能夠清晰地看到AI發(fā)展的進步。大家對這款游戲的視覺風格非常熟悉，這使得評估過程更加直接和有效。”

目前，MC-Bench網(wǎng)站已經(jīng)吸引了8名志愿貢獻者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項目提供了寶貴的AI計算資源支持，盡管他們并未直接參與網(wǎng)站的開發(fā)工作。

辛格進一步解釋說，MC-Bench目前的測試還處于基礎(chǔ)階段，主要用于觀察AI從GPT-3時代到現(xiàn)在的進步。然而，他展望了未來可能的拓展方向：“我們或許可以將測試擴展到更復(fù)雜的目標導(dǎo)向任務(wù)和長期規(guī)劃能力評估。游戲作為一種測試平臺，具有安全性和可控性的優(yōu)勢，是評估AI智能體推理能力的理想選擇。”

從嚴格意義上講，MC-Bench屬于編程基準測試的一種變體，因為AI模型需要編寫代碼來生成建筑，如“霜雪人”或“熱帶風情的海濱小屋”等。這種測試方式相較于傳統(tǒng)的代碼分析更具直觀性，因為大多數(shù)用戶更容易通過作品本身來評判AI的表現(xiàn)。

盡管關(guān)于這些測試結(jié)果是否能真正反映AI的實際應(yīng)用價值仍存在爭議，但辛格認為這些數(shù)據(jù)仍然具有重要的參考價值。“MC-Bench的排行榜與我在實際使用中的體驗高度一致，這在許多傳統(tǒng)的文本基準測試中并不常見。因此，我相信它能夠幫助AI開發(fā)者判斷自己是否正在朝著正確的方向前進。”

更多>同類內(nèi)容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

AI評測新招：讓AI在《我的世界》中比拼建筑創(chuàng)意