国产一区二区精品久久岳√,国产91精品一区二区,国产精品久久免费视频

DeepMind新基準QuestBench：挑戰大模型推理與信息補全能力

發布時間：2025-04-26 17:24 來源：ITBEAR 作者：任飛揚

近期，科技界迎來了一項新的突破，谷歌DeepMind團隊推出了一款名為QuestBench的基準測試工具，專為評估大型語言模型（LLMs）在推理任務中的信息獲取能力而設計。這款工具采用約束滿足問題（CSPs）的框架，旨在探索LLMs在面對信息不完整情境時的應對策略。

在實際應用中，推理任務涉及數學、邏輯、規劃和編程等多個領域，但往往受到信息不確定性的挑戰。例如，用戶在提出數學難題時可能會遺漏關鍵信息，而自動駕駛系統等自主設備則需在信息不全的環境中運行。這種理想與現實之間的鴻溝，促使LLMs不斷提升主動獲取缺失信息的能力。

為了衡量LLMs在這一方面的表現，DeepMind的研究人員開發了QuestBench基準測試。該測試專注于評估LLMs在推理過程中識別信息缺口，并提出恰當澄清問題的能力。通過將問題轉化為約束滿足問題（CSPs），特別是關注“1-sufficient CSPs”——即僅需一個未知變量即可解決目標變量的問題，QuestBench能夠精準地評估模型的這一能力。

QuestBench覆蓋了邏輯推理、規劃以及小學數學三大領域，并根據變量數量、約束條件、搜索深度以及暴力搜索所需猜測次數等四個難度維度進行分類。這種細致的分類方式有助于揭示模型的推理策略和性能瓶頸，為改進提供了明確的方向。

在為期數月的測試中，QuestBench對多個前沿模型進行了評估，包括GPT-4o、Claude 3.5 Sonnet以及Gemini 2.0 Flash Thinking Experimental等。測試場景涵蓋了零樣本、思維鏈提示和四樣本提示等多種設置，測試內容則包括288個小學數學問題（GSM-Q）和151個擴展版小學數學問題（GSME-Q）。

測試結果顯示，思維鏈提示在多數情況下能夠顯著提升模型的性能。在規劃任務中，Gemini 2.0 Flash Thinking Experimental模型展現出了卓越的能力。而在邏輯推理方面，開源模型表現出了較強的競爭力。然而，在面對復雜數學問題時，這些模型的性能普遍較弱。

值得注意的是，盡管當前模型在解決簡單代數問題時表現出色，但隨著問題復雜性的增加，其性能顯著下滑。這表明，在信息缺口識別和澄清能力方面，LLMs仍有較大的提升空間。

QuestBench還揭示了不同模型在處理不同難度問題時的差異。例如，在變量數量較多或約束條件復雜的情況下，某些模型可能更容易陷入困境，而另一些模型則能夠靈活應對。

這一基準測試的推出，不僅為LLMs的性能評估提供了新的視角和方法，也為未來的研究和開發指明了方向。隨著技術的不斷進步和應用場景的不斷拓展，LLMs在信息獲取和推理能力方面的提升將變得更加重要。

更多>同類內容

亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

DeepMind新基準QuestBench：挑戰大模型推理與信息補全能力