近期,科技界傳來一則新動態,英偉達攜手賓夕法尼亞州立大學及華盛頓大學,共同推出了名為Nemotron-Research-Tool-N1系列的新模型。這一系列模型受到了DeepSeek-R1的啟發,并采用了創新的強化學習(RL)范式,旨在增強模型的推理能力。
在大型語言模型(LLMs)領域,通過整合外部工具來提升性能已成為一種流行趨勢。這些工具使得LLMs在搜索引擎、計算器、視覺處理及Python解釋器等多個領域展現出了卓越的性能。然而,現有的研究方法大多依賴于合成數據集,難以捕捉到明確的推理步驟,導致模型往往只能模仿表面的模式,而無法真正理解背后的決策過程。
為了克服這一挑戰,研究者們積極探索了多種策略來提升LLMs的工具使用能力。一方面,他們通過整理數據集和優化模型,創建了大規模的監督數據集,并運用了監督微調(SFT)和直接偏好優化(DPO)等強化學習技術,將LLMs與外部工具相結合,進一步擴展其功能。另一方面,研究者們也在不斷改進推理過程,從傳統的訓練時擴展轉向更為復雜的測試時策略。
盡管這些方法在一定程度上取得了成效,但它們仍然受限于合成數據的不足。通過現有的策略,LLMs雖然能夠處理單輪或多輪的工具調用,但在自主推理的深度上仍顯不足。為了突破這一局限,英偉達及其合作伙伴開發了Nemotron-Research-Tool-N1系列模型。
Nemotron-Research-Tool-N1系列模型并未依賴顯式的推理軌跡標注,而是采用了一種二元獎勵機制,鼓勵模型自主發展推理策略。研究者們對xLAM和ToolACE等數據集(包含單輪和多輪工具調用軌跡)的子集進行了統一處理,并設計了一種輕量級的提示模板,以指導工具生成過程。這種模板通過使用特定的標簽來明確指示中間推理步驟,并封裝工具調用,從而避免了模型過度擬合特定的提示模式。
在模型的主干部分,研究者們選擇了Qwen2.5-7B和14B,并測試了LLaMA系列的變體,以評估模型的泛化能力。在BFCL基準測試中,Nemotron-Research-Tool-N1-7B和14B模型展現出了卓越的性能,不僅超越了GPT-4o等封閉源模型,還優于xLAM-2-70B和ToolACE-8B等經過專用微調的模型。
與采用相同數據源的SFT基準相比,Nemotron-Research-Tool-N1系列模型展現出了顯著的優勢,這充分證明了強化學習方法的有效性。在API-Bank基準測試中,Tool-N1-7B和14B的準確率分別比GPT-4o高出了4.12%和5.03%。這些結果不僅驗證了新方法的巨大潛力,還表明LLMs在自主生成推理策略方面取得了重要進展。這一突破標志著從傳統的監督微調向強化學習范式的轉變。