近日,Anthropic公司在其舉辦的一場活動中,震撼發(fā)布了Claude Opus 4與Claude Sonnet 4兩款新一代語言模型,標志著人工智能在結構化推理、軟件工程及自主代理行為等領域取得了顯著突破。
Claude Opus 4,被譽為Anthropic迄今為止的巔峰之作,專為應對復雜推理流程和軟件開發(fā)場景而生。據(jù)官方博文介紹,該模型在SWE-bench基準測試中表現(xiàn)卓越,解決真實GitHub問題的能力達到了72.5%的準確率;在TerminalBench測試中,其多步驟終端代碼生成任務的準確率也高達43.2%。尤為Opus 4在軟件環(huán)境中展現(xiàn)出了驚人的自主行為能力,得益于其改進的內存管理、更廣泛的上下文保留以及增強的內部規(guī)劃機制,據(jù)Rakuten測試數(shù)據(jù)顯示,它能夠連續(xù)進行近7小時的代碼生成和任務執(zhí)行,這一成績不僅刷新了AI世界紀錄,更是遠超其前代Claude 3 Opus的不足1小時表現(xiàn)。
Anthropic公司強調,其AI模型并非旨在取代人類工作崗位,而是作為日常工作的自動化工具存在。然而,marktechpost媒體卻認為,Claude 4系列的問世,將徹底改變AI的使用方式,使AI從以往單一任務的輔助工具,轉變?yōu)楣δ芨鼜?、應用范圍更廣的“AI同事”,幾乎能夠勝任一個完整工作班次的任務。
與此同時,Claude Sonnet 4也以其穩(wěn)定的架構、提升的速度與質量,以及未顯著增加的計算成本,成功接替了前代Claude 3.5 Sonnet。該模型針對中規(guī)模部署進行了優(yōu)化,適合在成本與性能之間尋求平衡的場景應用。盡管在推理能力上稍遜于Opus 4,但Sonnet 4同樣繼承了眾多架構升級,支持多文件代碼導航、中間工具使用以及結構化文本處理,且延遲表現(xiàn)更佳。目前,它已成為Claude.ai免費用戶的默認模型,并通過API提供服務,廣泛應用于輕量開發(fā)工具、用戶助手和分析流程等領域。
兩款模型均具備混合推理能力,提供了“快速模式”與“擴展思考模式”兩種選擇??焖倌J竭m用于低延遲的簡短對話任務,而擴展思考模式則專為需要深度推理和多輪代理行為的復雜任務設計。這種雙模式策略使用戶能夠根據(jù)任務復雜度靈活分配計算資源,提高了工作效率。
Claude Opus 4和Sonnet 4還可通過Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多個云平臺進行訪問,支持從自主代理到代碼分析等多種企業(yè)應用場景。這一特性進一步拓寬了它們的應用范圍,使得更多企業(yè)能夠享受到AI技術帶來的便利與效率提升。