OpenAI近期在其官方渠道宣布了一項(xiàng)重要更新,旨在加強(qiáng)對(duì)前沿人工智能(AI)技術(shù)潛在風(fēng)險(xiǎn)的監(jiān)控與應(yīng)對(duì)。4月16日,這家科技巨頭發(fā)布了一份新版《準(zhǔn)備框架》,該框架是OpenAI內(nèi)部用于評(píng)估AI模型安全性的核心系統(tǒng),旨在確保在開(kāi)發(fā)和部署過(guò)程中能夠識(shí)別并緩解潛在風(fēng)險(xiǎn)。
新版的《準(zhǔn)備框架》采用了更為聚焦的方法,不僅強(qiáng)化了風(fēng)險(xiǎn)最小化的要求,還為組織如何評(píng)估、治理和公開(kāi)披露安全措施提供了明確的指導(dǎo)。OpenAI承諾,隨著技術(shù)的不斷進(jìn)步,將持續(xù)投入更多資源,以增強(qiáng)準(zhǔn)備工作的行動(dòng)力、嚴(yán)謹(jǐn)性和透明度,確保AI技術(shù)的安全發(fā)展。
該框架通過(guò)一套結(jié)構(gòu)化的風(fēng)險(xiǎn)評(píng)估流程,為高風(fēng)險(xiǎn)AI能力設(shè)定了清晰的優(yōu)先級(jí)標(biāo)準(zhǔn)。每一項(xiàng)前沿能力都將根據(jù)既定的標(biāo)準(zhǔn)進(jìn)行分類,并追蹤其是否符合五項(xiàng)關(guān)鍵標(biāo)準(zhǔn)。這一流程旨在判斷某項(xiàng)AI能力是否可能導(dǎo)致嚴(yán)重危害,從而采取相應(yīng)的預(yù)防措施。
新版框架還引入了更為細(xì)化的能力分類,包括追蹤類別、網(wǎng)絡(luò)安全能力以及AI自我改進(jìn)能力等。OpenAI認(rèn)為,這些領(lǐng)域?qū)?lái)AI在科學(xué)、工程和研究領(lǐng)域的最具變革性的益處,但同時(shí)也需要更加密切的關(guān)注和監(jiān)管。
除了上述分類外,框架還新增了研究類別,涵蓋了那些可能造成嚴(yán)重危害但尚未達(dá)到追蹤標(biāo)準(zhǔn)的領(lǐng)域,如長(zhǎng)距離自主性、故意低表現(xiàn)以及自主復(fù)制與適應(yīng)等。這些新增的研究類別為OpenAI提供了更為全面的視角,以識(shí)別和應(yīng)對(duì)潛在的AI風(fēng)險(xiǎn)。
在能力等級(jí)方面,新版框架進(jìn)行了簡(jiǎn)化,將能力等級(jí)劃分為“高能力”和“關(guān)鍵能力”兩個(gè)門檻。無(wú)論AI能力屬于哪個(gè)等級(jí),在開(kāi)發(fā)和部署前都需要采取充分的安全措施,以降低可能帶來(lái)的嚴(yán)重危害風(fēng)險(xiǎn)。這一舉措確保了OpenAI在AI技術(shù)的開(kāi)發(fā)和部署過(guò)程中始終保持高度的警惕性和責(zé)任感。
為了確保安全措施的有效性和可行性,OpenAI內(nèi)部的安全顧問(wèn)小組將對(duì)這些措施進(jìn)行審查,并向領(lǐng)導(dǎo)層提出專業(yè)建議。框架還引入了可擴(kuò)展的評(píng)估機(jī)制,支持更頻繁的測(cè)試,并通過(guò)詳細(xì)的Safeguards Reports報(bào)告安全措施的設(shè)計(jì)強(qiáng)度和驗(yàn)證效果。這一機(jī)制確保了OpenAI在應(yīng)對(duì)AI風(fēng)險(xiǎn)時(shí)能夠保持高度的靈活性和適應(yīng)性。
值得注意的是,如果其他AI開(kāi)發(fā)者發(fā)布了缺乏同等安全措施的高風(fēng)險(xiǎn)系統(tǒng),OpenAI可能會(huì)調(diào)整自身的要求。但在做出任何調(diào)整之前,OpenAI將先確認(rèn)風(fēng)險(xiǎn)形勢(shì)的變化,并公開(kāi)承認(rèn)調(diào)整,以確保不會(huì)增加整體風(fēng)險(xiǎn)。這一舉措體現(xiàn)了OpenAI在AI技術(shù)發(fā)展和安全監(jiān)管方面的責(zé)任感和擔(dān)當(dāng)。