【智快網】11月10日消息,OpenAI宣布了一項新的數據合作伙伴計劃,旨在生成用于訓練AI模型的公共和私有數據集。該合作伙伴關系的目標是擴大AI技術的應用范圍,從更有用的模型中受益。
根據OpenAI的博客文章,他們提到:“為了最終使AI更加安全且造福于全人類,我們希望AI模型能夠深入理解所有主題、行業、文化和語言,這需要盡可能廣泛的訓練數據集。”
作為數據合作伙伴計劃的一部分,OpenAI計劃收集“反映人類社會”的“大規模”數據集,這些數據目前不容易在網上獲取。盡管OpenAI計劃涵蓋多種數據類型,包括圖像、音頻和視頻,但他們特別強調了對不同語言、主題和格式的數據,以更好地“表達人類意圖”,例如長篇寫作或對話。
OpenAI表示,他們將采取必要的步驟,包括使用光學字符識別和自動語音識別工具,對訓練數據進行數字化,并在必要時刪除敏感或個人信息。
OpenAI計劃創建兩種類型的數據集:一個是公開開源數據集,可供任何人在AI模型訓練中使用,另一個是私有數據集,用于訓練特定領域的專有AI模型。
此外,OpenAI還強調私有數據集的重要性,特別適用于那些希望保持數據私密性但又希望OpenAI的模型能更好地理解其領域的組織。OpenAI已經與冰島政府和Mieeind ehf合作,提高了GPT-4對冰島語的理解能力,并與自由法律項目合作,提高了其模型對法律文件的理解。這一合作伙伴計劃標志著OpenAI在共同推動AI技術發展方面邁出的重要一步。