近日,一項(xiàng)與圖像生成技術(shù)相關(guān)的專利信息引起了業(yè)界的廣泛關(guān)注。據(jù)天眼查披露,該專利由北京百度網(wǎng)訊科技有限公司申請(qǐng),具體名稱為“圖像生成模型的構(gòu)建、生成方法及其相關(guān)裝置”。
該專利深入探討了圖像處理及人工智能領(lǐng)域的創(chuàng)新應(yīng)用。其核心在于,通過一系列復(fù)雜的算法流程,實(shí)現(xiàn)圖像的高效、精準(zhǔn)生成。具體而言,該方案首先收集大量的樣本圖像,并為之匹配相應(yīng)的樣本提示詞。
接下來(lái),這些樣本圖像會(huì)經(jīng)過一個(gè)名為第一預(yù)處理網(wǎng)絡(luò)的處理環(huán)節(jié),該環(huán)節(jié)能夠提取出圖像的控制條件和目標(biāo)潛在空間編碼。與此同時(shí),樣本提示詞則通過第二預(yù)處理網(wǎng)絡(luò)被轉(zhuǎn)換為文本向量,為后續(xù)步驟提供關(guān)鍵信息。
在獲取了上述關(guān)鍵信息后,專利提出了一種創(chuàng)新的訓(xùn)練方法。該方法將目標(biāo)潛在空間編碼、文本向量和控制條件作為輸入,送入一個(gè)待訓(xùn)練的UNet網(wǎng)絡(luò)中。結(jié)合UNet網(wǎng)絡(luò)輸出的噪聲分布,進(jìn)行多次迭代訓(xùn)練,直至得到一個(gè)性能優(yōu)越的目標(biāo)UNet網(wǎng)絡(luò)。
最終,基于第一預(yù)處理網(wǎng)絡(luò)、第二預(yù)處理網(wǎng)絡(luò)、訓(xùn)練好的目標(biāo)UNet網(wǎng)絡(luò)以及一個(gè)解碼器,構(gòu)建出一個(gè)完整的圖像生成模型。這一模型不僅能夠根據(jù)給定的提示詞生成符合要求的圖像,還在圖像處理的效率和質(zhì)量上實(shí)現(xiàn)了顯著提升。
這一專利的公布,標(biāo)志著百度在圖像處理及人工智能領(lǐng)域的研究又邁出了重要一步。業(yè)界普遍認(rèn)為,這一創(chuàng)新技術(shù)有望為圖像生成、圖像編輯等領(lǐng)域帶來(lái)革命性的變化,推動(dòng)相關(guān)產(chǎn)業(yè)的進(jìn)一步發(fā)展。