AI模型崩潰危機:過度使用自身輸出恐導致輸出沒有意義的內容

104 次閱讀
尚無留言

研究發現,AI 模型若過度使用自己的輸出進行遞歸訓練,將導致沒有意義的內容的產生。

研究人員發現,網路上的 AI 生成內容不斷增加,除非業界能降低風險,否則可能導致機器學習模型「崩潰」。

牛津大學團隊發現,使用 AI 生成的資料集來訓練未來模型,可能會產生沒有意義的內容,這種現象稱為「模型崩潰」。例如,一個模型最初從中世紀歐洲建築的文本開始,到了第九代,卻開始胡扯,談論起長耳大野兔。。

在前幾天發表於《自然》雜誌的一篇論文中,Google DeepMind 和牛津大學的博士後研究員伊利亞・舒馬洛夫(Ilia Shumailov)領導的研究發現,AI 可能無法捕捉到訓練數據集中較不常見的文本行,這意味著後續基於其輸出訓練的模型無法延續這些細微差別。以這種方式在早期模型的輸出上訓練新模型最終會陷入遞歸循環。

該論文指出:「長期以來,人們就一直在試圖操縱語言模型。例如,過去出現了點擊、內容農場和引戰農場文的創建,這些都是由人類操作的『語言模型』,其工作是誤導社群網路和搜尋演算法。這些惡意行為對搜尋結果造成了負面影響,因此搜尋引擎公司不得不修改演算法來應對。例如,Google 降低了內容農場文章的權重,更加重視來自教育領域等可信來源的內容,而 DuckDuckGo 則完全刪除了這些文章。隨著大型語言模型(LLM)的出現,這種惡意行為的規模將會變得更大,因為一旦自動化,攻擊者可以更容易地生成大量誤導性內容。換句話說,LLM 的出現使得操縱語言模型變得更容易、規模更大。」

延伸閱讀:蝦子耶穌爆紅!AI 生成內容佔據網路,「死亡網路」理論成真?
在隨附的文章中,杜克大學電氣和計算機工程助理教授艾蜜莉‧溫格(Emily Wenger)以一個生成狗圖像的系統為例來說明了模型崩潰。

她說:「AI 模型會傾向於重新創造訓練數據中最常見的狗品種,因此可能會過度呈現黃金獵犬,而忽略了小型巴吉度獵犬,,因為這兩個品種的相對普遍性。」

「如果後續模型是在過度呈現黃金獵犬的 AI 生成資料集上訓練的,問題就會加劇。經過足夠多的循環,模型會忘記像小型巴吉度獵犬這樣罕見的狗品種的存在,只生成黃金獵犬的圖片。最終,模型將崩潰,無法生成有意義的內容。」

雖然她承認過度呈現黃金獵犬可能不是壞事,但崩潰過程對於包含較不常見想法和寫作方式的有意義代表性輸出是一個嚴重問題。「這是模型崩潰的核心問題。」她說。

一個現有的解決方案是對 AI 生成的內容進行浮水印處理。然而,這些浮水印可以很容易地從 AI 生成的圖像中移除。分享浮水印訊息還需要 AI 公司之間的大量協調,「這可能不切實際或在商業上不可行。」溫格說。

舒馬洛夫和同事表示,用人工智慧生成的數據訓練模型並非不可能,但業界需要建立有效的數據過濾方法。

論文指出:「區分大型語言模型(LLM)生成的數據與其他數據的需要,引發了關於從網際網路爬取的內容來源的問題:目前尚不清楚如何大規模追蹤 LLM 生成的內容。」

「一種選擇是全社群協調,確保參與大型語言模型創建和部署的不同方共享解決來源問題所需的資訊。否則,在沒有取得該技術大規模採用前從網路爬取的數據,或直接取得大規模人類生成數據的情況下,訓練更新版本的大型語言模型可能會變得越來越困難。」

延伸閱讀:OpenAI 的爬蟲被設計癱瘓,卡在「世界上最無聊的內容農場」上無法脫身
延伸閱讀:Google 宣告了 WWW 全球資訊網的終結
資料來源:the Register

正文完
 0
admin
版權聲明:本站原創文章,由 admin 於 2024-07-28 發表,共計 1386 字。
轉載說明:除特殊說明外本站文章皆由 CC-4.0 協議發佈,轉載請註明出處。
評論(尚無留言)
驗證碼