◎ 廖明輝
AI模型越來越大也越來越複雜。未來,當真正的數據耗盡時,將迫使AI公司更加依賴AI產生的數據,也就是「合成數據」來訓練AI。然而,當AI的輸出成為自身訓練數據一部分時,可能引發「AI退化」問題,影響AI模型的準確性與多樣性。目前,大量AI產生的文本、圖片和數據充斥於網路,例如OpenAI每日生成大量文章與圖片及影片,部分流入網路並進入AI訓練數據中。當AI過度依賴自身輸出的數據進行訓練時,最終將導致資訊的失真與偏頗。
OpenAI每日生成大量文章與圖片及影片,部分流入網路並進入AI訓練數據中,當AI過度依賴自身輸出的數據進行訓練時,最終將導致資訊的失真與偏頗。(美聯社)
《自然》雜誌的論文指出,當人工智慧模型開始使用自身產生的資料進行訓練時,將導致輸出範圍逐漸縮減,出現品質下降與多樣性降低的問題,研究者將這種現象稱為「模型崩潰」。
具體而言,當AI模型不再持續接收新的真實資料,而僅憑自身合成的資料進行訓練時,輸出的品質會逐漸惡化,影像變得模糊且同質化。隨著時間推移,生成的影像甚至會出現更明顯的缺陷,例如扭曲的臉部輪廓、出現皺紋般的奇怪圖案,或是殘缺不全的手指等異常特徵,這些視覺上的缺陷被稱為「偽影」。研究指出,要避免AI模型產生這種惡性循環的唯一方法,就是持續補充大量新鮮且真實的資料,以確保模型能夠維持輸出品質與多樣性,避免陷入「模型崩潰」狀態。
在《紐約時報》也看到一則報導談「當人工智慧的輸出對人工智慧本身構成威脅時」。內容敘述隨著AI所產生的數據變得越來越難以檢測,它越來越有可能被未來的AI所吸收,導致AI的多樣性下降隱憂。以圖像生成為例,當AI不斷使用自己產生的圖像作為訓練素材,最終可能導致影像變得模糊、失真,甚至出現不合常理特徵,如人臉變得過於相似或手指數量異常,這種異常情況已在ChatGPT生成的人類圖案經常可以看到。若以手寫阿拉伯數字訓練模型,經過30代的AI自我訓練後,原始手寫數字已失去清晰度,變成模糊難辨形狀。類似情況也發生在語言模型,當AI以自身生成文本為訓練基礎,語言結構將逐漸簡化,詞彙量萎縮,甚至導致無意義的重複輸出。
網傳一張疑似與西藏一月強震有關的照片,畫面顯示一名戴帽的六指男童被壓在倒塌建築下,證實為AI生成。(圖擷取自中國微博)
當AI依賴自身生成的內容時,輸出將變得單調且缺乏變化。這是由於AI學習數據的機率分佈趨於窄化,使產生的內容越來越接近先前輸出,而非探索新的變化。例如,若AI新聞模型僅從AI產生的新聞報導中學習,未來的新聞可能變得同質化,難以反映現實社會的多樣性。更嚴重的是,AI的自我循環訓練可能放大偏見。例如,若AI語言模型的訓練數據逐漸以AI產生內容為主,文化與語言多樣性將被壓縮,甚至可能過濾掉少數族群聲音。這種過程可能加劇現有社會偏見,影響決策的公正性。
AI退化也會對實際應用產生影響。例如,醫療診斷AI若僅依賴AI生成病例資料進行訓練,可能會遺漏關鍵的臨床變化,降低診斷準確性。同樣,法律AI若主要學習AI生成的法律文件,則可能會忽視法律解釋的細微變化,影響司法判決公平性。此外,圖像AI模型若不斷基於自身產生的數據進行訓練,則可能導致人臉辨識技術對少數族群辨識能力下降。當AI過度仰賴「合成數據」重複學習自身輸出時,模型將面臨退化風險,最終可能導致模型崩潰。因此,需要透過混合使用真實數據並發展出更具智慧的AI訓練方法,才能確保AI發展方向保持穩定並為社會帶來正面影響。
(作者為中華經濟研究院輔佐研究員)
自由開講》是一個提供民眾對話的電子論壇,不論是對政治、經濟或社會、文化等新聞議題,有意見想表達、有話不吐不快,都歡迎你熱烈投稿。請勿一稿多投,文長700字內為優,來稿請附真實姓名(必寫。有筆名請另註)、職業、聯絡電話、E─mail帳號。
本報有錄取及刪修權,不付稿酬;錄用與否將不另行通知。投稿信箱:LTNTALK@gmail.com
編輯精選