晴時多雲

自由開講》政府應制定合理計價機制 讓LLM取得出版社文本授權

◎吳政鴻

近期OpenAI聊天機器人ChatGPT等生成式AI平台興起,國科會除在近期(7/15)提出「AI人工智慧基本法」草案外,也自2023年發展具台灣特色與繁體中文文本生成能力的可信任生成式AI對話引擎TAIDE (Trustworthy AI Dialogue Engine),亦於今年4月釋出TAIDE-LX-7B這款本土化的大型語言模組(LLM)。筆者十分認同台灣應該要有能夠說出在地口語、使用本地詞彙回應的語言模組,以符合AI發展的在地化運用。

近期OpenAI聊天機器人ChatGPT等生成式AI平台興起,國科會發展具台灣特色與繁體中文文本生成能力的可信任生成式AI對話引擎TAIDE。(路透檔案照)近期OpenAI聊天機器人ChatGPT等生成式AI平台興起,國科會發展具台灣特色與繁體中文文本生成能力的可信任生成式AI對話引擎TAIDE。(路透檔案照)

目前不論是OpenAI和Meta提供的語言模組,中文文本的訓練資料多是透過網路撈取,其中簡體中文的量體佔比遠遠高於繁體中文。在台灣本土的繁體中文資料量相對稀少的情況下,相對容易導致因資料缺乏而影響模型生成的結果,這也再次突顯了台灣自主研發大型語言模型的重要性。

而台灣的出版品經過數十年的累積已有豐富的數量,出版品的語彙及語法結構皆透過出版社嚴謹的編輯過程,內容亦符合台灣的文化與國情,具備「可信任性」與「台灣本土性」的特點,實是訓練繁體中文語言模組最佳的文本資料。

在台灣發展AI這關鍵的時刻,國科會TAIDE計畫的訓練資料不應該侷限於政府相關網站、公開資料以及研究機構資料庫,更應該主動與國內各出版社合作,拋開無償使用的觀念,透過合理有償的機制取得台灣出版品的文本資料使用權,以有效及快速的擴充繁體中文語言模組的訓練資料。

國外已有不少媒體與出版集團陸續與OpenAI達成協議,台灣也應盡快跟上腳步。筆者建議國科會、文化部、出版公協會以及相關部會應成立跨部會小組,共同研議並制定合理的文本資料授權使用期限與計價方式等機制,找出對產、官雙方都有利的平衡點,並促進國科會TAIDE計畫本土化LLM更趨完善,相信這會是推動臺灣AI進展重要的一步。

(作者為出版商業同業公會全國聯合會理事長)

自由開講》是一個提供民眾對話的電子論壇,不論是對政治、經濟或社會、文化等新聞議題,有意見想表達、有話不吐不快,都歡迎你熱烈投稿。請勿一稿多投,文長700字內為優,來稿請附真實姓名(必寫。有筆名請另註)、職業、聯絡電話、E─mail帳號。
本報有錄取及刪修權,不付稿酬;錄用與否將不另行通知。投稿信箱:LTNTALK@gmail.com

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

編輯精選

載入中