晴時多雲

自由廣場》中國與新加坡競逐東南亞主權AI

◎ 廖明輝

生成式AI技術正在迅速進步,已能處理包括文字、圖像、音訊和視訊在內的多媒體形式,並生成不同組合的輸出。在OpenAI宣布Sora可從文字生成影片之後,Adobe日前公開Premiere Pro測試版,可以整合Firefly圖像生成模型,讓使用者以AI技術延伸圖像素材的空隙來生成影片。未來幾年內,生成式AI不僅能生成文字,還將更廣泛地應用於生成音訊、圖像和影像,對人們的日常生活將會產生全面性的影響。

東南亞擁有極為豐富的文化多樣性和語言複雜性。東南亞國家協會(ASEAN)包含印尼、泰國、越南、新加坡等十個國家,各國皆有獨特的文化背景和語言。然而,現有大型語言模型大多基於西方語言和文化訓練,導致它們在處理東南亞語言和文化時表現不足。在西方AI模型訓練下的資料集,由於代表性不足,使得東南亞用戶使用時常會遇到不準確的回應。因此,推動能夠理解當地語言和文化的主權AI,是確保東南亞各國在全球AI競爭中不落後的關鍵策略。

中國與新加坡正在東南亞展開激烈的主權AI競爭。兩個AI領先國家利用其技術優勢爭奪主導地位。新加坡的AI Singapore推出SEA-LION計畫,是專門針對東南亞語言和文化設計的大型語言模型。而中國阿里巴巴的達摩院則推出SeaLLMs模型,兩者都強調多語言支持和文化適應性,試圖在該地區及全球企業市場取得競爭優勢。

阿里巴巴達摩院的SeaLLMs語言模型具備130億和70億參數版本,支持包括越南語、印尼語、泰語、馬來語等多種語言,特別是會話模型SeaLLM-chat不僅能理解當地語言,還能符合其文化背景,包括社會規範、習俗等,為中國政府及企業在東南亞拓展市場,發揮重要影響力。

新加坡全國人工智慧核心(AI Singapore)開發符合東南亞文化背景及語言的生成式人工智慧SEA-LION模型,收集涵蓋印尼語、泰語、越南語、菲律賓語、緬甸語、馬來語、老撾語等多達十一種語言的數據,包括常見的英語和漢語。這些語言數據對訓練、微調和評估語言模型非常關鍵。透過更精確反映該區域的語言環境,協助各機構開發專屬的人工智慧模型,擴展新加坡在東南亞的數據中心業務與影響力,顯示新加坡對東南亞語言文化的重視與雄心壯志。

台灣擁有豐富的語言和文化資源,除了漢語之外,包括原住民多語言及閩客語文化,這些都是台灣推動主權AI的基礎。台灣可以參考東南亞的經驗,收集及建立語言數據庫,推動AI在語音識別、語音合成及文化創新上的應用。此外,台灣應注重推動文化內容的數位化,結合傳統文化與現代技術,藉由AI技術進行創新與保存。不僅有助於文化的傳承,還能提升台灣在國際AI領域的競爭力。用自己的數據資料訓練AI,建立自己的主權AI,確保技術和數據主權不受外國勢力所控制或影響。

(作者是中華經濟研究院輔佐研究員)

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

編輯精選

載入中