晴時多雲

自由共和國》呂錫民/AI在文本分析的商機與挑戰

在AI的文本分析應用中有一個特別有用的選項是情緒分析(Sentiment Analysis),它分析對文本中給定主題的意見。示意圖,圖為博物館的AI展覽。(法新社檔案照)

呂錫民/工研院前研究員

曾被認為是外星人的天才科學家Jim Gray,在論述大數據(Big Data)的專書「第四波(The Fourth Paradigm)」中提到,人類科學演進歷史基本上可分為四個世代:(一)實驗(Experiment);(二)理論(Theory);(三)計算(Computation);以及,(四)數位化(Data-driven)。所言確鑿,進入二十一世紀,人類文明社會所產生的數據,早已擺脫過去的指數型態,反之是以階梯方式跳躍成長,專家估計到二○二五年,全球每天將有四百六十三 EB (1 exabytes=260 bytes)的數據產生,相當於二億一千二百七十六萬五千九百五十七張DVD的容量。

這麼多的數據可分成結構化與非結構化兩類,前者型態簡單且容易分析,而後者結構複雜,不易分析但有價值,特別在這網路發達時代,每天都有巨量的文本資訊(Text Data)產生,潛在龐大商業利益特別值得開發。

在文本分析(Text Analysis)中,利用機器學習(Machine Learning)的AI(Artificial Intelligence)技術,促成人們可以快速和簡單方式,處理大量非結構化文本數據。從示例中學習之外,並可隨著時間推移改進定制模型,企業因此可以自動執行日常任務並節省團隊寶貴時間,中高階主管更可獲得相關見解,有效推動決策過程。

對於沒有編程(Coding)技能的人來說,自動文本分析可能聽起來太複雜了,但並非總是如此,例如使用AI平台,每個人都可以創建客製化文本分析模型,甚至可以使用預先訓練的模型達到特定目的,而無需編寫任何程式碼。然而,當內建有機器學習功能的分類器被使用時,訓練數據必須轉換成機器可以理解的東西,即向量(編碼某些信息的數字列表)。然後,藉由向量使用,透過連接各節點的AI平台或系統提取相關的特徵(信息片段),從而有助於從現有數據中學習並對即將出現的文本進行預測。

企業每天都會生成大量信息,八十%的業務數據都是非結構化的文本數據。無論是從事銷售,客戶服務,營銷還是產品設計製造,分析原始文本數據都是非常重要。以物流業為例,如果利用人工進行物品分類,不但標記過程非常耗時,並且過程重複也不準確。另外在一般公司,從票據持有到產品意見回饋和售後客戶互動,每個主要業務流程都有文本數據產生。然而,分析大量文本資料令人生畏,這就是為什麼以AI為本的文本分析越來越受歡迎的原因,尤其是其能夠透過機器學習,讓企業的繁瑣任務和流程實現自動化。

結合AI的文本分析軟體具有廣泛的業務應用程序和用例,讓一些企業使用此類技術時,最大限度地提高效率,減少員工花費在重複性任務上的時間,這些任務可能會對營業額產生很大影響。舉例來說,面對數百萬社交媒體短語,如線上評論和回饋,此時,分析人員可以AI文本分析軟體進行反覆調查、排序、歸類、分析,從中獲得一般客戶服務或銷售之後的滿意度分布等有效資訊。

以更深層的意義來看,從事客戶體驗、產品營銷或銷售工作的業者,可運用相當多的文本分析應用程序完成流程自動化並獲得更好的洞察力,而這些洞察力都可由非資訊工程技術背景者取得,這一切都是拜先進AI深度學習功能所賜。

科學概念上,深度學習是一組受人類大腦工作原理啟發的演算法和技術,其中大量的訓練數據(數百萬個案例)生成語義豐富的文本表示,然後輸入以機器學習邏輯所建立的不同類型模型中,如類神經網路,此種深度學習模型能夠做出比傳統機器學習模型更準確的預測結果。

此處所謂的機器學習邏輯,是先將收集到的文本轉換為向量後,然後將它們與預期輸出一起輸入機器學習演算法,藉此創建分類模型,接著訓練好的模型可以選擇最能代表文本的特徵進行分析,或者更進一步將看不見的文本轉換為向量,提取相關特徵,以遂行預測功能。

在AI的文本分析應用中有一個特別有用的選項是情緒分析(Sentiment Analysis),它分析對文本中給定主題的意見。通過使用情緒分析模型分析提及的社交媒體,自動將它們分類為正面、中性或負面。如果同時使用主題分類器分析特殊命題,分析者還可以了解社群成員談論內容,甚至作出結論或摘要。

總括來講,具有商業發展潛力的AI文本應用案例或調查分析對象可包括:社交媒體、品牌或產品的銷售和營銷策略、客服滿意度、票務(如路線和分類)、緊急檢測、客戶消費心理、商業知識管理等等。

以AI賦能的機器或系統具有類似於人類的智慧,因此,結合AI的文本分析在處理新興問題上是大有可為的。廿世紀三○年代,在杜林機理論(Turing Machine Theory)影響下,以及深度類神經網路(Deep Neural Network, DNN)出現的重新點燃,AI方法已經廣泛應用在各項研究領域,包括自然語言處理。

現在是資訊爆發時代,網路數據是一個龐大知識寶藏,無庸置疑地,它為AI提供建立模型與分析趨勢的機會。但是,要導出與數據完全匹配的簡單模型或模式不是那麼簡單。另外很有可能的是,由許多參數組成的導出結果非常難以解讀,並且缺乏實際應用價值。

其次,為了及時保存和處理網路數據,大量存儲和計算資源需要發展,與此同時也會衍生巨大潛在私人資訊安全威脅與風險。此外,在應用大多數AI演算法之前,通常需要以分散方式收集數據。這些因素不可避免地增加了記憶體和處理器的成本開銷。總之,定價與精確決定了AI賦能文本分析是否能夠成功運作的兩大關鍵因素。

英國物理學家霍金曾說出一句警世名言:「全面發展AI的話,人類恐自取滅亡」。言外之意在於強調使用AI過程當中,道德(Ethics)規範的重要性,如果據此延伸至「文本分析」,那麼個人隱私保護無異是一項無限上綱了。

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

《自由共和國》強力徵稿

《自由共和國》來稿請附:真實姓名、身分證字號、職業、通訊地址及戶籍地址(包括區里鄰)、夜間聯絡電話、銀行帳號(註明分行行名)及E-mail帳號。

刊出後次月,稿費將直接匯入作者銀行帳戶,並以E-mail通知。
文長1200字以內為宜,本報有刪改權,不願刪改者請註明;請自留底稿,不退稿;若不用,恕不另行通知;請勿一稿多投。

《自由共和國》所刊文章、漫畫,將於 「自由電子報」選用,不另外奉酬。
Email:republic@libertytimes.com.tw

已經加好友了,謝謝
歡迎加入【自由評論網】
按個讚 心情好
已經按讚了,謝謝。

編輯精選

載入中