晴時多雲

自由開講》AI時代的重要進展 : 由位元(Bit)到 符元(Token)

◎梁伯嵩

經過風風火火的 COMPUTEX,所有人都能感受到AI 時代到來。但在熱鬧的展會結束後,應該深入的思索,AI時代的最大變革會是什麼? 計算力的重要,已經廣為大眾所知。AI的應用,也百花齊放。但對全世界更深沉的影響,應該是標誌著人類的科技的進展,將從由位元(Bit) 進展到 符元(Token)。而對社會整體的影響,也將會由數位化(Digitalization)到符元化(Tokenization)。

台北電腦展風光登場。(資料照)

這個論點,其實大量隱藏在黃仁勳的演講、訪談之中。他不斷的強調 Token 的重要性。 他在很多演講不斷地說,在AI時代,將會產出大量的Token,而大量的AI 算力,將會變成 AI工廠 (AI Factory),將驅動全世界投資上兆美金於運算架構革新 ,並為全世界創造上百兆美金的新經濟價值。而這些,其實才是真正此波AI革命的核心。如果說,在這波的AI掏金熱中,GPU 和 AI算力,是挖金礦的「鏟子」。而這些 Token 所產生的經濟價值,才是真正要挖的「金礦」。當我們看到世界網路巨頭瘋狂搶買GPU時,其實我們真正應該要更加關注的,不只鏟子本身,而是他們鉅額投資的真正目的: AI浪潮下的 Token 所創造的全新的全球經濟價值。

什麼是 Token (符元)? 但是, Token 到底是什麼?

Token 可以翻作符號,或者更適切的稱呼是「符元」。就像是數位時代的 Bit(位元) 是最基礎的運算單位一般,在AI時代,最基礎的運算單位,將會是 Token (符元)。

黃仁勳在很多演講不斷地說,在AI時代,將會產出大量的Token,而大量的AI 算力,將會變成 AI工廠 (AI Factory)。(資料照)

若是問網路上 Token的定義,得到的答案會是:在AI領域,Token 通常指的是文字處理過程中的最小單位。 Tokenization (符元化) 是將連續的文字序列拆分為Token 的過程。 這些 Token 可以是單字、片語、句子或其他較小的文字單元。這看來是很技術領域的名詞,但為何會如此重要? 因為這是 AI運算的最小的運算單位。

在文字型的 AI,符元就像是AI 辭典裡面的所有表列的字詞一樣。所有的語言文字輸入,必須先做 符元化 (Tokenize) ,從這個辭典中找出適合的符元來表達,才能讓AI知道你要表達的內容。而AI運算過後的結果,也會用符元輸出,再經過 去符元化 (De-Tokenize)的程序,翻譯回正常的人類語言文字。 AI辭典內,能表達的符元,也影響了AI的能力範圍。有合適的符元表達,可大幅增加AI的能力。沒有合適的符元表達的話,AI也會詞窮。

「符元」跟以往的數位的「位元」, 最大的不同,在於符元並不單純僅是數字表達型式,而是包含了更多的內隱的意涵,因而讓這些符元所包含的意義,也能進行計算。舉例來說,「台灣」「美國」「亞洲」「北美洲」這些符元,就蘊含了比單純的數位的0與1 , 更多的意義內涵。而AI 模型的訓練,就是透過大量資料的學習,了解各個符元之間的意義與關連。所以我們問 AI說: 「美國之於北美洲,相當於台灣之於什麼?」 這時經過訓練的AI系統,就可以正確的找出符元之間的關係,回答出「亞洲」。

符元不僅只在文字領域發揮作用,在更多不同樣態的訊號,像是圖像、影音、機器人動作、氣象資訊、工廠數據、自動駕駛環境、乃至DNA與蛋白質結構與物理、化學訊號, 也是可以透過符元化的過程,讓AI系統進行運算,產生人工智慧結果。所以說,在未來的世界,AI運算就是在處理龐大的符元。人類自古至今大量的資料,包含文字、影音、知識、量測紀錄,轉成符元,訓練出能力強大的AI模型。而各種對AI系統的詢問與外界輸入,也轉成符元,來驅動AI 系統。而AI生成的符元,則再進一步轉譯成外界能了解的文字、影像、聲音、機器人動作、氣象預測、工廠模擬、或物理與數學解答、或藥物結構,進一步影響世界。

符元是人類文明對訊號處理的最新進程

其實,綜觀歷史,這波由AI 所帶動的符元化,是人類文明的最新進程。人類的文明,對於這個自然世界的訊號的處理,大約可說經歷過幾個重要進程: 從「人類觀測訊號」、「物理訊號」、「類比訊號」、「數位訊號」到最新的「AI符元訊號」


人類在文藝復興時期開始,科學、數學、天文學、醫學開始蓬勃發展。開始將人類感官能觀察到的自然現象,包括天文、物理、化學、醫學,透過科學與數學,做出系統化的整理。用人類感官來觀測並描繪自然,並將自然現象的觀測數據,整理變成客觀的科學物理公式與數學描述。

第一次工業革命,牛頓力學為基礎的科學知識成熟,蒸汽機、火車、輪船等以機器力量驅動文明發展。而更重要的是各式工具機的發明,讓鐘錶、齒輪、紡織機這樣的精密機器得以量產。在這個時期,人類透過機械的力量,來控制並處理溫度、壓力、速度等等的「物理訊號」。

第二次工業革命,透過麥克斯威爾電磁方程,人類對於抽象的電力與磁力,有了理解。也因此有了電話、無線電、電力、馬達。這時候,人類得以利用電力與電波,來處理並傳達訊號。而這時候的訊號,還是「類比訊號」的形式。

最近的第三次工業革命,又稱為數位革命,半導體、IC、電腦、網路、行動通訊、智慧型手機等等技術開始大量出現。在這個時期,人類已將訊號轉為 0與1 表達的「數位訊號」,因而大幅提高訊號處理的正確性與複雜度。透過數位訊號資訊的計算、通訊、儲存、構建起現在的科技文明。

在這波的 AI 進展中,以機器學習、神經網路架構與大語言模型的演進,透過「AI符元訊號」,讓資訊之間的隱含的關係與意涵,通過AI系統的學習與推理能力,創造更多的智慧功能。目前AI仍在發展,若能成功釋放出AI的巨大潛能,將可成為第四次工業革命。

參與世界AI進程,掌握數位化到符元化的潮流

在 AI 淘金熱中,台灣能提供能做出高品質的半導體、計算主機,就像淘金必備的鏟子一般,非常重要的,依黃仁勳的推估,全世界目前運算主機約在 1兆美元之譜,而AI算力需求,甚至可翻倍到2兆美元。而更高的價值金礦,隱含在 以 Token 符元為基礎的龐大AI應用。他推估,在未來,由AI Token 所創造的產品和服務,將會有高達 100兆以上的價值。更是這波AI熱潮的核心。

因此,目前我們正在人類歷史文明演進的關鍵時期。台灣位居世界半導體與資通訊產業鏈的關鍵角色,而備受世界矚目。但我們不應止步於此。應該把握AI技術演進的趨勢,並進一步掌握世界從數位化(Digitalization) 到符元化 (Tokenization)的潮流,推升整體的科技、經濟與社會的進步。

註:黃仁勳關於 Token 經濟與工業革命相關發言,請見他在 Strip Sessions 2024 的訪談影片的36:35~40:05處。

(作者任職於科學園區,並兼任臺灣大學電機資訊學院資訊工程系與重點科技研究學院合聘之客座教授,與陽明交通大學產學創新研究學院教授級專業技術人員)

自由開講》是一個提供民眾對話的電子論壇,不論是對政治、經濟或社會、文化等新聞議題,有意見想表達、有話不吐不快,都歡迎你熱烈投稿。請勿一稿多投,文長700字內為優,來稿請附真實姓名(必寫。有筆名請另註)、職業、聯絡電話、E─mail帳號。本報有錄取及刪修權,不付稿酬;錄用與否將不另行通知。投稿信箱:LTNTALK@gmail.com

不用抽 不用搶 現在用APP看新聞 保證天天中獎  點我下載APP  按我看活動辦法

已經加好友了,謝謝
歡迎加入【自由評論網】
按個讚 心情好
已經按讚了,謝謝。

編輯精選

載入中