◎ Sky Ho (賀天行)
▋大哥們,別爬了
這不是哪個站長的開玩笑,而是維基百科的正式投降。
面對鋪天蓋地的AI爬蟲,維基選擇主動整理資料,直接請AI公司自取。
這不是共享,而是妥協。是無奈,是戰敗者的生存智慧。
面對鋪天蓋地的AI爬蟲,維基選擇主動整理資料,直接請AI公司自取。(取自貼文)
▋維基曾是自由知識的堡壘,現在是大型語言模型的糧倉
從去年起,網站流量暴增50%。
原以為是世界學習熱情回升,結果是一群機器在吃書。
AI爬蟲瘋狂掃蕩每一頁內容,只為餵飽背後的大模型。
爬得快、吞得狠,毫無節制,也毫無敬意。
維基為了降低壓力,架設了全球快取中心,讓熱門詞條就近回應。
但AI根本不甩這些設計,無差別索取,讓大量資料被迫走回美國主機,產生高價頻寬費。
結果他們發現,美國數據中心的高成本流量,有65%都是AI爬蟲造成的。
▍維基是免費的,但伺服器每年得燒掉300萬美元
這不是開源精神的勝利,而是運營現實下的割喉戰。
最終他們選擇了不戰而降,把資料結構化,方便AI公司直接使用。
不是因為他們想分享,而是他們別無選擇。
這是一場為了保護核心而交出的祭品。
說白一點,是「自己動刀,免得他人來剝皮」。
▋在前幾篇文章【AI是怎麼殺死搜索引擎的(SEO)?】,
我已經說過嚴重性,
AI爬蟲不只是搬運資料,它正在摧毀SEO的基礎秩序。
robots協議根本擋不住,它們換個名字再來。
今天封OpenAI,明天就叫自己OpenFuture繼續抓。
你抵抗,它變形。你設限,它繞路。
甚至有些網站開始餵假資料,專門污染AI模型。
有的公司發展出新技術,只要偵測到惡意爬蟲,就放它進來。
但不是給它真正的內容,而是一頁頁由AI自動生成的錯誤資料。
表面看似真實,實則處處埋伏假象。
▍有一種工具叫「豬籠草」,直接讓AI掉進死胡同
裡面全是靜態網頁,沒有任何出口連結。
爬蟲被困其中,只能不斷咀嚼重複的亂語資料。
而這些資料,還是馬可夫語言模型亂生成的句子,根本沒有知識價值。
這些操作的目的很簡單——
污染AI的訓練庫,讓它吃壞肚子。
未來當你搜尋某個知識,回應你的,不是人類的聲音,而是模型用機率拼出的一段「你想聽的話」。(彭博檔案照)
▋人類還在求真,機器已經開始吃假
這不是一場公平的對話,而是結構性的收割。
你花時間寫的內容,可能還沒被人看到,就先被模型吃進去。
更可怕的是,它不會謝你。
也不會記得你。
未來當你搜尋某個知識,回應你的,不是人類的聲音。
而是模型用機率拼出的一段「你想聽的話」。
這一切聽起來像未來,其實正發生在現在。
▍這場AI重建的網路,不一定是我們樂見的世界
它不是圖書館,而是幻覺製造廠。
它不是知識的延續,而是語言的複製工場。
而在這場文明拆解的進程中,我們正在被格式化、被分詞、被機器重譯。
你曾努力留下的痕跡,很可能都只是一行訓練資料裡的權重數值。
我不知道你是否準備好了。
但這一切,已經沒有「是否同意」。
(作者是數辰 AI 創藝科技|Chief Brand Officer品牌長)
本文經授權轉載自 Sky Ho臉書
編輯精選