中央社近日提告某個臉書社團「Generative AI技術交流中心」內分享的開源繁體中文資料集,該資料集含有未經授權的14萬筆中央社新聞內容。中央社強調新聞內容是記者與編輯團隊的心血結晶,應受到尊重,並支持《媒體議價法》的推動,以維護新聞產業的權益。
在當代數位時代,人工智能(AI)迅猛發展的同時,也帶來了前所未有的挑戰:誰來守護新聞內容的著作權?中央社的最新控訴,正點燃一場關於知識共享與智慧財產權的激烈辯論。這起事件不僅揭示了AI技術在無形中侵蝕傳統媒體的權益,更凸顯了數位平台與內容創作者之間的權力失衡。隨著AI模型的饑渴吞噬海量數據,這次中央社對未經授權分享14萬筆新聞內容的提告,或許將成為AI倫理與媒體保護的轉捩點,讓我們一同探討這場風暴的內涵。
事件起於2025年7月初,中央社正式向檢調單位提出控告,針對臉書社團「Generative AI技術交流中心」內分享的一個開源繁體中文資料集。根據中央社的聲明,這份資料集未經任何授權,便擅自納入其從2011年至2021年累積的14萬筆新聞內容。這些內容涵蓋政治、經濟、科技等多個領域,是中央社記者與編輯團隊多年心血的結晶。中央社強調,這不僅是侵犯著作權的行為,更是在貶低新聞專業的價值。該社團聲稱該資料集是用於訓練大型語言模型(LLM),旨在促進AI技術的發展,但中央社認為,這種開源共享模式忽略了內容原創者的權益,可能涉及七法公司和法源公司等相關實體的技術支援。
為了提供更完整的背景,我們需要回顧AI在媒體領域的歷史演變。從2010年代初AI開始應用於新聞推薦系統,如Google News的演算法,到如今的生成式AI如ChatGPT,能夠自動生成新聞摘要,技術進步帶來了便利,但也加劇了內容盜用的風險。根據近期數據顯示,ChatGPT的應用程式每月活躍用戶在過去六個月內增長超過116%,這反映了AI在新聞獲取模式上的顛覆性影響(基於線上分析平台Similarweb的報告)。然而,這也意味著未經許可的資料使用越來越普遍。中央社的這起案件,正是在此背景下浮現,凸顯了《媒體議價法》的必要性。這部法規草案旨在讓媒體機構與數位平台(如Google或Meta)建立公平的合作機制,確保內容創作者能從AI訓練數據中獲取合理補償。
在相關數據和專家觀點方面,根據多方來源的分析,這次事件暴露了AI資料集的規模問題。中央社估計,其14萬筆新聞內容僅是冰山一角,全球範圍內用於AI訓練的資料集可能包含數十億筆未經授權的媒體內容。舉例來說,AI研究平台如Hugging Face上公開的繁體中文資料集,往往來自網路爬蟲,缺乏嚴格的權利審查。專家們指出,這不僅是技術問題,更是倫理挑戰。教育部臺灣學術倫理教育資源中心的最新指引強調,生成式AI應遵循「公平使用」原則,避免侵犯原創內容。科技媒體TechNews的分析則指出,AI模型的訓練過程可能抹去新聞的脈絡,例如天安門事件等敏感歷史事件的報導被簡化或歪曲,損害公共記憶。知名AI倫理專家Joanne Jang從OpenAI的觀點表示,使用者正將AI視為「合作夥伴」,但這需要建立在尊重知識產權的基礎上。另一位專家在世界新聞網的討論中警告,無序的資料共享可能導致媒體產業損失數十億美元的收入,根據國際媒體協會的統計,2024年全球媒體因AI相關侵權已損失約15%的廣告收入。
這起控訴的影響不容小覷,首先,它可能改變AI技術交流中心的運作模式。作為一個臉書社團,該中心本意是促進AI技術的開源共享,但這次事件可能引發更嚴格的監管,迫使平台加強內容審核。從更廣闊的視角來看,這將對台灣的媒體產業和AI發展產生深遠影響。中央社支持《媒體議價法》的推動,正是為了應對數位平台的壟斷力量。根據政府檔案和近期調查,如果該法規順利實施,媒體機構將能與AI公司議價,確保每筆使用內容獲得補償,這或許能緩解新聞業的財務壓力。另一方面,AI產業可能面臨挑戰:過度限制資料使用,可能阻礙創新,如ChatGPT的流量增長證明,AI正成為大眾獲取資訊的主流工具。但專家警告,這種衝突若未妥善處理,可能導致更多法律糾紛,甚至影響全球AI倫理標準的制定。從經濟角度看,台灣媒體協會的數據顯示,2025年上半年,AI相關侵權案件已增加30%,這次中央社的行動或將激勵其他媒體跟進,進而推動產業轉型。
總結來說,中央社的控告不僅是對特定社團的法律行動,更是一場捍衛新聞價值的運動。在AI時代,新聞內容不再只是文字,而是數據驅動的資產。透過這次事件,我們看到傳統媒體與科技巨頭之間的緊張關係,或許將催生更公平的數位生態。中央社的決心提醒我們,創新不能以犧牲創作者權益為代價。展望未來,《媒體議價法》的落實和AI倫理規範的完善,將是關鍵。無論結果如何,這起案件都將成為歷史性標誌,促使各界重新審視科技與人文的平衡。
廣告