資料發展戰略與AI敘事之間的關聯
2025.11.21
瀏覽數
911
壹、前言
甫於2025年10月20至23日召開的中共四中全會發布了《中共中央關於制定國民經濟和社會發展第十五個五年規劃的建議》,其中第14項「深入推進數字中國建設」指出,「健全數據要素基礎制度,建設開放共用安全的全國一體化數據市場,深化數據資源開發利用。促進實體經濟和數字經濟深度融合……加快人工智能等數字技術創新……強化算力、演算法、數據等高效供給。全面實施『人工智能+』行動……加強人工智能同産業發展、文化建設、民生保障、社會治理相結合,搶佔人工智能産業應用制高點,全方位賦能千行百業……」,[1]明確將資料發展戰略與人工智慧(AI)發展掛勾。[2]
可預見中共無疑會將AI應用於敘事攻防以及其所衍生的認知作戰,又AI應用於認知作戰必需仰賴資料要素,故實有必要釐清與辨識資料發展戰略與AI敘事之間的關聯。有鑑於此,本文首先將藉由說明資料與地緣政治關係,以及從資料開放與存取限制政策窺視資料發展與安全考量之後,進而探討立足於資料發展戰略的AI敘事攻防,最後預判未來發展趨勢。
貳、安全意涵
一、資料儲存與輸送之安全考量
眾所皆知,AI發展必須有三大要素,分別為資料、算法與算力。以本文所聚焦的資料而言,過去累積大數據必須瞄準生成大宗資料的來源,亦即提供行動裝置與跨境交易溝通的搜尋引擎、電信業者及數位平台、跨境數位交易的電商,以及物聯網串接的營運技術(Operation Technology, OT)、智慧城市,現今則加上電動自駕車、衛星通訊資料與AI大型語言模型所生成的資料。
以中共為例,由於自知在構成算力的高階AI晶片方面,仍存在研發、製程良率等瓶頸,而目前做法除繼續號召自主研發高科技以全力突破美國去風險卡脖子的作法外,同時持續將算法部分儘可能推進,以及擴大運用廣大數位平台與使用者所生成資料。負責推動數字中國的國家資料局在深化資料資源開發利用這一項業務,直接賦予全面實施『人工智能+』行動,一方面運用資料開發AI,另一方面運用AI生成更多資料,進一步由此初步搭建資料發展與AI發展的對應關係。
然而,由AI助力生成的敘事,因為具有戰略溝通之工具性作用,尤其是應用於認知作戰攻防之際,必須儘可能減輕輸入資料的安全疑慮。因此,首先就是要從基本的資料儲存庫與傳輸資料的海底電纜、通訊衛星著手,確保資料存放地點為自身境內、所屬機構建築內或者值得信賴的境外國度,而傳輸的管道除防範遭惡意切斷或屏蔽之外,也要確保不在惡意敵國登陸或允許其資料上下行通訊衛星。如此作為除避免資料遭竊取之外,更是為防範資料遭竄改或夾雜扭曲操縱資訊,也就是保護資料免於遭受汙染或下毒,俾利日後AI敘事攻防能安心運用。
二、資料開放限制影響AI敘事能量
資料驅動經濟發展的趨勢在AI時代將更具主導優勢,但資料流通時,在機關內部本就應循風險管理原則,依照機敏等級規範資料開放存取的權限。對外流通開放的部分,除了不應露出機敏資料之外,非機敏資料如就機關內部以及國家整體而言屬於不宜對外公開者,即應列入管制受控。以美國為例,聯邦政府就將是類資料歸類為「受控非具分類保密等級資訊」(Controlled Unclassified Information, CUI),主要考量就是鑑於諸如中共不斷藉由網路竊密或蒐集公開資訊,點點滴滴地拼湊出影響美國國家利益甚鉅的機敏情資,因此藉由管制CUI,彰顯CUI的重要價值以及保密性的重要。[3]
相對於民主國家公開資料的自由流通,威權體制國家對於機敏資料管制範圍顯得模糊且趨向由主管機關依當下狀況予以裁奪,如此不但容易造成資料存取的不連續性與不確定性,還可能讓資料存取者處於未知是否觸犯國安竊密法條之高風險。近年來最顯著的案例,就是中共在新冠疫情解封之後經濟景氣低迷不振,竟將原本定期公開的經濟表現數據以及經濟管理刊物網路平台設定為不對外界公開的受控資訊,連外商諮詢顧問公司想藉由田野調查與訪談方式了解產業動態,都遭中共搜索並威脅以《反間諜法》逮捕雇員,藉此大張旗鼓製造寒蟬效應。[4]然而,原本應公諸於世的經濟或其他科研資料一旦經過管控而付諸闕如,勢必對於他國AI生成資訊的完整性與品質產生負面衝擊,進而影響AI生成敘事的一致性與可信度。
參、趨勢研判
一、AI與反制認知作戰
從自然語言處理的深偽(Deepfake)到大型語言模型的生成式AI的一路演進與發展,這其中很多是受益於算力的升級、資料量的豐沛與演算法的精進。當應用於影響認知的敘事或影音之際,過去迄今的重點,都是放在前後文脈絡解讀詮釋能力,以及情緒的詮釋演繹,再藉由演算法蒐集分析目標群體各層面的公開資訊,以產出更具說服力、且一時之間難以辨識真偽之爭議訊息。
以今日的生成式AI技術而言,非但這兩項重點都已不再是問題,而且辨識真偽的能耐也隨產製爭議偽訊能力而有所提升。值得注意的是「檢索增強生成」(Retrieval Augmented Generation, RAG)的問世與運用,結合搜尋檢索功能後,能讓生成資訊過程所汲取的資料不再侷限於大型語言模型之既有資料庫,而是能夠及時持續更新與查核資料。[5]這對於生成認知作戰敘事與反制方兩造都是利器,易言之,一如過往應用於認知作戰的樣態,生成式AI不只應用於製造爭議訊息以遂行認知作戰,同時也被運用於辨識以及澄清爭訊,俾利施行反制作為,依此可預見生成式AI近期將廣泛被運用於敘事攻防。
二、主權資料庫境外與機構內並存之數位韌性
為兼顧AI資料驅動特性與保密性,近來除了在機關層級推動主權雲端資料庫之外,在機關內設置資料庫(On-Site, On-Premises Data Center)也成為新興選項。[6]亦即除異地備援外,在企業或機關所在地也另設置備援資料庫,以兼顧保護機敏資料與前述之CUI,藉此同時增進資料保密性、可及性,以及受網攻或實體破壞後迅速復原的數位韌性。
國家層級的主權AI以及主權資料庫,除了汲取俄烏戰爭前後烏克蘭將政府資料備份、且於境外雲端資料中心建置異地備援機制,還要考量資訊安全中的完整性,也就是前文述及避免遭受操弄扭曲。但在生成式AI的時代,資訊安全中的完整性還應包括要警覺注意所搜尋檢索資料是否為遭受境外敵對勢力惡意污染的有毒資料,是類資料可能並非另外加工汙染,反而是與敵對勢力之意識型態「對齊」之演算法所篩選「過濾」後的資料。有鑑於此,中小型國家即使沒有能力獨力建構AI基礎模型,但為避免歷史脈絡與詮釋話語權落入敵對勢力陷阱,吾人應可預見中小型國家將有計畫地逐步展開建構國家主權資料庫的進程。
[1] 〈中共中央關於制定國民經濟和社會發展第十五個五年規劃的建議〉,《中華人民共和國中央人民政府網》,2025年10月28日,https://reurl.cc/QV6KQ5。
[2] 中國大陸所稱數據在台灣統稱資料。
[3] 曾怡碩,〈「受控非具分類保密等級資訊」的安全意涵〉,《國防情勢特刊》,第31期,2023年9月15日,https://indsr.org.tw/respublicationcon?uid=13&resid=2980&pid=5169&typeid=3。
[4] 〈外國諮詢業接連被查 中:正常執法維護國家安全〉,《中央社》,2023年5月9日,https://www.cna.com.tw/news/acn/202305090372.aspx。
[5] 黃適文,〈什麼是 RAG?初學者也看得懂的檢索增強生成(RAG)基礎指南!〉,《Solwen》,2024年10月8日,https://solwen.ai/posts/what-is-rag。
[6] “What is On-Premises Data Centers vs. Cloud Computing?” HPE Glossary, https://www.hpe.com/emea_europe/en/what-is/on-premises-vs-cloud.html.