基于LDA模型與政策工具去九宮格分享的中國數據主權政策研究_中國網

中國網/中國發展門戶網訊 數據主權是指一個國家對其政權管轄范圍內的網絡設施、數據主體、數據行為和數據資源及相關數據產品具有生成、傳播、管理、控制、利用和保護的主導權,其正在成為數字時代國家主權的重要組成部分。美國、歐盟和中國等國家和地區均認識到數據資源所具有的戰略價值,積極開展數據主權戰略部署。由于技術能力和經濟發展狀況不同等因素,各國采取了差異化的數據主權政策。

數據主權政策對于維護國家安全、保障國家利益具有重要作用,近年來引起學術界較為廣泛的關注。有的學者從國家主體的視角提出了數據主權概念,也有學者從組織和個人主體的視角界定了數據主權內涵。冉從敬定性總結了數據主權戰略部署的全球態勢。鄭琳等闡釋了國家數據主權概念,并歸納分析了歐美數據主權戰略。然而,已有研究主要通過定性歸納方法從國家宏觀層面剖析數據主權戰略的特點,但缺乏關于數據主權政策文本內涵和特征的定量分析。本文采用政策文本分析方法研究我國數據主權政策,運用LDA(L聚會atent Dirichlet Allocation)主題模型和政策工具定量分析中國數據主權政策的演化、態勢,基于此與全球數據主權政策進行國際比較并提出對策與建議。這一研究既拓展了政策文本分析方法的應用領域,將其應用于數據主權領域的政策分析,也為優化設計我國數據主權政策提供方法論指導。

數據主權政策研究的分析框架構建與設計

研究方法與框架維度

本文從政策工具的角度出發,運用LDA主題模型對中國2010—2022年的數據主權相關政策進行分析與量化。本文建立了數據主權政策工具的分析框架(圖1)。對政策文本進行統計分析,圍繞政策時間、政策機構和政策類型分布展開,探究數據主權政策的演化過程、機構分布和政策效力。供給型、環境型和需求型政策工具分類法在既有研究中最為常見,本文采用此種政策工具的維度劃分對數據主權政策進行編碼分析。運用LDA主題模型挖掘數據主權政策文本中的核心主題詞,并進行可視化展示。

數據來源及編碼

本文選用“時租場地北大法寶在線數據庫”作為數據主權相關政策文本的收集來源,以“數據主權”“數據安全”“數據跨境”“國家安全”等關鍵詞搭配組合進行全文檢索,篩選“中央法規”政策文件作為分析文本,共計收集45份政策文件(表1展示了部分數據主權政策文本)。對納入樣本的45份中央法規政策文件進行摘錄和編碼(部分數據主權政策文件內容編碼情況見表2),以便更清晰地標注不同政策與具體條款中包含的政策工具,將非結構化的文本數據進行轉換用于定量分析。

數據主權政策總體情況

政策時間演化分布

根據政策文本的發布時間統計結果,中國數據主權相關政策始于2012年5月工信部發布的《互聯網行業“十二五”發展規劃》;“數據主權”這一名詞首次出現在2015年國務院印發的《促進大數據發展行動綱要》,指出應“增強網絡空間數據主權保護能力,維護國家安全,有效提升國家競爭力”。然而,早在2010年已經開始出現互聯網主權的概念。數據主權政策發布數量在2016年和2021年迎來了2次大幅提升(圖2)。結合大數據、云計算和區塊鏈等新技術的出現與快速發展,將數據主權政策演化劃分為4個階段。

互聯網主權階段(2010—2013年)。2010年,國務院新聞辦公室發布《中國互聯網狀況》白皮書,指出“中華人民共和國境內的互聯網屬于中國主權管轄范圍,中國的互聯網主權應受到尊重和維護”。中國逐步完善互聯網法律法規,積極推動互聯網基礎設施建設,加強對互聯網的管理和監管,確保互聯網安全,推動互聯網產業發展。

信息主權階段(2014—2015年)。2014年7月16日,習近平主席在巴西國會發表題為《弘揚傳統友好共譜合作新篇》演講,強調每一個國家在信息領域的主權權益都不應受到侵犯。這一階段,相關政策強調加強信息自主可控,建設信息基礎設施,推進信息安全技術和標準的研發,提升中國在信息主權領域的實際管控能力和國際話語權。

網絡空間主權階段(2015—2018年)。2015年7月頒布實施的《中華人民共和國國家安全法》首次明確了網絡空間主權的概念。在2017年3月發布的《網絡空間國際合作戰略》中將“堅定維護中國網絡主權、安全和發展利益”作為中國參與網絡空間國際合作的戰略目標之一。2018年5月,在國家互聯網信息辦公室發布的《數字中國建設發展報告(2017年)》中,將“維護網絡主權”作為數字中國建設面臨的形勢和努力方向。這一階段,相關政策強調加強網絡安全保護、建立網絡主權管理機制、推進網絡空間治理等,以確保國家在網絡空間中有權利和能力保護國家安全和維護國家利益。

數據主權階段(2019年至今)。2019年7月,《加強工業互聯網安全工作的指導意見》指出,依據工業門類領域、數據類型、數據價值等建立工業互聯網數據分級分類管理制度,開展重要數據出境安全評估和監測。2020年9月,中國發起《全球數據安全倡議》,呼吁各國未經他國法律允許不得直接向企業或個人調取位于他國的數據。2021年9月開始施行的《中華人民共和國數據安全法》規定,維護數據安全,應當堅持總體國家安全觀,建立健全數據安全治理體系,提高數據安全保障能力;同年,《中華人民共和國個人信息保護法》也對個人信息的跨境流動、數據本地化存儲及域外效力做出了相關規定。這一階段,相關政策強調建立數據分級分類制度、明確數據出境安全評估要求、推進數據保護能力認證機制等,以確保數據在跨境流動過程中得到有效保護和合規使用。

綜上,中國的數據主權戰略經歷了“互聯網主權—信息主權—網絡空間主權—數據主權”的演化,整體政策特點為以安全為綱,推動定規立制,促進數據有序流動,加強數據跨境流動過程和出境后的風險評估和監管。

政策發文機構分布

政策發文機構能夠反映出各政策法規的效力級別。國務院、工業和信息化部、商務部、全國人大常委會等共計33個機構參與數據主權政策制定,表3展示了發布政策的核心機構分布情況。我國數據主權政策有聯合發布和單獨發布2種形式;45份中央法規政策文件中,8份為聯合發布,37份為單獨發布,單獨發布占比82.2%。

基于統計結果可知,發布政策文件較多的機構依次為國務院、工業和信息化部、商務部;聯合發文的主要為國家發展和改革委員會、工業和信息化部。政策發布核心主體共有5個,占比15.2%,非核心主體共有28個,占比84.8%,各政策主體在整體分布上較為分散。總體來看,參與數據主權政策制定的主體眾多,但核心主體的發文數量占比54.2%,較為集中。整體呈現出以國務院、工業和信息化部、商務部、全國人大常委會、國家互聯網信息辦公室為五大中心發文的結構特征(表3)。

政策類型分布

政策發布所采用的文種類型因政策性質和目標的不同而有所差異,由此導致了不同政策的效力不同。本文所收集的政策樣本中,數據主權政策采用了9種不同的形式進行發布,包括方案、意見、規劃、法律、通知、綱要和辦法等,展現出形式多樣性(表4)。其中,方案、意見和規劃在政策文本中占比較高,這說明現有政策中相關部門提出的見解和處理意見較多;而針對性更強、更具體的辦法在整體政策分布中較少;全國人大及其常務委員會共頒布4項法律。

數據主權政策二維分析

政策工具是政策主體為實現政策目標而采取的具體措施和手段,本文根據已有研究從需求型、環境型和供給型3個方面構建了數據主權政策工具分析維度,通過政策工具識別出政策實施的重要途徑和保障措施,并基于LDA主題模型進行政策主題分析,揭示了政策的核心內容和主要目標,以期為國家進一步優化完善數據主權政策制定提供決策參考。

考慮到一個政策分析單元可能同時應用多種政策工具,因此本文用于分析的政策工具數量之和超過編碼單元總數。從政策工具應用類型來看,我國數據主權政策對政策工具的應用較為全面,需求型、環境型、供給型政策工具分別占比21.6%、59.6%、18.8%(圖3)。其中,環境型政策工具較為常用,需求型和供給型政策工具應用頻率次之。我國采用多種政策工具共同推動數據跨境安全流動和數據主權保護。

政策工具維度的實證分析

需求型政策工具,旨在引入各方力量進行交流與合作,積極開展數據安全管理、跨境流動和國際合作規則等試點,突出重要領域和關鍵環節,從而促進數據安全有序流動(表5)。需求型數據主權政策工具以試點示范分享和國際合作為主,著重于通過試點示范和國際合作等發展模式先行先試,積累數據安全管理和數據主權保護有效經驗并推廣普及于全社會,注重引導社會力量參與,開展宣傳推廣,從而推動行業規范發展、提高數據主權保護意識。

環境型政策工具,旨在通過優化各主體、各環節實施的環境條件、政策導向、標準規范和問責機制等引導和監管各主體采取小樹屋更積極的數據安全管理和數據主權保護措施(表6)。整體而言,環境型政策工具占比超過半數九宮格,作為一種間接調控手段受到政策主體的青睞。法規管制是常用方法,隨著新技術的發展,數據規模不斷擴大,國際數據主權威脅等問題日益凸顯,需要加強規制積極應對域外效力等問題。標準規范、安全規范、保障措施和審查評估是引導新興數字產業規范發展、保障數據安全有序流動等正在逐步完善的政策文件,包括跨境流通準則、安全評估和保障機制等。策略性措施對政策體系起到補充作用。當前知識產權政策工具應用較少,是數據主權政策中的明顯空白點。

供給型政策工具,旨在為各主體的數據安全管理、數據主權保護、信息基礎設施建設、技術研發、人才培養、統籌協調等提供各類資源支持(表7)。在供給型政策工具中,信息基礎設施建設、技術支持和組織建設占比較高。隨著大數據、云計算和區塊鏈等新技術的出現,信息化設施成為數字經濟發展的重要基礎條件。《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》和《中華人民共和國網絡安全法》均提出要建立健全關鍵信息基礎設施保護體系。技術支持是保障數據安全流動的重要力量,應通過開發核心技術構建安全可靠的數據流通環境。在組織建設的統籌協調下,信息基礎設施建設和技術支持相輔相成,為數據安全流動和數據主權保護提供持續動力。當前人才支持和資金支持政策工具應用較少,分別為6.67%和8.89%。資金支持具有定向性優勢,人才培養則具有長期效益,應適當增加這兩個政策工具的應用。

政策主題維度的實證分析

LDA主題模型主題數與一致性分析

LDA主題模型可用于挖掘大量文本的潛在主題特征。它是一種無監督的、非結構化的概率模型,運用了單詞共現具有語義關聯的規律,無需預先設置字典或主題類別便可發現文檔語料庫中的潛在主題,減少了研究者主觀判斷對主題分類的影響。本文將每個編碼單元視為一個文檔,選擇主題一致性指標模型用于判定九宮格最優主題數量,若一致性處于較高水平,模型的主題結構將更加穩定。本文選用“哈工大停用詞表”對文檔進行文本預處理(中文分詞、去停用詞),主題數與一致性結果如圖4所示。通過主題評估,本文選用3作為主題個數,并使用pyLDAvis算法對LDA主題模型結果進行可視化分析與展示。

詞云可視化

圖5展示了基于LDA主題模型挖掘出的數據主權政策的主題詞袋(bag of words)。根據LDA主題模型可視化結果,當前數據主權政策分為3類:數據安全與個人信息保護;數據跨境與國際合作;數據安全評估與數據出境。

數據安全與個人信息保護(圖5a)。推動建設全面數據安全保護體系,包括完善數據分級分類制度和個人信息授權使用制度。為形成數據資源匯集共享、數據流動安全有序的數據要素良性發展格局,應妥善處理國家安全、數據跨境流通和個人隱私保護三者的關系。

數據跨境與國際合作(圖5b)。明確數據安全法在域外的適用效力,進一步健全數據跨境流通規范,實施數據跨境傳輸與安全管控試點。探索加入區域性國際數據跨境流通規則制定,促進形成數據跨境流通的全球協同機制,強化中國同世界其他國家和地區之間的安全協作與信息資源共享。

數據安全評估與數據出境(圖5c)。健全數據分級分類管理制度和數據出境安全審查機制。確保數據在出境前能夠進行全面的事前評估、持續監督和風險自評估,有效識別和防范數據出境帶來的安全風險,保護國家和個人的敏感信息。探索數據保護能力認證機制設計,為數據出境提供客觀和可信的評估標準,確保數據的合法性、安全性和可控性。

綜上,中國數據主權政策主要運用了環境型政策工具,輔之需求型和供給型政策工具,推動數據跨境安全流動和數據主權保護。政策文本內容呈現出“數據安全與個人信息保護”“數據跨境與國際合作”“數據安全評估與數據出境”三大主題特征。我國陸續制定了《中華人民共和國個人信息保護法》《中華人民共和國數據安全法》等法律,出臺了《數據出境安全評估辦法》等一系列規章制度,實行嚴格數據出境和信息保護管理模式,確保我國數據主權得以保護。

啟示與建議

本文在對數據主權領域政策進行分析的基礎上,對我國數據跨境安全流動與數據主權保護提出4條政策建議。

積極主導和參與國際規則制定,建立互信機制,提高國際話語權。積極主導和建設性參與制定、完善數字時代的國際規則和標準,與更廣泛的國家建立多種形式的數據合作平臺,就數據基礎設施建設、數據資源開發利用、數據安全保障等方面進行技術支持和能力建設,促進數據互聯互通和共享共贏。推動與其他國家或地區在數據保護水平、標準、規范等方面的合作討論,爭取更多一致意見和共識,實現數據保護標準和規范的相互認可或互惠適當性。

優化數據出境安全評估流程,提高評估效率和準確性。建立以風險為導向的數據分類管理制度,對不同類型和等級的數據采取差異化的管控措施,加強數據安全評估的標準制定和實施,明確數據安全評估的要求和指導,確保數據出境過程中的安全性和可信性。利用先進技術手段提高數據出境安全評估的效率和準確性。例如,可以通過引入人工智能和大數據分析技術等自動化評估流程,快速識別高風險的數據出境行為,以提高評估結果的準確性和可靠性。

完善個人信息出境標準合同模版,提高合規運營的效率。《個人信息出境標準合同辦法》于2023年6月1日起施行,旨在確保個人信息合法、安全、有序地跨境傳輸。通過使用標準合同模板,我國能夠通過《個人信息出境標準合同辦法》賦予的法律約束力來將境內的管轄權“延伸”至境外,達到一定“境內法域外適用”的效果,實現數據跨境流動保護。未來,可以聚會將標準合同模板進行模塊化拓展,根據組織、企業或個人的業務需求,制定更多可以選擇的模塊,以降低相關實體合規運營成本,提高效率。

強化數據安全法治保障,構筑數據主權防線。以總體國家安全觀為指導,完善保障數據安全的法律法規,強化數據安全治理體系。明確數據安全的法律責任,保護關鍵數據基礎設施;建立數據安全風險評估和應急響應機制;開展數據主權與安全宣傳教育,提高全民數據安全意識和能力;推動國際合作,加強與其他國家和地區在數據安全法律法規方面的交流和互鑒,共同促進國際數據安全標準制定,提升中國在全球數據治理中的話語權和影響力。

(作者:喬晗、徐君如,中國科學院大學經濟與管理學院 中國科學院大學數字經濟監測預測預警與政策仿真教育部哲學社會科學實驗室。《中國科學院院刊》供稿)

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。