成全动漫在线观看免费观看国语-成全视频高清免费观看捉妖记动漫-成全影视在线观看更新时间-成全在线观看免费完整版电影高清

網(wǎng)站首頁 | 網(wǎng)站地圖

人民論壇網(wǎng)·國家治理網(wǎng)> 《國家治理》雜志> 正文

探索人工智能環(huán)境下的數(shù)據(jù)安全治理路徑

摘  要:隨著人工智能的廣泛應(yīng)用,數(shù)據(jù)安全問題在系統(tǒng)運行和多主體協(xié)作過程中集中顯現(xiàn)。從人工智能系統(tǒng)的運行特征可以看出,關(guān)鍵數(shù)據(jù)安全風(fēng)險不再穩(wěn)定附著于可識別的具體數(shù)據(jù)對象,使得傳統(tǒng)的剛性規(guī)制要求難以有效定位風(fēng)險;以事前預(yù)防邏輯為核心的階段性合規(guī)控制,難以覆蓋人工智能系統(tǒng)在持續(xù)運行和迭代過程中逐步顯現(xiàn)的風(fēng)險累加;在多主體協(xié)作運行框架下,不同主體控制能力與責(zé)任配置不對等,削弱了責(zé)任認(rèn)定和規(guī)則約束的實際效力。亟須從靜態(tài)、分段式控制轉(zhuǎn)向貫穿系統(tǒng)運行全過程的動態(tài)治理,在強化數(shù)據(jù)使用可追溯性和持續(xù)監(jiān)督能力的同時,重構(gòu)多主體參與條件下的責(zé)任與信任機制,不斷提升數(shù)據(jù)安全治理在人工智能環(huán)境中的現(xiàn)實適配性。

關(guān)鍵詞:人工智能  數(shù)據(jù)安全風(fēng)險  數(shù)據(jù)治理

【中圖分類號】TP309                       【文獻標(biāo)識碼】A

習(xí)近平總書記強調(diào),當(dāng)前人工智能、大數(shù)據(jù)等新技術(shù)新應(yīng)用不斷涌現(xiàn),給網(wǎng)絡(luò)生態(tài)治理帶來挑戰(zhàn),也提供新的支持條件。要完善分級分類的安全監(jiān)管機制,筑牢網(wǎng)絡(luò)安全和數(shù)據(jù)安全防線。[1]這為應(yīng)對技術(shù)快速發(fā)展中的治理與安全協(xié)同工作指明方向。生成式人工智能和大語言模型密集涌現(xiàn),正在以持續(xù)而深刻的方式突破既有邊界,從文本生成延伸至代碼構(gòu)造、圖像創(chuàng)作與決策輔助等復(fù)雜任務(wù),推動人工智能從單純的技術(shù)組件,上升為支撐社會運行的基礎(chǔ)設(shè)施。在釋放數(shù)字生產(chǎn)力潛能的同時,這一趨勢也顯著放大了對大規(guī)模、高質(zhì)量數(shù)據(jù)的依賴,數(shù)據(jù)資源在人工智能系統(tǒng)中的作用方式呈現(xiàn)出高度復(fù)雜化的特征。海量數(shù)據(jù)和復(fù)雜算法相結(jié)合,會導(dǎo)致算法決策的黑箱性,也使得潛在安全風(fēng)險影響決策的科學(xué)性。從開放人工智能(OpenAI)、微軟(Microsoft)等多家平臺相繼報道因組件缺陷、權(quán)限濫用導(dǎo)致的信息泄露事件可以看出,人工智能運行與數(shù)據(jù)治理邊界之間的矛盾正在持續(xù)顯化。在這一背景下,探討人工智能環(huán)境中數(shù)據(jù)安全治理的挑戰(zhàn)、癥結(jié)與對策,對促進負(fù)責(zé)任的人工智能發(fā)展具有重要意義。

近年來,學(xué)界圍繞人工智能環(huán)境下的數(shù)據(jù)安全問題,從風(fēng)險類型、風(fēng)險成因和治理路徑等方面展開了較為系統(tǒng)的討論。數(shù)據(jù)安全事件會對個人隱私、經(jīng)濟發(fā)展、政治穩(wěn)定和國家利益造成不同程度損害[2]。在風(fēng)險類型層面,人工智能環(huán)境下的數(shù)據(jù)安全風(fēng)險已貫穿數(shù)據(jù)采集、存儲、標(biāo)注、模型訓(xùn)練、系統(tǒng)運行以及生成內(nèi)容再利用等多個環(huán)節(jié)[3],包括數(shù)據(jù)泄露、數(shù)據(jù)偏差、“數(shù)據(jù)投毒”、深度偽造、模型竊取等安全風(fēng)險,并由此引發(fā)個人隱私侵犯、信息質(zhì)量低下、虛假信息傳播和算法偏見歧視等影響社會穩(wěn)定運行的治理問題。在風(fēng)險成因?qū)用妫嚓P(guān)研究主要從人工智能的技術(shù)缺陷和數(shù)據(jù)治理制度供給不足兩個維度展開分析。在技術(shù)維度上,人工智能系統(tǒng)的數(shù)據(jù)驅(qū)動性、算法黑箱性和持續(xù)迭代機制,使數(shù)據(jù)缺陷和偏差極易在模型中被固化和放大[4];在制度維度上,現(xiàn)有制度在規(guī)則供給、程序設(shè)計和責(zé)任配置上仍以傳統(tǒng)的靜態(tài)、分段式治理為主[5],疊加多主體參與下的利益復(fù)雜性[6],削弱治理措施的實際效力。在應(yīng)對方面,學(xué)界普遍主張通過法律規(guī)范、技術(shù)手段與多主體協(xié)同的綜合治理方式,加強對全生命周期的持續(xù)管理,并且引入風(fēng)險評估、審計與標(biāo)準(zhǔn)等治理工具,提升數(shù)據(jù)安全治理對人工智能復(fù)雜運行場景的適應(yīng)性和可執(zhí)行性。

風(fēng)險表征

隨著生成式人工智能技術(shù)加速嵌入經(jīng)濟與社會活動,數(shù)據(jù)成為智能系統(tǒng)運行不可或缺的基礎(chǔ)條件。算法與模型訓(xùn)練需要對多來源數(shù)據(jù)進行篩選與重組,系統(tǒng)推理在應(yīng)用場景中持續(xù)調(diào)用和更新數(shù)據(jù),人工智能與數(shù)據(jù)之間因而形成緊密交織的“共生”結(jié)構(gòu)與耦合性風(fēng)險。例如,數(shù)據(jù)采集與應(yīng)用端的數(shù)據(jù)合規(guī)風(fēng)險、數(shù)據(jù)處理端的隱私安全與算法公平風(fēng)險、數(shù)據(jù)存儲端的內(nèi)外部數(shù)據(jù)泄露與侵害風(fēng)險等。在帶來效率提升和系統(tǒng)擴展的同時,這種結(jié)構(gòu)也使得數(shù)據(jù)安全問題呈現(xiàn)出新的實踐情境。對此,有必要回到數(shù)據(jù)在人工智能系統(tǒng)中的準(zhǔn)入條件、運行過程和主體關(guān)系階段,重新審視當(dāng)前情境下數(shù)據(jù)安全風(fēng)險的表現(xiàn)形態(tài)。

數(shù)據(jù)來源與使用邊界不清晰。人工智能系統(tǒng)的有效運行,需要持續(xù)獲取和使用大量數(shù)據(jù)。模型訓(xùn)練數(shù)據(jù)、推理輸入數(shù)據(jù)與業(yè)務(wù)場景數(shù)據(jù)在算法內(nèi)部匯合,不僅具有規(guī)模巨大、類型豐富、動態(tài)多變、關(guān)聯(lián)復(fù)雜、價值密度迥異以及敏感性強等特點,其權(quán)屬狀態(tài)與授權(quán)運營也存在諸多不確定性。數(shù)據(jù)提供者、模型開發(fā)者與系統(tǒng)運營者之間數(shù)據(jù)權(quán)利邊界不明晰,既有的數(shù)據(jù)記錄方式難以實現(xiàn)對授權(quán)信息的貫通呈現(xiàn),導(dǎo)致數(shù)據(jù)使用邊界缺乏連貫一致的識別條件。多源數(shù)據(jù)在進入系統(tǒng)之前通常經(jīng)歷脫敏、篩選與結(jié)構(gòu)化處理,附著其上的來源說明和用途限制在跨主體流動中被不斷簡化與再編碼,因此合法授權(quán)與實際用途之間的對應(yīng)關(guān)系趨向模糊,有的企業(yè)可能利用邊界模糊規(guī)避合規(guī)責(zé)任。

隱私泄漏風(fēng)險識別更加隱秘。2023年,深度思維(DeepMind)研究團隊利用分歧攻擊等方法,發(fā)現(xiàn)利用ChatGPT的數(shù)據(jù)泄露漏洞可提取出大約1GB的訓(xùn)練數(shù)據(jù),其中不乏個人信息、代碼等敏感數(shù)據(jù)。在訓(xùn)練與推理過程中,模型持續(xù)牽引不同來源數(shù)據(jù)開展關(guān)聯(lián)分析,大量數(shù)據(jù)轉(zhuǎn)化為特征與參數(shù)后進入到中間表示層,又可通過算法推斷在系統(tǒng)輸出環(huán)節(jié)重新指向主體身份、軌跡等敏感屬性。傳統(tǒng)基于固定規(guī)則、以訪問權(quán)限控制為核心的隱私保護方式,難以覆蓋人工智能環(huán)境下過多規(guī)則匹配、惡意軟件攻擊等引發(fā)的連鎖風(fēng)險,極易導(dǎo)致未知威脅無法檢測。

數(shù)據(jù)最小化原則難以落地。在人工智能應(yīng)用中,數(shù)據(jù)銷毀面臨銷毀技術(shù)漏洞、殘留數(shù)據(jù)恢復(fù)等現(xiàn)實風(fēng)險,數(shù)據(jù)通常被長期保留并反復(fù)使用,以支持模型優(yōu)化、性能評估或新的預(yù)測任務(wù)。一旦數(shù)據(jù)被納入模型訓(xùn)練或分析流程,往往被用于多種分析和預(yù)測任務(wù)。當(dāng)使用邊界不清晰時,難以準(zhǔn)確判斷數(shù)據(jù)是否仍處于合理用途范圍,大量的數(shù)據(jù)被用于畫像、分類、評估而未被明確告知用途,隱含的數(shù)據(jù)濫用風(fēng)險陡增。

合規(guī)判斷的不確定性顯著增加。現(xiàn)行制度將“告知同意”作為個人信息處理的基本條件預(yù)設(shè),大模型訓(xùn)練數(shù)據(jù)具有規(guī)模化與匿名化要求,導(dǎo)致這一預(yù)設(shè)難以形成穩(wěn)定的操作條件,難免出現(xiàn)罔顧用戶權(quán)益的過度收集和使用。一方面,數(shù)據(jù)來源與授權(quán)范圍的審查無法在早期環(huán)節(jié)完成;另一方面,模型在運行中不斷改變數(shù)據(jù)的參與方式,導(dǎo)致在面對具體場景時缺乏統(tǒng)一的合規(guī)判斷與處置依據(jù)。此外,數(shù)據(jù)共享協(xié)議中模糊、寬泛的條款措辭客觀上也會放大數(shù)據(jù)合規(guī)風(fēng)險。

數(shù)據(jù)使用過程難以控制。在實際的人工智能業(yè)務(wù)場景中,數(shù)據(jù)一旦被納入算法訓(xùn)練和系統(tǒng)運行,就不再局限于某項具體處理行為。數(shù)據(jù)對系統(tǒng)輸出的影響可能在較長時間內(nèi)持續(xù)存在,并在不同應(yīng)用場景中反復(fù)呈現(xiàn)。在傳統(tǒng)數(shù)據(jù)使用過程中,原本線性連續(xù)、層次分明的建制化操作環(huán)境,在復(fù)雜多變的不確定環(huán)境下已發(fā)生根本改變。數(shù)據(jù)流通中的適用條件、對象、主體,以及影響范圍與終止時機等要素難以被持續(xù)監(jiān)控和準(zhǔn)確控制,進而擴大數(shù)據(jù)暴露面、加劇技術(shù)脆弱性,并加深數(shù)據(jù)倫理危機。

算法黑箱與透明度瓶頸難以根治。盡管各國的人工智能監(jiān)管都強調(diào)算法治理和透明度、可解釋性,歐盟因X平臺(原Twitter)廣告庫數(shù)據(jù)不透明等問題對其處以‌1.2億歐元罰單,但由于‌算法透明可能泄露商業(yè)機密、可解釋AI(XAI)技術(shù)成本偏高等原因,導(dǎo)致其具體實施阻力重重。模型訓(xùn)練和推理過程中,數(shù)據(jù)常以特征抽取、權(quán)重調(diào)整等方式參與計算,具體處理路徑無法以直觀、可讀形式呈現(xiàn)。這種不可解釋性,限制對數(shù)據(jù)如何影響輸出的清晰說明,也阻礙對算法運行機制的追溯和責(zé)任劃分[7]。一旦引發(fā)爭議或風(fēng)險,數(shù)據(jù)使用者無法確切說明數(shù)據(jù)所發(fā)揮的作用,數(shù)據(jù)提供者和受影響主體也難以理解數(shù)據(jù)為何會產(chǎn)生特定結(jié)果。

數(shù)據(jù)狀態(tài)不可驗證加劇數(shù)據(jù)流轉(zhuǎn)失序。納入模型訓(xùn)練或運行系統(tǒng)的數(shù)據(jù),往往以參數(shù)、特征或中間變量形式持續(xù)存在,是否仍在對模型輸出產(chǎn)生影響,難以通過直觀方式加以確認(rèn)。在持續(xù)運行和多次迭代情形下,這一問題格外突出。由于數(shù)據(jù)使用狀態(tài)多變,既有合規(guī)承諾和風(fēng)險控制措施難以被有效檢驗,數(shù)據(jù)安全問題可能在系統(tǒng)中持續(xù)存在,卻缺乏有效地發(fā)現(xiàn)和糾正依據(jù)。有研究嘗試用清單化編目把模型組件、訓(xùn)練數(shù)據(jù)來源與授權(quán)信息,整理為可核對的記錄,以便在爭議出現(xiàn)時能夠追溯責(zé)任鏈條。但由于組件來源和授權(quán)信息難以整體貫通,這一做法在人工智能系統(tǒng)中仍舊很難形成穩(wěn)定效果。

數(shù)據(jù)質(zhì)量游離于監(jiān)管邊緣。人工智能技術(shù)追求高精度、法律要求可解釋、倫理對透明與公正的需要,分別從內(nèi)容顆粒度、過程合規(guī)以及倫理規(guī)制的不同角度,對數(shù)據(jù)質(zhì)量監(jiān)管提出更高要求。但在現(xiàn)實中,數(shù)據(jù)清洗不足、標(biāo)準(zhǔn)化不充分、來源單一缺乏代表性等質(zhì)量問題,非但不能及時修改,還會在模型運行中形成監(jiān)管盲區(qū),甚至被進一步放大。在模型優(yōu)化和性能調(diào)整過程中,無質(zhì)量保障的“數(shù)據(jù)沼澤”會降低業(yè)務(wù)系統(tǒng)的穩(wěn)定性和準(zhǔn)確率,使數(shù)據(jù)質(zhì)量問題從局部風(fēng)險逐步上升為社會性后果。據(jù)相關(guān)機構(gòu)披露,超過80%的機器學(xué)習(xí)模型容易受到“數(shù)據(jù)投毒”攻擊[8],通過惡意污染訓(xùn)練數(shù)據(jù)集來破壞模型決策邏輯與輸出可靠性,已經(jīng)成為當(dāng)前人工智能系統(tǒng)面臨的一個典型數(shù)據(jù)安全攻擊場景[9]。

數(shù)據(jù)倫理約束易陷入虛置困境。2018年,第40屆數(shù)據(jù)保護與隱私專員國際大會(ICDPPC)發(fā)布的《人工智能倫理與數(shù)據(jù)保護宣言》指出,人工智能的發(fā)展使得隱私權(quán)和數(shù)據(jù)保護權(quán)正受到越來越多的挑戰(zhàn),應(yīng)在道德和人權(quán)層面彌補。但在實踐中,一方面,數(shù)據(jù)“公平”“透明”等原則難以量化,錯誤信息和數(shù)據(jù)操縱等引發(fā)的人工智能操縱,已影響人類的認(rèn)知、成為偏見的來源,并干擾自主性決策,數(shù)據(jù)偏好與認(rèn)知偏見、算法歧視等進一步削弱公眾對人工智能應(yīng)用的信任基礎(chǔ)。另一方面,實驗發(fā)現(xiàn),當(dāng)使用禮貌和情感化的提示詞時,生成式人工智能語言模型更傾向于生成虛假信息。囿于數(shù)據(jù)真實性不足、多樣性缺失、公正性弱化等因素制約,模型訓(xùn)練結(jié)果與人類認(rèn)知的語義理解、邏輯推演易發(fā)生偏離。同時,人工智能應(yīng)用需要進行大規(guī)模數(shù)據(jù)采集與中心化集聚,這必然導(dǎo)致數(shù)據(jù)集中,從而削弱個人對數(shù)據(jù)的掌控力,并對個人數(shù)據(jù)權(quán)形成隱性抑制。

數(shù)據(jù)安全的責(zé)任認(rèn)定無法厘清。人工智能應(yīng)用涉及數(shù)據(jù)生產(chǎn)、內(nèi)容提供、技術(shù)開發(fā)、系統(tǒng)運營與具體使用等多個環(huán)節(jié),數(shù)據(jù)安全風(fēng)險的產(chǎn)生與擴散由此分散于不同階段的多個主體之間。當(dāng)涉及技術(shù)提供者、技術(shù)使用者、智能體復(fù)雜交互所導(dǎo)致的“權(quán)責(zé)黑箱”時[10],技術(shù)的發(fā)展往往使相關(guān)主體的職責(zé)邊界趨于模糊,傳統(tǒng)以單一數(shù)據(jù)處理者為中心的責(zé)任認(rèn)定方式,難以覆蓋完整的運行過程,導(dǎo)致實踐中的數(shù)據(jù)安全責(zé)任認(rèn)定存在事實上的不公平性與不確定性。

責(zé)任難以追溯。大模型、智能體的應(yīng)用需要數(shù)據(jù)生成者、加工者、提供者以及技術(shù)支持者等多主體共同參與數(shù)據(jù)處理,加之多主體功能的交織嵌套以及“技術(shù)與服務(wù)”的分離使得數(shù)據(jù)安全風(fēng)險難以直接量化到具象化的責(zé)任主體。當(dāng)隱私侵害、數(shù)據(jù)濫用等危害發(fā)生時,現(xiàn)實中很難準(zhǔn)確判斷問題究竟源自訓(xùn)練數(shù)據(jù)采集、數(shù)據(jù)處理、模型訓(xùn)練,還是應(yīng)用部署的具體階段和個人。同時,風(fēng)險后果與責(zé)任主體之間對應(yīng)關(guān)系的錯位也會進一步加劇責(zé)任認(rèn)定的困難。例如,用戶對大語言模型提問的過程也是數(shù)據(jù)交互過程,如將內(nèi)容生產(chǎn)者責(zé)任完全限定在服務(wù)提供者則明顯不合理。

協(xié)同生態(tài)不足。人工智能環(huán)境下的數(shù)據(jù)安全是一個涉及多樣主體和多方資源協(xié)同互動的過程,單一主體無法應(yīng)對技術(shù)、應(yīng)用和衍生風(fēng)險的復(fù)雜性。無論算法模型安全、數(shù)據(jù)全生命周期安全,還是硬件設(shè)備等技術(shù)安全,都需要數(shù)據(jù)科學(xué)家、算法工程師、產(chǎn)品經(jīng)理、測試工程師、運維工程師以及云服務(wù)團隊等不同專業(yè)背景和職責(zé)人員間的緊密協(xié)作。由于責(zé)任邊界模糊、技術(shù)碎片化部署、標(biāo)準(zhǔn)差異、工作節(jié)奏和利益訴求不一,導(dǎo)致數(shù)據(jù)安全治理仍處于“各自為戰(zhàn)”局面。同時,從模型研發(fā)到應(yīng)用的每個環(huán)節(jié)都需要“安全承諾書”,但技術(shù)不兼容與標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致部門間數(shù)據(jù)安全治理相互脫節(jié),可信協(xié)同生態(tài)缺失。

內(nèi)在癥結(jié)

在人工智能環(huán)境下,數(shù)據(jù)安全已由靜態(tài)、單一處理單元模式,嵌入到跨階段貫通的復(fù)雜鏈?zhǔn)浇Y(jié)構(gòu)中。一方面,模型訓(xùn)練、運行與應(yīng)用部署均需要對不同版本的數(shù)據(jù)、代碼、參數(shù)和模型性能進行系統(tǒng)的數(shù)據(jù)運維和模型運維,算法缺陷、組件漏洞等技術(shù)脆弱性以及數(shù)據(jù)來源、質(zhì)量等管理問題的相互交織,增加數(shù)據(jù)安全治理的復(fù)雜性,改變數(shù)據(jù)風(fēng)險的運行軌跡和擴散路徑。另一方面,現(xiàn)行數(shù)據(jù)治理長期形成的規(guī)范體系,以權(quán)屬識別、主體授權(quán)和目的限定為基礎(chǔ)所形成的合規(guī)判斷,強調(diào)用途透明、風(fēng)險分級和協(xié)作問責(zé),但模型系統(tǒng)的規(guī)模擴張與接口復(fù)用,使得這些方法的作用條件與運行空間發(fā)生變化,合規(guī)判斷與技術(shù)迭代、業(yè)務(wù)流程之間存在一定張力,進而形成新的治理癥結(jié)。

數(shù)據(jù)動態(tài)流轉(zhuǎn)與規(guī)制要求剛性的沖突。人工智能條件下的數(shù)據(jù)處理呈現(xiàn)出模型化與過程化取向,系統(tǒng)通過對海量數(shù)據(jù)的集中吸納與內(nèi)部轉(zhuǎn)譯,將其重組為穩(wěn)定的知識與參數(shù)結(jié)構(gòu),并在持續(xù)的推理輸出中作用于現(xiàn)實場景。既有治理方式通常以數(shù)據(jù)來源核查、使用目的限定以及對具體處理行為的責(zé)任歸屬為核心,對數(shù)據(jù)活動的合法性進行判別,并假定風(fēng)險后果能夠被定位到特定數(shù)據(jù)項與特定環(huán)節(jié)。然而,模型系統(tǒng)把數(shù)據(jù)轉(zhuǎn)化為跨版本共享的內(nèi)部表示,風(fēng)險不再完全對應(yīng)單次操作,而是在不同時間與不同場景中反復(fù)迭代,由此導(dǎo)致治理抓手與技術(shù)流程之間出現(xiàn)結(jié)構(gòu)性脫節(jié),合規(guī)進程難以與智能系統(tǒng)的演進速度保持一致。一是數(shù)據(jù)信息流轉(zhuǎn)的連續(xù)性增強。原始數(shù)據(jù)在模型中經(jīng)過數(shù)據(jù)預(yù)處理、特征工程、特征選擇等轉(zhuǎn)換為模型算法后,數(shù)據(jù)風(fēng)險并不隨單次處理的結(jié)束而消失,而是在后續(xù)推理和部署中反復(fù)體現(xiàn),并在模型、基礎(chǔ)設(shè)施與場景的錯綜交織中形成新的裂變組合。二是黑箱輸出的外溢性疊加。模型推理過程缺乏可被直觀讀取的路徑,治理部門難以僅依賴訪問記錄與來源核查,證明數(shù)據(jù)污染、敏感信息殘留等數(shù)據(jù)威脅已經(jīng)消除,數(shù)據(jù)安全風(fēng)險的適用條件與發(fā)生機理隨之改變。三是跨場景調(diào)用的遷移性激增。數(shù)據(jù)安全風(fēng)險在跨場景調(diào)用中具有彌散性,同一份數(shù)據(jù)或其模型特征在不同應(yīng)用場景中的再次使用,會把早期風(fēng)險帶入新的空間并產(chǎn)生連鎖后果。由此可見,既有以識別數(shù)據(jù)對象和處理行為為核心的安全規(guī)制方式,在人工智能環(huán)境下面臨著適用基礎(chǔ)與重心偏移的問題,制度端強調(diào)身份認(rèn)證、流程合規(guī)、責(zé)任可溯,技術(shù)端強調(diào)模型性能最優(yōu)、版本迭代與響應(yīng)敏捷,兩者間的張力,本質(zhì)上是數(shù)據(jù)安全治理所依賴的“人治流程”與模型“自治系統(tǒng)”的沖突。

合規(guī)管理階段性與系統(tǒng)應(yīng)用迭代性的矛盾。隨著新的數(shù)據(jù)接入和業(yè)務(wù)功能的增加,人工智能系統(tǒng)的訪問權(quán)限管理以及數(shù)據(jù)分級分類等合規(guī)控制環(huán)境也在發(fā)生改變。一方面,預(yù)訓(xùn)練、監(jiān)督微調(diào)等環(huán)節(jié)會重新塑造數(shù)據(jù)的價值組合與表現(xiàn)形態(tài),使既有基于靜態(tài)分級分類的安全策略難以保持穩(wěn)定效力。內(nèi)容的涌現(xiàn)效應(yīng)疊加技術(shù)的不確定性,使得數(shù)據(jù)風(fēng)險難以被限定在單一環(huán)節(jié)進而形成獨立免責(zé),而是在模型訓(xùn)練、部署、應(yīng)用等跨階段過程中持續(xù)滲透并累加。例如,數(shù)據(jù)采集階段知情告知的缺位,經(jīng)過模型訓(xùn)練階段的隱私放大,最終可能在生成階段演化為針對某些群體的算法歧視。另一方面,對數(shù)據(jù)風(fēng)險的感知與判斷,越來越依賴系統(tǒng)運行的可觀察結(jié)果,而程式化監(jiān)管只能證明事前設(shè)計是否符合合規(guī)要求,無法單獨證明運行數(shù)據(jù)本身及其形態(tài)變化,是否繼續(xù)滿足用途限定。數(shù)據(jù)合規(guī)的責(zé)任鏈條尚未實現(xiàn)從線性分工到動態(tài)閉環(huán)的轉(zhuǎn)變,使得以階段性程序?qū)彶闉橹行牡暮弦?guī)控制,難以覆蓋數(shù)據(jù)風(fēng)險演變的全過程。這種矛盾在責(zé)任認(rèn)定環(huán)節(jié)表現(xiàn)得尤為突出。合規(guī)控制強調(diào)對具體行為及其功能設(shè)計的合法性識別,但智能系統(tǒng)運行結(jié)果對應(yīng)多場景的復(fù)合疊加,前端審查證據(jù)與后端風(fēng)險演變之間缺少直接證明鏈。治理行動在時間上呈階段性,技術(shù)結(jié)果在時間上呈連續(xù)性,導(dǎo)致干預(yù)措施難以像既有方式那樣嵌入智能流程內(nèi)部。

新型技術(shù)分工與既有責(zé)任框架的失配。人工智能技術(shù)的應(yīng)用,重塑數(shù)據(jù)安全治理的責(zé)任分工格局,改變數(shù)據(jù)責(zé)任的配置方式。例如,數(shù)據(jù)的自動化采集與脫敏,增加人工數(shù)據(jù)審核的壓力;數(shù)據(jù)的智能清洗與自動修復(fù),加大異常發(fā)現(xiàn)與動態(tài)敏感數(shù)據(jù)目錄編制的責(zé)任;隱私增強與區(qū)塊鏈,提升數(shù)據(jù)血緣、數(shù)據(jù)可追溯的監(jiān)管要求。而數(shù)智融合環(huán)境下的技術(shù)分工與新崗位涌現(xiàn),更對現(xiàn)有數(shù)據(jù)安全制度框架提出新的要求。一是安全責(zé)任歸屬上,未能針對算法開發(fā)者、模型訓(xùn)練者、系統(tǒng)部署者等新型主體的預(yù)訓(xùn)練數(shù)據(jù)選擇、算法偏見調(diào)控、結(jié)果可靠性等數(shù)據(jù)責(zé)任真空進行責(zé)任細化,僅明確了數(shù)據(jù)控制者(持有者)/數(shù)據(jù)處理者責(zé)任。二是監(jiān)管機制上,未能從事后追責(zé)、抽樣審計轉(zhuǎn)換到事前嵌入式監(jiān)管、合規(guī)即代碼,相應(yīng)的數(shù)據(jù)安全責(zé)任認(rèn)定,尚未從主觀過錯、違規(guī)后果判斷遞進到模型監(jiān)控、數(shù)據(jù)行為可審計,如公開訓(xùn)練數(shù)據(jù)來源、性能指標(biāo)、已知偏差或可驗證的系統(tǒng)日志輸出等。三是問責(zé)標(biāo)準(zhǔn)上,未能從以結(jié)果損害為起點的原則性問責(zé)躍升到可量化、可評估的問責(zé)指標(biāo)體系應(yīng)用,如訓(xùn)練數(shù)據(jù)多樣性指數(shù)、模型公平性得分、數(shù)據(jù)偏差檢測率、決策可解釋性評分等新型責(zé)任工具的開發(fā)。四是責(zé)任主體范疇未能完全實現(xiàn)從單一群體劃分向人機協(xié)同共治的延伸,組織分工與算法流程之間缺少穩(wěn)定的責(zé)任歸屬,未能建立起人定規(guī)則、機器執(zhí)行、人類監(jiān)督的新型責(zé)任三角關(guān)系,模型和智能體缺乏獨立人格,管理者與使用者在面對算法建議、數(shù)據(jù)安全決策時的責(zé)任劃分與追溯仍存在操作性規(guī)則模糊。

規(guī)制進路

人工智能環(huán)境下的數(shù)據(jù)安全風(fēng)險,是在數(shù)據(jù)快速流動、模型化使用與多主體協(xié)作中逐步生成的系統(tǒng)性風(fēng)險。前文分析表明,現(xiàn)有數(shù)據(jù)安全治理在風(fēng)險定位、合規(guī)判斷與責(zé)任承載等關(guān)鍵環(huán)節(jié)上,與人工智能系統(tǒng)的運行特征存在結(jié)構(gòu)性不適配。相應(yīng)地,治理方向的選擇不在于簡單疊加新的規(guī)則要求,而在于圍繞數(shù)據(jù)使用的全過程,將安全治理要求嵌入人工智能系統(tǒng)運行,重塑數(shù)據(jù)安全運維與責(zé)任體系,以建立起“技術(shù)+管理+流程+組織”四位一體的綜合性數(shù)據(jù)安全協(xié)同治理框架。

構(gòu)建覆蓋全生命周期的數(shù)據(jù)合規(guī)管理機制。當(dāng)前,歐盟《人工智能法案》、美國《關(guān)于安全、可靠、值得信賴地開發(fā)和使用人工智能的行政命令》均突出全生命周期監(jiān)管與強制合規(guī)要求,如數(shù)據(jù)來源合法性、技術(shù)文檔與系統(tǒng)說明的透明度要求等,強調(diào)將數(shù)據(jù)來源記錄、用途說明、偏見檢測與風(fēng)險分級納入合規(guī)框架。我國應(yīng)構(gòu)建覆蓋人工智能環(huán)境中數(shù)據(jù)全生命周期的合規(guī)機制,把來源透明、用途清晰和風(fēng)險分級整合為持續(xù)過程,使合規(guī)機制能夠直接作用于模型系統(tǒng)的真實運作條件。第一,將數(shù)據(jù)來源相關(guān)信息的記錄、保留與傳遞納入數(shù)據(jù)全生命周期治理要求,增強數(shù)據(jù)在跨系統(tǒng)、跨主體流轉(zhuǎn)中的可追溯性,為安全評估和責(zé)任判斷提供穩(wěn)定依據(jù)。第二,針對數(shù)據(jù)用途在人工智能應(yīng)用中的持續(xù)擴展,建立數(shù)據(jù)使用目的說明與變更記錄機制,將數(shù)據(jù)用途的調(diào)整過程能夠被持續(xù)識別和審查,在技術(shù)演進的時間尺度內(nèi)維持?jǐn)?shù)據(jù)使用邊界的可判斷性。第三,通過明確的信息披露與共享安排,提升不同主體對數(shù)據(jù)使用狀態(tài)和限制條件的共同認(rèn)知水平,減少誤用與越界調(diào)用在監(jiān)管流程中的累積。第四,在保障人工智能創(chuàng)新潛力的前提下,對數(shù)據(jù)再利用行為實行有條件的風(fēng)險分級治理,根據(jù)再利用方式和風(fēng)險水平配置對應(yīng)的驗證手段,對高風(fēng)險數(shù)據(jù)活動進行更為直接及時的精準(zhǔn)約束。

運用人工智能關(guān)鍵技術(shù)約束數(shù)據(jù)使用行為。有必要將數(shù)據(jù)安全治理進一步嵌入人工智能系統(tǒng)的關(guān)鍵技術(shù)環(huán)節(jié),在數(shù)據(jù)與算法、系統(tǒng)交互層面設(shè)定針對性的安全治理要求,通過自適應(yīng)安全預(yù)測與風(fēng)險路徑推演,識別高頻風(fēng)險模式與處置薄弱環(huán)節(jié),不斷提升數(shù)據(jù)安全治理在人工智能環(huán)境中的現(xiàn)實有效性。我國的數(shù)據(jù)安全治理應(yīng)與算法和系統(tǒng)操作形成緊密銜接,使治理要求能夠從流程內(nèi)部對齊模型運行結(jié)果,維護隱私保護與安全控制的穩(wěn)定性。第一,在人工智能預(yù)訓(xùn)練階段,對數(shù)據(jù)的選取、處理與結(jié)構(gòu)配置提出明確要求,促使進入模型框架的數(shù)據(jù)在代表性、完整性和一致性方面具備基本可控性,避免訓(xùn)練問題固化為結(jié)構(gòu)性偏差并對后續(xù)運行產(chǎn)生持續(xù)作用。第二,在人工智能系統(tǒng)運行階段,關(guān)注數(shù)據(jù)運行在模型調(diào)用、反饋與更新過程中的真實狀態(tài),對使用中顯現(xiàn)的偏差累積和風(fēng)險放大開展連續(xù)識別與動態(tài)干預(yù),防止系統(tǒng)在時間與頻率的雙重強化下形成安全風(fēng)險的持續(xù)擴散。第三,在人工智能部署與應(yīng)用階段,結(jié)合具體場景對數(shù)據(jù)使用條件進行動態(tài)審視,對模型跨場景、跨系統(tǒng)應(yīng)用可能引發(fā)的風(fēng)險遷移和外溢問題加以約束,避免因環(huán)境變化導(dǎo)致原有安全假設(shè)失效,從而引發(fā)新的連鎖后果。

夯實多主體數(shù)據(jù)協(xié)作的信任基礎(chǔ)。人工智能的開發(fā)與部署必須在可信數(shù)據(jù)治理框架內(nèi)維持可追溯責(zé)任與公平協(xié)作。面對人工智能應(yīng)用過程中的數(shù)據(jù)質(zhì)量問題、安全風(fēng)險和責(zé)任機制缺失等多重困境,亟須通過制度約束來重新平衡數(shù)據(jù)生態(tài)系統(tǒng)中的權(quán)責(zé)利益分配,以負(fù)責(zé)任的數(shù)據(jù)治理增進不同主體之間的數(shù)據(jù)協(xié)作能力,塑造數(shù)據(jù)有序流通利用的良好生態(tài)[11]。第一,人工智能系統(tǒng)高度依賴高質(zhì)量、多源數(shù)據(jù)的持續(xù)供給和更新,通過在人工智能數(shù)據(jù)使用規(guī)則中引入互惠原則,使數(shù)據(jù)提供、數(shù)據(jù)使用與由此產(chǎn)生的應(yīng)用收益之間形成相對明確的對應(yīng)關(guān)系,緩解數(shù)據(jù)主體對“長期投入但收益不明”的顧慮,增強其持續(xù)參與人工智能數(shù)據(jù)協(xié)作的意愿。第二,通過可感知的公平規(guī)則緩解人工智能數(shù)據(jù)使用中的信息與權(quán)力不對稱,進一步增強人工智能數(shù)據(jù)治理規(guī)則的透明度和適用性,提升其對人工智能數(shù)據(jù)治理框架的公平感知,降低因不信任引發(fā)的抵觸或防御性行為。第三,人工智能數(shù)據(jù)協(xié)作往往涉及訓(xùn)練數(shù)據(jù)提供者、模型開發(fā)者、系統(tǒng)部署者和應(yīng)用主體等多方參與,僅依靠抽象規(guī)則難以協(xié)調(diào)復(fù)雜的使用關(guān)系。通過數(shù)據(jù)信托、可信數(shù)據(jù)空間等設(shè)施,基于共識規(guī)則連接多方主體,實現(xiàn)數(shù)據(jù)資源共享共用,為人工智能應(yīng)用場景下的多主體數(shù)據(jù)使用提供穩(wěn)定的制度承載,使協(xié)作關(guān)系和信任預(yù)期能夠在持續(xù)運行中得到維護。

【本文作者為南京大學(xué)數(shù)據(jù)管理創(chuàng)新研究中心教授、博導(dǎo);南京大學(xué)數(shù)據(jù)管理創(chuàng)新研究中心博士生田聰,對本文亦有貢獻】

注釋略

責(zé)編:賈 娜/美編:石 玉

責(zé)任編輯:王皎皎