發(fā)布時間:2024-10-23來源:中國金融新聞網(wǎng)點擊:返回列表
《關于加快公共數(shù)據(jù)資源開發(fā)利用的意見》(以下簡稱《意見》)出臺,對科技企業(yè)有何影響?一些科技企業(yè)表示,系統(tǒng)性、規(guī)范性地進行公共數(shù)據(jù)資源的開發(fā)利用,對科技企業(yè)將是一大利好,而且多元公共數(shù)據(jù)的開發(fā)與利用,有助于大模型的訓練和優(yōu)化。
促進公共數(shù)據(jù)資源更好運用
在科技從業(yè)者看來,一方面,公共數(shù)據(jù)的開放為企業(yè)和創(chuàng)業(yè)者提供了豐富的資源,能夠促進數(shù)據(jù)驅動的創(chuàng)新,催生新產(chǎn)品和服務;另一方面,鼓勵不同機構和企業(yè)之間的數(shù)據(jù)共享與合作,有助于打破信息孤島,實現(xiàn)資源的有效配置和協(xié)作。
《意見》提出,支持人工智能政務服務大模型開發(fā)、訓練和應用,提高公共服務和社會治理智能化水平。業(yè)內人士認為,多元公共數(shù)據(jù)的開發(fā)與利用,有助于大模型的訓練和優(yōu)化。
硅心科技大模型算法專家蔣思源在接受《金融時報》記者采訪時表示,科技企業(yè)可以基于公共數(shù)據(jù)開發(fā)各種應用和服務,如利用先進的大模型技術,對公共數(shù)據(jù)進行高效處理和分析,提取有價值的洞察信息,通過創(chuàng)新應用提升公共服務的質量和效率。
政務大模型是加快推進政務工作數(shù)智化轉型的有力工具。因涉及經(jīng)濟社會運行的多個領域,政務大模型的優(yōu)化與訓練,往往需要海量、可信且更高質量的數(shù)據(jù)資源支持。
據(jù)國家數(shù)據(jù)局數(shù)據(jù),截至今年7月份,我國已經(jīng)有243個省級和城市的地方政府上線了數(shù)據(jù)開放平臺,開放的有效數(shù)據(jù)集超過了37萬個,最近8年來增長了44倍。
然而,隨著數(shù)據(jù)技術的發(fā)展,公共數(shù)據(jù)的開發(fā)利用方式更加多元化,也會產(chǎn)生安全風險。數(shù)據(jù)資源開發(fā)和利用程度越深,數(shù)據(jù)安全和個人信息保護的重要性也隨之增強。
針對公共數(shù)據(jù)安全問題,政府層面已有相應部署。國家數(shù)據(jù)局局長劉烈宏在發(fā)布會上表示,國家數(shù)據(jù)局將圍繞公共數(shù)據(jù)資源“供得出、流得動、用得好、保安全”,強化政策保障,加大項目和經(jīng)費支持力度,提高技術能力和安全水平,加快釋放公共數(shù)據(jù)的要素價值。
平衡開放創(chuàng)新與合規(guī)安全
從應用端來看,當前,一些科技企業(yè)會將其研發(fā)訓練的大模型進行開源,而另外一些通用或垂直大模型也會使用這些開源數(shù)據(jù)進行訓練,因此,開源的模型數(shù)據(jù)就是一類公共數(shù)據(jù)。對科技企業(yè)而言,這類公共數(shù)據(jù)的開發(fā)與利用是否存在難點?
“公共數(shù)據(jù)的采集和更新頻率不高,導致數(shù)據(jù)過時或不準確,影響后續(xù)分析和決策,無法滿足動態(tài)化業(yè)務需求。此外,公共數(shù)據(jù)絕大部分是結構化數(shù)據(jù),采集與處理過程會損失很多關鍵信息。”蔣思源直言,以公共開源代碼數(shù)據(jù)為例,當前的公共開源代碼數(shù)據(jù)會存在大量有語法、編譯、邏輯錯誤低質量數(shù)據(jù),這會大大限制訓練出來的代碼大模型。
另外,“在利用公共數(shù)據(jù)時,需確保個人隱私得到保護,防止數(shù)據(jù)泄露和濫用,尤其是涉及敏感信息或者代碼時,需要采用命名實體識別等敏感信息去除技術和管理措施,保障數(shù)據(jù)的安全性和用戶隱私。”蔣思源表示。
如何兼顧開放創(chuàng)新與合規(guī)安全?
首先,要建立健全的數(shù)據(jù)管理制度,對數(shù)據(jù)采集、存儲、共享和使用進行全生命周期管理,確保數(shù)據(jù)質量。對此,《意見》提出,強化數(shù)據(jù)安全和個人信息保護,加強對數(shù)據(jù)資源生產(chǎn)、加工使用、產(chǎn)品經(jīng)營等開發(fā)利用全過程的監(jiān)督和管理。
其次,建立易于使用的數(shù)據(jù)共享平臺,提供數(shù)據(jù)訪問和分析工具,降低使用門檻。
“《意見》進一步提出了要推動實現(xiàn)‘一數(shù)一源’‘主動共享與按需共享相結合、完善共享責任清單’等一系列工作要求,后續(xù)政務數(shù)據(jù)共享工作力度將會進一步加大,以更好的服務支撐數(shù)字政府建設。”國家數(shù)據(jù)局副局長陳榮輝表示。
在保證數(shù)據(jù)隱私與安全的前提下,通過優(yōu)化算法與架構設計,有助于提高大模型在處理公共數(shù)據(jù)時的效率與準確性,促進大模型在各行業(yè)的廣泛應用與創(chuàng)新。
那么,科技企業(yè)該如何更安全、高效地應用公共數(shù)據(jù)?
蔣思源認為,可以從以下方面著手,一方面,選擇可靠的公共數(shù)據(jù)源,確保數(shù)據(jù)的準確性和完整性,以提高模型的訓練效果;利用眾多數(shù)據(jù)預處理技術盡可能提升數(shù)據(jù)質量。另一方面,科技企業(yè)在大模型的公共數(shù)據(jù)使用上還要更加注重安全性與風險管理。“以我們關注的代碼數(shù)據(jù)來說,可以利用傳統(tǒng)軟件工程的語法分析、靜態(tài)分析、運行時分析等技術逐一檢測代碼項目的質量,并治理出一批高質量的公共開源代碼。”蔣思源說。
陳榮輝強調,對于公共數(shù)據(jù)資源,開發(fā)開放是導向,安全依規(guī)是前提。對那些潛在價值高,具有一定敏感性的數(shù)據(jù),無法直接向社會開放,需要依托更加專業(yè)的力量,付出一定的治理和開發(fā)成本,形成數(shù)據(jù)產(chǎn)品和服務供社會各方調用。
基于這一原則,蔣思源建議,大模型企業(yè)需要定期進行安全審計,評估大模型數(shù)據(jù)使用及存儲的安全性,及時發(fā)現(xiàn)和修復潛在的安全漏洞;實施嚴格的數(shù)據(jù)訪問權限管理,確保大模型只能看到或者訓練到合法合規(guī)的數(shù)據(jù)。
針對當前存在的一些開源數(shù)據(jù)使用程序不夠明確、運營情況不夠透明等問題,科技企業(yè)還應加強自我約束,在開發(fā)大模型時,注重模型的可解釋性,確保用戶能夠理解模型的決策過程,從而增強信任感;此外,明確告知用戶數(shù)據(jù)的使用目的和方式,提升透明度。
【關閉】