亚洲一区二区无码|成人国产经典精品视频|亚洲欧美综合精美二区|视频一区中文字幕日本有码|亚洲av午夜精品无码专区|国产喷水高潮网红在线观看|欧美日韩在线观看精品一区二区|国产亚洲精品精品国产亚洲综合

云服務

熱門搜索: 防爆監(jiān)控 電動機 防爆暖通 防爆風機

首頁 行業(yè)資訊 政策解讀 電商會議 人物觀點 電商數據 電商干貨 電商報 博文資訊 客戶庫 企業(yè)庫
首頁>新聞詳情

專家解讀 | 推動高質量數據集建設,加快實施“人工智能+”行動

2025年3月5日 來源:防爆云平臺--防爆產業(yè)鏈服務平臺 防爆空調 防爆電氣 防爆電機 防爆風機 防爆通訊 瀏覽 550 次 評論 0 次


文 | 中國信息通信研究院副院長 魏亮

習近平總書記指出,數據是數字經濟時代的基礎性資源、重要生產力和關鍵生產要素。近年來大模型技術不斷取得突破,其中大規(guī)模高質量訓練數據的投入,起到了關鍵作用,也進一步將“以數據為中心的人工智能”推向一個新階段。近期發(fā)布的 Deep Seek 系列模型訓練中大量高質量推理數據集的使用更加凸顯了高質量數據的重要性,而大模型要與垂直領域深度融合同樣需要高質量數據集的支撐。國家數據局圍繞高質量數據集建設相關工作開展了一系列工作部署。2025年2月19日,高質量數據集建設工作啟動會在北京組織召開,國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部等27個部門參會。下一步,高質量數據集建設工作將積極推進落實“人工智能+”行動,加快推動形成一批標志性成果,賦能行業(yè)高質量發(fā)展。

01

準確認識高質量數據集建設取得的進展和面臨的挑戰(zhàn)

高質量數據集構建是一項復雜而關鍵的任務,需要了解模型應用場景和需求,進而開發(fā)、構建和維護數據資源,提供持續(xù)有效的高質量數據集。當前,在頂層設計層面,國家數據局等17部門聯合印發(fā)《“數據要素×”三年行動計劃(2024—2026年)》,強化場景需求牽引,帶動數據要素高質量供給、合規(guī)高效流通,高質量數據集建設取得積極進展。在地方層面,湖北、江蘇、浙江等多省市明確了建設高質量數據集的數量、時間及激勵機制;湖北省數據局發(fā)布首批10個高質量數據集,推動構建高質量“數據集市”;蘇州市發(fā)布首批30個工業(yè)制造、交通運輸、金融服務等高質量數據集。在行業(yè)層面,智源研究院發(fā)布全球最大的多行業(yè)中英雙語數據集IndustryCorpus 1.0,包含3.4TB開源行業(yè)預訓練數據,覆蓋18類行業(yè);中國信通院推出我國首個面向行業(yè)的人工智能數據集質量評估體系,為數據質量提供客觀、公立的評價能力和方法體系;北京國際大數據交易所累計發(fā)布約300個高質量數據集,形成10余個應用領域數據資源地圖。與此同時,還應看到目前高質量數據集建設還存在不少挑戰(zhàn)。

一是政府和業(yè)界不清楚行業(yè)高質量發(fā)展需要什么樣的數據。一方面,行業(yè)大模型數據具有需求多樣性的特點。不同行業(yè)部門對模型場景數據的需求各不相同,涉及分析、決策和生成不同的任務需求,這種多樣性要求在人工智能高質量數據集建設中,必須深刻理解業(yè)務場景。另一方面,行業(yè)大模型數據具有需求復雜性的特點。大模型涉及預訓練、微調、反饋強化學習等不同階段,不同階段都涉及到數據訓練構建和優(yōu)化策略,需要多個數據源、多種數據類型融合對齊,這增加了數據處理和管理的復雜度。

二是行業(yè)企業(yè)不知道高質量數據集如何構建。構建大模型數據集主要包含數據采集、數據清洗、數據標注、質量評估等核心環(huán)節(jié)。各環(huán)節(jié)需要根據大模型數據集具有的規(guī)模大、多樣性足、行業(yè)垂直屬性強等特點進行針對性的技術研發(fā)和適配。但是,行業(yè)企業(yè)對于數據的理解程度不同,面向大模型的數據治理方法和經驗不足,傳統的數據處理工具和技術無法滿足大模型需求,需要引入先進的數據處理技術和工具提高數據處理效率和準確性。

三是業(yè)界不了解行業(yè)數據集質量如何評價。不同行業(yè)、不同數據源的數據完整性和準確性可能參差不齊,嚴重影響大模型的訓練效果和預測準確性,造成訓練資源浪費。此外,訓練數據獲取往往需要耗費大量時間和經濟成本,包括數據收集、清洗、標注等環(huán)節(jié)。在行業(yè)大模型的實際建設中,對于構建和采買的數據沒有統一的衡量標準,造成無法有效獲取高質量數據集資源。

02

分類推動高質量數據集供給體系建設

數據之于大模型就像石油之于汽車,汽車無法直接使用原油,原油只有經過一系列復雜的過程煉化成汽油后,才能給汽車使用。同樣,海量原始數據需要經過“煉化”形成高質量數據集,才能真正有效地用于大模型訓練。行業(yè)大模型訓練所需數據集,既要覆蓋行業(yè)通識,也要蘊含專門知識。其中,通識數據是通用大模型能力提升的基礎,行業(yè)通識數據是行業(yè)大模型訓練的基底,行業(yè)專業(yè)數據是企業(yè)推動行業(yè)大模型的應用、部署私域模型能力的底座。為此要根據急用先行、分類推進、合理使用的原則,推進高質量數據集建設。

一是加快通識類高質量數據集建設。通識類高質量數據集是指由政府機構、科研機構、開源社區(qū)或大型互聯網企業(yè)等公開數據構建的數據集,具有廣泛性和通用性,覆蓋多個領域,如自然語言處理、計算機視覺、語音識別等,能夠為企業(yè)提供豐富的訓練資源和基準測試環(huán)境,有助于行業(yè)大模型快速驗證算法、提升模型的基礎能力。此外,公共數據集還有助于促進跨行業(yè)、跨領域的數據共享和知識融合,推動行業(yè)大模型的持續(xù)進步和快速發(fā)展。

二是加快行業(yè)通用類高質量數據集建設。行業(yè)通用類高質數據集,是指針對某一特定行業(yè)或領域知識的具有事實性數據集,具有高度的專業(yè)性和針對性。這類數據集通常包含某一特定行業(yè)特有的知識、術語、場景和業(yè)務流程等信息,對于訓練出適用于行業(yè)應用的大模型至關重要,能夠覆蓋行業(yè)領域專業(yè)知識,提高模型在行業(yè)通識領域的泛化能力。

三是加快行業(yè)專用類高質量數據集建設。行業(yè)專用數據集,是指根據行業(yè)企業(yè)自身業(yè)務場景和需求收集的數據集。這類數據集通常包含行業(yè)企業(yè)內部業(yè)務流程、用戶行為、產品信息等關鍵信息,具有針對性和定制化的特點,能夠為行業(yè)企業(yè)提供高度個性化的訓練數據資源,構建專屬大模型。通過行業(yè)企業(yè)場景化數據集的訓練,可以定制化地優(yōu)化大模型算法和參數設置,深度挖掘內部數據價值,實現模型的定制化優(yōu)化與業(yè)務高度適配,使其更好地服務于業(yè)務需求和發(fā)展戰(zhàn)略,帶來更加精準和有效的業(yè)務洞察和決策支持。

03

加快提升高質量數據集構建能力

推動高質量數據建設,是一項系統工程,核心是提升行業(yè)數據集管理與運營效率、提升數據集質量和數量、充分挖掘數據資源價值、保障模型數據安全可信,需要系統性地加強能力建設。

一是完善行業(yè)數據集管理體系。編制行業(yè)數據資源目錄,細化數據集的分類與分級,明確結構化、半結構化及非結構化等多種數據類型,按照數據清洗處理程度(手動、半自動至全自動),開展數據集資源管理。構建高效協同的組織架構,確保從數據采集到模型應用的每一步都能夠得到有效管理和支持,建立數據治理與模型開發(fā)的協同架構。圍繞數據技術、平臺、應用及安全,制定詳盡標準,涵蓋數據生產、服務、質量評估及數據集管理。培養(yǎng)跨學科、跨專業(yè)的數據工程團隊,強化數據科學與模型訓練能力,為大模型的成功部署與持續(xù)優(yōu)化奠定堅實基礎。

二是提升行業(yè)數據集開發(fā)維護能力。著力提升數據采集匯聚、數據預處理、數據標注等關鍵環(huán)節(jié),以及指令微調、反饋對齊關鍵階段的技術工具能力。數據采集匯聚需具備高效的數據抓取、清洗與整合能力,確保數據的全面性和多樣性;數據預處理階段涵蓋數據清洗、去噪、歸一化等技術,以提升數據質量;數據標注環(huán)節(jié)要求深入理解數據特性,掌握高效的自動化和智能化標注技術。行業(yè)大模型數據集主要應用于指令微調階段和反饋對齊階段,通過有標注的指令數據對模型進行精細化調整,增強其任務執(zhí)行能力,利用用戶反饋優(yōu)化模型提升實際應用效果。此外,還需要制定詳細的數據技術處理要求和方案,以保證不同階段的數據分布一致性。

三是增強行業(yè)數據集質量控制。在質量管理方面,從流程管理、質量評估和組織規(guī)范三方面對大模型數據集生產到管理的各環(huán)節(jié)進行能力規(guī)范和等級評定,從源頭上確保數據集高質量生產和管理。在質量評估方面,針對行業(yè)大模型對數據質量進行更多維度的要求,提升數據集在模型應用上的實用效果。設計具體規(guī)則和方法,采用自動化標注和人工抽樣的方式對數據集自身質量進行前置檢測,采用模型驗證和消融實驗的方式對數據集在大模型的應用效果進行后置檢測,通過模型效果反饋進行數據集質量優(yōu)化。

做實、做深、做細高質量數據集建設工作,就要深入貫徹落實黨中央、國務院決策部署,做好系統謀劃、加強統籌協調、做好部門協調。此次高質量數據集建設工作啟動會,為推動相關工作發(fā)出了動員令、吹響了集結號。相信通過國家數據局協同行業(yè)主管部門的政策牽引和政、產、學、研、用多方協同,我國高質量數據集建設步伐將越來越快,也必將為人工智能賦能實體經濟注入強勁動力。

來源:國家數據局

我來說兩句
人參與 丨 評論0條)
圖標
注冊 登錄    
評論列表
每頁 10 條,共 0 條

品牌商品

營業(yè)執(zhí)照 | 增值電信業(yè)務經營許可證 | 豫公網安備41130202000490號 | 豫ICP備19015714號-1 (版權所有 防爆云平臺 © Copyright 2009 - 2024 . All Rights Reserved.)
南华县| 东城区| 乌兰察布市| 玛沁县| 体育| 霍林郭勒市| 元阳县| 两当县| 延寿县| 瑞丽市| 济南市| 杂多县| 奉节县| 朝阳区| 阜宁县| 高安市| 盘山县| 桂阳县| 彩票| 赫章县| 张北县| 玛纳斯县| 宁国市| 彭水| 信阳市| 雷州市| 甘德县| 泸西县| 施秉县| 宁城县| 镇沅| 南乐县| 顺昌县| 灌南县| 镇坪县| 嘉义县| 永丰县| 临安市| 呼玛县| 南皮县| 磐石市|