探索数据宝藏:填写《全国数据资源调查》的乐趣与技巧

2月19日,国家数据局等四部门发布关于开展全国数据资源调查的通知。通知提出,为贯彻落实《数字中国建设整体布局规划》工作部署,摸清数据资源底数,加快数据资源开发利用,更好发挥数据要素价值,国家数据局、中央网信办、工业和信息化部、公安部联合开展全国数据资源情况调查,调研各单位数据资源生产存储、流通交易、开发利用、安全等情况,为相关政策制定、试点示范等工作提供数据支持。中电金信基于20多年的数据领域经验,及时为大家解读了相关要点,以下一文带你读懂《关于开展全国数据资源调查的通知》。

一、调查对象

通知中,本次的调查对象(填报单位)包括五类

①:省级数据管理机构、工业和信息化主管部门、公安厅(局);

②:各省重点数据采集和存储设备商、消费互联网平台和工业互联网平台企业、大数据和人工智能技术企业、应用企业、数据交易所、国家实验室等单位;

③:中央企业(区分运营商及非运营商类);

④:行业协会商会;

⑤:国家信息中心。

这五类填报单位,又分别承担了数据生态中的不同角色

 数据管理者(数据局、大数据管理中心等)

 数据交易平台

 政务数据供给者

 企业数据供给者

 科研数据供给者

 平台数据供给者

 数据使用者

 数字基础设施提供者

二、调查内容解读

本次通知共涉及11类数据资源调查表,内容覆盖了数据资源的生产、存储、应用、安全,以及数据算力等领域。这些内容与《数字中国建设整体布局规划》中“2522框架”的数字基础设施、数据资源体系,以及数据安全屏障高度相关。

数字基础设施主要包括网络基础设施、算力基础设施和应用基础设施。其中,网络基础设施相关内容,主要由运营商以及涉及相关设备生产销售的重点行业及央企填报;算力基础设施相关内容,几乎涉及全部填报单位;应用基础设施相关内容,主要由数据应用环节中的相关企业填报。

数据资源体系围绕“管好数据、用好数据”展开,统筹管理数据生产存储、关联融合、高效共享和有序利用等环节,重点推进跨部门、跨层级、跨地域数据共享和交易,支撑整体协同数字政府建设及其数字治理能力提升。数据资源体系建设的首要基础是摸清数据家底,以实行未来一本账管理,确定“一数一源”的最优解,推进数据共享交易。

本次通知中数据资源的填写内容广泛,涉及政府、企业对数据的全生命周期管理,其中“平台和数据技术企业”要填写的指标最多。

另外,作为数据生态中的两类特殊企业:运营商和交易所,需要分别填报:

● 运营商:数据跨境流入、流出信息。

● 交易所:各行业的数据产品、数据服务交易信息。屏障

发展数字经济的首要前提,便是筑牢数据安全的底线。本通知中也特别设计了《附件8-数据安全情况调查表(仅公安厅(局)填写)》,其中主要填报内容如下:

● 处理重要数据的重要系统数量

 处理重要数据的关键信息基础设施数量

 处理重要数据的其他系统数量

 数据安全相关案件数量

三、填报方案建议

全国数据资源调查工作开展时间为2024年2月18日至3月5日,相关单位在规定时间内登录全国数据资源调查管理平台填报调查表。

填报单位要在思想上统一认识。国家数据局联合相关部门进行的全国数据大摸底,旨在全面地了解我国数据资源的生产存储应用、数字基础设施的容量及水平。这个工作是数字中国建设的基础工程,是国家数字经济新动能的基础调研,意义重大而深远。

这次填报工作任务重、时间紧。同时,部分内容尚未提供标准规范的填报说明,维度、口径都会有二义性,这又会导致填报工作需要反复讨论确认,增加填报工作量。建议各填报单位调集精兵强将,组织专门的工作小组进行集中项目式攻关。

在工作方法上,建议以信息系统梳理为抓手,以数据盘点为核心,由点到面开展数据资源管理工作。

一、梳理本单位内部的信息系统,明确各个系统的用途定位、负责部门、硬件配置、存储容量、存储增速、功能模块、主要数据、用户场景等。

按主题进行数据盘点,包括每类数据的含义、分布、容量、增量。

三、按用户场景/功能模块进行数据服务、数据产品的梳理统计。

四、统计梳理外部数据采集,及对外数据交易。

如果填报单位已经建设了完善的数据平台,可以首先对数据平台进行梳理统计,建立基本的数据资源盘点概况;然后向数据平台的上游、下游系统进行扩展,对数据资源进行补充完善。

本次填报任务重,时间紧,具体表现为三大挑战:

一、信息粒度不匹配:填报内容大都是企业全局性的汇总信息,需要相应细节信息加工汇总而成,而多数企业中的此类细节信息是分散在不同部门/层级/系统中的。

二、 信息化基础薄弱:很多企业的数据管理能力较低,缺乏数据资源台帐。这将导致在填报工作的职责分工难协调,填报内容的质量难保障。

三、智能化工具缺失:由于大部分企业缺乏数据管理工具或者现有工具难以支持数据资源的盘点工作,本次填报需要大量的手工线下统计,低效费时。

四、后续行动

● 数据生产区域分析:

按地区、行业分析我国不同省市、行业的数据生产、存储的排名、趋势。

 企业数据生产环节分析:企业在生产设备、物流设备、研发软件、运营管理软件、IoT服务、产品智能化等各环节生产数据的占比及趋势。

 数据存储分布:从数据存储主体来分析个人终端、企业、政府的数据存储对比;从数据存储设备来看手机、电脑、移动硬盘、云等设备中存储占比。

 企业数据存储方式分析:分布式存储、集中存储。

● 企业数据应用分析:数据应用在研发创新、生产优化、运营管理、产品及客户服务、供应链优化、产业协同等领域的占比及趋势。

 政府部门数据开放:各省市地区的数据开放平台、开放数据集数量排名及趋势;反映各省市数据开放范围及质量:数据集更新频率、数据可机读率、关键数据集覆盖率、常见数据集覆盖率、开放数据集部门覆盖率等。

 国家间数据流通:国内访问国外、国外访问国内的业务类型排名、趋势。

正如人口普查、库存盘点,全国性的数据资源调查未来也很可能有下列趋势:

 常态化:定期盘点调查。

 规范化:调查内容的标准越来越明确,逐步减少填报内容的模糊性。

 自动化:通过相关系统的建设以减少手工操作,提升填报过程的自动化水平。

数据资源调查,对各填报单位来说也是一个内部系统、数据大盘点的契机,完全可以作为后续企业数字化转型的前置工作。

中电金信基于金融级数字底座“源启”的工具包(元数据自动采集、数据资产管理平台),结合在数据领域的咨询、产品、交付经验,期待与填报单位一起完成数据资源大摸底,为数据要素化做好准备。

#中电金信#
全部评论

相关推荐

1️⃣一面 时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。
查看17道真题和解析
点赞 评论 收藏
分享
1.请简述什么是大模型,以及它与传统模型的主要区别是什么?2.你如何评估大模型的性能?有哪些常用的评估指标?3.请描述一下你如何对大模型进行优化,以提高其性能和效率。4.你是否有过使用或开发大模型的经验?请分享一个具体的案例。5.大模型中的注意力机制是如何工作的?它在大模型中起到了什么作用?6.大模型中的优化算法有哪些常见的选择?它们各有什么优缺点?7.如何处理大模型训练过程中的梯度消失或梯度爆炸问题?8.在大模型设计中,如何权衡模型的复杂度和性能?9.面对大模型训练和推理所需的庞大计算资源,你有什么解决建议?10.请简述你了解的大模型的主要结构特点。11.reward bench上的reward model分哪几类?12. reward model如何训练的,训练目标是什么?13.dp0训练的损失函数和训练目标,dpo如何改进怎么理解大模型安全,包含哪些方面的内容?14.指令跟随能力的评估集有什么,如何评估的?15.阿尔法狗强化学习策略是什么?提升推理能力和指令跟随能力哪个更难, 为什么, 提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方?16.dpo训完了一般输出长度会变化吗? 如何解决这个问题大模型训练过程学习率一般是怎么变化的, 退火阶段学习率如何变化的?17.在开发大模型时,当你面临推理阶段的资源需求时,你如何确保模型的可解释性和公平性?18.谈谈你对Transformer模型的理解,以及它在自然语言处理中的应用。19.请简述Transformer的基本结构和工作原理?20.为什么Transformer使用位置编码(Positional Encoding)?21.如何优化 Transformer 模型的性能?22.Transformer在自然语言处理中有哪些应用?23.transformer里边norm的位置在哪里,norm如何计算的多头自注意力机制的作用是什么?24.注意力机制为什么除以根号dk, 为什么不是dk请解释什么是注意力机制,并举例说明其应用场景。25.注意力机制是如何工作的?请简述其计算过程。26.多头注意力机制是什么?它相比单头注意力有什么优势?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务