首页 > 科技服务> 服务动态

计算中心数据集入选全国首批“数据要素×”典型案例并在数字中国建设峰会发布

发布时间:2024年05月28日 15:09

2024年“数据要素×”典型案例发布活动视频截图

2024年“数据要素×”典型案例发布活动视频截图

5月24日,在第七届数字中国建设峰会上,国家数据局会同生态环境部、交通运输部、金融监管总局、中国科学院、中国气象局、国家文物局、国家中医药局等部门发布首批20个“数据要素×”典型案例。北京市计算中心有限公司(以下简称“计算中心”)的“高质量药物数据集”入选医疗健康领域典型案例。

“高质量药物数据集”是计算中心通过多渠道、合规收集海量药物研发关键数据建立的专业化新药研发数据集。计算中心已通过对数据集进行智能化分析和数据挖掘,辅助新药研发项目100余项,结合人工智能技术预测靶点超1万余个,有效降低新药研发周期,为我国新药研发探索新路径。

近年来,计算中心积极开展数据产品研发和人工智能应用,并在实践中总结出“业务平台汇集产生高质量数据,高质量数据反哺优化业务平台”的方法体系。陆续实现了数据资源的首登记、首挂牌、首交易和首开放。累积22项数据成果入驻北京国际大数据交易所“数据交易平台”,7项数据入驻“科学数据专区服务平台”,部分数据产品入选“北京市人工智能大模型高质量数据集”。在2023年召开的全球数字经济大会上,计算中心的3项数据资产在北京国际大数据交易所挂牌,获得首批数据资产登记证书,与北京智源人工智能研究院、北京国际大数据交易所签署大模型训练数据集交易协议,并获得北京市高精尖产业发展资金北京市数据要素市场示范奖励。2024年,计算中心成为首批落地北京数据基础制度先行区的数据提供方之一,3个数据集入选人工智能大模型语料库首批100个高质量数据集。

计算中心现已形成的数据集产品主要有:药物研发类数据集,包括大规模虚拟筛选的小分子结构、多肽结构和相关的参数文件、药物靶点蛋白数据、药物ADMET数据、核酸适配数据、中药材溯源数据;临床诊断类数据集,包括糖尿病肾病人群队列生理生化数据、二型糖尿病人群队列基因位点数据、高血压人群队列基因位点数据、转录组组学数据、微生物组学数据等;智慧政务/智慧城市类数据集,包括政务文本数据集及分词库、空气质量监测数据等;基础科研、科普类数据集,包括稀土与碱土金属化合物、半导体材料电子结构数据、三维模型数据、国际媒体新闻报道等;数据分析模型28项,包含文本分类、实体识别、文本摘要、文字识别、图像分割、数值预测、推荐算法、图谱绘制等。

据悉,此次发布的首批20个“数据要素×”典型案例涵盖了工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳等12个行业和领域,覆盖了北京、上海、浙江、江苏、四川、安徽、湖南、湖北、广东、福建、山东、新疆等12个省市,以及部分中央企业、地方国有企业和民营企业,有力展示了有关单位促进数据要素开发利用的典型经验做法,彰显了数据要素推动经济社会发展的乘数效应。

未来,计算中心还将继续积极参与“数据要素×”行动计划,推动更多领域的数据开放共享,为我国数据要素市场培育贡献力量。


(北京市计算中心有限公司)