我市发布首批行业高质量数据集
创始人
2024-06-23 17:01:31
0

6月20日,2024世界智能产业博览会召开首日,市数据局在国家会展中心(天津)举办我市第一批行业高质量数据集发布活动,37家单位的80个行业高质量数据集公开发布。市科技局、市工业和信息化局、市国资委等市有关部门以及各区数据主管部门、行业数据集建设单位、人工智能产业重点企业、高校和科研机构等60多家单位参加。

高质量数据集是人工智能模型训练、推理和验证的关键基础,是按照特定标准,依次开展数据采集、数据清洗、数据归类和数据标注等智能化处理,并具备更新和维护机制的数据集合。我市首批发布的数据集涵盖工业制造、交通运输、科技创新、文化旅游、医疗健康、城市治理等12个重点领域,类型包含文本、图片、音频、视频等多种模态。其中,中国手语多模态数据集、“海河·谛听”言语多模态数据集、基于隐私计算技术政务流通数据集、恒达文博文旅·科普基础数据集等69个数据集为国内首次公开发布;14个数据集已应用支撑“数智本草”中医药研发大模型、“海河·谛听”言语交互大模型、“海河·尔语”聋人手语理解大模型、蜜度文修大模型等津产自研大模型,充分展示了我市在重点领域行业数据集建设的特色和成果。

此次发布的数据集数据应用价值高,智能汽车驾驶场景库数据集旨在建成国内分类最齐全、格式最标准、内容最丰富的面向智能网联汽车研发测试的场景数据库,已支持国际标准、国家标准制定。恒达文博文旅·科普基础数据集规模超300TB,具有5种以上模态数据,已支撑训练了基于ChatGLM等先进架构的大语言模型,并应用于图像识别、古文字识别、文物病害识别等专用模型。

市数据局相关负责人表示,下一步,天津市将依托产业、科技、人才等优势,持续支持鼓励行业企业、数商和社会资本,整合通用、政用、商用数据资源,加速提升数据供给能力,开发更多细分领域行业数据集。同时,开展数据标注基地建设,推进数据标注产业生态构建、能力提升和场景应用,推动打造国家级试点项目,加快行业高质量数据集发展,催生新产业、新模式。

来源:天津日报

相关内容

热门资讯

天玛智控获得发明专利授权:“安... 证券之星消息,根据天眼查APP数据显示天玛智控(688570)新获得一项发明专利授权,专利名为“安全...
长时间打游戏不烫手的手机推荐:... 周末约朋友开黑,最扫兴的不是连跪,而是手机烫得拿不住,然后屏幕亮度强制降低、游戏卡成幻灯片。于是很多...
苹果降价1000元又卖爆了!i... 快科技6月10日消息,据博主RD观测透露,iPhone 17系列在中国市场累计激活销量达3232.7...
三星机皇跳水2400元,高端机... 提到折叠屏手机,三星始终是绕不开的名字。作为折叠屏手机的开创者与行业引领者,三星从Galaxy Fo...
最强Claude模型:Anth... IT之家 6 月 10 日消息,Anthropic 昨日(6 月 9 日)发布博文,宣布推出 Cla...
英语教师的语言素养重要吗?老师... ar 我的一个好朋友在广州某大学教英语。一天我们议论起网上一个英语老师写的英语文章,因为我们不约而同...
金价降了,买金的人为何更犹豫了... 新京报贝壳财经记者 姜樊 编辑 陈莉 校对 柳宝庆 进入6月以来,黄金价格持续走低。目前,现货黄金价...
原创 服... 最近,小区里的电动车车主们都在吐槽一件事:充电费太贵了! 以前大家还能拉个“飞线”凑合,或者把电池拎...
带娃出行被分到静音车厢,车厢分... 据大河报报道,近日,有网友反映,在12306平台购票时因取消订单次数过多,被限制了订票功能。该网友解...