广州12345政府服务热线受理中心的“政务热线智能语音导航粤语数据集”,南方医科大学珠江医院的“癫痫专病数据集”“儿童脑肿瘤专病数据集”,佳都科技的“交通行业视频图像智能分析数据集”……在4月17日广州城市可信数据空间上线暨首批高质量数据集发布会上,广州首批共16家企业机构28个高质量数据集清单公布。同时,包括数据提供方、数据集需求方在内的16家单位就高质量数据集供需对接现场签约。
4月17日,广州城市可信数据空间上线暨首批高质量数据集发布会现场。(主办方供图)
广州公布首批28个高质量数据集
此次广州征集并遴选的首批高质量数据集共28个,涉及广东电网有限责任公司广州供电局、广州金域医学检验集团股份有限公司等16家企业,包括阿尔兹海默专病数据集、意识障碍专病数据集、数字化系统故障诊断数据集、电力设备分析高质量数据集、教育全流程管理数据集、实体制造工厂数据集、线下零售门店数据集、产业招商楼宇数据集等,涵盖生物医药与健康、软件与互联网、智能装备与机器人、现代金融、现代商贸等12个重点产业领域。
南都大数据研究院梳理发现,此次提供数据集数量最多的是南方医科大学珠江医院、广州金域医学检验集团股份有限公司,各4个,分别是“癫痫专病数据集”“阿尔兹海默专病数据集”“意识障碍专病数据集”“儿童脑肿瘤专病数据集”,以及“呼吸道病原体靶向测序数据集”“宫颈癌筛查数据集”“过敏原监测数据集”“淋巴瘤综合诊断数据集”。其次是广州探迹科技有限公司、广州掌动智能科技有限公司,各有3个,主要包括“实体制造工厂数据集”“线下零售门店数据集”“产业招商楼宇数据集”,以及“数字化系统故障诊断数据集”“数字化系统性能预测数据集”“数字化系统测试用例数据集”,广州12345政府服务热线受理中心也提供2个数据集,即“政务热线智能语音导航普通话数据集”“政务热线智能语音导航粤语数据集”。
这些数据集的应用场景比较广泛,既有针对就业、教育、政务、语音交互等专业服务,也有用于产业布局、技术创新、药物研发、风险预警、物流配送等方面。例如,“儿童脑肿瘤专病数据集”可助力基层医院优化脑肿瘤分诊及术后进展监测、药企加速靶向药临床试验、科研机构挖掘肿瘤标志物、AI企业开发智能诊断及预后模型,辅助精准医疗;“宫颈癌筛查数据集”用于宫颈癌早筛流程优化、疫苗评估及药物研发;“区域、行业、产业用电高质量数据集”用于区域经济运行监测、产业布局分析、商业选址决策等。
16家企业数据集供需对接签约
高质量数据集是城市可信数据空间的“血液”,其质量高低直接影响数据空间的可信性、实用性和创新性,在促进人工智能、机器人技术创新方面扮演“核心燃料”的角色。
在当天活动上,广州掌动智能科技有限公司、广东电网有限责任公司广州供电局、广州金域医学检验集团股份有限公司、广州奥凯信息咨询有限公司等16家企业进行高质量数据集供需对接“意向签”,快速实现数据集在人工智能大模型各行业领域的应用价值。
谈及当下用于人工智能的高质量数据集建设,广州云蝶科技有限公司副总裁罗崇键在接受南都采访时表示,云蝶科技作为数据需求方,南方医科大学珠江医院作为数据提供方,通过合作共同打造坚实可靠的医疗可信数据空间。主要应用在三方面,一是作为科研助手,帮助医生提升科研效率。二是支持医学领域的教学教研活动,例如利用大模型工具开发出具有智能个性化的医学系统和教学系统,提升教学质量和教学效率。三是进一步辅助医生进行疾病诊断诊疗,比如AI可以快速分析病症数据、身体检查数据等,并给出相应建议,使医疗服务更精准更高效。他表示,过往企业想获取医疗等专业领域数据存在一定困难,而这次和医疗机构合作,可以帮助企业降低成本和数据风险,获得专业的高质量数据集,“对我们企业来说就是用的放心”。
在4月1日《广东省推动人工智能与机器人产业创新发展若干政策措施》新闻发布会上,广东省政务服务和数据管理局党组成员魏文涛提到,为将广东打造成高质量数据集资源高地,支撑人工智能和机器人产业创新发展与生态繁荣,将从“深化数据空间建设,构建行业数据资源库”“征集优质数据案例,赋能行业智能应用”“加强政产学研合作,强化核心技术研发”“完善数据交易机制,保障数据有序流通”等方面推动全省高质量数据集建设。
广州市政务服务和数据管理局有关负责人表示,在城市数智化转型过程中,建设城市可信数据空间与构建高质量数据集相辅相成,广州通过双轮驱动形成“双向赋能”正循环,同步推动城市可信数据空间与高质量数据集建设,以应用场景为导向,推动高质量数据集与实际业务深度融合,为城市可信数据空间建设、人工智能大模型训练及应用场景落地提供坚实有力的“资源”保障。
采写:南都记者 袁炯贤 麦洁莹 通讯员 穗政数宣