南开新闻网讯(通讯员 周家名)在智能语音技术领域,针对普通成年人的技术发展已相对成熟,但对于特殊人群,尤其是低幼儿童和超高龄老年人,语音技术仍面临巨大挑战。为了弥补这一研究空白,近日,在2025中关村论坛上,南开大学计算机学院人类语言技术实验室(HLT Lab)联合北京智源人工智能研究院正式发布并开源ChildMandarin和SeniorTalk两大语音数据集,分别面向3-5岁低幼儿童和75岁及以上的超高龄老年人。这两项数据集的发布,将为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展和在教育、医疗、生活、医疗等领域的应用提供宝贵资源,推动智能语音技术的进步。
ChildMandarin数据集聚焦于3-5岁儿童的中文对话语音,弥补了当前学龄前儿童语音数据的缺乏。该数据集涵盖全国22个省市的397名儿童,共41.25小时语音,采用家长引导式对话采集,确保数据的自然性和多样性。实验表明,该数据集在语音识别和说话人验证任务上表现良好,并揭示了年龄、性别等因素对儿童语音识别性能的影响。
SeniorTalk数据集是全球首个专门面向超高龄老年人的中文对话语料库,包含202位75岁及以上老人的55.53小时语音,覆盖全国16个省市。数据采集采用两两自由对话方式,涵盖退休、健康、生活等真实话题,并包含丰富的语音标注信息。实验分析显示,超高龄老人的语音存在发音虚弱、方言固化、语言组织能力下降等特征,这些数据将有助于优化老年人语音交互系统,推动适老化技术和智能养老产业发展。
该研究项目由2024级博士研究生周家名、2022级博士研究生王卉、2023级硕士研究生成陈杨领衔,联合实验室团队成员共同攻关。研究团队通过构建标准化的数据采集流程、开发多维度标注体系,成功攻克了特殊人群语音数据标注的技术瓶颈。两项数据集的发布,不仅填补了面向特殊群体的高质量语音数据空白,更为语音识别系统的适老化改造、儿童语言习得研究等关键领域提供了标准化基准。
研究团队表示,此次成果发布是践行技术普惠理念的重要实践。通过开放共享的高质量数据资源,期望推动学术界在儿童语音发展和老年人语言障碍等前沿方向取得突破,同时助力产业界开发更具包容性的语音交互解决方案,让人工智能技术真正服务于全年龄段人群的数字生活需求。
|