科技改变生活 · 科技引领未来

  • 首页
  • 资讯
  • 技术
  • 百科
  • 问答
  • 学习
  • 看看
  • 站长
  • 生活
  • 快讯

首页 > 资讯 > 快讯

数据堂开源1505小时中文普通话语音数据集

时间:2019-05-30 20:33 作者:金熙明

5月20日,数据堂推出AI数据开源计划,面向高校和学术机构等非商业组织群体,首次开源的数据集为:1505小时中文普通话语音数据集。

该数据集的录音内容,由6408名来自中国不同地区的录音人参与录制,有超过30万条口语化句子。句准确率达98%以上。

从评测效果来看,通过运行GMM-HMM混合模型和DNN-HMM混合模型,基于数据堂开源数据集【1505小时中文普通话语音数据集】的语音识别基准实验完成,其识别准确率如下所示:

aidatatang_1505zh(完整的1505小时中文普通话语音数据集)

Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)

注:

CER(Character Error Rate)指字识别错误率。

SER(Sentence Error Rate)指句识别错误率。

GMM-HMM指混合高斯模型-隐马尔科夫模型。

TDNN(Time-delay Neural Networks)指时延神经网络模型。

CHAIN(Chain model)是指链式模型。

基于1505小时中文普通话语音数据集,数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。

据了解,数据堂将持续提供面向学术研究领域开源不同领域、不同应用场景的AI数据集。

开源数据获取方式:数据获取请登录数据堂官方网站

相关话题

  • 青岛海边氛围感
  • 请宿主前往下一个世界
  • 定格毕业的夏天
  • 虞书欣凌妙妙造型
  • 江寻千表演非遗火壶
  • 中国驻韩大使赶赴火灾现场
  • 美国一黑人持枪指人警察将其击毙
  • 曹操出行三年累计亏损近70亿
  • 莫德里奇成欧洲杯最年长进球者
  • 又到了高校花式招生的时候了
  • 你愿意不要农村宅基地进城买房吗
  • 这是我的家乡
  • 中国对波兰实施15日单方面免签
  • 孕后期老公的精神状态
  • 何洁听尚雯婕唱歌哭了
  • 什么是高考屏蔽生
  • 当妈后才懂的事
  • 万物生粤语版翻唱
  • 克罗地亚1比1意大利
  • 上交所通报退市商城事件

热门推荐

  • 沈腾马丽回应互联网爸妈
  • 周深贵阳演唱会
  • 中国科学院资深院士张存浩逝世
  • 美俄两国防长通电话
  • TKL3比1DYG拿到第二轮首胜
  • 多地禁止一线教师暑假值班
  • 多部门驳斥美签署所谓涉藏法案
  • 裴文宣的爱都藏在行动里
  • 假如我在飞机上遇到明星
  • 官方:北部湾海域有四艘沉船
  • 曾舜晞:我弟是我偶像
  • 王玉雯带照片让张新成签名
  • 亚马尔17岁生日快乐
  • SNH48王奕周诗雨予你巡演成都站
  • 巧了你也穿了白色入境
  • 杰伦布朗官宣女友
  • 布朗尼三分8中0
  • 原来胡歌也不能笑着离开理发店
  • 银河系比想象中更大
  • 樊振东全红婵再同框

金熙明

关注
免责声明:本文章由会员“金熙明”发布,如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务 如因作品内容、版权和其他问题请于本站联系

关注排行榜

  1. 1沈腾马丽回应互联网爸妈
  2. 2周深贵阳演唱会
  3. 3中国科学院资深院士张存浩逝世
  4. 4美俄两国防长通电话
  5. 5TKL3比1DYG拿到第二轮首胜
  6. 6多地禁止一线教师暑假值班
  7. 7多部门驳斥美签署所谓涉藏法案
  8. 8裴文宣的爱都藏在行动里
  9. 9假如我在飞机上遇到明星
  10. 10官方:北部湾海域有四艘沉船

编辑精选

Copyright ©2009-2022 KeJiTian.Com, All Rights Reserved

版权所有 未经许可不得转载

增值电信业务经营许可证备案号:辽ICP备14006349号

网站介绍 商务合作 免责声明 - html - txt - xml