为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 情感语音数据库说明文档

情感语音数据库说明文档

2017-12-01 2页 doc 34KB 5阅读

用户头像

is_633808

暂无简介

举报
情感语音数据库说明文档情感语音数据库说明文档 1)录音环境: 门 操作人员 窗帘 Sony 录音机 隔音墙 麦克风 发音人 2)语音数据库构成 本情感数据库共有50人的录音数据,其中25男生,25女生。每个发音者的数据均包含语音情感段落和语音情感命令两部分,情感分为中性、高兴、生气、恐惧和悲伤五种。 语音数据库 情感段落 情感命令 中 高 恐 悲 生 中 高 恐 悲 生 性 兴 惧 伤 气 性 兴 惧 伤 气 3)情感文本设计介绍 情感段落:为每种情感设计了相应情感的文本内容,每个发音人根据文本中的情感信息来表 达情感...
情感语音数据库说明文档
情感语音数据库说明文档 1)录音环境: 门 操作人员 窗帘 Sony 录音机 隔音墙 麦克风 发音人 2)语音数据库构成 本情感数据库共有50人的录音数据,其中25男生,25女生。每个发音者的数据均包含语音情感段落和语音情感命令两部分,情感分为中性、高兴、生气、恐惧和悲伤五种。 语音数据库 情感段落 情感命令 中 高 恐 悲 生 中 高 恐 悲 生 性 兴 惧 伤 气 性 兴 惧 伤 气 3)情感文本设计介绍 情感段落:为每种情感设计了相应情感的文本内容,每个发音人根据文本中的情感信息来 达情感语音。每个情感段落都要求覆盖全常用的声韵母基元。 语音命令:联系实际应用,命令覆盖问候、个人信息、肢体表扬、日常事务、机器人足球、 汽车驾驶和家电控制等七个方面,共200个单词,单词长度从单个字到6个字不 等(具体参见标注文件),这200词要求基本覆盖全常用的声韵母基元。录音时 要求发音者对于每个单词都要用不同的情感朗读一遍。 4)数据库存储结构 本语音数据库全部语音的采用率为16khz、单声道,精度为16-bit。具体的存储结构参见下 图。 文件夹‘emotion speech’中存放wave格式的数据文件,其中包含50个子文件夹,具体命名格式为:[F/M speaker_ID] 。例如:‘M001’表示包含第001号说话人(男性)的所有语音。其他文件夹类似。每个子文件夹下包含名为‘Paragraph’和‘Command’的下一级子文件夹。Paragraph 表示情感段落;Command 表示情感命令; “Paragraph”文件夹中所有的wave文件均以以下格式命名: [F/M speaker_ID H/N/A/F/S.wav] “Command”文件夹中所有的wave文件均以以下格式命名: [F/M speaker_ID H/N/A/F/S utterance_ID .wav] 其中F/M表示说话人性别,H/N/A/F/S表示情感类型,H为高兴(happy),N为自然(neutral),A为愤怒(anger),S为悲伤(sad),F为恐惧(fear)。语料文本请参看文件“标注文件.txt”。
/
本文档为【情感语音数据库说明文档】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索