情感语音数据库说明文档情感语音数据库说明文档
1)录音环境:
门
操作人员
窗帘
Sony 录音机
隔音墙
麦克风 发音人
2)语音数据库构成
本情感数据库共有50人的录音数据,其中25男生,25女生。每个发音者的数据均包含语音情感段落和语音情感命令两部分,情感分为中性、高兴、生气、恐惧和悲伤五种。
语音数据库
情感段落 情感命令
中 高 恐 悲 生 中 高 恐 悲 生 性 兴 惧 伤 气 性 兴 惧 伤 气
3)情感文本设计介绍
情感段落:为每种情感设计了相应情感的文本内容,每个发音人根据文本中的情感信息来表
达情感...
情感语音数据库说明文档
1)录音环境:
门
操作人员
窗帘
Sony 录音机
隔音墙
麦克风 发音人
2)语音数据库构成
本情感数据库共有50人的录音数据,其中25男生,25女生。每个发音者的数据均包含语音情感段落和语音情感命令两部分,情感分为中性、高兴、生气、恐惧和悲伤五种。
语音数据库
情感段落 情感命令
中 高 恐 悲 生 中 高 恐 悲 生 性 兴 惧 伤 气 性 兴 惧 伤 气
3)情感文本
介绍
情感段落:为每种情感设计了相应情感的文本
,每个发音人根据文本中的情感信息来
达情感语音。每个情感段落都要求覆盖全常用的声韵母基元。
语音命令:联系实际应用,命令覆盖问候、个人信息、肢体表扬、日常事务、机器人足球、
汽车驾驶和家电控制等七个方面,共200个单词,单词长度从单个字到6个字不
等(具体参见标注文件),这200词要求基本覆盖全常用的声韵母基元。录音时
要求发音者对于每个单词都要用不同的情感朗读一遍。
4)数据库存储结构
本语音数据库全部语音的采用率为16khz、单声道,精度为16-bit。具体的存储结构参见下 图。
文件夹‘emotion speech’中存放wave格式的数据文件,其中包含50个子文件夹,具体命名格式为:[F/M speaker_ID] 。例如:‘M001’表示包含第001号说话人(男性)的所有语音。其他文件夹类似。每个子文件夹下包含名为‘Paragraph’和‘Command’的下一级子文件夹。Paragraph 表示情感段落;Command 表示情感命令;
“Paragraph”文件夹中所有的wave文件均以以下格式命名:
[F/M speaker_ID H/N/A/F/S.wav]
“Command”文件夹中所有的wave文件均以以下格式命名:
[F/M speaker_ID H/N/A/F/S utterance_ID .wav]
其中F/M表示说话人性别,H/N/A/F/S表示情感类型,H为高兴(happy),N为自然(neutral),A为愤怒(anger),S为悲伤(sad),F为恐惧(fear)。语料文本请参看文件“标注文件.txt”。
本文档为【情感语音数据库说明文档】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。