北京交通大学实验报告

课程名称:计算机语音技术
实验题目:语音工具使用
学号:21281280
姓名:柯劲帆
班级:物联网2101班
指导老师:朱维彬
报告日期:2023年10月22日
--- ## 目录 [TOC] --- # 1. 语图1 如下图所示。上方是波形图,中间是窄带语图,下方是基频变化曲线。 ![p1](p1.png) # 2. 语图2 如下图所示。上方是波形图,中间是宽带语图和基频变化曲线,下方是标注结果。 ![p2](p2.png) # 3. 标注说明 ## 3.1. “wo3”标注说明 ![wo](wo.png) `w`不构成一个单独的声母,而是与`o`结合为一个韵母。`wo3`发音过程中能量一直集中在低频成分。 ## 3.2. “jiao4”标注说明 ![jiao](jiao.png) `j`是塞擦音。`jiao4`发音出现了3个阶段: 1. `j`的闭塞阶段,没有高频成分,能量在低频成分; 2. `j`的擦音阶段,频率突变,高频成分增强,基频变化相对剧烈(以至于算法已经无法分析出基频); 3. `iao3`的发音阶段,能量集中在低频成分,基频变化相对平稳。 ## 3.3. “ke1”标注说明 ![ke](ke.png) `k`是送气塞音。`ke1`发音也经过3个阶段: 1. `k`的塞闭阶段,能量集中在低频区,没有高频成分,波形图几乎为一条直线; 2. `k`的爆发阶段,高频能量突增,能量剧烈上升,基频变化相对剧烈; 3. 送气阶段,也是`e1`的发音阶段,频谱突变,出现低频成分,之后基频逐渐减弱衰落。 ## 3.4. “jing4”标注说明 ![jing](jing.png) 又出现了塞擦音`j`。`jing4`发音也是3个阶段: 1. `j`的闭塞阶段,但是由于“ke1”和"jing4"两个字连读,这个阶段被跳过了; 2. `j`的擦音阶段,能量集中在高频成分,基频变化相对剧烈; 3. `ing4`的发音阶段,频谱出现低频成分,基频逐渐减弱。 ## 3.5. “fan1”标注说明 ![fan](fan.png) `f`是个清擦音。`fan1`发音主要有两个阶段: 1. `f`的清擦音阶段,频谱主要集中在高频成分,基频变化剧烈; 2. `an1`的发音阶段,频谱体现为进入较平稳的低频区,基频平稳。 # 4. 基频分析 ![pitch](pitch.png) 该图上的数字表示基频在该点的置信度。将散点连起来既是基频曲线。没有选中的点是基频计算算法计算出置信度较小的基频点,可以人工挑选以修改基频曲线。 通过Praat自动计算的基频曲线,基频分析如下: 1. `wo3`的基频总体下降,表现第3声的音调总体降低的趋势。 2. 在`wo3`和`jiao4`之间出现了高频噪声。 3. `jiao4`也是基频总体下降,表现第4声的音调总体降低的趋势。 4. `ke1`基频首先由高至低,这是因为塞音`k`存在一个爆发阶段,产生大量的高频成分;然后基频平稳,因为第1声的发音音调是平稳的。 5. `jing4`与`jiao4`相似,也是基频总体下降,表现第4声的音调总体降低的趋势。 6. `fan1`与`ke1`的基频相似,都是由于声母存在擦音阶段或爆破阶段导致一开始基频较高;然后发音声调为第1声导致后来基频趋于平稳。 总体来说,基频在100hz到200Hz之间。估计最高基频为210Hz,最低基频在100Hz,平均为170Hz。 使用Praat导出基频的最高、最低、平均值,如下: 最高基频: max pitch 最低基频: min pitch 平均基频: mean pitch 除了最高基频Praat预测有误差之外,Praat预测的最低基频和平均基频都与我的估计差别不大。