HTK工具箱的安装和使用(WAV到MFCC)

HTK工具箱的安装:

Step 1

下载 HTK 和 HTK – samples 两个压缩文件,保存至F盘根目录下。

下载地址:http://htk.eng.cam.ac.uk/download.shtml(注:HTK官方网站需要先注册,才能下载

我下载的版本:3.4.1

HTK工具箱的安装和使用(WAV到MFCC)

Step 2

安装Visual Studio软件

我安装的是VS2012

Step 3

 

开始编译:

1)  打开DOS窗口

点击开始——在搜索框里输入“运行”——点击运行,输入cmd,回车

2)进入到解压后的HTK-3.4.1文件夹下的htk文件夹中

HTK工具箱的安装和使用(WAV到MFCC)

3)  在本目录下创建一个名为bin.win32的文件夹

HTK工具箱的安装和使用(WAV到MFCC)

这个文件夹是用来存放htk生成的各个exe程序的。

4) 运行VCVARS32

找到VS安装目录下VC的子目录下的bin文件夹,我的是在

C:\Program Files\Microsoft Visual Studio 11.0\VC\bin

将该路径添加到path变量中

在cmd中输入:path=%path%;C:\Program Files\Microsoft Visual Studio 11.0\VC\bin即可(注意不要加入不必要的空格),添加完成后继续输入path,看看有没有添加成功(末尾是否有刚添加的路径),如果添加成功,输入VCVARS32

HTK工具箱的安装和使用(WAV到MFCC)

若出现下图,表示运行成功。

HTK工具箱的安装和使用(WAV到MFCC)

若出现问题如下:

HTK工具箱的安装和使用(WAV到MFCC)

解决方法:关闭窗口,重新从1)再执行一遍。直到运行成功。

5) 编译HTKLib

进入到HTKLib目录:cd HTKLib,在命令行里输入nmake/f htk_htklib_nt.mkf all进行编译

输入后,DOS窗口会出现如下情况(截取其中部分):

HTK工具箱的安装和使用(WAV到MFCC)

这是在编译的过程,一段时间后,编译成功,如下图所示:

HTK工具箱的安装和使用(WAV到MFCC)

6)编译HTKTools

在命令行中输入cd..,表示返回上一层目录,再输入 cd HTKTools,进入HTKTools目录,输入nmake/f htk_htktools_nt.mkf all 编译该目录下的文件。

HTK工具箱的安装和使用(WAV到MFCC)

编译好之后会出现下图:

HTK工具箱的安装和使用(WAV到MFCC)

7)编译HLMLib

输入cd..,再输入cd HLMLib,进入HLMLib目录,输入:nmake/f htk_hlmlib_nt.mkf all编译该目录下的文件。

 

8)编译HLMTools

输入cd..,再输入cd HLMTools,进入HLMTools目录,输入:nmake/f htk_hlmtools_nt.mkf all编译该目录下的文件。

这时候我们已经编译完所有exe程序,我们打开bin.

win32文件夹看一下,如果如下图所示,则证明已经编译成功。

HTK工具箱的安装和使用(WAV到MFCC)

Step 5

测试编译生成的程序是否正确

1)  为了能在DOS命令行中使用我们编译生成的工具,要将生成的工具路径加入到path中。

在cmd中输入path=%path%;D:\HTK\HTK-3.4.1\htk\bin.win32回车,再输入path查看添加后的结果:

HTK工具箱的安装和使用(WAV到MFCC)

 

我们接下来输入HInit查看一下能否成功运行编译后的程序,如果如下图所示,则证明path已经被正确的添加进来了~

HTK工具箱的安装和使用(WAV到MFCC)

安装HTK结束~

HTK工具箱的使用(将WAV生成MFCC文件)

需要准备如下两个文件(再同一文件夹下新建两个txt文件,把文件内容写进去后,保存,再修改文件名即可):

HTK工具箱的安装和使用(WAV到MFCC)

其中:hcopy.conf文件是配置文件,将下列内容粘贴进去即可,有可以根据要求修改参数:

#

# Example of an acoustical analysis configuration file

#

SOURCEFORMAT = WAV               # Gives the format of the speech files

TARGETKIND = MFCC_0_D_A       # Identifier of the coefficients to use

 

# Unit = 0.1 micro-second :

WINDOWSIZE = 250000.0          # = 25 ms = length of a time frame

TARGETRATE = 100000.0          # = 10 ms = frame periodicity

 

NUMCEPS = 12               # Number of MFCC coeffs (here from c1 to c12)

USEHAMMING = T           # Use of Hamming function for windowing frames

PREEMCOEF = 0.97                # Pre-emphasis coefficient

NUMCHANS = 26                 # Number of filterbank channels

CEPLIFTER = 22                   # Length of cepstral liftering

ENORMALIZE = T

NATURALWRITEORDER = T

# The End

第二个文件是输入输出文件: hcopy.scp (标明语音文件的地址 和 对应输出 mfcc 文件的地址,提前建好一个mfcc文件夹)

hcopy.scp文件内容如下:

HTK工具箱的安装和使用(WAV到MFCC)

4、在DOS窗口利用 HCopy 文件进行 mfcc特征提取

命令:HCopy -A -D -C hcopy.conf -S hcopy.scp

截图如下:

HTK工具箱的安装和使用(WAV到MFCC)

此时mfcc文件夹里就有了特征文件,提取成功。

HTK工具箱的安装和使用(WAV到MFCC)

特别提醒:最好在同一个DOS窗口实现所有步骤,否则可能不成功。例如出现下列错误

HTK工具箱的安装和使用(WAV到MFCC)