声学特征(一) HTK抽取MFCC特征
发布时间
阅读量:
阅读量
一、相关命令
- HCopy 抽取特征
#config: 下面的参数配置文件#scp: 源文件和目的文件在一行HCopy -C config -S scp
-
HList
- 查看语音数据
- 查看转化是否正常
- 查看抽取的特征数据
二、参数配置
参数配置文件
SOURCEKIND = WAVEFORMSOURCEFORMAT = WAV SOURCERATE = 625 TARGETKIND = MFCC_D_A_E_ZTARGETRATE = 100000.0SAVECOMPRESSED = F SAVEWITHCRC = F WINDOWSIZE = 250000.0USEHAMMING = T PREEMCOEF = 0.97NUMCHANS = 26CEPLIFTER = 22NUMCEPS = 12ENORMALISE = T USEPOWER = F LOFREQ = 40HIFREQ = 7800
参数含义
- SOURCEKIND
- TARGETKIND
#特征种类0 WAVEFORM sampled waveform1 LPC linear prediction filter coefficients2 LPREFC linear prediction reflection coefficients3 LPCEPSTRA LPC cepstral coefficients4 LPDELCEP LPC cepstra plus delta coefficients5 IREFC LPC reflection coef in 16 bit integer format6 MFCC mel-frequency cepstral coefficients7 FBANK log mel-filter bank channel outputs8 MELSPEC linear mel-filter bank channel outputs9 USER user defined sample kind10 DISCRETE vector quantised data11 PLP PLP cepstral coefficients#后缀修饰_E 000100 has energy_N 000200 absolute energy suppressed_D 000400 has delta coefficients_A 001000 has acceleration coefficients_C 002000 is compressed_Z 004000 has zero mean static coef._K 010000 has CRC checksum_O 020000 has 0’th cepstral coef.
-
SOURCERATE
单位为100ns,16k对应625-
TARGETRATE
单位为100ns,10ms对应100000 -
WINDOWSIZE
单位为100ns,25ms对应250000 -
ZMEANSOURCE
去除信号的直流分量
-
-
PREEMCOEF
预加重信号的作用在于减少声带与嘴唇在发声时产生的影响。其加权系数为k,并且这种处理方法旨在消除由于发音系统对高频成分的抑制而引起的失真。同时能够突出高频区域中的共振峰特征。-
USEPOWER
fBank特征使用功率替换幅值 -
LOFREQ HIFREQ
默认的频率范围从0到奈奎斯特频率(采样频率的一半) -
NUMCHANS
fbank使用的滤波器组的个数 -
NUMCEPS
倒谱系数的个数,对fbank的输出做DCT以后保留的倒谱个数。 -
ENORMALISE
能量标准化,一帧的能量减去句子中的最大能量,然后加1。
-
全部评论 (0)
还没有任何评论哟~
