用HTK来提取语音文件的mfcc特征
发布时间
阅读量:
阅读量
一 HTK简介
HTK(HMM Tools Kit)是一个剑桥大学开发的专门用于建立和处理HMM的实验工具包[1],主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等领域。HTK经过剑桥大学、Entropic公司及Microsoft公司的不断增强和改进,使其在语音识别领域处于世界领先水平,另外,HTK还是一套源代码开放的工具箱,其基于ANSI C的模块化设计方式可以方便地嵌入到用户系统中。
二 HTK的使用方法
HTK目录结构
htk是一个开源的软件,解压之后的目录如下:

除此之外

整个HTK采用了HMM作为其核心算法用于语音识别技术,在孤立词语音识别场景下通过不同隐式状态来刻画各个发音特征;针对连续语音识别系统,则构建了一个基于特定的语言架构的复合型HMM模型序列来进行信号分析;其中每个子系统均与相应的发音模式一一对应,并通过起始与终止状态实现各子系统的衔接连接;这些起始与终止状态没有对应的观测向量数据仅负责连接相邻的子系统以完成完整的信号处理流程。
上图旁边的 HTK 工具有一些相关的库都是 HTKLib 类型的应用程序资源或通用辅助文件。HTK 工具主要依赖于 HTKLib 文件夹下的各种库文件(例如 HMem 和 HSigP 等),通过它们来生成一些可执行程序。HSigP 库负责对信号进行加重处理、加窗操作以及快速傅里叶转换等运算。
HTK 工具的操作过程主要分布在以下几个关键阶段:
1.数据准备阶段;
2.模型训练阶段;
3.模式识别/结果测试阶段;
4.模型分析阶段。
如上图所示:

所有HTK命令行工具都各自负责执行各自独有的具体任务。入口点就是原始音频文件与其相关联的文字记录信息。
全部评论 (0)
还没有任何评论哟~
