Praat使用 | 辅助Praat进行标注的工具
引言
无论是学术课题的研究或者是公司项目的进行,数据处理是必然的,对语音数据来说,通过Praat
标注仍然是很多学术团体或者公司使用较多的手段,包括语音识别和语音合成等。这些标注数据不仅是十几句的问题,以现在大数据的标准,你所面临的数据可能是上千,上万级别的。
问题提出
通过Praat
进行标注是很方便的,问题在于,Praat
不象是办公软件会有自动保存功能,如果你进行大量的数据标注,需要首先打开这个音频和标注文件:
其次,选择音频和标注文件,点击View&Edit
进行标注。
最后,还要记得把你的标注文件,进行保存。
每标一句,即使不算你进行标注的时间,恐怕打开,保存,也要消耗2-3秒吧。如果以这种方式进行上千,上万句的标注,这过程能让人崩溃。新版的Praat
支持一次性打开多个文件,这也是一种手段,就是你可以同时打开大概100句吧,这样每标完一句,保存,关掉。再进行窗口的下一句。
这里为大家提供一个辅助Praat
进行标注的工具,是用C#
写的。使用这个工具,设置好你的数据的目录之后,点击开始,可以自动读取文件使用Praat
标注,并且自动保存,不需要通过频繁打开,保存,进行操作。这将会大大节省标注时间。
小提示:如果你有条件使用两个笔记本+显示器两个屏幕,一个窗口放这个工具,另外一个窗口是打开的
Praat
进行标注,你的效率将会达到极致。
工具介绍
Praat.exe 这个是通用的标注工具,你可以任意换成现在的最新版Praat
(建议官网下载)。
sendpraat.exe 这个程序调用的一个接口程序,这也是Praat
官方网站提供的。
Praat标注辅助工具.exe 本程序。
数据说明
所有数据来自http://ocw.mit.edu/index.htm
工具下载
http://download.****.net/detail/shaopengfei/8386563
如果需要积分,下载完成之后,评论一下,积分就会被返还。
工具使用
标注
-
选择
TextGrid目录
以及Wav目录
:默认是和工具同在一个目录下的TextGrid以及wav目录
,两类文件可以放在同一目录下;目录中不能有中文和空格。 -
点击
“开始标注”
,文件的列表会显示在左下角的框内,同时显示TextGrid
和Wav
的文件数量; -
双击文件列表框内的文件名,就可以开始标注了;
-
在标注的过程中,使用
上一个
和下一个
在列表中自动跳转,跳转的同时会自动保存上一个打开标注的文件,同时这个文件以及其标注时间会保存在工具所在的目录下的modify.log
里; -
modify.log
里保存了所有的文件列表,并且修改过的文件会产生一个时间标志。 -
再次打开这个软件,点击
开始标注
时,即会首先读取modify.log
,定位到第一个没有标的文件上。 -
关闭这个软件,也会对刚刚打开的
TextGrid
进行保存。
查找
该工具也可以查找第一层的相关信息,具体使用如下:
1.在下面的框内输入需要搜索的文本,可以是一个,也可以是多个,多个之间需要用空格或者逗号隔开;
比如输入SIL
,会在你的数据目录里搜索出SIL
的所有位置,双击这些选项,将会根据显示的时间标记,直接定位到你标注的SIL
的位置。
2.可以选择精确查找
,这样只搜索相等的内容,默认是搜索相似的内容。
比如上例,如果精确查找SIL
是搜索不出来的,你需要输入<SIL>
,即要和标注文件里的内容完全相同。
3.结果显示在列表中,并且保存在findResult.log
里。
4.双击这些结果也可以定位到这个内容所在的位置。
关注微信公众号
语音处理小站