bilingual-ppg项目分支EnglishASR-hujiankun590-1019

说明

该版本EnglishASR指使用英文ASR的PPG做跨语言,由于效果明显中国人合成中文就有很明显的含糊,因此不再进行版本优化

  1. 将此版本作为历史版本,ckpt放在那里,不做迭代性改动,做减法。抱歉~
  2. 作为对比baseline打分mos
  3. 同步实验室和公司,作为第一个能出声的项目实验一下流程

Git地址:https://github.com/ruclion/bilingual-ppg/tree/EnglishASR-hujiankun590-1019

代码上下游修改锁在Git的readme中,也截个图吧

bilingual-ppg项目分支EnglishASR-hujiankun590-1019

Git和服务器

ppg_decode_spec_DataBakerCN

在服务器上,将 /datapool/home/hujk17/ppg_decode_spec_5ms_sch_DataBakerCN 移动到bilingual-ppg下面

  1. 不会cp并且排除ckpt,所以先mv ckpt dir到上一层,然后再拷贝(老方法,注意名字特殊点)
  2. 拷贝后更改.gitignore,status中不会看具体文件夹内部的,只能保证.ignore准确;回头问下
  3. git一系列操作到web上

bilingual-ppg项目分支EnglishASR-hujiankun590-1019

ppg_decode_spec_LJSpeech

和中文一样

wav_extract_ppg

从Git:https://github.com/ruclion/ppgs_extractor_5ms_lh

服务器:/datapool/home/hujk17/ppgs_extractor_5ms_lh

简化而来

目的是给一段wav文件,可以得到mfcc,ppg,mel,spec对

以两句话为例子:

inference_wavs_path_list.txt:

bilingual-ppg项目分支EnglishASR-hujiankun590-1019

0.wav

1.wav

 

  1. 简化声学特征提取:bilingual-ppg/wav_extract_ppg/Get_MFCC_SPEC_MEL_XXX_5ms.py
  2. 改正audio.py为我的,原来的audio.py加上old_1后缀
  3. 在路径bilingual-ppg/wav_extract_ppg下:python Get_MFCC_SPEC_MEL_XXX_5ms.py 
  4. 生成的东西也在bilingual-ppg下:bilingual-ppg/xxx_mfcc_5ms_by_audio_2(所有生成的东西都在大目录下)
  5. 同样修改wav_extract_ppg/generate_batch_XXX_5ms.py,生成bilingual-ppg/xxx_ppg_5ms_by_audio_2

bilingual-ppg项目分支EnglishASR-hujiankun590-1019

wav_extract_ppg + ppg_decode_spec_LJSpeech/ppg_decode_spec_DataBakerCN

  1. 修改ppg_decode_spec_LJSpeech/inference_cbhg_ljspeech.py,接着上一小节的输出,生成bilingual-ppg/xxx_rec_wavs_audio_2
  2. 修改ppg_decode_spec_DataBakerCN/inference_cbhg_DataBaker.py,接着上一小节的输出,生成bilingual-ppg/xxx_rec_wavs_audio_2

bilingual-ppg项目分支EnglishASR-hujiankun590-1019

同步到电脑:

  1. 画图的模块没有,同步注释掉了
  2.