Deep Learning of & by & for the REALLY Native: Open JTalk のコマンドのパラメータ

何も知らないので、正確性が何もない

パラメータ	初期値	範囲	正確でない説明
-s	auto	1 ~	サンプリング周波数
-p	auto	1 ~	フレーム周期、分析をする時間間隔
-a	auto	0 ~ 1	オールパス値、位相だけをバラつかせることで音が自然になるらしい
-b	0	0 ~ 1	ポストフィルタ値、統計モデルによる平滑化による音質劣化を緩和するらしい
-r	1	0 ~	話す速さ
-fm	1	0 ~	追加ハーフトーン
-u	0.5	0 ~ 1	有声/無声境界値
-jm	0	0 ~ 1	スペクトラム系列内変動の重み、統計モデルによる平滑化で失われる特徴量を考慮した音声合成をする時の重み
-jf	0	0 ~ 1	F0系列内変動の重み、F0は基本周波数のことらしい、F0に対して特徴量を考慮して音声合成する時の重み
-z	0	0 ~	音声バッファサイズ

結論

以上のような理解のまま、パラメータを変えまくって試してみた。

オールパス値は、低いとピーッという音に、高いとザーッという音になる
ポストフィルタ値を大きくすると、音が揺らぐ感じ
追加ハーフトーンも、音が揺らぐ感じ
有声/無声音は、大きくすると息がすぐに切れる
変動の重みが大きいとクリアな音声になる。大きすぎると乱れた感じになる。

このパラメータとは関係がないけど、たぶん辞書にある日本語の単語が続くほうが上手く分解して読んでくれるみたい。

結果、速度と声の明瞭さを少し下げて使うことにした。
>open_jtalk -x C:\open_jtalk\dic -m C:\open_jtalk\voice\mei_normal.htsvoice -s 48000 -p 240 -b 0.1 -a 0.55 -r 0.75 -fm 0 -u 0.2 -jm 0.5 -jf 0.5 -z 8000 -ow 1740.wav 1740.txt

Deep Learning of & by & for the REALLY Native

2014/08/19

Open JTalk のコマンドのパラメータ

結論

No comments:

Post a Comment

Links

Archive