パラメータ | 初期値 | 範囲 | 正確でない説明 |
---|---|---|---|
-s | auto | 1 ~ | サンプリング周波数 |
-p | auto | 1 ~ | フレーム周期、分析をする時間間隔 |
-a | auto | 0 ~ 1 | オールパス値、位相だけをバラつかせることで音が自然になるらしい |
-b | 0 | 0 ~ 1 | ポストフィルタ値、統計モデルによる平滑化による音質劣化を緩和するらしい |
-r | 1 | 0 ~ | 話す速さ |
-fm | 1 | 0 ~ | 追加ハーフトーン |
-u | 0.5 | 0 ~ 1 | 有声/無声境界値 |
-jm | 0 | 0 ~ 1 | スペクトラム系列内変動の重み、統計モデルによる平滑化で失われる特徴量を考慮した音声合成をする時の重み |
-jf | 0 | 0 ~ 1 | F0系列内変動の重み、F0は基本周波数のことらしい、F0に対して特徴量を考慮して音声合成する時の重み |
-z | 0 | 0 ~ | 音声バッファサイズ |
結論
以上のような理解のまま、パラメータを変えまくって試してみた。オールパス値は、低いとピーッという音に、高いとザーッという音になる
ポストフィルタ値を大きくすると、音が揺らぐ感じ
追加ハーフトーンも、音が揺らぐ感じ
有声/無声音は、大きくすると息がすぐに切れる
変動の重み が大きいとクリアな音声になる。大きすぎると乱れた感じになる。
このパラメータとは関係がないけど、たぶん辞書にある日本語の単語が続くほうが上手く分解して読んでくれるみたい。
結果、速度と声の明瞭さを少し下げて使うことにした。
>open_jtalk -x C:\open_jtalk\dic -m C:\open_jtalk\voice\mei_normal.htsvoice -s 48000 -p 240 -b 0.1 -a 0.55 -r 0.75 -fm 0 -u 0.2 -jm 0.5 -jf 0.5 -z 8000 -ow 1740.wav 1740.txt
No comments:
Post a Comment
Note: Only a member of this blog may post a comment.