12月1日で愁歌は配布開始から10年を迎えました。
制作中のDiffsinger モデルをプロト版として配布します。
https://bowlroll.net/file/328011
パスは[ syk ]です。
配布動画はこちら
https://www.nicovideo.jp/watch/sm44383861
学習元となった歌唱DBは、3万ラベル程度・有声部100分程度です。
拗音などへの対策はしていないため、「にゃ」などが歌えない場合があります。
また、モデル制作にあたっての学習ステップ数がAcostic・Varienceともに1.4万程度です。
一般的には4万ステップ以上と聞いたことがあるので、かなり少ないです。
ピッチモデルは付属しておりません。
AI式でない一般的な歌声合成音声と同様に、ピッチ等の調整を行って歌わせてください。
【現在確認できている不具合のような挙動】
◇一部の歌詞が歌えない
→ノートの歌詞をローマ字にすると解決できる場合があります。
拗音(「にゃ」「いぇ」 など)の場合は歌えないことがほとんどです。
似たような発音のものは歌える場合もあります。(「にゃ」→「みゃ」)
あるいは、歌詞とノートを調整して、疑似的に歌わせることは可能かもしれません。
◇調声中に子音がなくなる・ロングトーンが途切れる
→ピッチを微調整し、生成結果を少しずつ変えていくと解決します。
目指す調声に影響が出ない程度にすこしずつずらしていると直ることが多いです。
下部の音素やビブラートを調整してもピッチを調整するほどの効果はありませんでした。
◇低音・高音が掠れる
→歌唱DBの収録音域の限界です。
現状確認している範囲では、人間の歌唱でも若干厳しい音域で起きていたため、
正式リリース版でも同様の可能性が高いです。
◇早口耐性が無い
→本モデルの仕様です。
(歌唱DB側で早口に対応すればあるいは…という話を聞いたことがありますが、
制作者自身早口耐性がないので恐らく対応できません。)
◇ブレス(息継ぎ)が無い・勝手に入る
→歌唱DBのベリングの際に、ブレスを個別に設定せず、休符ラベルにまとめているため、
このような挙動をします。
正式リリース版ではブレス記号に対応予定です。
現状は、Mixの際に別箇所で生成されたブレスを複製したり、不要分を削ったりしてお使いください。
◆調声したデータを、時間が経過してから再度歌わせると、
調声した当時と生成結果が全く異なるものになる可能性があります。
OpenUTAU側のDiffsinger関連機能のアップデートの影響を受けている可能性もあります。
調声を行う際はうまくできたと感じたその時点のwavを都度書きだすことをおすすめします。
おおよそこんな感じです。
個人的には、高音・低音での声の掠れ方はだいぶ好みの質感なのであまり気にしていません。
声質的にも、激しい曲はあまり歌うことがないと思っているので、早口耐性の無さも許容範囲と考えています。
歌えない音素・消える子音・途切れるロングトーン・ブレスの気まぐれさについては、
制作者自身なんとかならんかな、と思っています。
いずれ、歌唱DBの追加収録は今後も行っていく予定です。
もともと、ENUNU(NNSVS)を制作しようと思っての歌唱DBで、
Diffsinger モデルの制作は完全におまけでした。
しかし、想定以上にENUNU・NNSVSとの相性がよろしくないこと、
逆にDiffsingerの出音がかなり理想的であったことから、
現在はDiffsingerモデル制作の方に心が移ろいつつあります…。
いずれ、制作した歌唱DBは以降も拡張ができること、ラベリング規則に若干の違いこそあれ、
大本となる歌唱データは共用できるため、ENUNU(NNSVS)についても、
挑戦を続けたいと思っています。
コメント