Tutoriel de création de librairie vocale

Ce tutoriel parle des enregistrements et de la configuration de l'OTO.

Bien que vous soyez libre de choisir n'importe quel logiciel pour enregistrer votre voix, il sera bien plus facile d'utiliser OREMO. Si vous n'êtes pas familier avec ce programme, voyez ce tutoriel comme une occasion d'apprendre à utiliser ce logiciel.
Téléchargement Officiel: OSDN
Wine wrapper pour macOS: UTAForum
Mac native+traduction anglaise: UTAForum
(Si vous êtes sur mac, nous recommendons d'utiliser le wine wrapper car la version mac native ne possède pas de boite commentaire.)

Si vous ne pouvez pas utiliser OREMO, vous pouvez vous référer au PDF dans le téléchargement d'ARPAsing sur le site de Kanru Hua. Faites défiler le PDF pour trouver le tableau de la liste d'enregistrement, renommez ensuite chaque fichiers avec son nombre correspondant.

Pour commencer, téléchargez la dernière liste d'enregistrement par défaut depuis la page des listes d'enregistrements.
Le dossier contient trois fichiers listes, un fichier commentaire OREMO et un fichier index.
La liste "core" va de 000 à 119, les "n gram" de 220 à 319 et les voyelles isolées de 320 à 334.
Le fichier de commentaire OREMO vous permet de voir les phonèmes ou mots qui correspondent à chaque chiffres.
Le fichier index est une référence pour quand moresampler génèrera l'OTO.
Si vous utilisez une reclist autre que la reclist par défaut, il y aura toujours les listes, l'index et le commentaire OREMO.

Créez un dossier pour votre librairie vocale et copié-collé le fichier index.csv ainsi que le fichier OREMO-comment.txt dans votre dossier. Dans OREMO, ouvrez la liste "core". (Quand vous aurez finis cette liste, changer pour la liste des n gram puis celle des voyelles.) Veillez à bien la destination des enregistrements dans le dossier de votre nouvelle librairie vocale.

Vous pouvez enregistrer avec ou sans guideBGM. Si vous voulez utiliser une guideBGM, nous recommandons d'utiliser une faite pour les listes CVVC. La CVVChinese BGM ou la VCCV English BGM sont de bons choix.

The comment file will tell you how to pronounce it approximately using words, and precisely using arpabet phonemes. Cet article va vous expliquer comment lire et prononcé l'arpabet.
À pars les suites de voyelles, chaque suites de phonème possède un type de voyelle. Les trois syllabes rimerons.

Chantez les trois syllabes consécutivement, comme si vous enregistrez en VCV. S'il y a un "q" dans la phonétique (ou une apostrophe dans le mot) cela veut dire que vous devez faire une courte pause. Pour vous aider, vous pouvez télécharger une librairie vocal depuis le répertoire des librairies vocales.

POUR LES MULTIPITCH: Pour les librairies vocales multipitch: Il doit y avoir un pitch avec un OTO sans suffixes dans le dossier principal de votre librairie. Tous les autres pitch avec suffixes doivent être dans leur propre sous-dossier. N'ajoutez pas de suffix au nom des fichiers, l'index.csv serait incompatible.

Penchons-nous sur l'OTO ! Pour que moresampler effectue la configuration de la librairie vocale, glisser déposer votre dossier sur moresampler.exe.
Une fois la fenêtre ouverte, appuyez sur trois pour sélectionner ARPAsing. Répondez "y" ou "yes" lorsque le programme vous demande qi il doit renommer les doublons. Vous pourrez aussi choisir d'inclure un suffixe dans votre OTO. Sachez cependant qu'il n'est pas possible d'utiliser des kanjis ou des signes tels que des flèches.

Si vous êtes sur Mac ou Linux, devrez utiliser wine pour executer Moresampler. Ouvrez le terminal dans le dossier ou moresampler.exe se situe et écrivez "wine moresampler.exe /path/to/voicebank". Si vous ne pouvez pas effectuer cette action, transféré vos fichiers sur un ordinateur window ou demander à un ami avec un ordinateur window de générer les fichiers.

Maintenant que votre OTO de base est généré, il faut l'ajuster. Chaque entrées de l'OTO est un diphone, il y a que deux phonèmes ou deux sons. En général, le premier son connecte la note à la précédente alors que le deuxième son est la note en elle-même. Pour configurer votre OTO, trouvez tout d'abord la section qui correspond au premier phonème puis la section qui correspond au second phonème.

Premier phonème

[-]
La quantité d’overlap n’a pas d’importance pour celui-ci car ces notes viennent toujours au début d’une phrase, après un rest. La seule chose importante est qu’il doit y avoir une zone de silence.

[c]
Consonnes non voisée (p t k)
Si ceci est le premier phonème de l’enregistrement, déplacez l’offset de façon à ce que l’overlap soit à 15msec de la consonne. S’il y a d’autres phonèmes avant celui-ci, déplacez l’offset là où le précédent se terminait. Assurez-vous de ne pas entendre le précédent. Placez l’overlap à 15msec de la consonne.

Consonnes voisées et fricatives (b d g ch jh)
Si ceci est le premier phonème de l’enregistrement, déplacez l’offset de façon à ce que l’overlap soit là où la consonne commence. S’il y a d’autre phonème avant celui-ci, déplacez l’offset là où le précédent se terminait. Assurez-vous de ne pas entendre le précédent. Déplacez l’overlap là où la consonne commence.

Fricatives, nasales et liquides (f v th dh s z sh zh hh m n ng l r)
Déplacez l’offset là où la consonne commence. Vous devriez avoir recours à la section sur les semi-voyelles pour le “r” en particulier.

Semi-voyelles (y w)
Ces consonnes peuvent être difficile à voir sur une sonore. En appuyant sur le bouton [s], vous pouvez enclencher le spectrogramme. Les zones les plus claires sont les fréquences les plus fortes. Les semi-voyelles se caractérisent par un changement de fréquence. Déplacer l’offset là où la consonne commence puis placer l’overlap là où la fréquence est consistante avant le changement. La pre-utterance va se placer après le changement.

[v]
La quantité d’overlap pour ces enregistrements doit être suffisamment haute par défaut. Si elle est basse, la déplacer de 50msec doit faire l’affaire.
Déplacez l’offset initial pour que la zone entre ce dernier et l’overlap soit à un niveau consistent.

Second Phonème

Dans tous les cas, la pre-utterance doit être placée là où le premier phonème se termine et ou le second phonème commence.
[c]
Stops (p b t d k g ch jh)
Il devrait avoir un morceau de silence juste avant la consonne. Déplacez le rose là où le silence commence et déplacez le cutoff là où le silence se termine. La consonne en elle-même n’est pas incluse car dans une UST, cette note est suivie d’une autre notre qui possède une consonne.

Fricatives (f v th dh s z sh zh hh)
Couvrez toute la consonne avec du rose et arrêtez-vous avant la fin de la consonne. Déplacez le cutoff au même endroit en laissant un petit espace entre les deux. Sans cet espace, les resamplers ne pourront pas synthétiser l’enregistrement.

Si il y a du silence après la consonne, laisser la zone blanche en tant que silence.

Nasales, liquides et semi-voyelles (m n ng l r y w)
Déplacez la zone rose là où la consonne commence à être stable et consistante. Utilisez le cutoff pour couper l’effacement de la consonne. Ces consonnes peuvent être étirées.

[v]
Déplacez la zone rose là où la voyelle commence à être stable et consistante. Utilisez le cutoff pour enlever l’effacement de la voyelle.

[-]
Couvrez tout avec du rose. La zone blanche doit être composée que de silence.

Votre librairie vocale est déjà terminé. Si vous avez besoin de dessins pour votre librairie, Partial en offre gratuitement sur ce sujet. Veuillez soumettre vos librairies complètes dans le répertoire adapté. Amusez-vous bien et bonne chance !