ARPAsing

Página principal Preguntas frecuentes Recursos

Escritura de reclists Creación de bancos de voz Uso (con Assistant) Uso (sin Assistant) Cuadro de fonemas VCCV a ARPAsing

Directorios

Reclists Comisiones de OTO Bancos de voz UST de prueba UST de covers UST originales

Acerca del sitio Contacto

Tutorial de creación de bancos de voz

Este tutorial cubre tanto la grabación como la configuración de OTO.

Si bien puedes usar lo que quieras para grabar, te será mucho más fácil usar OREMO. Si actualmente no estás familiarizado/a con su uso, ve esto como una oportunidad para aprender. Si planeas procesar las muestras, deberás hacerlo después de grabar.
Descarga oficial: OSDN
Port para macOS: UTAForum
Version nativa traducida al inglés para Mac: UTAForum
(Recomiendo usar la versión port, porque la versión nativa para mac no tiene la caja de comentarios).

Para comenzar, descarga la última reclist por defecto de la página de reclists. Puedes escoger entre la versión con o sin el index. Si no usas OREMO, la versión sin index va a ser mucho más fácil de leer.

Si estás usando la lista con index:

Si estás usando la lista sin el index:

Crea una carpeta para tu banco de voz y copia y pega OREMO-comment.txt (e index.csv en caso de haberlo) en tu nueva carpeta. En OREMO, abre la reclist. Establece como carpeta de destino tu nueva carpeta.

Puedes grabar con o sin guideBGM. Si quieres usar guideBGM, recomiendo usar una corta hecha para reclists CVVC, como las BGM CVVChinese o las BGM VCCV English.

El archivo de comentario te dirá cómo pronunciar aproximadamente usando palabras, y precisamente usando fonemas arpabet. Este artículo corto te explicará cómo leer y pronunciar el arpabet. ¡Es bastante simple! Si ya estás familiarizado/a con otro sistema fonético como el sistema de PaintedCZ o X-SAMPA, consulta el cuadro en esta página.
Aparte de las líneas para vocales, cada línea tiene solo 1 tipo de vocal. Las tres sílabas rimarán.

A pesar de que usamos (casi) las mismas letras, el inglés posee más fonemas que el español y tiene reglas de pronunciación muy distintas a las nuestras, por lo que es común para los hablantes de español ver una palabra escrita en inglés, hacerse una idea de cómo leerla pero en realidad tiene una pronunciación que jamás habríamos pensando (sobre todo las vocales, pero también suele suceder que existan consonantes con distintas pronunciaciones o incluso que sean mudas). En el cuadro de fonemas he tratado de mostrar cómo entender los sonidos del inglés desde el español, pero mientras más referencias se pueda tener, mejor. Otro punto a considerar es que normalmente al hablar tanto en español como en inglés se suelen simplificar u omitir pronunciaciones para hacer más rápida la comunicación, al momento de grabar un banco de voz se debe intentar pronunciar cada fonema indicado de manera clara para tener una buena configuración y que se puedan escuchar bien en el programa.
En resumen, lo que recomiendo es aprender bien el sonido de cada fonema para poder distinguirlos entre sí lo mejor posible y pronunciarlos de manera estable durante toda la grabación. También considero más fácil guiarse por los fonemas como si cada uno fuera una letra distinta que por las palabras del archivo de comentario, ya que como indiqué anteriormente, en inglés las letras no se leen siempre de la misma manera, si es que se pronuncian del todo.

Canta las 3 sílabas de forma consecutiva, como si estuvieras grabando VCV. Si en algún punto hay una “q” en los fonemas (o un apóstrofe en las palabras) significa una pequeña pausa/silencio (glottal stop/parada glotal).
Como referencia, puedes descargar bancos de voz existentes desde el directorio de bancos de voz.

PARA TONOS MÚLTIPLES: La carpeta principal del banco de voz debe contener un tono que no tenga ningún sufijo. Todos los otros tonos deben estar dispuestos en subcarpetas. Cuando grabes, no agregues sufijos a los nombres de los archivos, o Moresampler no podrá leer el index.csv al configurar el OTO.
PARA MUESTRAS EXTRA: Cualquier muestra extra que no sea estándar en ARPAsing debe estar en una subcarpeta, ya que deben tener un archivo oto.ini separado. Esto permite que el ARPAsing Assistant lea correctamente el oto.ini principal que posee solo entradas de OTO ARPAsing estándar.



Onto OTOing! Simply drag and drop the folder onto moresampler.exe to do so.
Enter 3 to choose ARPAsing. When prompted on renaming duplicates, enter y or yes. Whenever there are multiple of the same diphone, such as [s t], this will add a numeric suffix to the end of additional copies. This serves to distinguish each one from the other, as they may sound different based on the context of nearby phonemes in the string. You can also choose whether or not to include a suffix. It’s not possible to use characters such as arrows or kanji, so you will have to use suffixes such as “S” or “A#3”. (If you want to use special characters, use a placeholder now, then open the oto.ini file and Find+Replace the placeholder with the suffix you actually want to use.)

If you are using Mac or Linux, you will have to use wine to run Moresampler. Open terminal in the folder that moresampler.exe is in, and type “wine moresampler.exe /path/to/voicebank”. If you’re unable to do this, transfer your files to a windows computer, or ask a friend with Windows for help to generate it.

Now that your base OTO is generated, it’s time to refine it. Every entry of the OTO is a diphone, meaning that there are only two phonemes or two sounds. In general, the first one is a connector to the previous note, while the second one is the main phoneme for the current note. To OTO, first find the section corresponding to the first phoneme, then find the section for the second phoneme.

Primer Fonema

Esto cubre el offset azul y el overlap.

[-]
La cantidad de overlap no importa realmente para este, porque estas notas siempre vienen al inicio de una frase, justo después de un descanso. Lo único importante es que cubra un área de silencio.
oto diagram, phoneme 1 silence

[c]
Oclusivas sordas (p t k)
Si este es el primer fonema en la línea, mueve el offset de manera que el overlap termine aproximadamente 15ms antes de la consonante.
Si hay otros fonemas antes que este, mueve el offset hasta donde terminó el anterior. Asegúrate de no poder escuchar el anterior. Pon el overlap aproximadamente 15ms antes de la consonante.
oto diagram, phoneme 1 unvoiced plosive

Oclusivas sonoras y africadas (b d g ch jh)
Si este es el primer fonema en la línea, mueve el offset de manera que el overlap termine donde la consonante empieza.
Si hay otros fonemas antes que este, mueve el offset hasta donde terminó el anterior. Asegúrate de no poder escuchar el anterior. Pon el overlap donde la consonante empieza.
oto diagram, phoneme 1 voiced plosive

Fricativas, nasales, y líquidas (f v th dh s z sh zh hh m n ng l r)
Mueve el offset hasta donde empieza la consonante. Para ‘r’ en particular, puede que quieras consultar la sección de glides como ayuda.
oto diagram, phoneme 1 sustained consonant

Glides (y w)
Estas consonantes pueden ser difíciles de ver en una forma de onda normal. Haciendo clic en el botón [s], puedes cambiar a la vista de espectrograma, la cual te da otra forma de visualizar el audio. Las zonas claras son las frecuencias más fuertes. Estas consonantes aparecen como un cambio en las frecuencias con el tiempo.
Mueve el offset hasta donde comienza la consonante, después por el overlap donde sea consistente antes del cambio. La preutterance quedará después del cambio.
oto diagram, phoneme 1 y
oto diagram, phoneme 1 w

[v]
Por defecto, el overlap de estas muestras debería ser bastante amplio. Si es absurdamente pequeño, sería bueno moverlo hasta alrededor de los 50ms.
Mueve el offset inicial para que el área entre este y el overlap esté a un nivel consistente.
oto diagram, phoneme 1 vowel

Para diptongos, el overlap debería cubrir el área antes que la vocal cambie.
oto diagram, phoneme 1 diphthong

Segundo Fonema

Para todos los casos, la preutterance debería ubicarse donde termina el primer fonema y comienza el segundo fonema. Esto también cubre el área rosada, el área blanca y el cutoff azul.

[c]
Terminaciones (p b t d k g ch jh)
Debería haber un pequeño trozo de silencio o casi silencio justo antes de la consonante. Mueve el rosado donde comienza el silencio y el cutoff hasta donde el silencio termina. Sí, no estamos incluyendo a la consonante misma. Esto es porque, en un UST, esta nota debería ser continuada por otra nota que SÍ tenga la consonante. Esto permite una transición fluida sin un sonido extraño de doble consonante.
oto diagram, phoneme 2 stop consonant

Fricativas (f v th dh s z sh zh hh)
Cubre la consonante entera con rosado hasta justo antes del final. LLeva el cutoff hasta el mismo lugar, dejando un pequeño espacio. Sin este espacio, los resamplers no serían capaces de renderizarlo. Sin embargo, no queremos que estas consonantes se estiren.
oto diagram, phoneme 2 fricative consonant

Si hay silencio después de la consonante, deja el área blanca como silencio.
oto diagram, phoneme 2 fricative consonant with silence

Nasales, líquidas y glides (m n ng l r y w)
Mueve el rosado hasta donde la consonante empieza a ser estable y consistente. Usa el cutoff para remover donde la consonante termina o se apaga. Estas consonantes pueden estirarse.
oto diagram, phoneme 2 sustained consonant

[v]
Mueve el rosado hasta donde la vocal empieza a ser estable y consistente. Usa el cutoff para remover donde la vocal se apaga. El área blanca será la parte sostenida de la nota, lo que asegura que sonará bien.
oto diagram, phoneme 2 vowel

Para dífonos vocal-vocal, pon la preutterance al final del cambio vocálico. oto diagram, phoneme 2 vowel

Para diptongos, pon el cutoff antes de que la vocal cambie.
oto diagram, phoneme 2 diphthong

[-]
Cubre todo con rosado, de manera que todo lo que esté blanco sea silencio.
oto diagram, phoneme 2 silence

Y así sin más, tu banco de voz ya está listo. Por favor envía cualquier banco publicado al directorio. Diviértete, ¡buena suerte!

ARPAsing

Página principal

Preguntas frecuentes

Recursos

Directorios

Acerca del sitio

Contacto