编写录音表 制作声库 使用声库(使用ARPAsing Assistant) 使用声库(不使用ARPAsing Assistant) 音素表 将VCCV转换为ARPAsing
本教程包含录音和OTO原音设定两部分.
尽管您可以用任何软件录音, 但用OREMO最容易. 若您不会用它, 可以通过本教程进行学习. 若您打算进一步处理采样, 请在录制完成后进行.
官方下载(英语和日语): OSDN
macOS的Wine移植版: UTAForum
Mac原生版英译版: UTAForum
(更推荐Wine移植版, 因为Mac原生版没有注释框.)
首先, 下载最新的录音表. 含不含索引的版本都可以选择. 若您不使用OREMO, 不含索引的版本将更适合录制.
若您选择了含有索引的录音表:
若您选择了不含索引的录音表:
为您的声库新建一个文件夹, 将OREMO-comment.txt (可能还有index.csv) 粘贴到新建的文件夹中. 在OREMO打开录音表. 设定目标文件夹为您新建的文件夹.
您可以选择是否用guideBGM进行录制. 若您录制时使用guideBGM, 建议选择为较短的CVVC录音表设计的BGM, 例如中文CVVC的BGM或是英语VCCV的BGM.
注释文件将指导您如何用单词近似发音, 或用Arpabet音标准确发音. 这篇简短的文章将教您拼读Arpabet音标. 这实际上十分简单! 若您熟悉另一种音标(像PaintedCZ音标或X-SAMPA音标), 请参考此表格.
除元音行外, 每行都只有一种元音. 这三个音节都会押韵.
Arpabet音标同汉语拼音之间存在同名异音的情况. 因此, 不建议图快直接识读Arpabet音标, 以免受到汉语拼音的影响. 对于不熟悉英语音标的汉语母语者而言, 录制声库前可以尝试通过翻译软件朗读等方法辅助发音. 对有国际音标基础的汉语母语者而言, 录音前可以比对音素表练习发音. 音素表中虽然有中文类似发音, 但仅供参考使用, 不保证完全一致.
像录制VCV声库一样连续唱出这三个音节. 若在音标中的任何地方出现”q” (或是在单词中出现撇号” ‘ “) 则表示短暂的停顿 (声门停止).
您可参考已有声库.
多音阶声库: 声库根目录下必须包含一个无后缀的音阶. 其它音阶必须放在子文件夹中. 请不要在录制时向文件名中添加音高后缀, 否则Moresampler在自动生成OTO时会无法读取index.csv.
额外采样: 任何不在ARPAsing标准中的额外采样都必须放在子文件夹中, 并使其具有独立oto.ini文件. 以便ARPAsing Assistant采用标准的ARPAsing OTO条目来正确读取主文件夹中的oto.ini .
接下来是OTO原音设定! 只需拖动文件夹至moresampler.exe即可.
输入3以选择ARPAsing. 当询问您是否重命名重复项时, 输入 y 或者 yes. 若同一双音素组出现多次, 譬如 [s t], 重复项后将添加数字后缀, 以区分前后发音不同的采样, 它们之间听起来可能不同. 您可以决定是否添加后缀. 后缀不能使用汉字或箭头等其他字符, 所以您需要添加像”S” 或 “A#3”这样的后缀.
若您是Mac或Linux的用户, 您必须用wine来运行Moresampler. 在moresampler.exe的目录下打开终端, 输入”wine moresampler.exe /path/to/voicebank”. 若您无法完成这一步, 改在Windows中操作文件, 或请使用Windows的朋友帮忙生成它.
生成完基本的OTO设定, 是时候对其进行优化了. 每条OTO都只有两个音素. 通常来说, 第一个音素连接着前一个音符, 第二个音素则是主要音素. 原音设定时, 先设定第一个音素, 再设定第二个音素.
包含左边界(蓝色区)与Overlap.
[-]
Overlap的值实际上无关紧要, 因为这些音符总是出现在句首, 在休止符之后. 唯一要注意的是, 此处需保留一段无声区.
[c]
清爆破音 (p t k)
若它在录音开始, 请移动左边界, 保证Overlap在辅音开始前约15毫秒处.
若它前面还有发音, 请将左边界移至上一音素结束处, 确保听不到前一个发声. 将Overlap放在辅音开始前约15毫秒处.
浊爆破音和塞擦音 (b d g ch jh)
若它在录音开始, 请移动左边界, 保证Overlap在辅音开始处.
若它前面还有发音, 请将左边界移至上一音素结束处, 确保听不到前一个发声. 将Overlap放在辅音开始处
擦音, 鼻音和流音 (f v th dh s z sh zh hh m n ng l r)
将左边界放在辅音开始处. 尤其对于’r’, 可能需要参考半元音部分.
半元音 (y w)
这些辅音很难在波形上看到. 点击[s]按钮切换至频谱视图, 这是另一种音频可视化形式. 越亮的区域代表越响的频率. 这些辅音表现为频率随时间的变化.
将左边界放在辅音开始处, 再将Overlap移至更改前的位置. 先行发声将被同时更改.
[v]
一般情况下, Overlap的值应相当高. 若它小得离谱, 将其移动到大概50毫秒处.
移动左边界, 使其与Overlap处于一致水平.
对双元音而言, Overlap应覆盖元音变化前的位置.
一切情况下, 先行发声应放置在第一个音素结束, 第二个音素开始的位置. 包含固定范围(粉色), 拉伸区(白色)和右边界(蓝色).
[c]
塞音 (p b t d k g ch jh)
辅音前应有一小段无声或接近无声的区域. 将固定范围(粉色)放在无声区开始的地方, 将右边界放在无声区结尾的地方, 切掉整个辅音. 因为在UST中, 这个音符后面永远跟着含有这个辅音的音符. 这样可以产生平滑的过渡, 而不是尴尬的双辅音.
擦音 (f v th dh s z sh zh hh)
将固定范围(粉色)覆盖整个辅音, 直到辅音结束之前. 右边界也在同一位置, 但留下一条小小的缝隙. 若没有它, 重采样器将无法渲染. 但我们不希望这些辅音被拉伸.
若辅音后是无声区, 将无声区设为拉伸区(白色).
鼻音, 流音和半元音 (m n ng l r y w)
将固定范围(粉色)移动至辅音波形稳定处. 右边界切掉辅音结束或淡出的位置. 这些是可以被安全拉伸的辅音.
[v]
将固定范围(粉色)移动至元音波形稳定处. 右边界切掉元音淡出的位置. 确保拉伸区(白色)听起来不错.
对VV双音素而言, 将先行发声放在元音更改的末尾.
对双元音而言, 将右边界放在元音改变处之前.
[-]
一切都用固定范围(粉色)覆盖, 让拉伸区(白色)覆盖无声区.
这样, 您的声库就完成了. 请将您的声库添加到我们的列表中. 玩的开心, 祝您好运!