話者識別の精度を上げる方法

話者識別の精度が低い場合には、以下のポイントを見直すことにより精度が向上する可能性があります。

録音機材

学習時と識別時で、できるだけ同じ録音機材(マイクなど)を利用してください。また録音環境(部屋など)もできるだけ揃えてください。ただし識別時に背景雑音が避けられない場合でも、学習させる音声はできるだけ静音下で録音してください。無響室など特別な環境を準備する必要はありません。

雑音

学習時と識別時ともに、できるだけ対象となる話者の発話以外の雑音が入らないように注意してください。特に他人の声・音楽などが音声に混じると、精度劣化の原因になります。識別時には背景雑音が避けられないユースケースも想定されますが、学習時には可能な限り背景雑音が入らないことが望ましいです。また対象話者が発する音であっても、声以外(笑い声など)が混らないように注意してください。

典型的な雑音には以下のようなものがあります。

  • 他人の声、音楽、雑踏などの環境音、突発的な物音
  • ボフッ、ボフッというマイクに息がかかる音(ポップノイズ)
  • エアコンの音、換気扇の音、パソコンのファンの音
  • 笑い声、くしゃみ、咳、鼻をすする音
  • 録音機材の問題により発生する機械的な雑音、音声歪みや欠落

音量

十分に明瞭に発話が聞き取れる程度の音量が必要です。一方で音割れ、クリッピングも精度を劣化させる原因となります。マイクと発話者のあいだの距離、声の大きさ、録音時のマイクのゲインなどに注意してください。

学習音声

発話内容

学習用の音声には、あらかじめ準備された原稿(テキスト)を読み上げた音声が適しています。読み上げ用のテキストには、できるだけ日本語の音素がまんべんなく入っていることが望ましいです。このようなテキストを準備するためには、例えば JSUT のような既存の音素バランス文を利用するのが簡単な方法です。同一の話者が同じ文章を何度も読み上げることは避けて、できるだけ多様な文を読み上げる方が効果的です。
原稿通りに正しく読み上げることが目的ではありませんので、読み誤り・言い直しなどが入っていても構いません。ただし長い無音区間が混じったり、短い無音区間が頻繁に混じるような音声は適していません。
意図的に声色を変える必要はありません。できるだけ自然に話した発話を使用してください。

発話長

1 発話(息継ぎ、休止、無音区間などを挟まない連続した有音区間)ごとに録音することが望ましいです。約 5 秒〜 10 秒程度の長さの発話が学習音声として効果的です。既に長い録音ファイルがある場合には、無音区間を区切りとして有音区間のみを含む短い音声ファイルに分割してください。いずれの場合も、各発話中には長い無音区間ができるだけ含まれないように注意してください。
1 人の話者について合計で(無音区間は除いて)約 1 〜 2 分以上の音声を学習させることが望ましいです。