概要

話者識別サービス

入力された音声の話者を識別するサービスです。

事前に音声を学習させた話者が所属する話者グループの中から、与えられた音声の話者を特定します。あるいは話者グループの中で誰の発話でもないことを検知します。数秒程度の入力音声から、高い精度で話者を識別することができます。学習させる音声、および識別する音声はどのような発話内容でもよく、学習時・識別時の発話内容が同一である必要もありません。このサービスを利用して、人間同士の会話の録音の中である発話が誰によるものであるかを識別したり、音声対話システムのユーザーが誰であるかを識別できます。

概念の理解

識別の母集団となる話者のグループを「話者グループ」と呼びます。話者識別サービスを利用するためには、事前に話者グループを作成し、グループに属する全員の音声を登録、学習させておく必要があります。話者グループは複数作ることができます。話者と話者グループの関係は N:N です。すなわち、ある話者を複数の話者グループに所属させることができます。
任意の話者について、複数の発話を登録することができます。発話を学習するには、1件以上の音声データを登録してから学習処理を実行してください。すでに発話が登録、学習されている話者についても、追加で音声を登録し学習処理を実行できます。ある話者を識別の対象とするかどうかは、設定が可能です。ただし発話が学習されてない話者は、話者グループに所属している状態であっても、識別の対象にはなりません。

話者識別を実行する際には、話者グループを指定します。話者識別APIは、入力された音声が指定された話者グループのなかで誰であるか、あるいは誰でもないかを識別し、その結果を返します。

Updated 26 days ago


概要


話者識別サービス

Suggested Edits are limited on API Reference Pages

You can only suggest edits to Markdown body content, but not to the API spec.