mimi® SRS 概要

入力された音声の話者を識別するサービスです。

事前に音声を学習させた話者が所属する話者グループの中から、与えられた音声の話者を特定します。あるいは話者グループの中で誰の発話でもないことを検知します。数秒程度の入力音声から、高い精度で話者を識別することができます。学習させる音声、および識別する音声はどのような発話内容でもよく、学習時・識別時の発話内容が同一である必要もありません。このサービスを利用して、人間同士の会話の録音の中である発話が誰によるものであるかを識別したり、音声対話システムのユーザーが誰であるかを識別できます。

概念の理解

話者識別サービスは下図のように構成されています。

上の構成図の用語について説明します。

要素	説明
話者（speaker）	話者識別の対象
発話（speech）	話者が発話した学習用の音声データ
話者グループ（speaker group）	識別の母集団となるグループ

話者識別の概念について以下に説明します。

話者識別を実行する際には、「話者グループ」を指定します。話者識別 API は、入力された音声が指定された「話者グループ」に所属する「話者」のなかで誰であるか、あるいは誰でもないかを識別し、その結果を返します。

話者識別サービスを利用するためには、事前に「話者グループ」を作成し、「話者」をグループに所属させておく必要があります。「話者グループ」は複数作成することができ、「話者」は複数の「話者グループ」に所属することができます。「話者」作成のみでは、どの「話者グループ」にも所属していません。所属の操作（追加／削除）が必要です。

「話者」には１件以上の学習用の「発話」の登録、及び学習が必要になります。「発話」の学習を行っていない「話者」は、「話者グループ」に所属している状態であっても、識別の対象にはなりません。「発話」の追加登録／削除とその学習は、識別精度向上の目的で幾度も重ねて行うことができます。