mimi® EMO 概要

mimi EMO は、音声から話し手の感情を識別するサービスです。
このサービスは、話し手が発話を通じて意識的、あるいは無意識的に表出する感情を認識します。
現在対応している言語は、日本語のみです。

概念の理解

このサービスは入力音声の感情を認識し、以下の5クラスに分類します。
声質など音声の特徴のみから感情の認識を行うため、認識結果は語彙や文の意味などの言語的な情報に影響されません。
また、感情は発話単位で決まっていることを仮定しています。すなわち、発話の中で話し手の感情が切り替わることは想定されていません。

クラス名	ラベル	説明
喜び	happiness	⼼が踊る、肯定的で⾼揚した気分。例えば、思いがけない⼤きな幸運や素晴らしい体験、夢を叶えた・受賞したなどの⾃⼰実現、相⼿の喜びを分かち合う、笑い声。
悲しみ	sadness	⼼が沈みこむ、否定的で落ち込んだ気分。例えば、⼈や物を失った絶望感・喪失感、失敗や挫折による無⼒感・失望感、相⼿の悲しみを分かち合う、泣き声。
怒り	anger	⼼が爆発する、否定的で攻撃的な気分。例えば、相⼿の責任を追求し謝罪・補償を求める、強い⼝調での反論や抗議、相⼿の怒りに共感して⾃分も憤りを覚える。
嫌悪	disgust	本能的な不快感に基づく否定的な気分。例えば、不快・不潔・不気味なものを⾒た・聞いた、⾃分の趣味・嗜好に著しくそぐわない物事、吐き気を催す不快な状況。
平静	neutral	特に何の感情も持たない状態。例えば、感情的になった相⼿に落ち着くように促す、平穏無事であるという気持ちを伝える、プロフェッショナルとしての落ち着いた態度。

入力音声の作り方

入力音声は以下の条件を満たすようにしてください。これらの条件を満たしていない音声に対しては、得られた認識結果は正しくないか、無意味なものになります。

入力音声には、話し始めから終わりまでの発話全体を全て含めてください。ここで発話とは、連続した一連の音声区間を表します。
入力音声の冒頭、末尾、中間に長い無音区間（500ミリ秒程度以上）が挟まれていると正しく認識を行えない可能性が高くなります. クライアント側で発話区間検出（VAD）を実行してください。
発話が短い場合（1000ミリ秒程度以下）には認識精度が低下します。前後の発話区間とつなげて1つの入力音声としてください。

利用例

例えば以下のような用途にご活用いただけます。

人同士の会話の分析

文字起こしではわからない、人同士の会話における感情の変化を自動で認識できるようになります。

音声対話システムのための感情認識

言語情報には表出されていないユーザーの感情を認識したり、音声認識では発話正確に意図が読み取れない場合にユーザーの感情を認識することにより、その結果を元に対話システムの応答を決定できるようになります。
ユーザーの感情の表出を察することができるような音声対話システムの開発にご利用いただけます。