mimi® AIR 概要

音声のパラ言語（音声のイントネーションや声色）に込められた話し手の態度を識別するサービスです。

「態度」とは、話し手が発話の話し終わりで意識的に表出するメッセージのことを指します。
このサービスは、入力された音声を以下の４つの態度に分類します。

現在対応している言語は、日本語のみです。

概念の理解

このサービスで識別する4つの態度は以下のように定義されます。

クラス名	ラベル	話し手の心的状態	話し手が相手に期待する行動	典型的な話し方	句読点　※
肯定・平叙	agreement	賛成・満足・単に意見を述べている	そのまま続けてよい	下り調子のイントネーション	。
否定	disagreement	反対・不満足・想定外	一度止めてほしい	やや短い上がり調子のイントネーション、強めのネガティブな声色	!?
考え中	stalling	思索・悩み・戸惑い	いったん待ってほしい	語尾を引き伸ばした平坦なイントネーション	...
疑問	question	質問・聞き返し・事実確認	教えてほしい	上がり調子のイントネーション	？

※ その態度の発話を文字で表現するときに文末に付けられる句読点を表します。

パラ言語をもとに識別を行うため、言葉の意味は考慮しないことに注意してください。
例えば「私は賛成です。」と同じ調子（イントネーションや声色）で「私は反対です。」と発話した音声は、「肯定・平叙」に分類されます。

態度は、主に話し手の話し終わり付近のパラ言語に表れます。そのため、このサービスをご利用になる際は、入力音声データの終端が話し終わりになるように注意してください。

📘
話し終わりとは？
・話し手が持っていた会話のボール（発話権）を誰かに投げるタイミングのことです。
・具体的には、直後に話者が交代する時点、またはしばらく誰も後続の発話をしない時点を指します。
・同じ話し手が複数の発話を続けて話す場合、一番最後の発話の最後のみ「話し終わり」とみなします。

入力音声は以下の条件を満たすようにしてください。これらの条件を満たしていない音声に対しては、得られた認識結果は正しくないか、無意味なものになります。

入力音声には、話し終わりまでの発話を全て含めてください。
音声の末尾が欠損しないように、話し終わりのあとに短い無音区間（250ミリ秒から1000ミリ秒程度）を含めるようにしてください。このために、クライアント側で音声区間検知（VAD）を実行してください。

下り調子のイントネーション

やや短い上がり調子のイントネーション、強めのネガティブな声色

語尾を引き伸ばした平坦なイントネーション

上がり調子のイントネーション

以下のような場合にご活用いただけます。

人同士の会話の分析

音声対話システムのための態度認識

音声認識では正確な意図が読み取れない発話に含まれる態度を自動識別して、その結果を元に対話システムの応答を決定できるようになります。
例えば、１秒未満のごく短い発話（「はあ！？」「はあ。」など）や、文字起こしの結果だけでは意図が曖昧な発話（「そうか？」「そうか...」「そうか。」など）からでも、ユーザがシステムに期待している行動を認識できるようになります。
ユーザに典型的な話し方（上記サンプル音声を参照）を意識してもらうことで、より正確に態度を認識できます。
例えば短い発話だけで会話が可能なスマートスピーカーや、特定の態度を特定の操作に紐づけた音声リモコンのようなシステムの開発にご利用いただけます。