音声認識（ mimi ASR ）を行う

Time	Status	User Agent
Retrieving recent requests…

⚠️
音声認識は本サイト上では実行できないため、mimi API Console にログインいただき、こちらからデモをお試しください。

📘
mimi が定義するカスタム HTTP ヘッダ
mimi が定義するカスタム HTTP ヘッダ（ x-mimi- で始まるヘッダ）に設定する値は、大文字小文字を区別しています。例えば "x-mimi-input-language" の値に "ja" は指定できますが、 "JA" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれか一つのみが有効になりますので極力1種類1行となるように指定してください。

API実行に必要なスコープ

HTTP / WebSocket どちらを利用するかによって必要なスコープは異なります。


https://apis.mimi.fd.ai/auth/asr/http-api-service https://apis.mimi.fd.ai/auth/asr/websocket-api-service

音声認識結果の種類

mimi ASR では、音声認識結果の内容を以下のように区別しています。

最終結果

音声認識処理の最後の応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-finished" である応答。

途中結果

WebSocket API で音声認識を行う際に、最終結果が得られるまでの処理途中で得られる応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-in-progress" である応答。

実行

HTTP リクエスト実行例は本ページ右の "REQUEST" を参照ください。

WebSocket リクエスト実行例はドキュメント WebSocket Service の実行例（ Python 利用）を参照ください。

応答

応答例

本ページの応答例（本ページ右 "RESPONSE" で "200 - Result" を選択）を参照ください。

応答結果 JSON

各要素の型は本ページの "RESPONSE" を参照ください。
（ resonse ステータス "200" をクリック）

キー	内容
response	認識結果オブジェクトの配列
pronunciation	発話テキストの発音（よみ）
result	発話テキスト
time	発話開始と発話終了のミリ秒数（音声データの開始から起算）の配列
session_id	セッションID
status	音声認識結果のステータス・recog-in-progress=認識処理中・recog-finished=認識処理終了
type	音声認識の型

mimi が定義するカスタム HTTP ヘッダ

API実行に必要なスコープ

音声認識結果の種類

最終結果

途中結果

実行

応答

応答例

応答結果 JSON

200200

429429