音声認識は本サイト上では実行できないため、mimi API Console にログインいただき、こちら からデモをお試しください。
mimi が定義するカスタム HTTP ヘッダ
mimi が定義するカスタム HTTP ヘッダ(
x-mimi-
で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "asr" は指定できますが、 "ASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれか一つのみが有効になりますので極力1種類1行となるように指定してください。
API実行に必要なスコープ
HTTP / WebSocket どちらを利用するかによって必要な スコープ は異なります。
https://apis.mimi.fd.ai/auth/asr/http-api-service https://apis.mimi.fd.ai/auth/asr/websocket-api-service |
音声認識結果の種類
mimi ASR では、音声認識結果の内容を以下のように区別しています。
最終結果
音声認識処理の最後の応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-finished" である応答。
途中結果
WebSocket API で音声認識を行う際に、最終結果が得られるまでの処理途中で得られる応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-in-progress" である応答。
実行
HTTP リクエスト実行例は本ページ右の "REQUEST" を参照ください。
WebSocket リクエスト実行例は ドキュメント WebSocket Service の実行例( libmimiio - mimiio_file 利用)を参照ください。
応答
応答例
本ページの応答例( 本ページ右 "RESPONSE" で "200 - Result" を選択)を参照ください。
応答結果 JSON
各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)
キー | 内容 |
---|---|
response | 認識結果オブジェクトの配列 |
pronunciation | 発話テキストの発音(よみ) |
result | 発話テキスト |
time | 発話開始と発話終了のミリ秒数(音声データの開始から起算)の配列 |
session_id | セッションID |
status | 音声認識結果のステータス ・recog-in-progress=認識処理中 ・recog-finished=認識処理終了 |
type | 音声認識の型 |