音声認識( mimi ASR )を行う

Recent Requests
Log in to see full request history
TimeStatusUser Agent
Retrieving recent requests…
LoadingLoading…
⚠️

音声認識は本サイト上では実行できないため、mimi API Console にログインいただき、こちら からデモをお試しください。

📘

mimi が定義するカスタム HTTP ヘッダ

mimi が定義するカスタム HTTP ヘッダ( x-mimi- で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "asr" は指定できますが、 "ASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれか一つのみが有効になりますので極力1種類1行となるように指定してください。

API実行に必要なスコープ

HTTP / WebSocket どちらを利用するかによって必要な スコープ は異なります。

音声認識結果の種類

mimi ASR では、音声認識結果の内容を以下のように区別しています。

最終結果

音声認識処理の最後の応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-finished" である応答。

途中結果

WebSocket API で音声認識を行う際に、最終結果が得られるまでの処理途中で得られる応答 JSON またはその音声認識結果テキスト。
応答結果 JSON 内の "status": "recog-in-progress" である応答。

実行

HTTP リクエスト実行例は本ページ右の "REQUEST" を参照ください。

WebSocket リクエスト実行例は ドキュメント WebSocket Service の実行例libmimiio - mimiio_file 利用)を参照ください。

応答

応答例

本ページの応答例( 本ページ右 "RESPONSE" で "200 - Result" を選択)を参照ください。

応答結果 JSON

各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)

キー内容
response認識結果オブジェクトの配列
    pronunciation発話テキストの発音(よみ)
    result発話テキスト
    time発話開始と発話終了のミリ秒数(音声データの開始から起算)の配列
session_idセッションID
status音声認識結果のステータス
・recog-in-progress=認識処理中
・recog-finished=認識処理終了
type音声認識の型
Body Params
file
required

リクエストボディ全体が Content-Type で指定したフォーマットのバイナリデータ。cURL コマンドのオプション --data-binary の引数としてファイルを指定する場合は 先頭に @ をつけなければ送信できない ことに留意。

Headers
string
required
Defaults to asr

実行するサービスに該当する値。mimi ASR のみ利用時には asr を単独で指定。他の音声認識サービス(google-asr( Google Cloud Speech-to-Text ), nict-asr( mimi ASR powered by NICT ) )をカンマ区切りで複数指定可能。詳しくは サービス対応表 参照。

string
Defaults to ja

入力音声の言語コード。mimi ASR では日本語 ( ja ) のみ指定可能。

string
enum
Defaults to application/json

Generated from available response content types

Allowed:
Responses

Language
LoadingLoading…
Response
Choose an example:
application/json
text/html