音声認識( Google™ Cloud Speech-to-Text )を行う

📘

音声認識( Google™ Cloud Speech-to-Text )を利用したい

音声認識( Google™ Cloud Speech-to-Text )を使用するには別途契約が必要です

📘

mimi が定義するカスタム HTTP ヘッダ

mimi が定義するカスタム HTTP ヘッダ( x-mimi- で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "asr" は指定できますが、 "ASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれか一つのみが有効になりますので極力1種類1行となるように指定してください。

API 実行に必要なスコープ

HTTP / WebSocket どちらを利用するかによって必要な スコープ は異なります。

https://apis.mimi.fd.ai/auth/google-asr/http-api-service
https://apis.mimi.fd.ai/auth/google-asr/websocket-api-service

実行

HTTP リクエスト実行例は本ページ右の "REQUEST" を参照ください。

応答

応答例

本ページの応答例( 画面右 "RESPONSE" で "200 - Result" を選択)を参照ください。

応答結果 JSON

各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)

キー内容
response認識結果オブジェクトの配列
    result発話テキスト
    confidence発話開始と発話終了のミリ秒数(音声データの開始から起算)の配列
session_idセッションID
status音声認識結果のステータス
type音声認識の型
Form Data
string
required
Defaults to <入力音声データファイルのフルパス>

音声データファイルはContent-Typeの指定と合致している必要がある。curl リクエスト実行時には 先頭に @ をつけなければ送信できない ことに留意。

Headers
string
required
Defaults to Bearer <accessToken>

OAuth2 準拠の Bearer トークンとして発行された mimi のアクセストークン。実行したいサービスに対応するスコープを指定して発行したアクセストークンが必要。アクセストークンの取得方法についてはトークンの取得 または 認証/認可操作を参照。

string
required
Defaults to audio/x-pcm;bit=16;rate=16000;channels=1

音声データフォーマット。ヘッダなしリニアPCM( x-pcm )かFLAC( x-flac )のいずれかで指定。audio/x-pcm;bit=16;rate=(整数†);channels=1 または audio/x-flac または audio/x-flac;rate=(整数†) 。いずれの場合も、音声の形式は 符号付き整数(16bit リトルエンディアン), 1ch である必要がある。 † rate= に続く部分には 16000 や 48000 などのサンプリングレートを整数で指定する。サンプリングレートが 16kHz でない場合は、この指定を省略できない。

string
required
Defaults to google-asr

実行するサービスに該当する値。Google Cloud Speech-to-Text のみ利用時には google-asr を単独で指定。google-asr を使用する場合は別途契約が必要。 他の音声認識サービス(asr( mimi ASR ), nict-asr( mimi ASR powered by NICT ) )をカンマ区切りで複数指定可能。詳しくは サービス対応表 参照。

string
Defaults to ja

入力音声の言語コード。Google 公式サイトの 言語サポート のページ を参照。 x-mimi-input-language にはこちらに記載されている表記通りに指定してください。

Responses

Language
Request
Choose an example:
application/json
text/plain