言語識別を行う

📘

当ページでは、2023年6月22日に更新した LID の仕様について説明しています

従来の LID の仕様を確認する場合はこちら(旧ドキュメント)を参照ください。

🚧

言語認識は本サイト上では実行できないため、直接 mimi API を実行してお試しください。

📘

mimi が定義するカスタム HTTP ヘッダ

mimi が定義するカスタム HTTP ヘッダ( x-mimi- で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "lidasr" は指定できますが、 "LIDASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれかひとつのみが有効になりますので極力1種類1行となるように指定してください。

API 実行に必要なスコープ

HTTP / WebSocket どちらを利用するかによって必要な スコープ は変わります。

https://apis.mimi.fd.ai/auth/lid/http-api-service
https://apis.mimi.fd.ai/auth/lid/websocket-api-service

📘

ポイント

言語識別サービスでは音声認識に mimi ASR powered by NICT を使用します。
言語識別にあわせて音声認識を利用する場合(mimi が定義するカスタム HTTP ヘッダ x-mimi-processlidasr を指定する場合)は、追加で次のスコープの指定も必要です。

https://apis.mimi.fd.ai/auth/nict-asr/http-api-service
https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service

言語識別結果の種類

mimi LID では、言語識別結果の内容を以下のように区別しています。

最終結果

言語識別処理の最後の応答 JSON または その音声認識結果テキスト(※ 音声認識結果テキストが得られるのは lidasr リクエスト時のみ)。
応答結果 JSON 内の "status": "recog-finished" である応答。

途中結果

WebSocket API で言語識別を行う際に、最終結果の前に得られる応答 JSON 。
応答結果 JSON 内の "status": "recog-in-progress" である応答。

実行

HTTP リクエスト実行例は本ページ右の "REQUEST" の "lidasr 指定"、 "lid 指定"を参照ください。

WebSocket リクエスト実行例は ドキュメント WebSocket Service の実行例(lidasr) または WebSocket Service の実行例(lid) を参照ください。

lidasr 応答例

キー内容
session_idセッションID。
status言語識別結果のステータス。
・recog-in-progress=認識処理中
・recog-finished=認識処理終了
type言語識別の型。
lidasr# に続く値は x-mimi-lid-options の指定によって変化する。
response応答配列
    asr音声認識応答配列。
どの言語とも判定できなかった場合、要素数 0 となる。
        result音声認識( mimi ASR powered by NICT )の response_format=v1 を指定した際の 応答結果 JSON "response" と同様
    lid言語識別応答配列。
どの言語とも判定できなかった場合、要素数 0 となる。
        lang言語コード。x-mimi-lid-options の指定によって変化する。
        score言語言語識別結果の信頼度。
0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。
x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。
そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2 言語以上を指定することが望ましい。

x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。識別応答配列

lid 応答例

応答例

本ページの応答例( 画面右 "RESPONSE" で "200 - OK Lidasr 指定" または "200 - OK Lid 指定" を選択)を参照ください。

応答結果 JSON

各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)

※ 音声認識の応答については API Reference 音声認識( mimi ASR powered by NICT )を行う を参照してください。

キー内容
session_idセッションID。
status言語識別結果のステータス。
・recog-in-progress=認識処理中
・recog-finished=認識処理終了
type言語識別の型。
lid# に続く値は x-mimi-lid-options の指定によって変化する。
response言語識別結果配列。
    lang言語コード。
x-mimi-lid-options の指定によって変化する。
    score言語識別結果の信頼度。
0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。
x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。
そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2言語以上を指定することが望ましい。

x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。
Form Data
string
required
Defaults to <入力音声データファイルのフルパス>

音声データファイルは Content-Type の指定と合致している必要がある。cURL リクエスト実行時には 先頭に @ をつけなければ送信できない ことに留意。

Headers
string
required
Defaults to Bearer <accessToken>

OAuth2 準拠の Bearer トークンとして発行された mimi のアクセストークン。実行したいサービスに対応するスコープを指定して発行したアクセストークンが必要。アクセストークンの取得方法についてはトークンの取得 または 認証/認可操作を参照。

string
required
Defaults to audio/x-pcm;bit=16;rate=16000;channels=1

音声データフォーマットを、ヘッダなしリニアPCM( x-pcm )かFLAC( x-flac )のいずれかで指定。audio/x-pcm;bit=16;rate=(整数†);channels=1 または audio/x-flac または audio/x-flac;rate=(整数†) 。いずれの場合も、音声の形式は 符号付き整数(16bit リトルエンディアン), 1ch である必要がある。 † rate= に続く部分には 16000 や 48000 などのサンプリングレートを整数で指定する。サンプリングレートが 16kHz でない場合は、この指定を省略できない。

string
required
Defaults to lidasr

実行するサービスに該当する値を指定。lisasr 指定の場合は言語識別と音声認識の双方を実行。lid 指定の場合は言語識別のみ実行。詳しくは サービス対応表 参照。

string
Defaults to lang=ja|en|zh|ko

言語識別の範囲指定。 パイプ(|)区切りで言語コードを繋ぐ。 デフォルトは lang=ja|en|zh|ko。指定可能な言語コード:ja (日本語) , en (英語), zh (中国語[簡体字]), ko (韓国語), es(スペイン語), fil(フィリピン語), fr(フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語)。

Responses

Language
Request
Choose an example:
application/json
text/plain