当ページでは、2023年6月22日に更新した LID の仕様について説明しています
従来の LID の仕様を確認する場合はこちら(旧ドキュメント)を参照ください。
言語認識は本サイト上では実行できないため、直接 mimi API を実行してお試しください。
mimi が定義するカスタム HTTP ヘッダ
mimi が定義するカスタム HTTP ヘッダ(
x-mimi-
で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "lidasr" は指定できますが、 "LIDASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれかひとつのみが有効になりますので極力1種類1行となるように指定してください。
API 実行に必要なスコープ
HTTP / WebSocket どちらを利用するかによって必要な スコープ は変わります。
https://apis.mimi.fd.ai/auth/lid/http-api-service https://apis.mimi.fd.ai/auth/lid/websocket-api-service |
ポイント
言語識別サービスでは音声認識に mimi ASR powered by NICT を使用します。
言語識別にあわせて音声認識を利用する場合(mimi が定義するカスタム HTTP ヘッダx-mimi-process
にlidasr
を指定する場合)は、追加で次のスコープの指定も必要です。https://apis.mimi.fd.ai/auth/nict-asr/http-api-service
https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service
言語識別結果の種類
mimi LID では、言語識別結果の内容を以下のように区別しています。
最終結果
言語識別処理の最後の応答 JSON または その音声認識結果テキスト(※ 音声認識結果テキストが得られるのは lidasr リクエスト時のみ)。
応答結果 JSON 内の "status": "recog-finished" である応答。
途中結果
WebSocket API で言語識別を行う際に、最終結果の前に得られる応答 JSON 。
応答結果 JSON 内の "status": "recog-in-progress" である応答。
実行
HTTP リクエスト実行例は本ページ右の "REQUEST" の "lidasr 指定"、 "lid 指定"を参照ください。
WebSocket リクエスト実行例は ドキュメント WebSocket Service の実行例(lidasr) または WebSocket Service の実行例(lid) を参照ください。
lidasr 応答例
キー | 内容 |
---|---|
session_id | セッションID。 |
status | 言語識別結果のステータス。 ・recog-in-progress=認識処理中 ・recog-finished=認識処理終了 |
type | 言語識別の型。lidasr# に続く値は x-mimi-lid-options の指定によって変化する。 |
response | 応答配列 |
asr | 音声認識応答配列。 どの言語とも判定できなかった場合、要素数 0 となる。 |
result | 音声認識( mimi ASR powered by NICT )の response_format=v1 を指定した際の 応答結果 JSON "response" と同様 |
lid | 言語識別応答配列。 どの言語とも判定できなかった場合、要素数 0 となる。 |
lang | 言語コード。x-mimi-lid-options の指定によって変化する。 |
score | 言語言語識別結果の信頼度。 0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。 x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。 そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2 言語以上を指定することが望ましい。 x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。識別応答配列 |
lid 応答例
応答例
本ページの応答例( 画面右 "RESPONSE" で "200 - OK Lidasr 指定" または "200 - OK Lid 指定" を選択)を参照ください。
応答結果 JSON
各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)
※ 音声認識の応答については API Reference 音声認識( mimi ASR powered by NICT )を行う を参照してください。
キー | 内容 |
---|---|
session_id | セッションID。 |
status | 言語識別結果のステータス。 ・recog-in-progress=認識処理中 ・recog-finished=認識処理終了 |
type | 言語識別の型。lid# に続く値は x-mimi-lid-options の指定によって変化する。 |
response | 言語識別結果配列。 |
lang | 言語コード。 x-mimi-lid-options の指定によって変化する。 |
score | 言語識別結果の信頼度。 0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。 x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。 そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2言語以上を指定することが望ましい。 x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。 |