言語識別を行う

📘

当ページでは、2023年6月22日に更新した LID の仕様について説明しています

従来の LID の仕様を確認する場合はこちら(旧ドキュメント)を参照ください。

🚧

言語認識は本サイト上では実行できないため、直接 mimi API を実行してお試しください。

📘

mimi が定義するカスタム HTTP ヘッダ

mimi が定義するカスタム HTTP ヘッダ( x-mimi- で始まるヘッダ ) に設定する値は、大文字小文字を区別しています。例えば "x-mimi-process" の値に "lidasr" は指定できますが、 "LIDASR" は指定できません。
また、同じヘッダが同一のリクエスト内で複数行指定された場合は、いずれかひとつのみが有効になりますので極力1種類1行となるように指定してください。

API 実行に必要なスコープ

HTTP / WebSocket どちらを利用するかによって必要な スコープ は変わります。

https://apis.mimi.fd.ai/auth/lid/http-api-service
https://apis.mimi.fd.ai/auth/lid/websocket-api-service

📘

ポイント

言語識別サービスでは音声認識に mimi ASR powered by NICT を使用します。
言語識別にあわせて音声認識を利用する場合(mimi が定義するカスタム HTTP ヘッダ x-mimi-processlidasr を指定する場合)は、追加で次のスコープの指定も必要です。

https://apis.mimi.fd.ai/auth/nict-asr/http-api-service
https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service

言語識別結果の種類

mimi LID では、言語識別結果の内容を以下のように区別しています。

最終結果

言語識別処理の最後の応答 JSON または その音声認識結果テキスト(※ 音声認識結果テキストが得られるのは lidasr リクエスト時のみ)。
応答結果 JSON 内の "status": "recog-finished" である応答。

途中結果

WebSocket API で言語識別を行う際に、最終結果の前に得られる応答 JSON 。
応答結果 JSON 内の "status": "recog-in-progress" である応答。

実行

HTTP リクエスト実行例は本ページ右の "REQUEST" の "lidasr 指定"、 "lid 指定"を参照ください。

WebSocket リクエスト実行例は ドキュメント WebSocket Service の実行例(lidasr) または WebSocket Service の実行例(lid) を参照ください。

lidasr 応答例

キー内容
session_idセッションID。
status言語識別結果のステータス。
・recog-in-progress=認識処理中
・recog-finished=認識処理終了
type言語識別の型。
lidasr# に続く値は x-mimi-lid-options の指定によって変化する。
response応答配列
    asr音声認識応答配列。
どの言語とも判定できなかった場合、要素数 0 となる。
        result音声認識( mimi ASR powered by NICT )の response_format=v1 を指定した際の 応答結果 JSON "response" と同様
    lid言語識別応答配列。
どの言語とも判定できなかった場合、要素数 0 となる。
        lang言語コード。x-mimi-lid-options の指定によって変化する。
        score言語言語識別結果の信頼度。
0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。
x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。
そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2 言語以上を指定することが望ましい。

x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。識別応答配列

lid 応答例

応答例

本ページの応答例( 画面右 "RESPONSE" で "200 - OK Lidasr 指定" または "200 - OK Lid 指定" を選択)を参照ください。

応答結果 JSON

各要素の型は本ページの "RESPONSE" を参照ください。
( resonse ステータス "200" をクリック)

※ 音声認識の応答については API Reference 音声認識( mimi ASR powered by NICT )を行う を参照してください。

キー内容
session_idセッションID。
status言語識別結果のステータス。
・recog-in-progress=認識処理中
・recog-finished=認識処理終了
type言語識別の型。
lid# に続く値は x-mimi-lid-options の指定によって変化する。
response言語識別結果配列。
    lang言語コード。
x-mimi-lid-options の指定によって変化する。
    score言語識別結果の信頼度。
0 以上 1 以下の数値で、1 に近づくほど信頼度が高い。
x-mimi-lid-optionsで指定した全ての言語コードについて信頼度を合計すると、1 となる。
そのため、意味のある言語識別結果を得るためには、x-mimi-lid-optionsにて 2言語以上を指定することが望ましい。

x-mimi-process で lidasr を指定した場合、信頼度が最も高い言語の音声認識結果が返る。
Language