サービス対応表
x-mimi-process
の設定値とサービス
x-mimi-process
の設定値とサービスエンドポイント( mimi API のエンドポイント一覧 )が service.mimi.fd.ai
である mimi API を利用する際には mimi が定義するカスタム HTTP ヘッダ x-mimi-process
で利用するサービスを指定します。
ここでは、x-mimi-process
の設定値とそれに対応するサービスの種類とその概要について記載しています。
詳細な情報については、各サービスのドキュメントおよび API Reference を参照ください。
サービス対応表
x-mimi-process に設定する値 | 説明 |
---|---|
asr | mimi ASR 音声認識 対応言語: ja (日本語) |
nict-asr | mimi ASR powered by NICT 音声認識 (NICT 音声認識エンジン) 対応言語: ja (日本語) , en (英語), zh (中国語[簡体字]), zh-TW (中国語[繁体字]), ko (韓国語), de(ドイツ語), es (スペイン語), fil(フィリピン語), fr (フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語) |
google-asr | Google Cloud Speech-to-Text ( API 連携) 音声認識 ※ google-asr を使用するには、別途契約が必要となります。 対応言語: x-mimi-input-language にはGoogle の 言語サポート に記載されている表記通りに指定してください。 |
srs | mimi SRS 話者識別 入力された音声の話者を識別するサービスです。 |
lid | mimi LID 言語識別 リクエストヘッダ x-mimi-process にて lid を指定することで言語識別機のみを実行できます。 lidasr とは異なり、音声認識を実行しません。 入力された音声で発話されている言語が何語かを識別し、その結果だけを返します。 lid と lidasr をカンマ区切りで同時に指定することはできません。 後述の "複数サービス指定" を参照してください。 対応言語: ja (日本語), en (英語), zh (中国語[簡体字]), ko (韓国語), es(スペイン語), fil(フィリピン語), fr(フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語) |
lidasr | mimi LID 言語識別 + mimi ASR powered by NICT 音声認識 リクエストヘッダ x-mimi-process にて lidasr を指定することで言語識別と音声認識の両方のサービスを使用できます。 入力された音声で発話されている言語が何語かを識別し、最も信頼度の高い言語で音声認識を行い、言語識別と音声認識のそれぞれの結果を返却します。 音声認識の入力と出力は mimi ASR powered by NICT に準じます。 lid と lidasr をカンマ区切りで同時に指定することはできません。 後述の "複数サービス指定" を参照してください。 対応言語: ja (日本語) , en (英語), zh (中国語[簡体字]), ko (韓国語), es(スペイン語), fil(フィリピン語), fr(フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語) |
air | mimi AIR 態度認識 入力された音声のパラ言語(音声のイントネーションや声色)に込められた話し手の態度を識別するサービスです。 対応言語: ja (日本語) |
emo-categorical | mimi EMO 感情認識 入力された音声の感情を識別するサービスです。 対応言語: ja (日本語) |
複数サービス指定
利用するサービスは、カンマ(,
)区切りで複数指定可能です。一度のリクエストで複数のサービス指定する場合、指定するサービスが必要とするパラメータの指定が必要です。複数指定したサービス間で重複するパラメータがある場合はひとつだけ指定するようにしてください。パラメータの指定が不足している場合の挙動、同じパラメータを複数指定してリクエストした場合の挙動は保証されません。x-mimi-process
を必要としない API 仕様のサービスは、複数指定の対象外であるため指定できません。サービス対応表に記載のある x-mimi-process
を必要とする API 仕様のサービスであっても、別途契約を必要とするサービスや同時に指定できないサービスがあります。
複数サービス指定時に指定するアクセストークンについては、各サービスが必要とするスコープをすべて指定したうえで取得する必要があります。詳しくは、後述の 複数サービス指定時のアクセストークン を参照ください。
一度のリクエストで air, lid, srs の3つのサービスをリクエストする例を下記に示します。
curl -X POST https://service.mimi.fd.ai \
-H "Content-Type: audio/x-pcm;bit=16;rate=16000;channels=1" \
-H "x-mimi-process:air,lidasr,srs" \
-H "x-mimi-srs-speaker-group-id: <話者グループ ID>" \
-H "x-mimi-input-language:ja" \
-H "Authorization: Bearer <accessToken>" \
--data-binary @/path/to/audio.raw | jq .
{
"type": "air",
"session_id": "a619a6cc-a90c-11ed-8170-42010a92004a",
"status": "recog-finished",
"response": {
"time_interval": {
"start": 300,
"end": 5200
},
"label": "agreement",
"scores": {
"question": 7.805005589034408e-05,
"stalling": 1.3154452972230501e-05,
"agreement": 0.9999086856842041,
"disagreement": 8.85088198288031e-08
}
}
}
{
"status": "recog-finished",
"type": "srs#identification#cc1a654dd3b24aaf88f9aee0948b72e8",
"response": {
"speaker": [
{
"confidence": 0.9998,
"speaker_id": "ee101b3c55a24bbc89e6c249178f08fa"
},
{
"confidence": 0.0002,
"speaker_id": ""
}
]
},
"session_id": "a6198cdc-a90c-11ed-bc72-42010a920075"
}
{
"response": {
"asr": [
{
"result": "ちょっと|チョット|ちょっと|副詞-助詞類接続||||"
},
{
"result": "遅い|オソイ|遅い|形容詞-自立|形容詞・アウオ段|基本形||"
},
{
"result": "昼食|チュウショク|昼食|名詞-一般||||"
},
{
"result": "を|ヲ|を|助詞-格助詞-一般||||"
},
{
"result": "とる|トル|とる|動詞-自立|五段・ラ行|基本形||"
},
{
"result": "ため|タメ|ため|名詞-非自立-副詞可能||||"
},
{
"result": "ファミリーレストラン|ファミリーレストラン|ファミリーレストラン|名詞-一般||||"
},
{
"result": "に|ニ|に|助詞-格助詞-一般||||"
},
{
"result": "入っ|ハイッ|入る|動詞-自立|五段・ラ行|連用タ接続||"
},
{
"result": "た|タ|た|助動詞|特殊・タ|基本形||"
},
{
"result": "の|ノ|の|名詞-非自立-一般||||"
},
{
"result": "です|デス|です|助動詞|特殊・デス|基本形||"
},
{
"result": "|||SENT-START-END||||"
},
{
"result": "|||UTT-END||||"
}
],
"lid": [
{
"lang": "ja",
"score": 0.978853
},
{
"lang": "ko",
"score": 0.014434
},
{
"lang": "en",
"score": 0.006673
},
{
"lang": "zh",
"score": 4e-05
}
]
},
"session_id": "f73c2966-7e1b-41ba-9d0f-863cae3c25d9",
"status": "recog-finished",
"type": "lidasr#ja|en|zh|ko"
}
複数サービス指定時のアクセストークン
下記は 態度認識(air)、言語識別と音声認識(lidasr)、話者識別(srs) を指定してアクセストークン取得する cURL リクエスト例です。
参考情報:
- mimi API 操作方法 - 認証/認可操作 - 1. mimi API アクセストークンの取得
- はじめての API 実行 - 1. トークンの取得
- 認証について - 権限とスコープ - スコープとは
- スコープ一覧
curl -X POST https://auth.mimi.fd.ai/v2/token \
-F grant_type="https://auth.mimi.fd.ai/grant_type/application_credentials" \
-F client_id="<applicationId>" \
-F client_secret="<applicationSecret>" \
--form-string scope="https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service;\
https://apis.mimi.fd.ai/auth/nict-asr/http-api-service;\
https://apis.mimi.fd.ai/auth/lid/websocket-api-service;\
https://apis.mimi.fd.ai/auth/lid/http-api-service;\
https://apis.mimi.fd.ai/auth/air/websocket-api-service;\
https://apis.mimi.fd.ai/auth/air/http-api-service;\
https://apis.mimi.fd.ai/auth/srs/websocket-api-service;\
https://apis.mimi.fd.ai/auth/srs/http-api-service"
{
"operationId": "<operationId>",
"startTimestamp": 1676351258,
"selfLink": "https://auth.mimi.fd.ai/v2/operations/<operationId>",
"progress": 100,
"code": 200,
"kind": "auth#operation#accesstoken",
"endTimestamp": 1676351258,
"status": "success",
"error": "",
"targetLink": "",
"accessToken": "<accessToken>",
"expires_in": 3600
}
Updated about 1 year ago