サービス対応表

x-mimi-process の設定値とサービス

エンドポイント( mimi API のエンドポイント一覧 )が service.mimi.fd.ai である mimi API を利用する際には mimi が定義するカスタム HTTP ヘッダ x-mimi-process で利用するサービスを指定します。
ここでは、x-mimi-process の設定値とそれに対応するサービスの種類とその概要について記載しています。
詳細な情報については、各サービスのドキュメントおよび API Reference を参照ください。

サービス対応表

x-mimi-process に設定する値説明
asrmimi ASR 音声認識

対応言語:
ja (日本語)
nict-asrmimi ASR powered by NICT 音声認識
(NICT 音声認識エンジン)

対応言語:
ja (日本語) , en (英語), zh (中国語[簡体字]), zh-TW (中国語[繁体字]), ko (韓国語), de(ドイツ語), es (スペイン語), fil(フィリピン語), fr (フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語)
google-asrGoogle Cloud Speech-to-Text ( API 連携) 音声認識

※ google-asr を使用するには、別途契約が必要となります。

対応言語:
x-mimi-input-language にはGoogle の 言語サポート に記載されている表記通りに指定してください。
srsmimi SRS 話者識別

入力された音声の話者を識別するサービスです。
lidmimi LID 言語識別

リクエストヘッダ x-mimi-process にて lid を指定することで言語識別機のみを実行できます。 lidasr とは異なり、音声認識を実行しません。 入力された音声で発話されている言語が何語かを識別し、その結果だけを返します。

lid と lidasr をカンマ区切りで同時に指定することはできません。
後述の "複数サービス指定" を参照してください。

対応言語:
ja (日本語), en (英語), zh (中国語[簡体字]), ko (韓国語), es(スペイン語), fil(フィリピン語), fr(フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語)
lidasrmimi LID 言語識別 + mimi ASR powered by NICT 音声認識

リクエストヘッダ x-mimi-process にて lidasr を指定することで言語識別と音声認識の両方のサービスを使用できます。 入力された音声で発話されている言語が何語かを識別し、最も信頼度の高い言語で音声認識を行い、言語識別と音声認識のそれぞれの結果を返却します。 音声認識の入力と出力は mimi ASR powered by NICT に準じます。

lid と lidasr をカンマ区切りで同時に指定することはできません。
後述の "複数サービス指定" を参照してください。

対応言語:
ja (日本語) , en (英語), zh (中国語[簡体字]), ko (韓国語), es(スペイン語), fil(フィリピン語), fr(フランス語), id (インドネシア語), my (ミャンマー語), pt-BR(ブラジルポルトガル語), th (タイ語), vi (ベトナム語)
airmimi AIR 態度認識

入力された音声のパラ言語(音声のイントネーションや声色)に込められた話し手の態度を識別するサービスです。

対応言語:
ja (日本語)
emo-categoricalmimi EMO 感情認識

入力された音声の感情を識別するサービスです。

対応言語:
ja (日本語)

複数サービス指定

利用するサービスは、カンマ(,)区切りで複数指定可能です。一度のリクエストで複数のサービス指定する場合、指定するサービスが必要とするパラメータの指定が必要です。複数指定したサービス間で重複するパラメータがある場合はひとつだけ指定するようにしてください。パラメータの指定が不足している場合の挙動、同じパラメータを複数指定してリクエストした場合の挙動は保証されません。x-mimi-process を必要としない API 仕様のサービスは、複数指定の対象外であるため指定できません。サービス対応表に記載のある x-mimi-process を必要とする API 仕様のサービスであっても、別途契約を必要とするサービスや同時に指定できないサービスがあります。

複数サービス指定時に指定するアクセストークンについては、各サービスが必要とするスコープをすべて指定したうえで取得する必要があります。詳しくは、後述の 複数サービス指定時のアクセストークン を参照ください。

一度のリクエストで air, lid, srs の3つのサービスをリクエストする例を下記に示します。

curl -X POST https://service.mimi.fd.ai \
-H "Content-Type: audio/x-pcm;bit=16;rate=16000;channels=1" \
-H "x-mimi-process:air,lidasr,srs" \
-H "x-mimi-srs-speaker-group-id: <話者グループ ID>" \
-H "x-mimi-input-language:ja" \
-H "Authorization: Bearer <accessToken>" \
--data-binary @/path/to/audio.raw | jq .
{
    "type": "air",
    "session_id": "a619a6cc-a90c-11ed-8170-42010a92004a",
    "status": "recog-finished",
    "response": {
        "time_interval": {
            "start": 300,
            "end": 5200
        },
        "label": "agreement",
        "scores": {
            "question": 7.805005589034408e-05,
            "stalling": 1.3154452972230501e-05,
            "agreement": 0.9999086856842041,
            "disagreement": 8.85088198288031e-08
        }
    }
}
{
    "status": "recog-finished",
    "type": "srs#identification#cc1a654dd3b24aaf88f9aee0948b72e8",
    "response": {
        "speaker": [
            {
                "confidence": 0.9998,
                "speaker_id": "ee101b3c55a24bbc89e6c249178f08fa"
            },
            {
                "confidence": 0.0002,
                "speaker_id": ""
            }
        ]
    },
    "session_id": "a6198cdc-a90c-11ed-bc72-42010a920075"
}
{
    "response": {
        "asr": [
            {
                "result": "ちょっと|チョット|ちょっと|副詞-助詞類接続||||"
            },
            {
                "result": "遅い|オソイ|遅い|形容詞-自立|形容詞・アウオ段|基本形||"
            },
            {
                "result": "昼食|チュウショク|昼食|名詞-一般||||"
            },
            {
                "result": "を|ヲ|を|助詞-格助詞-一般||||"
            },
            {
                "result": "とる|トル|とる|動詞-自立|五段・ラ行|基本形||"
            },
            {
                "result": "ため|タメ|ため|名詞-非自立-副詞可能||||"
            },
            {
                "result": "ファミリーレストラン|ファミリーレストラン|ファミリーレストラン|名詞-一般||||"
            },
            {
                "result": "に|ニ|に|助詞-格助詞-一般||||"
            },
            {
                "result": "入っ|ハイッ|入る|動詞-自立|五段・ラ行|連用タ接続||"
            },
            {
                "result": "た|タ|た|助動詞|特殊・タ|基本形||"
            },
            {
                "result": "の|ノ|の|名詞-非自立-一般||||"
            },
            {
                "result": "です|デス|です|助動詞|特殊・デス|基本形||"
            },
            {
                "result": "|||SENT-START-END||||"
            },
            {
                "result": "|||UTT-END||||"
            }
        ],
        "lid": [
            {
                "lang": "ja",
                "score": 0.978853
            },
            {
                "lang": "ko",
                "score": 0.014434
            },
            {
                "lang": "en",
                "score": 0.006673
            },
            {
                "lang": "zh",
                "score": 4e-05
            }
        ]
    },
    "session_id": "f73c2966-7e1b-41ba-9d0f-863cae3c25d9",
    "status": "recog-finished",
    "type": "lidasr#ja|en|zh|ko"
}

複数サービス指定時のアクセストークン

下記は 態度認識(air)、言語識別と音声認識(lidasr)、話者識別(srs) を指定してアクセストークン取得する cURL リクエスト例です。

参考情報:

curl -X POST https://auth.mimi.fd.ai/v2/token \
-F grant_type="https://auth.mimi.fd.ai/grant_type/application_credentials" \
-F client_id="<applicationId>" \
-F client_secret="<applicationSecret>" \
--form-string scope="https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service;\
https://apis.mimi.fd.ai/auth/nict-asr/http-api-service;\
https://apis.mimi.fd.ai/auth/lid/websocket-api-service;\
https://apis.mimi.fd.ai/auth/lid/http-api-service;\
https://apis.mimi.fd.ai/auth/air/websocket-api-service;\
https://apis.mimi.fd.ai/auth/air/http-api-service;\
https://apis.mimi.fd.ai/auth/srs/websocket-api-service;\
https://apis.mimi.fd.ai/auth/srs/http-api-service"
{
    "operationId": "<operationId>",
    "startTimestamp": 1676351258,
    "selfLink": "https://auth.mimi.fd.ai/v2/operations/<operationId>",
    "progress": 100,
    "code": 200,
    "kind": "auth#operation#accesstoken",
    "endTimestamp": 1676351258,
    "status": "success",
    "error": "",
    "targetLink": "",
    "accessToken": "<accessToken>",
    "expires_in": 3600
}