2. 音声認識
mimi ASR のスタートガイドです。
mimi の音声認識サービスを利用できるようになるまでの手順をまとめています。
Step1 : 事前準備
1. アクセストークンの取得
1. トークンの取得を実行して、アクセストークンを取得してください。この際、音声認識サービスが実行できるようスコープの指定を行い、アクセストークンを払い出すよう注意して下さい。
- 参考:音声認識サービスの URI
- https://apis.mimi.fd.ai/auth/asr/http-api-service
- https://apis.mimi.fd.ai/auth/asr/websocket-api-service
- https://apis.mimi.fd.ai/auth/google-asr/http-api-service
- https://apis.mimi.fd.ai/auth/google-asr/websocket-api-service
- https://apis.mimi.fd.ai/auth/nict-asr/http-api-service
- https://apis.mimi.fd.ai/auth/nict-asr/websocket-api-service
2. 音声認識用のサンプルファイルの取得
以下URLにアクセスし、サンプル音声を以下から取得してください。
https://github.com/FairyDevicesRD/mimi.example.ruby/raw/master/audio.raw
Step2 : 音声認識サービスの実行
アクセストークンを発行したら、音声認識サービスを実行することができます。以下はHTTPサービスの利用例です。HTTPカスタムヘッダに、必要な設定を記述します。
実行例
mimi ASR powered by NICT v2を利用する場合の実行例
curl -X POST https://service.mimi.fd.ai \
-H "Content-Type: audio/x-pcm;bit=16;rate=16000;channels=1" \
-H "x-mimi-process:nict-asr" \
-H "x-mimi-input-language:ja" \
-H "x-mimi-nict-asr-options: response_format=v2;progressive=false" \
-H "Authorization: Bearer <accessToken>" \
--data-binary @/path/to/audio.raw
mimi ASR を利用する場合の実行例
curl -X POST https://service.mimi.fd.ai \
-H "Content-Type: audio/x-pcm;bit=16;rate=16000;channels=1" \
-H "x-mimi-process:asr" \
-H "Authorization: Bearer <accessToken>" \
--data-binary @/path/to/audio.raw
応答例
mimi ASR powered by NICT を利用する場合の応答例
{
"type": "asr#nictlvcsr2",
"session_id": "2f4e85aa-a923-4cdf-b85f-7726d2886092",
"status": "recog-finished",
"response": [
{
"result": "ちょっと遅い昼食をとるた めファミリーレストランに入ったのです。",
"words": [
"ちょっと",
"遅い",
"昼食",
"を",
"とる",
"ため",
"ファミリーレストラン",
"に",
"入っ",
"た",
"の",
"です"
],
"determined": true,
"time": 0
}
]
}
mimi ASR を利用する場合の応答例
{ "response" :
[
{
"pronunciation" : "ローニャク",
"result" : "老若",
"time" : [ 650, 1430 ]
}, {
"pronunciation" : "ナンニョ",
"result" : "男女",
"time" : [ 1430, 1950 ]
}, {
"pronunciation" : "ガ",
"result" : "が",
"time" : [ 1950, 2100 ]
}, {
"pronunciation" : "ヒ",
"result" : "火",
"time" : [ 2100, 2410 ]
}, {
"pronunciation" : "ヲ",
"result" : "を",
"time" : [ 2410, 2520 ]
}, {
"pronunciation" : "カコン",
"result" : "囲ん",
"time" : [ 2520, 3060 ]
}, {
"pronunciation" : "デ",
"result" : "で",
"time" : [ 3060, 3210 ]
}, {
"pronunciation" : "ノミ",
"result" : "のみ",
"time" : [ 3240, 3560 ]
}, {
"pronunciation" : "テ",
"result" : "手",
"time" : [ 3690, 3890 ]
}, {
"pronunciation" : "ヲ",
"result" : "を",
"time" : [ 3890, 4020 ]
}, {
"pronunciation" : "ツナイ",
"result" : "つない",
"time" : [ 4020, 4530 ]
}, {
"pronunciation" : "デ",
"result" : "で",
"time" : [ 4530, 4790 ]
}, {
"pronunciation" : "ウタウ",
"result" : "歌う",
"time" : [ 4790, 5180 ]
}
],
"session_id" : "d2ba5a54-e5ac-11e9-abfd-42010a9200a5",
"status" : "recog-finished",
"type" : "asr#mimilvcsr"
}
音声認識の詳細な情報については mimi ASR のドキュメント および API Reference を参照ください。
Updated almost 2 years ago
What’s Next