mimi WebSocket API サービス
1. クライアント要件
1.1 ハードウェア / デバイス
- (推奨)モノラルマイクでのノイズリダクション処理は無効化してください。
- (推奨)オートゲインコントロール(AGC)は無効化してください。
1.2 ソフトウェア
- クライアントは WebSocketプロトコル(RFC6455)をサポートする必要があります。
2. 認証
2.1 mimi OAuth概要
- mimi サービスは OAuth 認証を提供します。
- クライアントは一時的なアクセストークンを取得し、サービス利用時に送信します。
(詳細は 認証/認可操作 を参照ください)
3. リクエスト概要
3.1 リクエストの流れ
- クライアントは WebSocket でバイナリフレーム(音声)とテキストフレーム(コマンド)を送信します。
- サーバーは音声認識結果やステータスを返します。
3.1.1 WebSocket 接続の確立
- 接続時にBearerトークン(アクセストークン)をHTTPヘッダーで送信します。
Authorization: Bearer XXXXXXX - 音声コーデック指定例:
デフォルトはX-Mimi-Content-Type: audio/x-flac;bit=16;rate=16000;channels=1audio/x-pcm;bit=16;rate=16000;channels=1です。
3.1.2 音声送信(バイナリフレーム)
- 接続後、音声ストリームをバイナリフレームで逐次送信します(最大64KiB/フレーム)。
- フラグメント化されたメッセージはサポートされていません。
3.1.3 コマンド送信(テキストフレーム)
音声フレーム送信後のみ終了通知コマンドの使用が可能です。
サーバーは最終認識結果(status が recog-finished である応答)を返し、WebSocket をクローズします。
| コマンド | 説明 |
|---|---|
| recog-break | 音声ストリーム終了通知 |
recog-break例:{ "command": "recog-break" }
3.1.4 サーバーレスポンス(テキストフレーム)
- サーバーは認識進行中・完了などのステータスを返します。
| ステータス | 説明 |
|---|---|
| recog-in-progress | 認識進行中。認識結果は変わる可能性がある。 |
| recog-finished | 認識完了。認識結果は確定している。 |
4. mimi WebSocket API サービス実行例
mimi ASR(音声認識)、mimi LID(言語識別)、mimi SRS(話者識別)、mimi AIR(態度認識)、mimi EMO(感情認識)では WebSocket API を提供しています。
詳しくは、各サービスの WebSocket Service に関するドキュメントページを参照ください。
Updated about 1 month ago
