2種類のAPIについて学ぶ

mimi で提供している API の通信方式には、HTTP と WebSocket の 2種類あります。

音声合成( TTS ) と 機械翻訳( TRA ) は HTTP 通信方式の API を提供しており、そのほかの各サービスでは HTTP と WebSocket 、2つの通信方式の API を提供しています。開発するアプリケーションの仕様に合わせて、適切な方をご利用ください。HTTP / WebScoket自体の詳細な説明については割愛します。

音声合成の結果はバイナリデータで応答があり、そのほかでは JSON 形式で応答があります。

HTTPで mimi を使う

HTTPリクエストごとにコネクションを確立、認証することで API 実行が可能になります。音声認識、話者識別などの処理完了をもってレスポンスがなされるため、リクエスト時に渡す音声データの大きさなどによってはレスポンスの取得に時間がかかります。また、接続確立以降 30秒 以上通信がない状態が続いた場合は、タイムアウトでエラーとなります。
音声認識による議事録作成アプリを作るとして、会議後に振り返りとして使われるようなユースケースを想定しているようであれば、リアルタイム性がそこまで求められないため採用いただきやすい方式と言えます。

WebSocketで mimi を使う

サーバとのコネクション確立後、mimi ・クライアント双方向通信を行うことができるようになります。HTTPとは異なり、長い発話の場合に認識途中であっても応答を取得することができます(asr, google-asr の場合のみ)。接続確立以降 30秒 以上通信がない状態が続いた場合は、タイムアウトでエラーとなります。
音声認識による議事録作成アプリを作るとした場合、会議議事録をリアルタイムに閲覧するようなユースケースを想定しているようであれば、応答結果を順次処理し認識結果を画面に表示することで、よりリアルタイムな議事録作成を実現可能です。