概要
LLM 後処理機能を有効にすると、Whisper が出力したテキストをローカルの LLM API に送り、句読点整形・敬体化・要約などを自動で行えます。API は OpenAI 互換エンドポイントを想定しており、Ollama や LM Studio と組み合わせて利用します。
初期設定では無効になっているため、アプリの「設定 → LLM」で「LLM による後処理を有効化」をオンにしたうえで、API ベース URL やモデル名を指定してください。
仕組み
- HootVoice が音声を Whisper で文字起こしします。
- 文字起こしが完了すると、指定した LLM API に
/v1/chat/completionsリクエストを送信します。 - LLM が整形したテキストが戻り、ログに結果が記録されます。
- 自動ペーストが有効な場合は、LLM の結果がそのまま前面アプリに貼り付けられます。
API が応答しない場合やエラーが発生した場合は、従来どおり Whisper の生テキストを使用します。ログには HTTP ステータスやエラーメッセージが記録されるため、問題の切り分けに活用できます。
導入チェックリスト
- ローカル PC 上で OpenAI 互換 API(Ollama または LM Studio)が待ち受けていること
- 使用したい LLM モデルがあらかじめダウンロード済みであること
curlなどで/v1/modelsや/v1/chat/completionsにアクセスできること- アプリの設定で API ベース URL とモデル名を正しく指定していること
Ollama を使う
Ollama はシンプルな CLI/サービスで、`http://localhost:11434/v1` に OpenAI 互換の REST API を提供します。HootVoice の既定値とも一致します。
macOS
brew install ollamaを実行(Homebrew が必要)。ollama run llama3.1:8bなどで初回モデルをダウンロードして動作確認。- 常駐させる場合は
ollama serveを起動するか、Ollama.app をログイン項目に追加。
Windows
- Ollama for Windows をダウンロードしてインストール。
- インストール後に PowerShell で
ollama run llama3.1:8bを実行しモデルを取得。 - サービスは自動的にバックグラウンドで起動します。必要に応じてタスクトレイから制御してください。
Linux
curl https://ollama.ai/install.sh | shを実行。systemctl --user enable --now ollamaでユーザーサービスとして常駐させます。ollama run llama3.1:8bでモデルをダウンロードし、API が応答するか確認。
接続テストには以下のコマンドが利用できます。
curl http://localhost:11434/v1/models
LM Studio を使う
LM Studio は GUI ベースでモデル管理が行いやすく、OpenAI 互換サーバーも同梱されています。既定ポートは 1234 なので、HootVoice の URL を http://localhost:1234/v1 に変更してください。
macOS
- 公式サイト から DMG をダウンロードしてインストール。
- 起動後、「Download Models」から利用したいモデルを追加。
- 画面右上の「Start Server」を押し、「OpenAI Compatible Server」を有効化。
Windows
- インストーラーをダウンロードし実行。既定設定で問題ありません。
- アプリ内でモデルをダウンロード後、「Server」タブからサーバーを起動。
- 必要に応じてスタートアップ登録し、自動起動を有効にします。
Linux
- AppImage または Debian パッケージを入手して実行。
- モデルをダウンロードしたら、右上のサーバースイッチをオンにします。
- 初回はファイアウォールでポート 1234 へのアクセス許可が必要な場合があります。
API が起動しているかどうかは以下で確認できます。
curl http://localhost:1234/v1/models
推奨モデル
| 用途 | モデル | 備考 |
|---|---|---|
| 日本語の整形・敬体化 | google/gemma-3-12b(Ollama / LM Studio) |
日本語の表現力が高い。4-bit 量子化なら VRAM 10〜12GB 程度が目安。 |
| 英語中心の要約 | qwen2.5:7b-instruct / Phi-3.5-mini-instruct |
高速レスポンス。要約プロンプトと相性良好。 |
| 精度重視 | llama3.1:70b などの大型モデル |
高性能 GPU/VRAM が必要。Ollama では OLLAMA_NUM_PARALLEL で調整。 |
モデル名は API に合わせて指定する必要があります。Ollama の場合は ollama list で確認でき、LM Studio では「Local Models」一覧の識別子を利用します。
トラブルシューティング
- 「HTTP 404 /v1/chat/completions」エラー: API ベース URL に
/v1を含めているか確認。 - タイムアウトする: モデル読み込みに時間がかかるため、初回は 30 秒以上待つか、小型モデルで試す。
- 英語で返ってくる: 設定の「プロンプト言語を固定」を日本語に変更、またはプロンプト内で言語指定を追加。
- CPU/GPU 使用率が高い: Ollama の
ollama runに-nglオプションを付けて量子化版を使うか、小型モデルを選択。
それでも解決しない場合は、アプリのログウィンドウから該当するリクエスト/レスポンスをコピーし、開発チームまで共有してください。