LLM 後処理セットアップガイド

Whisper の文字起こし結果を LLM で整形・要約する仕組みと、Ollama / LM Studio を使った導入手順をまとめました。

概要

LLM 後処理機能を有効にすると、Whisper が出力したテキストをローカルの LLM API に送り、句読点整形・敬体化・要約などを自動で行えます。API は OpenAI 互換エンドポイントを想定しており、Ollama や LM Studio と組み合わせて利用します。

初期設定では無効になっているため、アプリの「設定 → LLM」で「LLM による後処理を有効化」をオンにしたうえで、API ベース URL やモデル名を指定してください。

仕組み

HootVoice が音声を Whisper で文字起こしします。
文字起こしが完了すると、指定した LLM API に /v1/chat/completions リクエストを送信します。
LLM が整形したテキストが戻り、ログに結果が記録されます。
自動ペーストが有効な場合は、LLM の結果がそのまま前面アプリに貼り付けられます。

API が応答しない場合やエラーが発生した場合は、従来どおり Whisper の生テキストを使用します。ログには HTTP ステータスやエラーメッセージが記録されるため、問題の切り分けに活用できます。

導入チェックリスト

ローカル PC 上で OpenAI 互換 API（Ollama または LM Studio）が待ち受けていること
使用したい LLM モデルがあらかじめダウンロード済みであること
curl などで /v1/models や /v1/chat/completions にアクセスできること
アプリの設定で API ベース URL とモデル名を正しく指定していること

Ollama を使う

Ollama はシンプルな CLI/サービスで、`http://localhost:11434/v1` に OpenAI 互換の REST API を提供します。HootVoice の既定値とも一致します。

macOS

brew install ollama を実行（Homebrew が必要）。
ollama run llama3.1:8b などで初回モデルをダウンロードして動作確認。
常駐させる場合は ollama serve を起動するか、Ollama.app をログイン項目に追加。

Windows

Ollama for Windows をダウンロードしてインストール。
インストール後に PowerShell で ollama run llama3.1:8b を実行しモデルを取得。
サービスは自動的にバックグラウンドで起動します。必要に応じてタスクトレイから制御してください。

Linux

curl https://ollama.ai/install.sh | sh を実行。
systemctl --user enable --now ollama でユーザーサービスとして常駐させます。
ollama run llama3.1:8b でモデルをダウンロードし、API が応答するか確認。

接続テストには以下のコマンドが利用できます。

curl http://localhost:11434/v1/models

LM Studio を使う

LM Studio は GUI ベースでモデル管理が行いやすく、OpenAI 互換サーバーも同梱されています。既定ポートは 1234 なので、HootVoice の URL を http://localhost:1234/v1 に変更してください。

macOS

公式サイトから DMG をダウンロードしてインストール。
起動後、「Download Models」から利用したいモデルを追加。
画面右上の「Start Server」を押し、「OpenAI Compatible Server」を有効化。

Windows

インストーラーをダウンロードし実行。既定設定で問題ありません。
アプリ内でモデルをダウンロード後、「Server」タブからサーバーを起動。
必要に応じてスタートアップ登録し、自動起動を有効にします。

Linux

AppImage または Debian パッケージを入手して実行。
モデルをダウンロードしたら、右上のサーバースイッチをオンにします。
初回はファイアウォールでポート 1234 へのアクセス許可が必要な場合があります。

API が起動しているかどうかは以下で確認できます。

curl http://localhost:1234/v1/models

推奨モデル

用途	モデル	備考
日本語の整形・敬体化	`google/gemma-3-12b`（Ollama / LM Studio）	日本語の表現力が高い。4-bit 量子化なら VRAM 10〜12GB 程度が目安。
英語中心の要約	`qwen2.5:7b-instruct` / `Phi-3.5-mini-instruct`	高速レスポンス。要約プロンプトと相性良好。
精度重視	`llama3.1:70b` などの大型モデル	高性能 GPU/VRAM が必要。Ollama では `OLLAMA_NUM_PARALLEL` で調整。

モデル名は API に合わせて指定する必要があります。Ollama の場合は ollama list で確認でき、LM Studio では「Local Models」一覧の識別子を利用します。

トラブルシューティング

「HTTP 404 /v1/chat/completions」エラー: API ベース URL に /v1 を含めているか確認。
タイムアウトする: モデル読み込みに時間がかかるため、初回は 30 秒以上待つか、小型モデルで試す。
英語で返ってくる: 設定の「プロンプト言語を固定」を日本語に変更、またはプロンプト内で言語指定を追加。
CPU/GPU 使用率が高い: Ollama の ollama run に -ngl オプションを付けて量子化版を使うか、小型モデルを選択。

それでも解決しない場合は、アプリのログウィンドウから該当するリクエスト/レスポンスをコピーし、開発チームまで共有してください。