English

LLM 後処理セットアップガイド

Whisper の文字起こし結果を LLM で整形・要約する仕組みと、Ollama / LM Studio を使った導入手順をまとめました。

概要

LLM 後処理機能を有効にすると、Whisper が出力したテキストをローカルの LLM API に送り、句読点整形・敬体化・要約などを自動で行えます。API は OpenAI 互換エンドポイントを想定しており、Ollama や LM Studio と組み合わせて利用します。

初期設定では無効になっているため、アプリの「設定 → LLM」で「LLM による後処理を有効化」をオンにしたうえで、API ベース URL やモデル名を指定してください。

仕組み

  1. HootVoice が音声を Whisper で文字起こしします。
  2. 文字起こしが完了すると、指定した LLM API に /v1/chat/completions リクエストを送信します。
  3. LLM が整形したテキストが戻り、ログに結果が記録されます。
  4. 自動ペーストが有効な場合は、LLM の結果がそのまま前面アプリに貼り付けられます。

API が応答しない場合やエラーが発生した場合は、従来どおり Whisper の生テキストを使用します。ログには HTTP ステータスやエラーメッセージが記録されるため、問題の切り分けに活用できます。

導入チェックリスト

Ollama を使う

Ollama はシンプルな CLI/サービスで、`http://localhost:11434/v1` に OpenAI 互換の REST API を提供します。HootVoice の既定値とも一致します。

macOS

  1. brew install ollama を実行(Homebrew が必要)。
  2. ollama run llama3.1:8b などで初回モデルをダウンロードして動作確認。
  3. 常駐させる場合は ollama serve を起動するか、Ollama.app をログイン項目に追加。

Windows

  1. Ollama for Windows をダウンロードしてインストール。
  2. インストール後に PowerShell で ollama run llama3.1:8b を実行しモデルを取得。
  3. サービスは自動的にバックグラウンドで起動します。必要に応じてタスクトレイから制御してください。

Linux

  1. curl https://ollama.ai/install.sh | sh を実行。
  2. systemctl --user enable --now ollama でユーザーサービスとして常駐させます。
  3. ollama run llama3.1:8b でモデルをダウンロードし、API が応答するか確認。

接続テストには以下のコマンドが利用できます。

curl http://localhost:11434/v1/models

LM Studio を使う

LM Studio は GUI ベースでモデル管理が行いやすく、OpenAI 互換サーバーも同梱されています。既定ポートは 1234 なので、HootVoice の URL を http://localhost:1234/v1 に変更してください。

macOS

  1. 公式サイト から DMG をダウンロードしてインストール。
  2. 起動後、「Download Models」から利用したいモデルを追加。
  3. 画面右上の「Start Server」を押し、「OpenAI Compatible Server」を有効化。

Windows

  1. インストーラーをダウンロードし実行。既定設定で問題ありません。
  2. アプリ内でモデルをダウンロード後、「Server」タブからサーバーを起動。
  3. 必要に応じてスタートアップ登録し、自動起動を有効にします。

Linux

  1. AppImage または Debian パッケージを入手して実行。
  2. モデルをダウンロードしたら、右上のサーバースイッチをオンにします。
  3. 初回はファイアウォールでポート 1234 へのアクセス許可が必要な場合があります。

API が起動しているかどうかは以下で確認できます。

curl http://localhost:1234/v1/models

推奨モデル

用途 モデル 備考
日本語の整形・敬体化 google/gemma-3-12b(Ollama / LM Studio) 日本語の表現力が高い。4-bit 量子化なら VRAM 10〜12GB 程度が目安。
英語中心の要約 qwen2.5:7b-instruct / Phi-3.5-mini-instruct 高速レスポンス。要約プロンプトと相性良好。
精度重視 llama3.1:70b などの大型モデル 高性能 GPU/VRAM が必要。Ollama では OLLAMA_NUM_PARALLEL で調整。

モデル名は API に合わせて指定する必要があります。Ollama の場合は ollama list で確認でき、LM Studio では「Local Models」一覧の識別子を利用します。

トラブルシューティング

それでも解決しない場合は、アプリのログウィンドウから該当するリクエスト/レスポンスをコピーし、開発チームまで共有してください。