faster whisperを使う

open aiから公開されているwhisperについて、ある程度の精度を保ったままもっと早くしたい人向けにちょうどよさそうです。

通常のwhisperと同じくsrtで出力してくれるなら実用的ですので、やってみます。

準備

pythonのインストールについてはこちらをご確認ください。

conda環境を作りたいのでminiconda3でPythonをインストールしています。

Pathを通すという項目にチェックが付いていないので、後から個別に作業するのは面倒なためこれもチェックを入れてインストールします。

conda create -n faster-whisper
conda activate  faster-whisper

faster whisperの準備

pip install faster-whisper

modelファイルをct2で使えるように変換

ct2-transformers-converterでコマンドを打つとオプションが表示されるのでそれに従って以下のようにopenaiのWhisperのlarge-v2モデルを変換します。

ct2-transformers-converter --model openai/whisper-large-v2 --output_dir whisper-large-v2-ct2 --copy_files tokenizer.json --quantization float16

whisper-large-v2-ct2フォルダができて、この中にlarge-v2のモデルが格納されてfaster-whisperで使います。

Nvidia のCuda Toolkit 11.8 と cudnn v8をインストールします。
新しいバージョンにしていないのは、この組み合わせでないと動作しないとあったので動作する少し古いバージョンにしています。

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8

にCUDAはインストールされると思いますので、cudnnのファイルはv11.8フォルダの中の同じフォルダ名のところに上書きでインストールしました。

Zlibwapi.dllをインストールする必要があり、これをインストールしないとcudnnがすべて認識されませんので、binフォルダに一緒に格納します。

システム環境変数を選定します。

オーディオファイルの準備方法についてはこちらをご確認ください。

faster whisperの実行環境が整ったのであとは、Python実行ファイルを作成します。

sys_argを設定して、batファイルにオーディオファイルをD&Dするとpythonファイルでオーディオファイルを受け取るような流れにします。

1 ファイル 186.30 KB

ダウンロード