目的
自動文字起こしのopen aiから公開されたwhisperについて、読み込める音声フォーマットに最適化するのが目的です。
変換
通常版のwhisperを使っているのであれば動画からでも問題なく読み込めることを確認していますが、派生版などは16kのwav,mp3出ないと読み込めないため、ffmpegで変換します。
ffmpegの準備
ffmpegのダウンロードはこちらです。
ffmpeg.exeだけあれば良いので他のファイルは不要です。
.batファイルの作成.
.batファイルというのはwindowsでメモ帳で書いてできる非常に簡単な実行形式です。
中身もメモ帳で読めます。
“.bat”は、バッチファイル(Batch File)の拡張子であり、Windowsオペレーティングシステムで使われるコマンドスクリプトの形式です。
バッチファイルは、複数のコマンドを一括で実行することができます。バッチファイルを作成することで、手動で同じコマンドを繰り返し入力する手間を省くことができます。また、特定のタスクを自動化するためにバッチファイルを使うこともできます。
バッチファイルは、Windowsコマンドプロンプトで実行することができます。また、Windowsスケジューラーを使って定期的に実行することもできます。バッチファイルは、簡単に作成できるため、Windowsの管理や自動化において非常に有用です。
中身について
音声は普通に用意すると48kか44.1kになっているので、これを16kにします
ステレオの2chで録音されたファイルがほとんどだと思いますが、マイク一本で録音するとモノラルになるのでモノラル1chに変換します。
ffmpegが対応した形式をD&Dするだけで変換されるようにしたいので、以下のようにします。
ffmpeg -i %1 -acodec libmp3lame -ar 16000 -ac 1 audio.mp3
完成版
.batファイルですしウイルスも当然入ってないので解凍してすぐ使えるように置いておきます。
変換するファイルは英数文字のみにすればエラーにならないと思います。
変換されたファイルはaudio.mp3となり16kで1chのmp3に保存されます。
使い方
ffmpeg.exeとconvert16k1chmp3.batを同じフォルダにいれて.batファイルに変換したいファイルをD&Dしてください。
コメント