目的
自動文字起こしのopen aiから公開されたwhisperについて、読み込める音声フォーマットに最適化するのが目的です。
変換
通常版のwhisperを使っているのであれば動画からでも問題なく読み込めることを確認していますが、派生版などは16kのwav,mp3出ないと読み込めないため、ffmpegで変換します。
ffmpegの準備
ffmpegのダウンロードはこちらです。
ffmpeg.exeだけあれば良いので他のファイルは不要です。
.batファイルの作成.
.batファイルというのはwindowsでメモ帳で書いてできる非常に簡単な実行形式です。
中身もメモ帳で読めます。
中身について
音声は普通に用意すると48kか44.1kになっているので、これを16kにします
ステレオの2chで録音されたファイルがほとんどだと思いますが、マイク一本で録音するとモノラルになるのでモノラル1chに変換します。
ffmpegが対応した形式をD&Dするだけで変換されるようにしたいので、以下のようにします。
ffmpeg -i %1 -acodec libmp3lame -ar 16000 -ac 1 audio.mp3
完成版
.batファイルですしウイルスも当然入ってないので解凍してすぐ使えるように置いておきます。
変換するファイルは英数文字のみにすればエラーにならないと思います。
変換されたファイルはaudio.mp3となり16kで1chのmp3に保存されます。
convert16k1chmp3.rar
1 ファイル 0.14 KB
使い方
ffmpeg.exeとconvert16k1chmp3.batを同じフォルダにいれて.batファイルに変換したいファイルをD&Dしてください。
コメント