Whisperで文字起こしをして、ffmepgで音声を切り出す。
Whisperを実行するとつぎのように結果を表示してくれる。
[06:16.740 --> 06:18.620] おはようございます
[06:51.680 --> 06:52.680] こんにちは
[06:55.400 --> 06:56.400] おやすみなさい
切り出した時間からffmpegでつぎのように実行すると、文字起こしした部分だけ音声を抜き出すことができる。
$ ffmpeg -i 入力ファイル名 -ss 開始時刻 -to 終了時刻 -c copy 出力ファイル名