Whisperで文字起こしをやってみた。
つぎのように環境を整える。
$ mkdir whisper
$ pyenv local 3.11.9
$ uv venv
$ uv pip install git+https://github.com/openai/whisper.git
$ mkdir convent
$ mkdir download
contentディレクトリにsample.mp3をコピーする。
つぎのような、スクリプト(sample.py)を作成する。
import whisper
fileName = "sample.mp3"
lang = "ja"
model = whisper.load_model("large")
# Load audio
audio = whisper.load_audio(f"content/{fileName}")
result = model.transcribe(audio, verbose=True, language=lang)
# Write into a text file
with open(f"download/{fileName}.txt", "w") as f:
f.write(result["text"])
音声起こしを実行する。
$ source .venv/bin/activate
$ python sample.py
文字起こしが完了するとsample.mp3.txtに出力される。