Whisper(文字起こし)

Whisperで文字起こしをやってみた。

つぎのように環境を整える。

$ mkdir whisper
$ pyenv local 3.11.9
$ uv venv
$ uv pip install git+https://github.com/openai/whisper.git
$ mkdir convent
$ mkdir download

contentディレクトリにsample.mp3をコピーする。

つぎのような、スクリプト(sample.py)を作成する。

import whisper

fileName = "sample.mp3"
lang = "ja"
model = whisper.load_model("large")

# Load audio
audio = whisper.load_audio(f"content/{fileName}")

result = model.transcribe(audio, verbose=True, language=lang)

# Write into a text file
with open(f"download/{fileName}.txt", "w") as f:
  f.write(result["text"])

音声起こしを実行する。

$ source .venv/bin/activate
$ python sample.py

文字起こしが完了するとsample.mp3.txtに出力される。