私がポッドキャスト番組で話した内容を自動的にパソコン雑誌風記事に仕上げるソフト作成しました。あ、実際コードを書いたのは私ではなくてClaudeに書いてもらいました。
仕様を考えてClaudeに下記のプロンプトを投げました。
下記のようなプログラムを作成してください。
# 環境
(1) WindowsデスクトップGUIアプリ
(2) 言語はPython# 入力情報
(1) ポッドキャスト番組の音声ファイル
(2) ファイル形式はMP3形式またはWAV形式# 出力情報
(1) テキストファイル
(2) ファイル形式はマークダウン(拡張子 .md))# 処理内容
(1) 音声ファイルを読み込む
(2) Azureのサービスを使って。音声を日本語で文字起こしする。
(3) 文字起こししたテキストは出力ファイルと同じフォルダに “文字起こし.txt” というファイル名でテキストファイルで出力する
(4) Azureのサービスを使って、文字起こししたものをパソコン雑誌風の記事にする。
(5) 内容ごとに章立てする。# 画面構成
(1) テキストボックスで読み込む音声のファイルパスを指定
(2) テキストボックスで出力するファイルのパスを指定
(3) [実行]を用意する。# 画面操作
(1) 音声のファイルパスを指定する
(2) [実行]ボタンをクリックする
(3) ファイル出力する# Azureのサービス利用
エンドポイントURLやデプロイ名やキーはソースコードに直接書かずに、外部ファイルから読みこむようにしてください。ソースコードの再作成をしてください。(1) ファイルの置き場所はソースコードと同じ場所にしてください
(2) ファイル名はsetting.json
(3) ファイル形式はJSON形式にしてください
AzureのサービスはAzure Speech to TextとAzure OpenAI Service(GPT-4o)を使いました。注意点としては音声ファイルはサンプルレートを16kHzにしないとAzure Speech to Textで読み込むときにエラーとなります。
そしてできたのがこの画面
実際、こちらのポッドキャスト番組の内容を読み込ませました。
そして出力結果がこちらです。もちろんこれからチューニングが必要になりますが、これはプロンプトの調整などで対応できます。
凄い!!これがマイクロソフトとOpenAIの脅威のテクノロジー!!高度に発達した技術は魔法と区別がつかない・・・で、これを人に作らせたらいくらかかるだろう・・・
ソースコートはこちらに公開しています。