(Ffmpeg)m4a通話録音ファイルSTTに変換する(⭐⭐⭐)

作成日
名前
(Ffmpeg)m4a通話録音ファイルSTTに変換する(⭐⭐⭐)
Created by
  • data_popcorn

実習環境

Mac OS M1 (Sonoma 14.6.1(23G93))

ワークフロー

背景

Android Phoneでデフォルトのレコーダーとしての通話録音m4aファイルをopenAI Transcription APIを介してテキストに変換する作業をしようとしています。
テスト用M4aデータサンプル

コース

MacBook端末でcURLで実行してみると、m4aファイルをサポートしていないという。
File 07089191203_240710_194457.m4aで確認してみると、 ISO Media、MPEG v4 system、3GPPなのに同じm4aファイルであってもopenAI APIが認識するコーデックが違うなら変換をしなければならないとchatGPTが答えます。
だから、これをFfmpegにもう一度変換する
ffmpeg -i 07089191203_240710_194457.m4a -c:a aac -b:a 192k output.m4a
変換前後比較
(前) ISOメディア、MPEG v4システム、3GPP
(後) ISO Media、Apple iTunes ALAC/AAC-LC (.M4A) Audio
ローカルでテストしてみたので、今ではN8nサーバーで直接してみる作業を進めます。
curl https://api.openai.com/v1/audio/transcriptions \ -H "Authorization: Bearer <OPENAI_API_KEY>" \ -H "Content-Type: multipart/form-data" \ -F file=@output.m4a \ -F model="whisper-1" {"text":"이규리 시집 당신은 첫눈입니까? 상자 상자들을 두고 그들은 떠났다. 아래층에 맡겨둔 보물 아래층에 맡겨둔 약속을 아래층에 맡겨둔 질문을 아래층에 맡겨둔 당신의 아래층이 모두 가지세요. 그 상자를 나는 열지 않아요. 먼저온 꽃의 슬픔과 허기를 재울 때 고요이 찬 인연이 저물 때 생각해보면 가능이란 먼 것만은 아니었어요."}%

N8nサーバーにffmpegをインストールするプロセス

*クラウドはできず、セルフホスティングでのみ可能です。
私のN8nサーバーのdocker設定を開き、以下のように進みます
1.
Docker psでcontainer idを確認します。
Docker ps
1.
Docker execコマンドでroot権限で接続します。
Docker exec -it --user root [CONTAINER_ID] sh
apk add --no-cache ffmpeg
1.
インストールがうまくいっていることを確認してください。
Ffmpeg -version
それでは、N8nサーバーで以下のワークフローをダウンロードして入れてみましょう。
1.
M4aファイルを読み込む
1.
Read/Write Files from Disk
a.
Docker Serverリポジトリに一時ファイルを作成します。
1.
Execute Command
M4aをAACに変換します。
1.
Read/Write Files from Disk
変換されたファイルを再読み込み
1.
OpenAI API
Transcribe a Recordingでm4aファイルをテキストに変換します。