n8n-guide
n8n-guide
N8n コミュニティ
チャットルーム
Sign In

(Ffmpeg)m4a通話録音ファイルSTTに変換する(⭐⭐⭐)

タグ
Empty
作成日
Jan 4, 2025 11:57 AM
名前
(Ffmpeg)m4a通話録音ファイルSTTに変換する(⭐⭐⭐)
カテゴリー
Empty
作者
  • data_popcorn

実習環境

•
Mac OS M1 (Sonoma 14.6.1(23G93))

ワークフロー

背景

•
Android Phoneでデフォルトのレコーダーとしての通話録音m4aファイルをopenAI Transcription APIを介してテキストに変換する作業をしようとしています。
•
テスト用M4aデータサンプル
•
https://raw.githubusercontent.com/2innnnn0/assets/refs/heads/master/audio/07089191203_240710_194457.m4a
https://raw.githubusercontent.com/2innnnn0/assets/refs/heads/master/audio/07089191203_240710_194457.m4a
raw.githubusercontent.com

コース

•
MacBook端末でcURLで実行してみると、m4aファイルをサポートしていないという。
•
File 07089191203_240710_194457.m4aで確認してみると、 ISO Media、MPEG v4 system、3GPPなのに同じm4aファイルであってもopenAI APIが認識するコーデックが違うなら変換をしなければならないとchatGPTが答えます。
•
だから、これをFfmpegにもう一度変換する
ffmpeg -i 07089191203_240710_194457.m4a -c:a aac -b:a 192k output.m4a
•
変換前後比較
◦
(前) ISOメディア、MPEG v4システム、3GPP
◦
(後) ISO Media、Apple iTunes ALAC/AAC-LC (.M4A) Audio
ローカルでテストしてみたので、今ではN8nサーバーで直接してみる作業を進めます。
curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer <OPENAI_API_KEY>" \
  -H "Content-Type: multipart/form-data" \
  -F file=@output.m4a \
  -F model="whisper-1"
 
{"text":"이규리 시집 당신은 첫눈입니까? 상자 상자들을 두고 그들은 떠났다. 아래층에 맡겨둔 보물 아래층에 맡겨둔 약속을 아래층에 맡겨둔 질문을 아래층에 맡겨둔 당신의 아래층이 모두 가지세요. 그 상자를 나는 열지 않아요. 먼저온 꽃의 슬픔과 허기를 재울 때 고요이 찬 인연이 저물 때 생각해보면 가능이란 먼 것만은 아니었어요."}%

N8nサーバーにffmpegをインストールするプロセス

*クラウドはできず、セルフホスティングでのみ可能です。
私のN8nサーバーのdocker設定を開き、以下のように進みます
1.
Docker psでcontainer idを確認します。
•
Docker ps
1.
Docker execコマンドでroot権限で接続します。
•
Docker exec -it --user root [CONTAINER_ID] sh
apk add --no-cache ffmpeg
1.
インストールがうまくいっていることを確認してください。
•
Ffmpeg -version
それでは、N8nサーバーで以下のワークフローをダウンロードして入れてみましょう。
1.
M4aファイルを読み込む
1.
Read/Write Files from Disk
a.
Docker Serverリポジトリに一時ファイルを作成します。
1.
Execute Command
•
M4aをAACに変換します。
1.
Read/Write Files from Disk
•
変換されたファイルを再読み込み
1.
OpenAI API
•
Transcribe a Recordingでm4aファイルをテキストに変換します。
Made with Slashpage