（Ffmpeg）m4a通話録音ファイルSTTに変換する（⭐⭐⭐）

タグ

Empty

作成日

Jan 4, 2025 11:57 AM

名前

（Ffmpeg）m4a通話録音ファイルSTTに変換する（⭐⭐⭐）

カテゴリー

Empty

作者

data_popcorn

実習環境

•

Mac OS M1 (Sonoma 14.6.1(23G93))

ワークフロー

背景

•

Android Phoneでデフォルトのレコーダーとしての通話録音m4aファイルをopenAI Transcription APIを介してテキストに変換する作業をしようとしています。

•

テスト用M4aデータサンプル

•

https://raw.githubusercontent.com/2innnnn0/assets/refs/heads/master/audio/07089191203_240710_194457.m4a

raw.githubusercontent.com

コース

•

MacBook端末でcURLで実行してみると、m4aファイルをサポートしていないという。

•

File 07089191203_240710_194457.m4aで確認してみると、 ISO Media、MPEG v4 system、3GPPなのに同じm4aファイルであってもopenAI APIが認識するコーデックが違うなら変換をしなければならないとchatGPTが答えます。

•

だから、これをFfmpegにもう一度変換する

ffmpeg -i 07089191203_240710_194457.m4a -c:a aac -b:a 192k output.m4a

•

変換前後比較

◦

(前) ISOメディア、MPEG v4システム、3GPP

◦

(後) ISO Media、Apple iTunes ALAC/AAC-LC (.M4A) Audio

ローカルでテストしてみたので、今ではN8nサーバーで直接してみる作業を進めます。

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer <OPENAI_API_KEY>" \
  -H "Content-Type: multipart/form-data" \
  -F file=@output.m4a \
  -F model="whisper-1"
 
{"text":"이규리 시집 당신은 첫눈입니까? 상자 상자들을 두고 그들은 떠났다. 아래층에 맡겨둔 보물 아래층에 맡겨둔 약속을 아래층에 맡겨둔 질문을 아래층에 맡겨둔 당신의 아래층이 모두 가지세요. 그 상자를 나는 열지 않아요. 먼저온 꽃의 슬픔과 허기를 재울 때 고요이 찬 인연이 저물 때 생각해보면 가능이란 먼 것만은 아니었어요."}%

N8nサーバーにffmpegをインストールするプロセス

*クラウドはできず、セルフホスティングでのみ可能です。

私のN8nサーバーのdocker設定を開き、以下のように進みます

Docker psでcontainer idを確認します。

•

Docker ps

Docker execコマンドでroot権限で接続します。

•

Docker exec -it --user root [CONTAINER_ID] sh
apk add --no-cache ffmpeg

インストールがうまくいっていることを確認してください。

•

Ffmpeg -version

それでは、N8nサーバーで以下のワークフローをダウンロードして入れてみましょう。

M4aファイルを読み込む

Read/Write Files from Disk

Docker Serverリポジトリに一時ファイルを作成します。

Execute Command

•

M4aをAACに変換します。

Read/Write Files from Disk

•

変換されたファイルを再読み込み

OpenAI API

•

Transcribe a Recordingでm4aファイルをテキストに変換します。

Made with Slashpage

（Ffmpeg）m4a通話録音ファイルSTTに変換する（⭐⭐⭐）

タグ

Empty

作成日

Jan 4, 2025 11:57 AM

名前

（Ffmpeg）m4a通話録音ファイルSTTに変換する（⭐⭐⭐）

カテゴリー

Empty

作者

data_popcorn

実習環境

•

Mac OS M1 (Sonoma 14.6.1(23G93))

ワークフロー

背景

•

Android Phoneでデフォルトのレコーダーとしての通話録音m4aファイルをopenAI Transcription APIを介してテキストに変換する作業をしようとしています。

•

テスト用M4aデータサンプル

•

https://raw.githubusercontent.com/2innnnn0/assets/refs/heads/master/audio/07089191203_240710_194457.m4a

raw.githubusercontent.com

コース

•

MacBook端末でcURLで実行してみると、m4aファイルをサポートしていないという。

•

•

だから、これをFfmpegにもう一度変換する

ffmpeg -i 07089191203_240710_194457.m4a -c:a aac -b:a 192k output.m4a

•

変換前後比較

◦

(前) ISOメディア、MPEG v4システム、3GPP

◦

(後) ISO Media、Apple iTunes ALAC/AAC-LC (.M4A) Audio

ローカルでテストしてみたので、今ではN8nサーバーで直接してみる作業を進めます。

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer <OPENAI_API_KEY>" \
  -H "Content-Type: multipart/form-data" \
  -F file=@output.m4a \
  -F model="whisper-1"
 
{"text":"이규리 시집 당신은 첫눈입니까? 상자 상자들을 두고 그들은 떠났다. 아래층에 맡겨둔 보물 아래층에 맡겨둔 약속을 아래층에 맡겨둔 질문을 아래층에 맡겨둔 당신의 아래층이 모두 가지세요. 그 상자를 나는 열지 않아요. 먼저온 꽃의 슬픔과 허기를 재울 때 고요이 찬 인연이 저물 때 생각해보면 가능이란 먼 것만은 아니었어요."}%