data-science/speech-to-text-pipeline

ry.yamafuji 1e808cb472 チャンク処理

2025-09-10 21:52:57 +09:00

802 B

Raw Blame History

speech-to-text-pipeline

音声データをテキストデータへ変換し最終成果物を出力する

ユースケース

会議録の音声メモを入力して会議録を作成する
音声データからアクションプランや課題を抽出して、レポートを出力する

機能

音声フォーマット統一
チャンク処理
音声前処理(ノイズ除去)
音声強調
話者分別機能(VAD)
文字起こし
テキストファイル出力
制度評価
精度結果出力

実現する技術

インフラ

GPU処理
- Modal
Pipeライン
- 検討中

仕様

音声フォーマット統一

Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる