2025-09-10 21:52:57 +09:00

802 B

speech-to-text-pipeline

音声データをテキストデータへ変換し最終成果物を出力する

ユースケース

  • 会議録の音声メモを入力して会議録を作成する
  • 音声データからアクションプランや課題を抽出して、レポートを出力する

機能

  • 音声フォーマット統一
  • チャンク処理
  • 音声前処理(ノイズ除去)
  • 音声強調
  • 話者分別機能(VAD)
  • 文字起こし
  • テキストファイル出力
  • 制度評価
  • 精度結果出力

実現する技術

インフラ

  • GPU処理
    • Modal
  • Pipeライン
    • 検討中

仕様

音声フォーマット統一

  • Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる