802 B
802 B
speech-to-text-pipeline
音声データをテキストデータへ変換し最終成果物を出力する
ユースケース
- 会議録の音声メモを入力して会議録を作成する
- 音声データからアクションプランや課題を抽出して、レポートを出力する
機能
- 音声フォーマット統一
- チャンク処理
- 音声前処理(ノイズ除去)
- 音声強調
- 話者分別機能(VAD)
- 文字起こし
- テキストファイル出力
- 制度評価
- 精度結果出力
実現する技術
インフラ
- GPU処理
- Modal
- Pipeライン
- 検討中
仕様
音声フォーマット統一
- Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる