speech-to-text-pipeline/docs/outline.md

# speech-to-text-pipeline

音声データをテキストデータへ変換し最終成果物を出力する

## ユースケース

* 会議録の音声メモを入力して会議録を作成する
* 音声データからアクションプランや課題を抽出して、レポートを出力する

## 機能

* 音声フォーマット統一
* チャンク処理
* 音声前処理(ノイズ除去)
* 音声強調
* 話者分別機能(VAD)
* 文字起こし
* テキストファイル出力
* 制度評価
* 精度結果出力


## 実現する技術

**インフラ**

* GPU処理
  * Modal
* Pipeライン
  * 検討中


## 仕様

### 音声フォーマット統一

* Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる