2025-09-10 21:52:57 +09:00

39 lines
802 B
Markdown

# speech-to-text-pipeline
音声データをテキストデータへ変換し最終成果物を出力する
## ユースケース
* 会議録の音声メモを入力して会議録を作成する
* 音声データからアクションプランや課題を抽出して、レポートを出力する
## 機能
* 音声フォーマット統一
* チャンク処理
* 音声前処理(ノイズ除去)
* 音声強調
* 話者分別機能(VAD)
* 文字起こし
* テキストファイル出力
* 制度評価
* 精度結果出力
## 実現する技術
**インフラ**
* GPU処理
* Modal
* Pipeライン
* 検討中
## 仕様
### 音声フォーマット統一
* Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる