39 lines
802 B
Markdown
39 lines
802 B
Markdown
# speech-to-text-pipeline
|
|
|
|
音声データをテキストデータへ変換し最終成果物を出力する
|
|
|
|
## ユースケース
|
|
|
|
* 会議録の音声メモを入力して会議録を作成する
|
|
* 音声データからアクションプランや課題を抽出して、レポートを出力する
|
|
|
|
## 機能
|
|
|
|
* 音声フォーマット統一
|
|
* チャンク処理
|
|
* 音声前処理(ノイズ除去)
|
|
* 音声強調
|
|
* 話者分別機能(VAD)
|
|
* 文字起こし
|
|
* テキストファイル出力
|
|
* 制度評価
|
|
* 精度結果出力
|
|
|
|
|
|
|
|
## 実現する技術
|
|
|
|
**インフラ**
|
|
|
|
* GPU処理
|
|
* Modal
|
|
* Pipeライン
|
|
* 検討中
|
|
|
|
|
|
|
|
## 仕様
|
|
|
|
### 音声フォーマット統一
|
|
|
|
* Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる |