# speech-to-text-pipeline 音声データをテキストデータへ変換し最終成果物を出力する ## ユースケース * 会議録の音声メモを入力して会議録を作成する * 音声データからアクションプランや課題を抽出して、レポートを出力する ## 機能 * 音声フォーマット統一 * チャンク処理 * 音声前処理(ノイズ除去) * 音声強調 * 話者分別機能(VAD) * 文字起こし * テキストファイル出力 * 制度評価 * 精度結果出力 ## 実現する技術 **インフラ** * GPU処理 * Modal * Pipeライン * 検討中 ## 仕様 ### 音声フォーマット統一 * Whisper系やgpt-4o-transcribeの両方ともmono / 16kHz / PCM16 が最適となる