Please wait while we load the page
WhisperはOpenAIが開発した汎用音声認識モデルです。多様な音声の大規模データセットで訓練されており、多言語音声認識だけでなく音声翻訳や言語識別も行えるマルチタスクモデルです。WhisperはTransformerのシーケンス・ツー・シーケンスモデルを使用し、多言語音声認識、音声翻訳、話者言語識別、音声活動検出などの音声処理タスクを含む様々なタスクで訓練されています。これらのタスクはデコーダーが予測するトークンのシーケンスとして共同で表現されており、単一モデルで従来の音声処理パイプラインの多くの段階を置き換えることが可能です。マルチタスク訓練形式では、タスク指定子や分類ターゲットとして機能する特別なトークンのセットを使用します。
WhisperはコマンドラインまたはPython内で使用できます。コマンドラインでは、音声ファイルとモデルサイズを指定して音声を文字起こしできます。Pythonではモデルをロードし、transcribe()メソッドを使って音声ファイルを処理できます。
強力でオープンソースの音声認識システムが欲しく、多言語やアクセントに対応できるものを求めているなら、これを選んでください。
価格情報はありません
利用可能な製品がありません