Whisper
Un modelo de reconocimiento de voz de propósito general de OpenAI.
Whisper Introducción
¿Qué es Whisper?
Whisper es un modelo de reconocimiento de voz de propósito general desarrollado por OpenAI. Está entrenado con un gran conjunto de datos de audio diverso y es un modelo multitarea que puede realizar reconocimiento multilingüe, traducción de voz e identificación de idioma. Whisper usa un modelo Transformer secuencia a secuencia entrenado en varias tareas de procesamiento de voz, incluyendo reconocimiento multilingüe, traducción, identificación de idioma hablado y detección de actividad vocal. Estas tareas se representan conjuntamente como una secuencia de tokens que el decodificador predice, permitiendo que un solo modelo reemplace muchas etapas de una canalización tradicional de procesamiento de voz. El formato de entrenamiento multitarea usa un conjunto de tokens especiales que sirven como especificadores de tarea o objetivos de clasificación.
Cómo usar Whisper?
Whisper puede usarse vía línea de comandos o dentro de Python. Para uso en línea de comandos, puedes transcribir voz en archivos de audio especificando el archivo y tamaño del modelo. Para uso en Python, puedes cargar el modelo y usar el método transcribe() para procesar archivos de audio.
¿Por qué elegir Whisper?
Elige esto si quieres un sistema de reconocimiento de voz potente, de código abierto, versátil y que pueda manejar muchos idiomas y acentos.
Whisper Características
AI Speech Recognition
- ✓Reconocimiento multilingüe de voz
- ✓Traducción de voz
- ✓Identificación de idioma
- ✓Detección de actividad vocal
¿Preguntas frecuentes?
Precios
Información de precios no disponible







