Whisper
Un modelo de reconocimiento de voz de propósito general de OpenAI.
Please wait while we load the page
Whisper es un modelo de reconocimiento de voz de propósito general desarrollado por OpenAI. Está entrenado con un gran conjunto de datos de audio diverso y es un modelo multitarea que puede realizar reconocimiento multilingüe, traducción de voz e identificación de idioma. Whisper usa un modelo Transformer secuencia a secuencia entrenado en varias tareas de procesamiento de voz, incluyendo reconocimiento multilingüe, traducción, identificación de idioma hablado y detección de actividad vocal. Estas tareas se representan conjuntamente como una secuencia de tokens que el decodificador predice, permitiendo que un solo modelo reemplace muchas etapas de una canalización tradicional de procesamiento de voz. El formato de entrenamiento multitarea usa un conjunto de tokens especiales que sirven como especificadores de tarea o objetivos de clasificación.
Whisper puede usarse vía línea de comandos o dentro de Python. Para uso en línea de comandos, puedes transcribir voz en archivos de audio especificando el archivo y tamaño del modelo. Para uso en Python, puedes cargar el modelo y usar el método transcribe() para procesar archivos de audio.
Elige esto si quieres un sistema de reconocimiento de voz potente, de código abierto, versátil y que pueda manejar muchos idiomas y acentos.
Información de precios no disponible
No hay productos disponibles