Whisper
Un modèle de reconnaissance vocale polyvalent par OpenAI.
Whisper Introduction
Qu'est-ce que c'est Whisper?
Whisper est un modèle de reconnaissance vocale polyvalent développé par OpenAI. Il est entraîné sur un grand ensemble de données audio diversifié et est aussi un modèle multitâche capable d'effectuer la reconnaissance vocale multilingue ainsi que la traduction vocale et l'identification de langue. Whisper utilise un modèle Transformer séquence-à-séquence entraîné sur diverses tâches de traitement vocal, incluant la reconnaissance vocale multilingue, la traduction vocale, l'identification de langue parlée et la détection d'activité vocale. Ces tâches sont représentées conjointement comme une séquence de jetons à prédire par le décodeur, permettant à un seul modèle de remplacer plusieurs étapes d'un pipeline traditionnel de traitement vocal. Le format d'entraînement multitâche utilise un ensemble de jetons spéciaux servant de spécificateurs de tâche ou de cibles de classification.
Comment utiliser Whisper?
Whisper peut être utilisé via la ligne de commande ou en Python. Pour la ligne de commande, vous pouvez transcrire la parole dans des fichiers audio en spécifiant le fichier audio et la taille du modèle. Pour Python, vous pouvez charger le modèle et utiliser la méthode transcribe() pour traiter les fichiers audio.
Pourquoi choisir Whisper?
Choisissez ceci si vous voulez un système de reconnaissance vocale puissant, open-source, polyvalent et capable de gérer plusieurs langues et accents.
Whisper Caractéristiques
AI Speech Recognition
- ✓Reconnaissance vocale multilingue
- ✓Traduction vocale
- ✓Identification de langue
- ✓Détection d'activité vocale
FAQ
Prix
Information de prix non disponible







