Whisper
Um modelo de reconhecimento de voz de uso geral da OpenAI.
Whisper Introdução
O que é Whisper?
Whisper é um modelo de reconhecimento de fala de uso geral desenvolvido pela OpenAI. É treinado com um grande conjunto de dados de áudio diversificado e é também um modelo multitarefa que pode realizar reconhecimento de fala multilíngue, bem como tradução de fala e identificação de idioma. O Whisper usa um modelo Transformer de sequência para sequência treinado em várias tarefas de processamento de fala, incluindo reconhecimento de fala multilíngue, tradução de fala, identificação de língua falada e deteção de atividade vocal. Estas tarefas são representadas em conjunto como uma sequência de tokens a serem previstos pelo decodificador, permitindo que um único modelo substitua muitas etapas de um pipeline tradicional de processamento de fala. O formato de treino multitarefa usa um conjunto de tokens especiais que servem como especificadores de tarefa ou alvos de classificação.
Como usar Whisper?
O Whisper pode ser usado via linha de comando ou dentro do Python. Para uso na linha de comando, pode transcrever fala em ficheiros de áudio especificando o ficheiro de áudio e o tamanho do modelo. Para uso em Python, pode carregar o modelo e usar o método transcribe() para processar ficheiros de áudio.
Por que escolher Whisper?
Escolha isto se quiser um sistema poderoso e open-source de reconhecimento de voz que seja versátil e consiga lidar com várias línguas e sotaques.
Whisper Recursos
AI Speech Recognition
- ✓Reconhecimento de fala multilíngue
- ✓Tradução de fala
- ✓Identificação de idioma
- ✓Deteção de atividade vocal
FAQ
Preços
Informação de preços não disponível







