Whisper
Um modelo de reconhecimento de voz de uso geral da OpenAI.
Please wait while we load the page
Whisper é um modelo de reconhecimento de fala de uso geral desenvolvido pela OpenAI. É treinado com um grande conjunto de dados de áudio diversificado e é também um modelo multitarefa que pode realizar reconhecimento de fala multilíngue, bem como tradução de fala e identificação de idioma. O Whisper usa um modelo Transformer de sequência para sequência treinado em várias tarefas de processamento de fala, incluindo reconhecimento de fala multilíngue, tradução de fala, identificação de língua falada e deteção de atividade vocal. Estas tarefas são representadas em conjunto como uma sequência de tokens a serem previstos pelo decodificador, permitindo que um único modelo substitua muitas etapas de um pipeline tradicional de processamento de fala. O formato de treino multitarefa usa um conjunto de tokens especiais que servem como especificadores de tarefa ou alvos de classificação.
O Whisper pode ser usado via linha de comando ou dentro do Python. Para uso na linha de comando, pode transcrever fala em ficheiros de áudio especificando o ficheiro de áudio e o tamanho do modelo. Para uso em Python, pode carregar o modelo e usar o método transcribe() para processar ficheiros de áudio.
Escolha isto se quiser um sistema poderoso e open-source de reconhecimento de voz que seja versátil e consiga lidar com várias línguas e sotaques.
Informação de preços não disponível
Nenhum produto disponível