Final_SpeechRecognition

Conteúdo da Disciplina: Trabalho final

Alunos

Matrícula	Aluno
16/0049733	Felipe Borges de Souza Chaves
18/0055241	Victor Jorge da Silva Gonçalves

Sobre

Aspectos gerais

Este projeto implementa um aplicativo desktop cujo proposito é o reconhecimento de fala. O aplicativo é criado em Python e é munido de funcionalidades para registro de novas palavras e consultas sobre o dataset de palavras. O usuário do aplicativo cadastra uma nova palavra através do envio de sua string e seu áudio correspondente. O usuário do aplicativo pode então enviar um áudio de uma palavra para o campo de consulta e receber de volta a sua string correspondente. Para que uma palavra seja reconhecida, a mesma deve ser previamente cadastrada.

Reconhecimento de fala

O reconhecimento de fala é feito através da comparação de um áudio, que não se sabe a priori a que palavra se refere, com todas as outras palavras cadastradas anteriormente, e retornando assim aquela cuja diferença for a menor. A rotina de comparação de áudio é composta de duas etapas:

Extração dos atributos Mel-Frequency Cepstral Coefficients
Faz-se uma análise de características espectrais de tempo curto, baseando-se no uso do espectro da voz convertido para uma escala de frequências denominada MEL que é uma escala que visa imitar as características únicas perceptíveis pelo ouvido humano (MFCC).
Comparação entre os atributos MFCC de cada palavra
Utilizando o algoritmo Dynamic Time Warping (DTW) que utiliza de técnicas de programação dinâmica para computar um melhor match de duas sequências, conseguimos descobrir qual é a palavra mais próxima do áudio fornecido para consulta. Nesta API, em específico, estaremos utilizando uma versão aproximada do DTW chamada Fast DTW que possui complexidade linear, mas que para os nosso proposito se mostrou extremamente eficiente.

Screenshots

Instalação

Linguagem: Python 3
Framework: Qt

É altamente aconselhavel que você utilize uma virtualenv e instale as dependências neste ambiente.

Com a virtualenv ligada instale as dependências com o comando abaixo:

pip3 install -r requirements.txt

Descreva os pré-requisitos para rodar o seu projeto e os comandos necessários.

Uso

No ambiente com os pacotes instalados execute o comando no root do projeto:

python3 main.py

Outros

Quaisquer outras informações sobre seu projeto podem ser descritas abaixo.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
images		images
src		src
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
video.mp4		video.mp4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Final_SpeechRecognition

Alunos

Sobre

Aspectos gerais

Reconhecimento de fala

Screenshots

Instalação

Uso

Outros

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

projeto-de-algoritmos/Final_SpeechRecognition

Folders and files

Latest commit

History

Repository files navigation

Final_SpeechRecognition

Alunos

Sobre

Aspectos gerais

Reconhecimento de fala

Screenshots

Instalação

Uso

Outros

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages