Reconhecimento de voz para autenticação e votação em urnas eletrônicas

As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de outra. Entretanto, para...

ver mais

Autor principal: Oliveira, Janser James Bezerra de
Outros Autores: Aquino, Francisco José Alves de
Tipo de documento: Dissertação
Idioma: Português
Publicado em: Fortaleza 2023
Assuntos:
Obter o texto integral:
Resumo: As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de outra. Entretanto, para eleitores que possuem as impressões digitais desfiguradas, ou que não possuem braços ou estejam momentaneamente impedidos de usá-los, este controle de possíveis fraudes fica prejudicado. Propõe-se neste trabalho a extração de coeficientes mel cepstrais (MFCCs) dos áudios de treinamento dos eleitores como dados de entrada para a implementação de um algoritmo de reconhecimento de locutor e de palavras isoladas, para que o eleitor seja reconhecido e, em seguida, possa votar usando unicamente sua voz, sem ferir o sigilo do voto e sem que haja contato físico entre pessoa e máquina. Para chegar a este intento, foram traçadas duas estratégias. A primeira está ligada ao fator psicoacústico e foi implementada pela escolha de palavras fáceis de pronunciar, foneticamente distintas entre si, escolhidas por meio do resultado das correlações entre os vetores de características extraídos dos áudios de treinamento, a fim de reduzir a taxa de erro do algoritmo proposto, e que possam ser representadas não apenas por uma sequência de letras, mas por figuras sugestivas. A segunda estratégia foi criada em razão do sigilo necessário que o processo eleitoral demanda e se consubstanciou na mudança proposital das palavras que normalmente seriam pronunciadas para invocar os comandos básicos da urna eletrônica, de modo que outras palavras mais convenientes em termos de sigilo possam substituir as anteriores, passando a ter relação unicamente posicional com os respectivos comandos. Essa relação posicional, acessível apenas ao eleitor, é expressa através da impressão de correspondências permutadas entre comandos e palavras, após cada ação de comando, no momento do voto. Os resultados das correlações entre os vetores de características extraídos dos áudios de treinamento mostram que, em ambiente controlado, ao se escolher 12 palavras foneticamente distintas entre si para comandar a urna eletrônica, tem-se um ganho na taxa de acerto de 88,68% para 97,18% quando se extrai os coeficientes MFCCs estáticos e dinâmicos. Ao se escolher apenas 6 palavras foneticamente distintas, extraindo-se somente os coeficientes MFCCs estáticos, há um ganho na taxa de acerto de 78,1% para 98,1%, o que demonstra a eficácia da estratégia. Ao se acrescentar nesta última estratégia a extração dos coeficientes MFCCs dinâmicos, obtem-se um ganho na taxa de acerto de 98,1% para apenas 99,95%, não se justificando o aumento do custo computacional.