| Resumo: |
As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo
pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões
digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de
outra. Entretanto, para eleitores que possuem as impressões digitais desfiguradas, ou que não
possuem braços ou estejam momentaneamente impedidos de usá-los, este controle de possíveis
fraudes fica prejudicado. Propõe-se neste trabalho a extração de coeficientes mel cepstrais
(MFCCs) dos áudios de treinamento dos eleitores como dados de entrada para a implementação de
um algoritmo de reconhecimento de locutor e de palavras isoladas, para que o eleitor seja
reconhecido e, em seguida, possa votar usando unicamente sua voz, sem ferir o sigilo do voto e sem
que haja contato físico entre pessoa e máquina. Para chegar a este intento, foram traçadas duas
estratégias. A primeira está ligada ao fator psicoacústico e foi implementada pela escolha de
palavras fáceis de pronunciar, foneticamente distintas entre si, escolhidas por meio do resultado das
correlações entre os vetores de características extraídos dos áudios de treinamento, a fim de reduzir
a taxa de erro do algoritmo proposto, e que possam ser representadas não apenas por uma sequência
de letras, mas por figuras sugestivas. A segunda estratégia foi criada em razão do sigilo necessário
que o processo eleitoral demanda e se consubstanciou na mudança proposital das palavras que
normalmente seriam pronunciadas para invocar os comandos básicos da urna eletrônica, de modo
que outras palavras mais convenientes em termos de sigilo possam substituir as anteriores, passando
a ter relação unicamente posicional com os respectivos comandos. Essa relação posicional,
acessível apenas ao eleitor, é expressa através da impressão de correspondências permutadas entre
comandos e palavras, após cada ação de comando, no momento do voto. Os resultados das
correlações entre os vetores de características extraídos dos áudios de treinamento mostram que, em
ambiente controlado, ao se escolher 12 palavras foneticamente distintas entre si para comandar a
urna eletrônica, tem-se um ganho na taxa de acerto de 88,68% para 97,18% quando se extrai os
coeficientes MFCCs estáticos e dinâmicos. Ao se escolher apenas 6 palavras foneticamente
distintas, extraindo-se somente os coeficientes MFCCs estáticos, há um ganho na taxa de acerto de
78,1% para 98,1%, o que demonstra a eficácia da estratégia. Ao se acrescentar nesta última
estratégia a extração dos coeficientes MFCCs dinâmicos, obtem-se um ganho na taxa de acerto de
98,1% para apenas 99,95%, não se justificando o aumento do custo computacional.
|