Reconhecimento de voz para autenticação e votação em urnas eletrônicas
As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de outra. Entretanto, para...
| Autor principal: | Oliveira, Janser James Bezerra de |
|---|---|
| Outros Autores: | Aquino, Francisco José Alves de |
| Tipo de documento: | Dissertação |
| Idioma: | Português |
| Publicado em: |
Fortaleza
2023
|
| Assuntos: | |
| Obter o texto integral: |
|
| id |
oai:bdjur.stj.jus.br.col_bdtse_4136:oai:localhost:bdtse-11398 |
|---|---|
| recordtype |
tse |
| spelling |
oai:bdjur.stj.jus.br.col_bdtse_4136:oai:localhost:bdtse-113982024-11-19 Reconhecimento de voz para autenticação e votação em urnas eletrônicas Oliveira, Janser James Bezerra de Aquino, Francisco José Alves de Tribunal Superior Eleitoral Eleições Urna eletrônica Votação Autenticação Biometria As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de outra. Entretanto, para eleitores que possuem as impressões digitais desfiguradas, ou que não possuem braços ou estejam momentaneamente impedidos de usá-los, este controle de possíveis fraudes fica prejudicado. Propõe-se neste trabalho a extração de coeficientes mel cepstrais (MFCCs) dos áudios de treinamento dos eleitores como dados de entrada para a implementação de um algoritmo de reconhecimento de locutor e de palavras isoladas, para que o eleitor seja reconhecido e, em seguida, possa votar usando unicamente sua voz, sem ferir o sigilo do voto e sem que haja contato físico entre pessoa e máquina. Para chegar a este intento, foram traçadas duas estratégias. A primeira está ligada ao fator psicoacústico e foi implementada pela escolha de palavras fáceis de pronunciar, foneticamente distintas entre si, escolhidas por meio do resultado das correlações entre os vetores de características extraídos dos áudios de treinamento, a fim de reduzir a taxa de erro do algoritmo proposto, e que possam ser representadas não apenas por uma sequência de letras, mas por figuras sugestivas. A segunda estratégia foi criada em razão do sigilo necessário que o processo eleitoral demanda e se consubstanciou na mudança proposital das palavras que normalmente seriam pronunciadas para invocar os comandos básicos da urna eletrônica, de modo que outras palavras mais convenientes em termos de sigilo possam substituir as anteriores, passando a ter relação unicamente posicional com os respectivos comandos. Essa relação posicional, acessível apenas ao eleitor, é expressa através da impressão de correspondências permutadas entre comandos e palavras, após cada ação de comando, no momento do voto. Os resultados das correlações entre os vetores de características extraídos dos áudios de treinamento mostram que, em ambiente controlado, ao se escolher 12 palavras foneticamente distintas entre si para comandar a urna eletrônica, tem-se um ganho na taxa de acerto de 88,68% para 97,18% quando se extrai os coeficientes MFCCs estáticos e dinâmicos. Ao se escolher apenas 6 palavras foneticamente distintas, extraindo-se somente os coeficientes MFCCs estáticos, há um ganho na taxa de acerto de 78,1% para 98,1%, o que demonstra a eficácia da estratégia. Ao se acrescentar nesta última estratégia a extração dos coeficientes MFCCs dinâmicos, obtem-se um ganho na taxa de acerto de 98,1% para apenas 99,95%, não se justificando o aumento do custo computacional. Brazilian elections are carried out through electronic ballot box controlled by pressing conventional computer keys and currently use fingerprint biometrics as a way to prevent fraud, preventing one person from voting in place of another. However, for voters who have disfigured fingerprints, or who do not have arms or are momentarily unable to use them, this control of possible fraud is impaired. It is proposed in this work the extraction of mel-frequency cepstral coefficients (MFCCs) from the voters' training audios as input data for the implementation of a speaker recognition algorithm and isolated words, so that the voter is recognized and then can vote using only your voice, without violating the confidentiality of the vote and without physical contact between person and machine. To achieve this goal, two strategies were designed. The first is linked to the psychoacoustic factor and was implemented by choosing words that are easy to pronounce, phonetically distinct from each other, chosen through the result of the correlations between the vectors of characteristics extracted from the training audios, in order to reduce the error rate of the proposed algorithm, and that can be represented not only by a sequence of letters, but by suggestive figures. The second strategy was created due to the necessary secrecy that the electoral process demands and consisted of the purposeful change of the words that would normally be pronounced to invoke the basic commands of the electronic ballot box, so that other words more convenient in terms of secrecy can replace the previous ones, starting to have a solely positional relationship with the respective commands. This positional relationship, accessible only to the voter, is expressed through the printing of exchanged correspondences between commands and words, after each command action, at the time of voting. The results of the correlations between the feature vectors extracted from the training audios show that, in a controlled environment, when choosing 12 words phonetically different from each other to command the electronic urn, there is a gain in the hit rate of 88.68% to 97.18% when extracting the static and dynamic MFCCs coefficients. When choosing only 6 phonetically distinct words, extracting only the static MFCCs coefficients, there is a gain in the hit rate from 78.1% to 98.1%, which demonstrates the effectiveness of the strategy. By adding the extraction of dynamic MFCCs coefficients to this last strategy, a gain in the hit rate from 98.1% to only 99.95% is obtained, not justifying the increase in computational cost. 2023-03-23T20:48:06Z 2023-03-23T20:48:06Z 2022 2022-12-12 Dissertação OLIVEIRA, Janser James Bezerra de. Reconhecimento de voz para autenticação e votação em urnas eletrônicas. 2022. 112 f. Dissertação (Mestrado em Engenharia de Telecomunicações) - Instituto Federal de Educação, Ciência e Tecnologia do Ceará, Fortaleza, 2022. http://bibliotecadigital.tse.jus.br/xmlui/handle/bdtse/11398 pt_BR <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR"><img alt="Licença Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Este item está licenciado com uma Licença <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/deed.pt_BR">Creative Commons Atribuição-CompartilhaIgual 4.0 Internacional</a>. 112 f. Fortaleza |
| institution |
TSE |
| collection |
TSE |
| language |
Português |
| topic |
Eleições Urna eletrônica Votação Autenticação Biometria |
| spellingShingle |
Eleições Urna eletrônica Votação Autenticação Biometria Oliveira, Janser James Bezerra de Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| description |
As eleições brasileiras são realizadas por meio de urnas eletrônicas comandadas pelo
pressionamento de teclas de computador convencionais e usa atualmente a biometria das impressões
digitais como uma forma de evitar fraudes, impedindo que alguma pessoa possa votar no lugar de
outra. Entretanto, para eleitores que possuem as impressões digitais desfiguradas, ou que não
possuem braços ou estejam momentaneamente impedidos de usá-los, este controle de possíveis
fraudes fica prejudicado. Propõe-se neste trabalho a extração de coeficientes mel cepstrais
(MFCCs) dos áudios de treinamento dos eleitores como dados de entrada para a implementação de
um algoritmo de reconhecimento de locutor e de palavras isoladas, para que o eleitor seja
reconhecido e, em seguida, possa votar usando unicamente sua voz, sem ferir o sigilo do voto e sem
que haja contato físico entre pessoa e máquina. Para chegar a este intento, foram traçadas duas
estratégias. A primeira está ligada ao fator psicoacústico e foi implementada pela escolha de
palavras fáceis de pronunciar, foneticamente distintas entre si, escolhidas por meio do resultado das
correlações entre os vetores de características extraídos dos áudios de treinamento, a fim de reduzir
a taxa de erro do algoritmo proposto, e que possam ser representadas não apenas por uma sequência
de letras, mas por figuras sugestivas. A segunda estratégia foi criada em razão do sigilo necessário
que o processo eleitoral demanda e se consubstanciou na mudança proposital das palavras que
normalmente seriam pronunciadas para invocar os comandos básicos da urna eletrônica, de modo
que outras palavras mais convenientes em termos de sigilo possam substituir as anteriores, passando
a ter relação unicamente posicional com os respectivos comandos. Essa relação posicional,
acessível apenas ao eleitor, é expressa através da impressão de correspondências permutadas entre
comandos e palavras, após cada ação de comando, no momento do voto. Os resultados das
correlações entre os vetores de características extraídos dos áudios de treinamento mostram que, em
ambiente controlado, ao se escolher 12 palavras foneticamente distintas entre si para comandar a
urna eletrônica, tem-se um ganho na taxa de acerto de 88,68% para 97,18% quando se extrai os
coeficientes MFCCs estáticos e dinâmicos. Ao se escolher apenas 6 palavras foneticamente
distintas, extraindo-se somente os coeficientes MFCCs estáticos, há um ganho na taxa de acerto de
78,1% para 98,1%, o que demonstra a eficácia da estratégia. Ao se acrescentar nesta última
estratégia a extração dos coeficientes MFCCs dinâmicos, obtem-se um ganho na taxa de acerto de
98,1% para apenas 99,95%, não se justificando o aumento do custo computacional. |
| author2 |
Aquino, Francisco José Alves de |
| format |
Dissertação |
| author |
Oliveira, Janser James Bezerra de |
| title |
Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| title_short |
Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| title_full |
Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| title_fullStr |
Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| title_full_unstemmed |
Reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| title_sort |
reconhecimento de voz para autenticação e votação em urnas eletrônicas |
| publisher |
Fortaleza |
| publishDate |
2023 |
| url |
http://bibliotecadigital.tse.jus.br/xmlui/handle/bdtse/11398 |
| _version_ |
1816179137995341824 |
| score |
12,572524 |