[Feature Suggestion] Names padronization #7

ath67 · 2020-06-05T21:58:31Z

Why not process the text from the names before creating the hashes so you turn everything to lower case or upper case? This would make the search easier and less time consuming. Also would grant a more accurate result. Would need to explain in the webpage that is needed to hash the user name in the same pattern processed in the tool instead of advising to do multiple searches.

cuducos · 2020-06-07T01:59:42Z

Acredito que uma ideia melhor, que algumas pessoas sugeriram no Twitter, seja criar hashes das variações de nome:

Fulâno
FULÂNO
fulâno
Fulano
etc…

Faz sentido?

ath67 · 2020-06-07T02:04:03Z

Acho que padronizar os nomes antes de criar hashes é melhor, porque o usuário só precisa pesquisar uma variação. Ou voce teria que de alguma forma atrelar os hashes das variações a um mesmo resultado. Por ex:
Não importa se o usuário pesquisar o hash de JOAO ou joao que tendo um dos dois na base já daria a resposta positiva.

Não sei qual o mais fácil de implementar. Se estiver usando python mesmo (não conferi a execução do código) ai seria só criar um dict ou uma lista de listas(?)

cuducos · 2020-06-07T02:14:55Z

Acho que padronizar os nomes antes de criar hashes é melhor, porque o usuário só precisa pesquisar uma variação

Não. Teríramos “todos” os hashes, e não importa como o usuário digitar, acharíamos o match.

ath67 · 2020-06-07T05:38:38Z

Agora entendi melhor. Sim faz sentido. Não seria algo difícil de fazer.

jeffersonvirgilio · 2020-06-07T20:16:53Z

Todos esses problemas são evitados se a busca for feita pelo CPF, identificador único. O nome completo inclusive não é um identificador único. Mas não sei se na lista tem estrangeiros sem CPF.

cuducos · 2020-06-07T20:25:01Z

CPF não tem um muitas pessoa da lista. Não seria muito efetivo por causa disso…

josecatalani · 2020-06-10T15:50:15Z

Acho interessante uma abordagem de remover acentos, depois join por - e se possível, abrir uma possibilidade de campo extra (temos no dataset? como o colega apontou acima).
Por exemplo:

Fulano D'Ampário do Rosário -> para fulano-dampario-do-rosario
Patricia da Rosa Matos -> para patricia-da-rosa-matos

Pergunto do campo extra, pela possibilidade de pessoas com nomes iguais, pelo menos no começo do nome, existir uma separação que faça essa unicidade.

Outra questão que me ocorreu, é que na base de dados do governo (sus, ministério do trabalho etc), já vi acontecer de em nomes com apóstrofo, ele "separarem" a letra inicial do restante do sobrenome, ex:

Roberto D'Alessandro -> salvo na base como roberto-d-alessandro.

cuducos · 2020-06-10T16:57:35Z

Qual a vantagem e como isso melhoria o caso de uso, @josecatalani?

josecatalani · 2020-06-10T18:43:26Z

Qual a vantagem e como isso melhoria o caso de uso, @josecatalani?

Vantagem que vejo é na assertividade: Como no exemplo do Roberto D'Alessandro, padronizando esses símbolos(apóstrofos etc) em um hash clean ainda que amigável para depois fazer a hash, facilite. O usuário pode digitar o nome como: Dalessandro, DAlessandro, D Alessandro e D'Alessandro; Tanto quando a base (que é governamental (?)) pode estar cadastrado diferente do usual.

Se com campo extra existente, é mais uma garantia em caso de nomes duplos.

O que acha?

cuducos · 2020-06-10T18:49:18Z

O usuário pode digitar o nome

Não. A ideia não é o usuário digitar o nome. Não queremos esse dado na nossa plataforma, não queremos criar o hábito de digitar nome em qualquer plataforma que não seja muito conhecida e confiável (a nossa, acho, é confiável, mas não é conhecida hehehe…).

Preferimos manter como está hoje: o usuário não digita nome, apenas (parte do) hash. Por segurança, faz sentido.

josecatalani · 2020-06-10T19:46:50Z

Hmm agora ficou claro para mim! Apenas a entrada de hash, todo sentido.

ath67 changed the title ~~[Feature Suggestion]~~ [Feature Suggestion] Names padronization Jun 5, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Suggestion] Names padronization #7

[Feature Suggestion] Names padronization #7

ath67 commented Jun 5, 2020

cuducos commented Jun 7, 2020

ath67 commented Jun 7, 2020 •

edited

Loading

cuducos commented Jun 7, 2020

ath67 commented Jun 7, 2020

jeffersonvirgilio commented Jun 7, 2020 •

edited

Loading

cuducos commented Jun 7, 2020

josecatalani commented Jun 10, 2020

cuducos commented Jun 10, 2020

josecatalani commented Jun 10, 2020

cuducos commented Jun 10, 2020

josecatalani commented Jun 10, 2020

[Feature Suggestion] Names padronization #7

[Feature Suggestion] Names padronization #7

Comments

ath67 commented Jun 5, 2020

cuducos commented Jun 7, 2020

ath67 commented Jun 7, 2020 • edited Loading

cuducos commented Jun 7, 2020

ath67 commented Jun 7, 2020

jeffersonvirgilio commented Jun 7, 2020 • edited Loading

cuducos commented Jun 7, 2020

josecatalani commented Jun 10, 2020

cuducos commented Jun 10, 2020

josecatalani commented Jun 10, 2020

cuducos commented Jun 10, 2020

josecatalani commented Jun 10, 2020

ath67 commented Jun 7, 2020 •

edited

Loading

jeffersonvirgilio commented Jun 7, 2020 •

edited

Loading