Na semana passada me apresentaram um desafio interessante: Dada uma lista de dominios deletados no //name.com e do registro.br (+ de 800.000!) algumas checagens deveriam ser feitas para definir quais marcas estavam disponíveis para registro no INPI. São elas:
- O nome não deve conter ser somente números;
- Deve ser uma palavra reconhecida em português ou inglês;
- Deve ter entre 4 e 10 caracteres;
- Deve estar disponível para registro no INPI.
- Após a validação no INPI, eu deveria verificar se estava disponível para registro nas seguintes extensões:
- .com
- .com.br
- .cloud
- .co
- .in
- .team
- .tech
- .guru
- .ninja
nesta primeira parte do artigo, apresento os métodos mais simples para os ítens 1 e 2.
Extraindo a “marca” (sld) do domínio
Este primeiro passo é simples. Usando tldextract, nós extraímos a parte referente à “marca”, ou seja, o SLD:
O nome não deve conter ser somente números
Após a seleção, precisamos fazer a primeira checagem, se é composta somente de números. Há uma checagem adicional para verificar se há um hiffen (“-“) na composição da palavra:
Deve ser uma palavra reconhecida em português ou inglês
Esta foi uma que consumiu bastante tempo… Eu tinha em mente algumas características desejadas na biblioteca:
- Deveria possibilitar incluir palavras personalizadas.
- A instalação deveria ser simples, sem dependências de outras libs
- A sintaxe da checagem deveria sem simples.
Depois de muitos testes, cheguei na PyEnchant. O código de exemplo, com a validação, ficou assim:
Deve ter entre 4 e 10 caracteres
Este é a mais simples das checagens e não merece comentários:
No próximo post irei detalhar o processo de RPA para a checagem da marca no INPI. Neste processo, tive a ajuda do Rafael Alves, que é um especialista em RPA e BigData, com quem já atuei na Auditto e na SmartBPO.
Até a próxima!