Validando uma marca via RPA (parte 01)

  • por

Na semana passada me apresentaram um desafio interessante: Dada uma lista de dominios deletados no //name.com e do registro.br (+ de 800.000!) algumas checagens deveriam ser feitas para definir quais marcas estavam disponíveis para registro no INPI. São elas:

  1. O nome não deve conter ser somente números;
  2. Deve ser uma palavra reconhecida em português ou inglês;
  3. Deve ter entre 4 e 10 caracteres;
  4. Deve estar disponível para registro no INPI.
  5. Após a validação no INPI, eu deveria verificar se estava disponível para registro nas seguintes extensões:
    • .com
    • .com.br
    • .cloud
    • .co
    • .in
    • .team
    • .tech
    • .guru
    • .ninja

nesta primeira parte do artigo, apresento os métodos mais simples para os ítens 1 e 2.

Extraindo a “marca” (sld) do domínio

Este primeiro passo é simples. Usando tldextract, nós extraímos a parte referente à “marca”, ou seja, o SLD:

O nome não deve conter ser somente números

Após a seleção, precisamos fazer a primeira checagem, se é composta somente de números. Há uma checagem adicional para verificar se há um hiffen (“-“) na composição da palavra:

Deve ser uma palavra reconhecida em português ou inglês

Esta foi uma que consumiu bastante tempo… Eu tinha em mente algumas características desejadas na biblioteca:

  • Deveria possibilitar incluir palavras personalizadas.
  • A instalação deveria ser simples, sem dependências de outras libs
  • A sintaxe da checagem deveria sem simples.

Depois de muitos testes, cheguei na PyEnchant. O código de exemplo, com a validação, ficou assim:

Deve ter entre 4 e 10 caracteres

Este é a mais simples das checagens e não merece comentários:

No próximo post irei detalhar o processo de RPA para a checagem da marca no INPI. Neste processo, tive a ajuda do Rafael Alves, que é um especialista em RPA e BigData, com quem já atuei na Auditto e na SmartBPO.

Até a próxima!

Marcações:

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *