Engenharia de recursos no aprendizado de máquina – parte 3

Engenharia de recursos no aprendizado de máquina – parte 3

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Na primeira parte desta série, abordamos diferentes tipos de dados no Machine Learning, sua interpretação matemática e como usá-los em um algoritmo. Na segunda parte, abordamos algumas técnicas simples de engenharia de recursos, como imputações e transformações. Vamos abordar um pouco mais na seção a seguir.

Binning

Alguns algoritmos como o Naive Bayes trabalham com classes. O Naive Bayes calcula a probabilidade de um determinado evento ocorrer, considerando determinados valores de entrada. A entrada em um classificador Naive Bayes precisa ser nominal, bem como a previsão à qual o classificador se destina.

Naive Bayes define a probabilidade de algo acontecer com base na frequência com que a combinação do valor de entrada e da classe de previsão foi encontrada durante o treinamento. Isso, por sua vez, significa que, se quisermos aplicar o Naive Bayes em qualquer coisa que seja contínua, poderemos ter problemas. Veja o seguinte exemplo:

Tentar prever a idade de uma pessoa com base na altura destaca o problema porque “altura” e “idade” são contínuas. O resultado seria um número infinito de combinações de altura e idade. Para lidar com esse problema, o binning entra em jogo. Ao aplicar a classificação, definimos posições nos quais agrupamos intervalos de valores, resultando em um número limitado de posições. No exemplo anterior, “idade” pode criar caixas de idade por ano, para que uma pessoa com 20 anos seja colocada na lixeira de “20 anos”, bem como a pessoa com 20 anos e 5 meses.

O binning pode ser feito com granularidade fina, como a idade exata de uma pessoa em anos, mas você também pode ter escaninhos de idade que se estendem por 25 anos, ou seja, 0 a 24 anos, 25 a 49 anos, 50 a 75 e assim por diante. A maneira como a classificação é feita depende fortemente dos valores e dos dados que você deseja classificar. Às vezes, existe um conhecimento comercial que pode sugerir uma maneira eficaz de classificar, mas ainda pode ser sensato tentar pelo menos diferentes maneiras de classificar para obter a melhor. Isso torna o modelo mais robusto e evita o ajuste excessivo.

Normalização

Alguns algoritmos calculam internamente a distância entre os dados. Distância não é a distância “física” medida em milhas ou quilômetros, mas é a distância matemática calculada no espaço matemático.

Vamos dar uma olhada em um exemplo de imóveis (Figura 1), onde os preços planos (unidades em moeda) no eixo X são mostrados em (‘000) milhares e tamanhos planos (unidades em pés quadrados) no eixo Y são mostrados em ( ’00) centenas. Se os pontos de dados não forem normalizados, é difícil encontrar a distância entre dois pontos de dados, pois os dois eixos possuem dados em unidades diferentes.

figura 1

Os pontos escolhidos na figura foram os pontos com os índices 1, 3 e 36 (os índices começam a contar em 0, então o primeiro elemento tem o índice 0).

A distância entre os pontos 1 e 3 é representada como a linha azul na figura, enquanto a distância entre os pontos 1 e 36 é representada como a linha vermelha.

Os números na Tabela 1 são o resultado do cálculo das distâncias das linhas vermelha e azul. O comprimento da linha vermelha (distância entre os pontos 36 e 1) é 17 vezes maior que o comprimento da linha azul (distância entre os pontos 3 e 1).

tabela 1

Isso não é visível na figura porque a proporção do eixo não corresponde às faixas de valores absolutos.

O alinhamento da proporção com os valores na figura resultaria na Figura 3. As proporções nessa figura não estão próximas da verdade devido a limitações técnicas, mas elas transmitem a imagem. Mostra claramente como o preço fixo domina o tamanho do plano em relação ao cálculo da distância. Isso cria um desequilíbrio de recurso, pois um recurso tem uma influência muito maior na distância do que outro.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Figura 2

Para contornar esse problema, a normalização é usada com a qual o preço e o tamanho são convertidos em uma escala de 0 a 1. Cada recurso é tratado separadamente e 0 é configurado para representar o valor mínimo, enquanto 1 é configurado para representar o valor máximo encontrado. Cada outro valor recebe um valor correspondente entre 0 e 1, mantendo as distâncias relativas entre os valores. Isso significa que se o menor valor for 0 e o maior valor for 100 e houver outros dois valores entre eles – 25 e 60 -, o resultado será o seguinte:

mesa 2

A aplicação desse método aos recursos de tamanho e preço simples e o redesenho da figura resultam na Figura 3. A comparação das distâncias vermelha e azul resulta agora na distância vermelha sendo menor. Isso ocorre porque o tamanho e o preço fixos agora têm a mesma influência na distância. A tabela 3 mostra as distâncias com os valores normalizados.

Figura 3

Tabela 3

Esse tipo de recurso gerado (não o original) será usado com qualquer algoritmo e pode melhorar significativamente a precisão.

Os métodos fundamentais acima podem ser benéficos no processo de engenharia de recursos. Também é importante ter em mente que essas técnicas não são ferramentas mágicas. Se seus conjuntos de dados são pequenos ou difíceis de trabalhar, geralmente a engenharia de recursos pode não ser uma solução que corrige isso instantaneamente. A regra geral é “Lixo dentro, lixo fora”.

Saber mais

A Harvard Business Review lista dados e a capacidade de criar bons dados como um dos principais elementos para alcançar uma transformação digital eficaz e bem-sucedida. O OpenText Professional Services oferece experiência para orientar as organizações em profundidade e profundidade de dados, começando com o nosso Workshop de estratégia cognitiva. Para saber mais, visite o site do OpenText ™ Magellan ™ e consulte as páginas dos Serviços de análise e inteligência artificial para obter mais detalhes.

Autor: Vikram Singh, Cientista de dados, Serviços profissionais – Centro de Excelência

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Luiz Presso
Luiz Presso