Engenharia de recursos no aprendizado de máquina – Parte 2

Engenharia de recursos no aprendizado de máquina – Parte 2

OpenText Blogs
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Este blog é parte dois de uma série de três partes e fornece explicações sobre métodos simples de engenharia de recursos. Na parte 1 desta série, abordamos diferentes tipos de dados no Machine Learning (ML) e sua interpretação matemática, como usar em um algoritmo e uma breve introdução da Feature Engineering.

Engenharia de Recursos

A engenharia de recursos é o processo de extrair novas variáveis, transformando dados brutos para melhorar a previsibilidade de um modelo de aprendizado de máquina. Mas a engenharia de recursos não é apenas esse tipo de tradução simples de categorias como nomes ou cores em números. A seção a seguir inclui uma coleção de diferentes tipos de abordagens de engenharia que vão além da conversão de categorias em números e atendem às necessidades, como transformar números em categorias ou filtrar pontos de dados devido a dados ausentes ou falsos.

Imputação

Valores ausentes são um dos problemas mais comuns que encontramos ao preparar dados para um modelo de aprendizado de máquina. Isso pode ser devido a vários motivos, como erro humano, motivos de privacidade, interrupções no fluxo de dados, etc. Seja qual for o motivo, a presença de um valor ausente afetará o desempenho do modelo de dados. Além disso, a maioria dos algoritmos de aprendizado de máquina não suporta valores nulos para a construção de modelos.

Os cientistas de dados podem usar as seguintes técnicas para corrigir o problema de valores ausentes:

Soltar linhas / colunas

A técnica mais comum é eliminar as linhas ou a coluna inteira se a maioria das células de dados dessa linha / coluna contiver valores nulos. Não há limite ideal, mas você pode decidir com base no conjunto de dados e eliminar as linhas e colunas se os valores ausentes forem maiores que esse limite.

Leia Também  10 habilidades de marketing nas quais você deve investir para o seu negócio

Imputação Numérica

Caso existam apenas alguns valores de dados nulos, a eliminação deles não faria muito sentido, pois isso pode levar à perda de informações. Se a coluna de dados for numérica, a maneira mais comum de atribuir um valor ausente é calcular a média ou mediana, dependendo se o tipo de dados for contínuo ou discreto. Em alguns casos, quando você tem apenas dois valores como 1 ou NA, pode atribuir NA a 0.

Por exemplo, para atribuir NA ou valores ausentes com 0, podemos usar o código de exemplo abaixo em python.

data = data.fillna (0)

Outra opção para imputar valores ausentes é a mediana da mesma coluna, como mostrado abaixo.

data = data.fillna (data.median ())

Imputação categórica

Para dados categóricos, podemos atribuí-los ao modo dessa coluna. O modo nada mais é do que a categoria mais frequente da coluna, como visto no exemplo abaixo, onde o valor mostra um NA.

Transformações

A transformação de dados é uma técnica para transformar dados brutos em um formato mais significativo, pronto para análise. Isso garantirá a máxima qualidade dos dados, indispensável para obter análises precisas. Na seção a seguir, exploramos os diferentes tipos de técnicas de codificação ou transformação necessárias para diferentes tipos de dados

Codificação de etiquetas

Os algoritmos de ML funcionam bem com dados numéricos, mas, na realidade, você pode obter uma mistura de dados categóricos e numéricos. Existem dois tipos de dados categóricos:

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
  1. Nominal – Dados que contêm um conjunto de valores exclusivos que não possuem nenhum relacionamento ordenado, por exemplo, “Sexo”.
  2. Ordinal – Esse tipo de dado é um caso especial de um recurso categórico. Os valores dos dados ordinais são classificados em uma ordem significativa, por exemplo, “Nível de educação: jardim de infância, graduação, bacharelado, mestrado, doutorado”
Leia Também  Transição das comunicações do cliente de papel para digital

A codificação de etiqueta mapeia categorias para números. Apesar da possibilidade de codificar dados nominais e ordinais, a codificação de etiquetas funciona bem com dados ordinais. Além disso, essa técnica é útil quando você trabalha com algoritmos baseados em árvore, como árvores de decisão, entre outros.

Aqui está um exemplo de codificação de etiqueta para “Nomes de cores” na Tabela 1 e “Nível de educação” na Tabela 2.

tabela 1

Os números escolhidos para representar os valores reais serão aleatórios ou alfabéticos para dados nominais e não possuem nenhum valor ordenado.

A Tabela 2 é um exemplo de codificação de etiqueta do recurso ordinal. Como “Nível de educação” tem uma ordem significativa como UnderGrad

mesa 2

Codificação de contagem

A codificação de contagem substitui cada categoria exclusiva pelo número de vezes que aparece no conjunto de dados. Por exemplo, suponha que “Vermelho” apareça 35 vezes e “Azul” 17 vezes no recurso “Nomes de cores” e, em seguida, cada “Vermelho” e “Azul” serão codificados com 35 e 17, respectivamente.

Uma codificação a quente

Se os dados forem nominais, a maneira preferida de transformá-los em numéricos é aplicando uma codificação a quente em vez de codificar etiquetas. O único motivo é que a codificação de etiqueta atribui um número inteiro aos dados nominais, tornando-os ordenados, enquanto uma codificação quente torna a representação desordenada. Ele cria uma nova coluna para cada categoria exclusiva em uma variável categórica. Cada observação recebe um 1 na coluna para sua categoria correspondente e um 0 em todas as outras novas colunas, como mostrado abaixo.

Leia Também  5 verdades simples para definir sua estratégia de marketing de vídeo

Dados do registro de data e hora

Às vezes, você obtém o recurso como carimbo de data e hora e é difícil extrair qualquer informação significativa, a menos que você o transforme em alguns dados mais significativos. Uma das abordagens é extrair informações de “dia”, “mês” e “ano” do registro de data e hora e usá-las para sua análise.

No próximo blog desta série, abordaremos mais algumas técnicas de engenharia de recursos.

Consulte o site do OpenText ™ Magellan ™ para obter mais informações sobre nossa plataforma de análise de inteligência artificial, Magellan, e confira as páginas de Serviços de análise e inteligência artificial para obter mais detalhes sobre o que os serviços profissionais podem oferecer.

Autor: Vikram Singh, Cientista de dados, Serviços profissionais

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Luiz Presso
Luiz Presso