<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=633097343493783&amp;ev=PageView&amp;noscript=1">
canal-comstor-logo
O blog dos negócios de TI.
Comstor Americas
  • Partner Portal
  • 7 benefícios da videoconferência: colaboração e comunicação a favor de bons negócios
  • 14 dicas de marketing para revendas de TI
  • Baixar agora
  • Baixar E-book grátis
  • Partner Portal
  • 7 benefícios da videoconferência: colaboração e comunicação a favor de bons negócios
  • 14 dicas de marketing para revendas de TI
  • Baixar agora
  • Baixar E-book grátis

8 passos essenciais de Data Mining (e sua importância)

Publicado em 1/dez/2015 5:00:00

Veja alguns passos do processo de mineração de dados e exemplos de aplicações práticas para empresas.

8 passos essenciais de Data Mining (e sua importância) 

Com a crescente conexão de sensores RFID em objetos dos mais variados formatos e tamanhos, bem como de serviços e ambientes antes totalmente desconectados como a fazenda, a quantidade de dados surgindo por todos os cantos só aumenta: a estimativa é que em 2020 a humanidade terá cerca de 44 zettabytes de informações digitais disponíveis.

Com tanta informação, a necessidade de ferramentas de análise cada vez mais poderosas já é mais do que urgente para extrair informações úteis e relevantes para otimizar nossa convivência em sociedade, produtividade e desenvolvimento econômico e social. Em um âmbito empresarial, a análise de dados também é importantíssima. Isso porque na era globalizada atual, na qual a competitividade entre as organizações é cada vez maior, informação e conhecimento representam a base para a obtenção de diferenciais mercadológicos.

Com isso, um método de trabalho dentro dessa área de dados vem ganhando espaço e atraindo a atenção de diversos líderes corporativos, que buscam - na tecnologia - soluções para a redução de custos e aumento de benefícios na cadeia produtiva. É aqui que entra o Data Mining: um método que tem como foco o desenvolvimento e aplicação de técnicas de análise para obter novas e relevantes informações, a partir de grandes bases de dados.

 

1- Descoberta de Associações

Um registro do conjunto de dados é chamado de transação. Uma transação é composta por um conjunto de itens. No caso deste passo, descobrir associações significa buscar itens que ocorrem frequentemente de forma simultânea, dentro de uma quantidade mínima de transações do conjunto de dados.

Um exemplo clássico é da relação entre cervejas e fraldas: uma grande rede de supermercados norte-americana ao utilizar a fase de Descoberta de Associações, encontrou um número um padrão: o número de pessoas que comprava fraldas e também comprava cerveja nas vésperas de finais de semana. Com base em uma análise das transações de compra, os cientistas de dados perceberam que esses consumidores eram homens que, quando compravam fraldas para seus filhos, também já compravam cerveja para consumo próprio, enquanto cuidavam das crianças e assistiam aos jogos na televisão. Essa descoberta fez com que a empresa em questão aproximasse as gôndolas de fraldas e cervejas, incrementando assim a venda conjunta dos dois produtos.

 

2- Classificação

A partir daqui os atributos do conjunto de dados são divididos em dois tipos: atributo previsor e atributo alvo. Para cada valor distinto do atributo alvo tem-se uma classe que normalmente corresponde a um rótulo categórico pertencente a um conjunto pré-definido.

Nessa fase, o cientista de dados quer descobrir uma função para mapear um conjunto de registros em um conjunto de classes. A partir dessa descoberta, a função pode ser utilizada em novos registros para prever a classe em que os registros se enquadram.

Um exemplo interessante: uma revendedora de automóveis que já possui o histórico de seus clientes e o comportamento deles com relação ao pagamento das parcelas do carro. Consideramos 2 tipos de clientes: bons pagadores e maus pagadores. Esses tipos representam a classe do problema - ou os valores do atributo alvo. A tarefa de Classificação aqui busca uma função para mapear corretamente os clientes com base em seus dados - valores dos atributos previsores - em uma dessas classes. Em resumo, essa função pode ser usada para fazer previsões dos comportamentos de novos clientes que buscam comprar um carro novo e serviriam como um filtro para auxiliar nas decisões de parcelamento para a venda dos automóveis.

 

3- Regressão

Essa fase da Mineração de Dados consiste na busca por uma função que ajude a mapear registros de um banco de dados em um intervalo de valores numéricos reais. A regressão possui uma grande similaridade com a Classificação, no entanto, a diferença principal é que o atributo alvo assume valores numéricos. Dois bons exemplos da utilização desse processo em atividades do dia a dia são a definição do limite do cartão de crédito para cliente e previsão dos riscos de investimentos específicos.

 

4- Agrupamento

O termo agrupamento é um sinônimo de Clusterização (do inglês Cluster) e consiste na segmentação de registros do conjunto de dados em subconjuntos ou clusters, a fim de encontrar propriedades comuns de elementos de um mesmo cluster para dinstinguí-los de elementos de outros grupos (clusters).

Essa fase tem como objetivo principal aumentar as confluências intracluster e diminuir as similaridades intercluster. A Amazon é um exemplo de empresa que faz uso dessa tarefa de análise de dados muito bem: ela agrupa consumidores com comportamentos de compra próximos e faz recomendações de novos produtos com base nas informações adquiridas.

 

5- Sumarização

A sumarização busca identificar e indicar as semelhanças entre registros do conjunto de dados. Considere um conjunto de dados com informações sobre clientes que assinam um determinado plano de streaming de vídeo. A tarefa de Sumarização pode ser usada para buscar características comuns a boa parte dos clientes. Isso é útil para a equipe de Marketing da empresa direcionar propagandas para um público-alvo em potencial.

 

6- Detecção de Desvios

A detecção de desvios é o momento no qual o cientista de dados busca identificar registros do conjunto de dados com características que destoem do que se considera o padrão no contexto em análise. Esses registros são conhecidos como valores atípicos (outliers).

Um exemplo é o de um banco de dados dos clientes de uma operadora de cartão de crédito. As informações sobre as compras dos consumidores podem ser analisadas para buscar compras cujas características são divergentes do perfil normal de compra do dono do cartão de crédito. Com isso, a operadora pode imediatamente entrar em contato com o cliente, para confirmar os valores de compra e garantir que seu cartão não foi clonado ou que o cliente sofreu alguma outra fraude.

 

7- Descoberta de Sequências

O foco da fase de Descoberta de Sequências é o de identificar itens frequentes considerando um determinado período de tempo. Compras no supermercado, por exemplo, podem ter um padrão interessante. Se a empresa possui um banco de dados com informações sobre cada cliente e suas respectivas compras, o processo de descoberta de associações pode ser ampliado a fim de considerar a ordem em que os produtos são comprados ao longo do tempo.

 

8- Previsão de Séries Temporais

Primeiro vamos explicar o que é uma série temporal: um conjunto de observações de um fenômeno - com uma variável numérica - ordenadas no tempo. Um exemplo? O consumo mensal de água em uma empresa, registrado durante um ano.

Essa previsão busca inferir valores que a variável da série pode ou deve assumir no futuro, levando em conta valores passados dessa série como base para fundamentar a análise.

Esses passos não são estáticos e inalteráveis, muito menos resumem todas as possibilidades de aplicação da mineração e análise de grandes quantidades de dados. Eles representam algumas das formas mais utilizadas pelos cientistas de dados ao redor do mundo para extrair informações úteis que possam agregar valor aos produtos e serviços das empresas.

 

New Call-to-action

 

Fonte:

http://computerworld.com.br/exemplos-de-aplicacoes-de-data-mining-no-mercado-brasileiro

Categorias: Data Mining