<img height="1" width="1" style="display:none" src="https://www.facebook.com/tr?id=633097343493783&amp;ev=PageView&amp;noscript=1">
canal-comstor-logo
O blog dos negócios de TI.
Comstor Americas
  • Transformação Digital e oportunidades para revendas de TI na educação
  • 7 benefícios da videoconferência: colaboração e comunicação a favor de bons negócios
  • 14 dicas de marketing para revendas de TI
  • Transformação Digital e oportunidades para revendas de TI na educação
  • 7 benefícios da videoconferência: colaboração e comunicação a favor de bons negócios
  • 14 dicas de marketing para revendas de TI

O que a TI precisa saber sobre o processo de Data Mining?

Publicado em 20/out/2015 5:00:00

Conheça o modelo CRISP-DM e veja alguns pontos importantes do modelo.

O que a TI precisa saber sobre o processo de Data Mining?

Nenhuma empresa pode ser movida por dados se as únicas pessoas interessadas no processo de análise de dados são os analistas. Assim como a orientação de contadores e advogados define o formato das organizações todos os dias, as tecnologias de análise devem ser integradas em toda a companhia para fornecer valor.

Mas quando se trata de convencer a todos sobre isso, contadores e advogados têm uma grande vantagem em relação aos analistas: orientações financeiras e jurídicas são suportadas pela lei, contratos e outras regras rígidas. E todos sabem das graves consequências para as empresas que não seguem essas regras. Dessa forma, a análise de dados e utilização dos resultados para guiar as decisões de negócios acabam sendo vistas apenas como uma boa ideia.

Muitos profissionais de TI estão realmente interessados em trabalhar com analytics, mas não sabem como diferenciar necessidades comerciais legítimas do que é bom ter e ficam frustrados pois os cientistas de dados não entendem e não avaliam as razões por trás de práticas de TI.

 

Mas como os profissionais do departamento de TI podem entender mais sobre o processo de Data Mining sem se envolver tanto com a área de Big Data?

Primeiro, é preciso compreender e visualizar os principais elementos de um bom processo de análise e explicar algumas das maneiras que a TI pode e deve se envolver com essa área tão nova e curiosa.

O Processo Padrão entre Indústrias para Mineração de Dados - mais conhecido como CRISP-DM, vem sendo utilizado há mais de uma década e é de longe o método mais utilizado no processo de análise de dados. É um padrão aberto, que qualquer profissional pode utilizar, desenvolvido por um consórcio estabelecido por mais de 200 organizações interessadas, com fundos da União Europeia.

Embora tenha sido desenvolvido especificamente para a mineração de dados, é flexível o suficiente para atender diversos estilos de análises de dados. Esse modelo de processo usado atualmente é tão popular que diagramas feitos a partir da documentação original CRISP-DM muitas vezes surgem nas apresentações, sem nenhuma referência da fonte original do material.


O modelo CRISP-DM possui 6 principais fases:

  • Inteligência de negócios: é a fase na qual o profissional pode obter uma compreensão clara do problema que ele está tentando resolver, como ele afeta sua organização e seus objetivos para abordá-lo.
  • Compreensão dos dados: é o momento para inspecionar, descrever e avaliar os dados disponíveis.
  • Preparação dos dados: nessa fase o profissional conduz os dados do formato em que estão para o formato necessário para a análise.
  • Modelagem: aqui o profissional utiliza técnicas matemáticas para criar modelos (equações ou outros modelos lógicos) que ele possa usar para dar suporte às decisões de negócios.
  • Avaliação: essa é a fase para descobrir se os modelos são bons o suficiente.
  • Implantação: por último, ocorre a integração de modelos no dia a dia da empresa.

 

Esse, no entanto, não é um processo linear que começa em uma fase e funciona perfeitamente seguindo cada passo de forma estrita. Essas fases são partes de um ciclo contínuo da atividade de análise e o time de analytics podem precisar trabalhar indo e voltando entre essas fases com certa frequência. A grosso modo, porém, o processo começa com um problema de negócio específico e leva à criação de modelos e da integração desses modelos em operações comerciais de rotina.

O departamento de TI possui um papel em cada uma dessas fases, apesar desse papel ser muito maior em alguns do que em outros. Conseguir acesso aos dados mais relevantes na forma mais adequada exige claramente o envolvimento de proprietários de dados e responsáveis pela segurança dos dados. Integrar modelos em operações é quase sempre fora dos limites para os analistas e, por isso, eles devem trabalhar com a TI para fazer essas alterações. A participação mais sutil da TI acontece geralmente em outras fases, como a modelagem. Isso porque esses profissionais geralmente não possuem as habilidades necessárias para desenvolver modelos matemáticos, mas ainda assim podem ter uma experiência importante a oferecer sobre quais mudanças de processos de negócios são ou não são viáveis. Essa informação fornece - aos analistas - uma estrutura a ser utilizada para determinar que tipos de modelos podem ou não podem ser implantados no negócio.

Apesar de muitos analistas de dados utilizarem o CRISP-DM, eles nem sempre entendem e executam todas as fases do processo com a profundidade que deveriam. Cada fase do processo exige várias tarefas específicas a serem executadas e documentadas, mas muitas vezes os profissionais que afirmam usá-las corretamente, sempre pulam alguma fase ou não conseguem documentar da forma correta algumas dessas tarefas. Até mesmo quando o trabalho é feito e documentado da maneira certa, os analistas nem sempre possuem os recursos ideais para gerenciar a propriedade intelectual que criaram.

Familiarizar-se com os padrões do método CRISP-DM é valioso para os profissionais de TI por diversos motivos. Por exemplo, uma pergunta que muitas vezes surge quando os profissionais de tecnologia ouvem sobre dados de análise e requisitos de computação é: onde está a aplicação prática disso nos negócios? A metodologia requer identificação e documentação das questões dos negócios, então usá-la (ou usar um processo bem definido como o padrão SAS SEMMA) garante que todos compartilhem um framework claro que destaca as questões, objetivos, planejamento de trabalho e resultados do negócio. Você vai saber o que está acontecendo desde o início e tem a estrutura e documentação necessárias para demonstrar que você está fazendo as coisas certas, pelas razões certas.

Um modelo de processos definido fornece suporte à busca da TI por uma gestão adequada dos dados e produto de trabalho. Pelo menos fornece isso se as tarefas necessárias estão completas e documentadas. Se todo mundo concorda em usar o padrão do processo, é possível apontar exatamente o que é exigido. Além disso, a TI pode e deve assumir um papel importante - e muitas vezes negligenciado - em fornecer sistemas e recursos para a gestão adequada de saídas de arquivos de dados para modelos de projetos. Analistas nem sempre apreciam esse tipo de gestão, mas todos perdem quando o trabalho está incompleto ou incompreensível.

Conclusão

É importante que um trabalho em conjunto seja feito, com um processo compartilhado e definido, pois isso ajuda a TI e os analistas de dados a se entenderem, compartilhando ideias e se comunicando de forma eficaz. O CRISP-DM é um método padrão estabelecido, respeitado e disponível gratuitamente para todos e adaptável a uma ampla gama de programas de análise.

 

New Call-to-action

 

Fontes:

http://www.cisco.com/c/en/us/solutions/data-center-virtualization/big-data/index.html#~data

http://www.cisco.com/c/en/us/solutions/enterprise/data-center-designs-cloud-computing/bigdata.html

http://www.forbes.com/sites/metabrown/2015/07/29/what-it-needs-to-know-about-the-data-mining-process/

https://en.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining

Categorias: Big Data, Data Mining