Todos os processos de Data Mining são muito mais eficazes se forem feitos de forma planeada e sistemática. É aqui que surge a importância da metodologia CRISP-DM (Cross Industry Standard Process for Data Mining). Metodologia de natureza analítica vocacionada para o desenvolvimento e a implementação de soluções com o objetivo de obter sucesso em projetos analíticos e preditivos.

Esta metodologia é genérica e pode ser aplicada a diversos setores de atividade. Nesse sentido, a PSE utiliza a metodologia CRISP-DM como suporte aos projetos, para transformar dados em conhecimento e apresentar os melhores serviços aos clientes.

A metodologia CRISP-DM inclui seis fases de desenvolvimento que se apresentam segundo um processo cíclico. Quais as etapas cruciais num projeto de Data Mining?

 

  • Business Understanding

A primeira etapa é o conhecimento do negócio. Para se fazer um projeto é necessário saber qual o problema de negócio a ser resolvido, definir o objetivo do projeto e as necessidades da empresa. É um tópico extremamente importante e deve ser trabalhado em conjunto com o cliente.

 

  • Data Understanding

Nesta etapa reúnem-se os dados disponíveis e define-se quais serão necessários para responder ao objetivo do projeto. Isto inclui a recolha, a descrição, exploração e verificação da qualidade dos dados. É muito importante verificar a natureza e a qualidade da fonte de dados e obter os dados necessários para o cumprimento dos objetivos definido na primeira etapa.

 

  • Data Preparation

Tal como o nome indica, agora é a etapa da preparação dos dados. Devem ser definidos alguns requisitos, como por exemplo como vão estar organizados os dados, onde se cruzam os dados de diversas fontes, entre outras. Em suma, inclui selecionar, limpar, construir, integrar e formatar os dados.

 

  • Modelling

Nesta fase são selecionados e utilizados os métodos de análise que vão responder ao objetivo definido na primeira etapa. Com estes métodos, constrói-se o modelo através das técnicas de modelização que permitem extrair informação a partir dos dados disponíveis e, por sua vez dar resposta ao objetivo do projeto.

 

  • Evaluation

Já escolhido e aplicado o modelo, chegamos a uma fase crucial – a avaliação. Temos de testar o nosso modelo para perceber se os resultados respondem ao objetivo do nosso projeto. Nesta fase, avaliamos resultados, revemos o processo de data mining e determinamos os próximos passos.

 

  • Deployment

E finalmente temos a resposta ao nosso problema de negócio. Cumprimos o nosso objetivo. Agora temos de integrar o conhecimento adquirido com o negócio da empresa, de forma a resolver o problema inicial. A partir do relatório final é possível fazer mudanças na empresa, baseadas em conhecimento.

 

Estas são as etapas da metodologia CRISP-DM, no entanto pode haver alguns pontos-chave para o desenvolvimento deste processo. O processo pode demonstrar uma tendência linear e fluir por ordem das fases descritas anteriormente, ou ter uma tendência não-linear e recuar fases do processo.

Por exemplo, através de decisões e informações recolhidas na fase de modelação, o analista pode ter de repensar o processo de preparação de dados, o que pode apresentar novos problemas na fase de modelização. E por consequência, nas restantes fases.

Da mesma forma, a fase de avaliação pode levar o analista a reavaliar a fase de compreensão do negócio e, como tal, questionar-se se estará a tentar responder a uma pergunta errada. Neste ponto pode rever a fase de compreensão do negócio e prosseguir o restante processo com um melhor objetivo em mente.

 

O conhecimento obtido com um ciclo de Data Mining pode gerar novas questões, novos problemas e novas oportunidades, permitindo identificar e satisfazer necessidades.

A PSE utiliza esta metodologia nos projetos com a ajuda do software IBM SPSS (Statistics e Modeler). Conheça os softwares IBM SPSS e saiba como podem ajudar no seu negócio.