Data Mining

Consiste no processo de encontrar informações relevantes, como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados, depósitos de dados ou outros repositórios de informação.

Graças à disponibilidade de grandíssimas quantidades de dados em formato eletrónico, e à necessidade iminente de retirar deles informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, apoio à decisão, entre outras, o data mining foi popularmente tratado como sinónimo de descoberta de conhecimento em bases de dados.

Contextualização histórica

Apesar de existirem dados sobre data mining desde os anos 80, na década de 90 o conhecimento sobre esta área ainda se encontrava bastante parco, esta técnica ainda se encontrava a ser definida. Foi em 1999 que várias empresas de renome, como a Daimler-Benz, a OHRA, bem como a fabricante de software de apoio estatístico SPSS, começaram a trabalhar em conjunto na formalização e standardização para a abordagem ao data mining. É durante este período que surge o modelo CRIPS-DM (Cross-Industry Standard Process for Data Mining).

Modelo CRISP-DM

Este modelo processual divide-se em 6 etapas, sendo elas:

Business Understanding;
Data Understanding;
Data Preparation;
Modelling;
Evaluation;
Deployment;

A primeira etapa prende-se com a perceção do problema. No âmbito da saúde, esta etapa envolve trabalho em conjunto com os clínicos para definir o problema, determinar os objetivos médicos, identificar as pessoas chave, aprender acerca das soluções correntes para o problema, os seus requisitos e restrições, bem como a determinação de critérios de sucesso do ponto de vista médico.

A segunda etapa, compreensão dos dados, inclui a obtenção dos dados, o planeamento dos dados que serão usados, identificar informação adicional necessária, descrever a base de dados, bem como a verificação dos dados (completude dos dados, redundância).

A terceira etapa, preparação dos dados, é chave para todo o processo, podendo consumir mais de metade do tempo gasto. É nesta fase que são definidos os dados sobre os quais serão aplicados métodos de data mining com justificação da inclusão/exclusão dos dados, realização de testes de significância e correlação, amostragem da base de dados, limpeza dos dados selecionados, produção de novos dados, criação de novos registos para os dados construídos, agregação da informação e reorganização dos atributos.

A quarta etapa, a modelação ou aplicação de algoritmos de data mining, constitui outro passe chave, sendo a etapa onde se revela a nova informação. Inclui a seleção de técnicas de modelação dos dados, a definição de procedimentos de treino e de teste, a construção de modelos e a sua avaliação.

Na quinta etapa, a avaliação do conhecimento descoberto, tenta-se perceber os resultados, verificar se a informação é nova e interessante, realizar interpretação médica dos resultados, verificar o impacto nos objetivos médicos. Há uma análise do processo para identificar falhas, passos falsos ou alternativas que podiam ser tomadas, e é feito um ranking das várias ações possíveis.

Por último, na sexta etapa, o conhecimento utilizado poderá ser utilizado nos processos de tomada de decisão, devendo existir um plano para a sua implementação, sendo que, no final, poderá existir um relatório para sumariar todos os resultados do processo.

Referências

Matthew, N. (2012). Data Mining for the Masses. Global Text Project.

Aulas de Extração e Conhecimento de Dados em Saúde. Mestrado em Informática Médica, Porto, 2015.

Data Mining

Menu de navegação

Ações da página

Operações da página

Ferramentas pessoais

Navegação

Pesquisa

Ferramentas