Data Mining

Fonte: aprendis
Revisão em 14h21min de 21 de março de 2016 por Franzbischoff (discussão | contribs) (minimal changes (by SublimeText.Mediawiker))
Saltar para a navegaçãoSaltar para a pesquisa
Data Mining
Área(s) de Atuação Extração de conhecimento de dados
Entidade(s) Criadora(s)
Entidade(s) Gestora(s)
Data de Lançamento

Introdução

O data mining faz parte de um processo de vários estágios de extração de conhecimento de grandes bases de dados, depósitos de dados ou outros repositórios de informação e a aplicação dos resultados na tomada de decisões[1]. Entende-se por conhecimento qualquer informação relevante dentro de um contexto, como padrões, associações, mudanças, anomalias e estruturas. Os dados analisados pelo data mining normalmente são não supervisionados, sendo o objetivo principal fazer eles terem algum sentido dentro do contexto[2][3].

Graças à disponibilidade de enormes quantidades de dados em formato eletrónico, e à necessidade de retirar deles informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, apoio à decisão, entre outras, o data mining foi popularmente tratado como sinónimo de descoberta de conhecimento em bases de dados (KDD). Fayyad[4] considerava o data mining como uma das fases do processo de KDD e consiste principalmente na forma pela qual os padrões são extraídos e enumerados da fonte de dados[5].

Contextualização histórica

Apesar de existirem dados sobre data mining desde os anos 80, na década de 90 o conhecimento sobre esta área ainda se encontrava bastante parco, esta técnica ainda se encontrava a ser definida. Em 1996, Fayyad[4] apresentou um modelo inicial de uma framework para descoberta de conhecimento chamado que ficou conhecido genericamente como KDD process.

Foram feitas algumas tentativas de estabelecer normas nesta área, tanto por académicos como pela indústria. Os esforços académicos estão centrados na tentativa de formular uma framework para o data mining, como por exemplo a definição de uma "linguagem" para o data mining que possa ser aceite como padrão, tal como o SQL é para as base de dados relacionais[6]. Na indústria, os esforços centraram-se na definição de processos/metodologias que podem guiar a implementação de aplicações de data mining, tal como o CRISP-DM, criado em 1999 por um consórcio de 5 grandes empresas, e o SEMMA, desenvolvido pelo SAS Institute Inc..

Modelo KDD Process

O termo KDD foi cunhado em 1989 no primeiro KDD workshop para enfatizar que o "conhecimento" é o produto final de uma descoberta orientada a dados[4].

O processo KDD é interativo e iterativo, envolvendo vários passos e muitas decisões feitas pelo utilizador[7]. Adicionalmente, o processo KDD deve ser precedido por um detalhado entendimento do domínio da aplicação, os conhecimentos prévios relevantes e os objetivos do utilizador final. E além disso, continuado pela consolidação do conhecimento e incorporação do mesmo no sistema[4].

São considerados cinco etapas no desenvolvimento do processo KDD:

  1. Seleção: consiste na criação de uma série de dados alvo, ou um subconjunto de variáveis ou amostra de dados sobre o qual o processo será executado.
  2. Pré-processamento: consiste na limpeza e pré-processamento dos dados a fim de se obter uma série de dados consistente.
  3. Transformação: consiste na transformação dos dados utilizado redução de dimensionalidade ou métodos de transformação.
  4. Data mining: consiste na procura por padrões de interesse em uma forma particular de representação, dependendo do objetivo (normalmente predição).
  5. Interpretação/Avaliação: consiste na interpretação e avaliação dos padrões extraídos.

Modelo CRISP-DM

Desenvolvido nos anos 90 por um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM (Cross-Industry Standard Process for Data Mining) consiste em um ciclo que compreende seis etapas[8]:

  1. Compreensão do negócio: prende-se com o entendimento dos objetivos e requerimentos do projeto em uma perspectiva de negócio. No âmbito da saúde, esta etapa envolve trabalho em conjunto com os clínicos para definir o problema, determinar os objetivos médicos, identificar as pessoas chave, aprender acerca das soluções correntes para o problema, os seus requisitos e restrições, bem como a determinação de critérios de sucesso do ponto de vista médico.
  2. Compreensão dos dados: inicia-se com a obtenção dos dados, e posteriormente a realização de atividades a fim de se familiarizar com os dados, identificar problemas de qualidade (completude dos dados, redundância), detetar subconjuntos de dados e formar hipóteses sobre possíveis informações escondidas.
  3. Preparação dos dados: é chave para todo o processo, podendo consumir mais de metade do tempo gasto. É nesta fase que são definidos os dados sobre os quais serão aplicados métodos de data mining com justificação da inclusão/exclusão dos dados, realização de testes de significância e correlação, amostragem da base de dados, limpeza dos dados selecionados, produção de novos dados, criação de novos registos para os dados construídos, agregação da informação e reorganização dos atributos.
  4. Modelação: a modelação ou aplicação de algoritmos de data mining, constitui outro passe chave, sendo a etapa onde se revela a nova informação. Inclui a seleção de técnicas de modelação dos dados, a definição de procedimentos de treino e de teste, a construção de modelos e a sua avaliação.
  5. Avaliação: a avaliação do conhecimento descoberto, tenta-se perceber os resultados, verificar se a informação é nova e interessante, realizar interpretação médica dos resultados, verificar o impacto nos objetivos médicos. Há uma análise do processo para identificar falhas, passos falsos ou alternativas que podiam ser tomadas, e é feito um ranking das várias ações possíveis.
  6. Implementação: o conhecimento utilizado poderá ser utilizado nos processos de tomada de decisão, devendo existir um plano para a sua implementação, sendo que, no final, poderá existir um relatório para sumariar todos os resultados do processo.

Comparação

Em um artigo de Azevedo et al.[5], pode-se verificar a comparação destes dois modelos. Verifica-se na Tabela 1 que o modelo CRISP-DM incorpora os passos que devem preceder e seguir o processo KDD, tal como a compreensão do negócio e a implementação.

KDD CRISP-DM
Tabela 1 - Comparação dos métodos KDD e CRISP-DM (adaptada de Azevedo et al., 2008)[5]
Pré-KDD Compreensão do negócio
Seleção Compreensão dos dados
Pré-processamento
Transformação Preparação dos dados
Data Mining Modelação
Interpretação/Avaliação Avaliação
Pós-KDD Implementação

Referências

  1. Benoît G: Data mining. Annu Rev Inf Sci Technol 2005, 36:265–310.
  2. Bath PA: Data mining in health and medical information. Annu Rev Inf Sci Technol 2005, 38:331–369.
  3. Cios KJ, Pedryez W, Swiniarski RW, Kurgan L a.: Data Mining: A Knowledge Discovery Approach. Boston, MA: Springer US; 2007.
  4. 4,0 4,1 4,2 4,3 Fayyad U, Piatetsky-Shapiro G, Smyth P: Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proc 2nd Int Conf Knowl Discov Data Min Portl OR 1996:82–88.
  5. 5,0 5,1 5,2 Azevedo A, Santos MF: KDD, SEMMA and CRISP-DM: a parallel overview. In IADIS European Conference Data Mining; 2008:182–185.
  6. Džeroski S: Towards a general framework for data mining. Knowl Discov Inductive Databases 2007:259–300.
  7. Brachman RJ, Anand T: The Process of Knowledge Discovery in Databases: A First Sketch. AAAI Press / MIT Press 1996:37–57.
  8. North M: Data Mining for the Masses. Computer (Long Beach Calif) 2012:264.