Data Mining: diferenças entre revisões

Edição atual desde as 15h21min de 22 de março de 2016

Data Mining
Área(s) de Atuação	Extração de conhecimento de dados
Entidade(s) Criadora(s)
Entidade(s) Gestora(s)
Data de Lançamento

Introdução

O data mining faz parte de um processo de vários estágios de extração de conhecimento de grandes bases de dados, depósitos de dados ou outros repositórios de informação e posterior aplicação dos resultados na tomada de decisões^[1]. Entende-se por conhecimento qualquer informação relevante dentro de um contexto, como padrões, associações, mudanças, anomalias e estruturas. Os dados analisados pelo data mining normalmente são não supervisionados, sendo o objetivo principal fazer eles terem algum sentido dentro do contexto^[2]^[3].

Graças à disponibilidade de enormes quantidades de dados em formato eletrónico, e à necessidade de retirar deles informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, apoio à decisão, entre outras, o data mining foi popularmente tratado como sinónimo de descoberta de conhecimento em bases de dados (KDD). Fayyad^[4] considerava o data mining como uma das fases do processo de KDD e consiste principalmente na forma pela qual os padrões são extraídos e enumerados da fonte de dados^[5].

Contextualização histórica

Apesar de existirem dados sobre data mining desde os anos 80, na década de 90 o conhecimento sobre esta área ainda se encontrava bastante parco, esta técnica ainda se encontrava a ser definida. Em 1996, Fayyad^[4] apresentou um modelo inicial de uma framework para descoberta de conhecimento chamado que ficou conhecido genericamente como KDD process.

Foram feitas algumas tentativas de estabelecer normas nesta área, tanto por académicos como pela indústria. Os esforços académicos estão centrados na tentativa de formular uma framework para o data mining, como por exemplo a definição de uma "linguagem" para o data mining que possa ser aceite como padrão, tal como o SQL é para as base de dados relacionais^[6]. Na indústria, os esforços centraram-se na definição de processos/metodologias que podem guiar a implementação de aplicações de data mining, tal como o CRISP-DM, criado em 1999 por um consórcio de 5 grandes empresas, e o SEMMA, desenvolvido pelo SAS Institute Inc..

Modelo KDD Process

O termo KDD foi cunhado em 1989 no primeiro KDD workshop para enfatizar que o "conhecimento" é o produto final de uma descoberta orientada a dados^[4].

O processo KDD é interativo e iterativo, envolvendo vários passos e muitas decisões feitas pelo utilizador^[7]. Adicionalmente, o processo KDD deve ser precedido por um detalhado entendimento do domínio da aplicação, os conhecimentos prévios relevantes e os objetivos do utilizador final. E além disso, continuado pela consolidação do conhecimento e incorporação do mesmo no sistema^[4].

São considerados cinco etapas no desenvolvimento do processo KDD:

Seleção: consiste na criação de uma série de dados alvo, ou um subconjunto de variáveis ou amostra de dados sobre o qual o processo será executado.
Pré-processamento: consiste na limpeza e pré-processamento dos dados a fim de se obter uma série de dados consistente.
Transformação: consiste na transformação dos dados utilizado redução de dimensionalidade ou métodos de transformação.
Data mining: consiste na procura por padrões de interesse em uma forma particular de representação, dependendo do objetivo (normalmente predição).
Interpretação/Avaliação: consiste na interpretação e avaliação dos padrões extraídos.

Modelo CRISP-DM

Desenvolvido nos anos 90 por um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM (Cross-Industry Standard Process for Data Mining) consiste em um ciclo que compreende seis etapas^[8]:

Compreensão do negócio: prende-se com o entendimento dos objetivos e requerimentos do projeto em uma perspectiva de negócio. No âmbito da saúde, esta etapa envolve trabalho em conjunto com os clínicos para definir o problema, determinar os objetivos médicos, identificar as pessoas chave, aprender acerca das soluções correntes para o problema, os seus requisitos e restrições, bem como a determinação de critérios de sucesso do ponto de vista médico.
Compreensão dos dados: inicia-se com a obtenção dos dados, e posteriormente a realização de atividades a fim de se familiarizar com os dados, identificar problemas de qualidade (completude dos dados, redundância), detetar subconjuntos de dados e formar hipóteses sobre possíveis informações escondidas.
Preparação dos dados: é chave para todo o processo, podendo consumir mais de metade do tempo gasto. É nesta fase que são definidos os dados sobre os quais serão aplicados métodos de data mining com justificação da inclusão/exclusão dos dados, realização de testes de significância e correlação, amostragem da base de dados, limpeza dos dados selecionados, produção de novos dados, criação de novos registos para os dados construídos, agregação da informação e reorganização dos atributos.
Modelação: a modelação ou aplicação de algoritmos de data mining, constitui outro passe chave, sendo a etapa onde se revela a nova informação. Inclui a seleção de técnicas de modelação dos dados, a definição de procedimentos de treino e de teste, a construção de modelos e a sua avaliação.
Avaliação: a avaliação do conhecimento descoberto, tenta-se perceber os resultados, verificar se a informação é nova e interessante, realizar interpretação médica dos resultados, verificar o impacto nos objetivos médicos. Há uma análise do processo para identificar falhas, passos falsos ou alternativas que podiam ser tomadas, e é feito um ranking das várias ações possíveis.
Implementação: o conhecimento utilizado poderá ser utilizado nos processos de tomada de decisão, devendo existir um plano para a sua implementação, sendo que, no final, poderá existir um relatório para sumariar todos os resultados do processo.

Comparação

Em um artigo de Azevedo et al.^[5], pode-se verificar a comparação destes dois modelos. Verifica-se na Tabela 1 que o modelo CRISP-DM incorpora os passos que devem preceder e seguir o processo KDD, tal como a compreensão do negócio e a implementação.

Tabela 1 - Comparação dos métodos KDD e CRISP-DM (adaptada de Azevedo *et al.*, 2008)^[5]
KDD	CRISP-DM
Pré-KDD	Compreensão do negócio
Seleção	Compreensão dos dados
Pré-processamento	Compreensão dos dados
Transformação	Preparação dos dados
Data Mining	Modelação
Interpretação/Avaliação	Avaliação
Pós-KDD	Implementação

Referências

↑ Benoît G: Data mining. Annu Rev Inf Sci Technol 2005, 36:265–310.
↑ Bath PA: Data mining in health and medical information. Annu Rev Inf Sci Technol 2005, 38:331–369.
↑ Cios KJ, Pedryez W, Swiniarski RW, Kurgan L a.: Data Mining: A Knowledge Discovery Approach. Boston, MA: Springer US; 2007.
↑ ^4,0 ^4,1 ^4,2 ^4,3 Fayyad U, Piatetsky-Shapiro G, Smyth P: Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proc 2nd Int Conf Knowl Discov Data Min Portl OR 1996:82–88.
↑ ^5,0 ^5,1 ^5,2 Azevedo A, Santos MF: KDD, SEMMA and CRISP-DM: a parallel overview. In IADIS European Conference Data Mining; 2008:182–185.
↑ Džeroski S: Towards a general framework for data mining. Knowl Discov Inductive Databases 2007:259–300.
↑ Brachman RJ, Anand T: The Process of Knowledge Discovery in Databases: A First Sketch. AAAI Press / MIT Press 1996:37–57.
↑ North M: Data Mining for the Masses. Computer (Long Beach Calif) 2012:264.

[Benoit2005-1] Benoît G: Data mining. Annu Rev Inf Sci Technol 2005, 36:265–310.

[Bath2005-2] Bath PA: Data mining in health and medical information. Annu Rev Inf Sci Technol 2005, 38:331–369.

[Cios2007-3] Cios KJ, Pedryez W, Swiniarski RW, Kurgan L a.: Data Mining: A Knowledge Discovery Approach. Boston, MA: Springer US; 2007.

[Fayyad1996-4] 4,0 ^4,1 ^4,2 ^4,3 Fayyad U, Piatetsky-Shapiro G, Smyth P: Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proc 2nd Int Conf Knowl Discov Data Min Portl OR 1996:82–88.

[Azevedo2008-5] 5,0 ^5,1 ^5,2 Azevedo A, Santos MF: KDD, SEMMA and CRISP-DM: a parallel overview. In IADIS European Conference Data Mining; 2008:182–185.

[Dzeroski2007-6] Džeroski S: Towards a general framework for data mining. Knowl Discov Inductive Databases 2007:259–300.

[Brachman1996-7] Brachman RJ, Anand T: The Process of Knowledge Discovery in Databases: A First Sketch. AAAI Press / MIT Press 1996:37–57.

[North2012-8] North M: Data Mining for the Masses. Computer (Long Beach Calif) 2012:264.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Linha 1: / Linha 1: @@
-[[Category: Bases de Dados e Bases de Conhecimento]]
+{{Processos
-[[Category: Data Mining ]]
+|Área(s) de Atuação=Extração de conhecimento de dados
+}}
+== Introdução ==
-Consiste no processo de encontrar informações relevantes, como padrões, associações, mudanças, anomalias e estruturas, em grandes quantidades de dados armazenados em bancos de dados, depósitos de dados ou outros repositórios de informação.
+O data mining faz parte de um processo de vários estágios de extração de conhecimento de grandes bases de dados, depósitos de dados ou outros repositórios de informação e posterior aplicação dos resultados na tomada de decisões<ref name="Benoit2005">Benoît G: Data mining. Annu Rev Inf Sci Technol 2005, 36:265–310.</ref>. Entende-se por conhecimento qualquer informação relevante dentro de um contexto, como padrões, associações, mudanças, anomalias e estruturas. Os dados analisados pelo data mining normalmente são não supervisionados, sendo o objetivo principal fazer eles terem algum sentido dentro do contexto<ref name="Bath2005">Bath PA: Data mining in health and medical information. Annu Rev Inf Sci Technol 2005, 38:331–369.</ref><ref name="Cios2007">Cios KJ, Pedryez W, Swiniarski RW, Kurgan L a.: Data Mining: A Knowledge Discovery Approach. Boston, MA: Springer US; 2007.</ref>.
-Graças à disponibilidade de grandíssimas quantidades de dados em formato eletrónico, e à necessidade iminente de retirar deles informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, apoio à decisão, entre outras, o data mining foi popularmente tratado como sinónimo de descoberta de conhecimento em bases de dados.
+Graças à disponibilidade de enormes quantidades de dados em formato eletrónico, e à necessidade de retirar deles informações e conhecimentos úteis a diversas aplicações, por exemplo na análise de mercado, apoio à decisão, entre outras, o data mining foi popularmente tratado como sinónimo de descoberta de conhecimento em bases de dados (KDD). Fayyad<ref name="Fayyad1996">Fayyad U, Piatetsky-Shapiro G, Smyth P: Knowledge Discovery and Data Mining: Towards a Unifying Framework. Proc 2nd Int Conf Knowl Discov Data Min Portl OR 1996:82–88.</ref> considerava o data mining como uma das fases do processo de KDD e consiste principalmente na forma pela qual os padrões são extraídos e enumerados da fonte de dados<ref name="Azevedo2008">Azevedo A, Santos MF: KDD, SEMMA and CRISP-DM: a parallel overview. In IADIS European Conference Data Mining; 2008:182–185.</ref>.
+== Contextualização histórica ==
-'''Contextualização histórica'''
+Apesar de existirem dados sobre data mining desde os anos 80, na década de 90 o conhecimento sobre esta área ainda se encontrava bastante parco, esta técnica ainda se encontrava a ser definida. Em 1996, Fayyad<ref name="Fayyad1996"/> apresentou um modelo inicial de uma framework para descoberta de conhecimento chamado que ficou conhecido genericamente como ''KDD process''.
-Apesar de existirem dados sobre data mining desde os anos 80, na década de 90 o conhecimento sobre esta área ainda se encontrava bastante parco, esta técnica ainda se encontrava a ser definida.
+Foram feitas algumas tentativas de estabelecer normas nesta área, tanto por académicos como pela indústria. Os esforços académicos estão centrados na tentativa de formular uma framework para o data mining, como por exemplo a definição de uma "linguagem" para o data mining que possa ser aceite como padrão, tal como o SQL é para as base de dados relacionais<ref name="Dzeroski2007">Džeroski S: Towards a general framework for data mining. Knowl Discov Inductive Databases 2007:259–300.</ref>. Na indústria, os esforços centraram-se na definição de processos/metodologias que podem guiar a implementação de aplicações de data mining, tal como o CRISP-DM, criado em 1999 por um consórcio de 5 grandes empresas, e o SEMMA, desenvolvido pelo SAS Institute Inc..
-Foi em 1999 que várias empresas de renome, como a Daimler-Benz, a OHRA, bem como a fabricante de software de apoio estatístico SPSS, começaram a trabalhar em conjunto na formalização e standardização para a abordagem ao data mining.
-É durante este período que surge o modelo CRIPS-DM (Cross-Industry Standard Process for Data Mining).
+== Modelo KDD Process ==
-'''Modelo CRISP-DM'''
+O termo KDD foi cunhado em 1989 no primeiro KDD workshop para enfatizar que o "conhecimento" é o produto final de uma descoberta orientada a dados<ref name="Fayyad1996"/>.
-<u>Este modelo processual divide-se em 6 etapas, sendo elas:</u>
+O processo KDD é interativo e iterativo, envolvendo vários passos e muitas decisões feitas pelo utilizador<ref name="Brachman1996">Brachman RJ, Anand T: The Process of Knowledge Discovery in Databases: A First Sketch. AAAI Press / MIT Press 1996:37–57.</ref>. Adicionalmente, o processo KDD deve ser precedido por um detalhado entendimento do domínio da aplicação, os conhecimentos prévios relevantes e os objetivos do utilizador final. E além disso, continuado pela consolidação do conhecimento e incorporação do mesmo no sistema<ref name="Fayyad1996"/>.
+São considerados cinco etapas no desenvolvimento do processo KDD:
-#Business Understanding;
+# '''Seleção:''' consiste na criação de uma série de dados alvo, ou um subconjunto de variáveis ou amostra de dados sobre o qual o processo será executado.
-#Data Understanding;
+# '''Pré-processamento:''' consiste na limpeza e pré-processamento dos dados a fim de se obter uma série de dados consistente.
-#Data Preparation;
+# '''Transformação:''' consiste na transformação dos dados utilizado redução de dimensionalidade ou métodos de transformação.
-#Modelling;
+# '''Data mining:''' consiste na procura por padrões de interesse em uma forma particular de representação, dependendo do objetivo (normalmente predição).
-#Evaluation;
+# '''Interpretação/Avaliação:''' consiste na interpretação e avaliação dos padrões extraídos.
-#Deployment;
-A <u>primeira etapa</u> prende-se com a perceção do problema. No âmbito da saúde, esta etapa envolve trabalho em conjunto com os clínicos para definir o problema, determinar os objetivos médicos, identificar as pessoas chave, aprender acerca das soluções correntes para o problema, os seus requisitos e restrições, bem como a determinação de critérios de sucesso do ponto de vista médico.
+== Modelo CRISP-DM ==
-A <u>segunda etapa</u>, compreensão dos dados, inclui a obtenção dos dados, o planeamento dos dados que serão usados, identificar informação adicional necessária, descrever a base de dados, bem como a verificação dos dados (completude dos dados, redundância).
+Desenvolvido nos anos 90 por um consórcio composto inicialmente pela DaimlerChrysler, SPSS e NCR, o CRISP-DM (Cross-Industry Standard Process for Data Mining) consiste em um ciclo que compreende seis etapas<ref name="North2012">North M: Data Mining for the Masses. Computer (Long Beach Calif) 2012:264.</ref>:
-A <u>terceira etapa</u>, preparação dos dados, é chave para todo o processo, podendo consumir mais de metade do tempo gasto. É nesta fase que são definidos os dados sobre os quais serão aplicados métodos de data mining com justificação da inclusão/exclusão dos dados, realização de testes de significância e correlação, amostragem da base de dados, limpeza dos dados selecionados, produção de novos dados, criação de novos registos para os dados construídos, agregação da informação e reorganização dos atributos.
+# '''Compreensão do negócio:''' prende-se com o entendimento dos objetivos e requerimentos do projeto em uma perspectiva de negócio. No âmbito da saúde, esta etapa envolve trabalho em conjunto com os clínicos para definir o problema, determinar os objetivos médicos, identificar as pessoas chave, aprender acerca das soluções correntes para o problema, os seus requisitos e restrições, bem como a determinação de critérios de sucesso do ponto de vista médico.
+# '''Compreensão dos dados:''' inicia-se com a obtenção dos dados, e posteriormente a realização de atividades a fim de se familiarizar com os dados, identificar problemas de qualidade (completude dos dados, redundância), detetar subconjuntos de dados e formar hipóteses sobre possíveis informações escondidas.
+# '''Preparação dos dados:''' é chave para todo o processo, podendo consumir mais de metade do tempo gasto. É nesta fase que são definidos os dados sobre os quais serão aplicados métodos de data mining com justificação da inclusão/exclusão dos dados, realização de testes de significância e correlação, amostragem da base de dados, limpeza dos dados selecionados, produção de novos dados, criação de novos registos para os dados construídos, agregação da informação e reorganização dos atributos.
+# '''Modelação:''' a modelação ou aplicação de algoritmos de data mining, constitui outro passe chave, sendo a etapa onde se revela a nova informação. Inclui a seleção de técnicas de modelação dos dados, a definição de procedimentos de treino e de teste, a construção de modelos e a sua avaliação.
+# '''Avaliação:''' a avaliação do conhecimento descoberto, tenta-se perceber os resultados, verificar se a informação é nova e interessante, realizar interpretação médica dos resultados, verificar o impacto nos objetivos médicos. Há uma análise do processo para identificar falhas, passos falsos ou alternativas que podiam ser tomadas, e é feito um ranking das várias ações possíveis.
+# '''Implementação:''' o conhecimento utilizado poderá ser utilizado nos processos de tomada de decisão, devendo existir um plano para a sua implementação, sendo que, no final, poderá existir um relatório para sumariar todos os resultados do processo.
-A <u>quarta etapa</u>, a modelação ou aplicação de algoritmos de data mining, constitui outro passe chave, sendo a etapa onde se revela a nova informação. Inclui a seleção de técnicas de modelação dos dados, a definição de procedimentos de treino e de teste, a construção de modelos e a sua avaliação.
+== Comparação ==
-Na <u>quinta etapa</u>, a avaliação do conhecimento descoberto, tenta-se perceber os resultados, verificar se a informação é nova e interessante, realizar interpretação médica dos resultados, verificar o impacto nos objetivos médicos. Há uma análise do processo para identificar falhas, passos falsos ou alternativas que podiam ser tomadas, e é feito um ranking das várias ações possíveis.
+Em um artigo de Azevedo ''et al.''<ref name="Azevedo2008"/>, pode-se verificar a comparação destes dois modelos. Verifica-se na Tabela 1 que o modelo CRISP-DM incorpora os passos que devem preceder e seguir o processo KDD, tal como a compreensão do negócio e a implementação.
-Por último, na <u>sexta etapa</u>, o conhecimento utilizado poderá ser utilizado nos processos de tomada de decisão, devendo existir um plano para a sua implementação, sendo que, no final, poderá existir um relatório para sumariar todos os resultados do processo.
+{| class="wikitable"
+! style="font-weight: bold;" | KDD
+! style="font-weight: bold;" | CRISP-DM
+|+Tabela 1 - Comparação dos métodos KDD e CRISP-DM (adaptada de Azevedo ''et al.'', 2008)<ref name="Azevedo2008"/>
+|-
+| Pré-KDD
+| Compreensão do negócio
+|-
+| Seleção
+| rowspan="2" | Compreensão dos dados
+|-
+| Pré-processamento
+|-
+| Transformação
+| Preparação dos dados
+|-
+| Data Mining
+| Modelação
+|-
+| Interpretação/Avaliação
+| Avaliação
+|-
+| Pós-KDD
+| Implementação
+|}
+== Referências ==
+<references/>
+[[Categoria:Base de Dados]]
+[[Categoria:Base de Conhecimento]]
+[[Categoria:Extração de Conhecimento]]

Data Mining: diferenças entre revisões

Edição atual desde as 15h21min de 22 de março de 2016

Índice

Introdução

Contextualização histórica

Modelo KDD Process

Modelo CRISP-DM

Comparação

Referências

Menu de navegação

Ações da página

Operações da página

Ferramentas pessoais

Navegação

Pesquisa

Ferramentas