Utilizador:MiguelDuarte

Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa
MiguelDuarte
Área(s) de Atuação Informática Médica
Entidade(s) Criadora(s) Mestrado em Informática Médica
Entidade(s) Gestora(s) Faculdade de Medicina da Universidade do Porto
Data de Lançamento 2016


About me

Foto.jpg

Licenciado em Engenharia de Informática pelo ISEP.

A frequentar Mestrado em Informática Médica na FMUP e FCUP.

Developer no Centro Hospitalar São João, co-responsável pelo desenvolvimento de várias aplicações, móveis e desktop, para uso dos vários grupos profissionais.

Formador de iOS no ISEP com formações desde o iOS 4 até ao iOS 9.

Freelancer como Developer de iOS e Windows Phone.

Amador entusiasta no desenvolvimento de aplicações para domótica e iOT

MiguelDuarte (discussão) 01h30min de 4 de fevereiro de 2016 (CET)

Extração de Conhecimento de Dados

“We study the past to understand the present; we understand the present to guide the future.” - William Lund

Introdução

A Extração de Conhecimento de Dados, muitas das vezes denominada de Data Mining, pode ter diferentes definições dependendo da perspectiva.

Numa perspectiva de negócio o Data Mining é definido como o processo de identificação de relacionamentos e padrões existentes numa base de dados.[1] Pode ainda ser definido como a extração de informação útil para o negocio a partir de grandes bases de dados.[2]

Numa perspectiva mais funcional é a procura de informação importante em grandes volumes de dados, resultado da cooperação de esforços humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objetivos. Os computadores esmiúçam os dados, procurando padrões que correspondam aos objetivos.[3]

Numa perspectiva mais acadêmica será a extração implícita, não trivial de conhecimentos úteis e padrões válidos, previamente desconhecidos, dos dados.[4]

Modelo Preditivo

A análise preditiva é o uso de dados e algoritmos para identificar a probabilidade de resultados futuros com base em dados históricos. Os modelos preditivos utilizam os resultados conhecidos para desenvolver e treinar um modelo que possa ser usado para prever valores para dados diferentes ou novos, usando para isso um algoritmo preditivo de Data Mining.

Um algoritmo preditivo é uma função que, dado um conjunto de exemplos rotulados, constrói um estimador. Se o domínio dos rótulos for um conjunto de valores nominais, estamos perante um problema de classificação, e o estimador criado é uma classificador. Se o domínio for um conjunto infinito e ordenado de valores, estamos perante um problema de regressão e é criado um regressor. [5]

Um estimador (classificador ou regressor) é uma função que atribui a uma das classes, ou um valor real, a um exemplo não rotulado.

Classificação: Image00.png em que Image01.png assume valores num conjunto discreto não ordenado.

Regressão: Image02.png em que Image01.png assume valores num conjunto infinito e ordenado.

O objetivo é encontrar uma fronteira de decisão que separe os exemplos de uma classe dos exemplos da outra classe.

Diferentes algoritmos de Data Mining podem encontrar diferentes fronteiras de decisão.

Regras de Associação

Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente.

As regras de associação têm a forma Image03.png onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e Image04.png significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.

Número máximo de regras de associação é definido por:

Image05.png onde n = número de itens.

Podem ser utilizadas várias métricas para avaliar as regras e identificar quais são interessantes diminuindo assim o número de regras geradas. As restrições mais utilizadas são limiares mínimos de suporte e confiança.[6]

O suporte de um conjunto X é definido como a razão das transações que contém esse conjunto ou seja:

Image06.png

A confiança de uma regra é definida por:

Image07.png

Mas o suporte e confiança não são suficientes para garantir que uma regra seja interessante sem considerar a sua semântica. Se por exemplo considerarmos a regra Se A então B com confiança de 90%, mas se B aparece em 90% das transações a regra não é interessante pois não acrescentou nada em termos de conhecimento, já a regra Se C então D com confiança de 70% é muito mais importante se D aparece em 10% das transações.

Uma das métricas mais utilizada para avaliar dependências de uma regra de associação é denominado Lift, também conhecida como interest (interesse). [7]

O Lift de uma regra Image03.pngindica o quanto mais frequente torna-se Y quando X ocorre:

Image08.png

Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra.


Métodos baseados em Procura

A aprendizagem automática passa também pela procura num conjunto de possíveis opções. A esta procura está associado também um viés, o viés de procura. Este viés representa o atrito e erro associado à procura de hipóteses num espaço de soluções.[5]


Árvores de decisão e Regressão

Um modelo de árvore de decisão é utilizado para resolver problemas com base na classificação. Uma árvore de decisão utiliza a estratégia de “dividir para conquistar”, isto é, um problema de procura deverá ser simplificado dividindo o problema “major” em menores problemas. A esses problemas menores, a mesma estratégia é utilizada e têm o nome de subproblemas. As soluções aos subproblemas obtidas são então compactadas de forma a gerar uma solução para o problema original ou “major”. [8]

Um modelo de árvore de regressão é utilizado para resolver problemas com base na regressão. Este modelo utiliza a mesma estratégia de dividir que a árvore de decisão, mas neste caso para valores contínuos.[9]

Alguns dos algoritmos baseados em árvores de decisão e regressão são: ID3 (quinlan, 1979), ASSISTANT (Cestnik et al., 1987), CART (Breiman et al., 1984), C4.5 (Quinlan, 1993). O algoritmo mais utilizado para a classificação é o CART, seguido do seu competitor C4.5. [10]

Tanto uma árvore de decisão como uma árvore de regressão são um grafo acíclico direcionado constituído por nós de divisão com dois ou mais sucessores, ou nós folha. Um nó de divisão é um teste condicional baseado nos valores do atributo. Um teste condicional é por exemplo: - Temperatura > 30 ºC; - Sexo ϵ {Masculino, feminino}; - image09.png

Um nó folha é uma função. Em problemas de classificação, a constante que minimiza a função de custo é 0-1 e é a moda. Em problemas de regressão, a constante é a média.

Estratégias de Poda

A poda é um passo essencial na construção de uma árvore de decisão ou regressão pois é esta que irá reduzir ao máximo o ruído da informação. O ruído da informação pode provocar que a árvore classifique objetos de um modo não confiável e o tamanho das árvores tende a ser muito extenso quando o ruído existe. A poda é importante então para diminuir o erro devido à variância do classificador.[11]


A poda pode ser classificada então em pré-poda, em que se para a construção da árvore quando algum dos critérios pré estabelecidos é satisfeito; e pós-poda, em que tal como o nome indica, a construção é concluída e só após é feita a poda.[12]


Vantagens e Desvantagens

Vantagens:

  1. Flexibilidade – Sendo um método não paramétrico, não existe uma distribuição dos dados, estes são dispostos em espaços e cada espaço é aproximado com recurso a muitos modelos.
  2. Robustez – A estrutura das árvores não varia em por exemplo árvores univariadas. Não sofrem transformações.
  3. Seleção de atributos – Durante o processo de construção, os atributos tendem a ser robustos e atributos mais irrelevantes e redundantes são fragilizados.
  4. Interpretabilidade – Interpretando decisões mais simples e locais, podem-se realizar decisões mais complexas e globais.
  5. Eficiência – Como o algoritmo de um árvore de decisão é top-down usando uma estratégia de dividir, esta torna-se bastante eficiente.

Desvantagens:

  1. Replicação – Refere-se à duplicação de testes em diferentes ramos da árvore.
  2. Valores ausentes – Se um valor de atributo é desconhecido, não poderá ser continuado o ramo.
  3. Atributos contínuos – A ordenação de cada atributo contínuo estima-se que consuma 70% do tempo necessário para induzir uma árvore de decisão.
  4. Instabilidade – Breiman (1996) e Kohavi e Kunz (1997) apontaram que variações no conjunto de treino podem produzir grande variações na árvore final. Mudando um nó, todas as subárvores abaixo desse nó mudam.
Figura 1. Representação de uma árvore de decisão efetuada no Rapidminer com dados dos sobreviventes do “Titanic”.

Referências

  1. R. Groth, Data Mining: Building Competitive Advantage. Prentice Hall, 2000. [1]
  2. S. Nagabhushana, Data Warehousing Olap And Data Mining. New Age International, 2006. [2]
  3. S. M. Weiss and N. Indurkhya, Predictive Data Mining: A Practical Guide. Morgan Kaufmann, 1998. [3]
  4. P. Adriaans, Data Mining. Addison-Wesley Professional, 1996. [4]
  5. 5,0 5,1 J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira, Extração de Conhecimento de Dados. 2012. [5]
  6. J. Hipp, H. Jochen, G. Ulrich, and N. Gholamreza, “Algorithms for association rule mining --- a general survey and comparison,” ACM SIGKDD Explorations Newsletter, vol. 2, no. 1, pp. 58–64, 2000. [6]
  7. S. Brin, B. Sergey, M. Rajeev, J. D. Ullman, and T. Shalom, “Dynamic itemset counting and implication rules for market basket data,” in Proceedings of the 1997 ACM SIGMOD international conference on Management of data - SIGMOD ’97, 1997 [7]
  8. J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira, Extração de Conhecimento de Dados. 2012. [8]
  9. J. R. Quinlan and Q. J.R, “Simplifying decision trees,” Int. J. Hum. Comput. Stud., vol. 51, no. 2, pp. 497–510, 1999. [9]
  10. T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer Science & Business Media, 2013. [10]
  11. J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira, Extração de Conhecimento de Dados. 2012. [11]
  12. J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira, Extração de Conhecimento de Dados. 2012. [12]