Utilizador:MiguelDuarte: diferenças entre revisões
Sem resumo de edição |
Sem resumo de edição |
||
Linha 79: | Linha 79: | ||
---- | ---- | ||
---- | |||
= Métodos baseados em Procura = | |||
A aprendizagem automática passa também pela procura num conjunto de possíveis opções. A esta procura está associado também um viés, o viés de procura. Este viés representa o atrito e erro associado à procura de hipóteses num espaço de soluções.[[[5]]] | |||
== Árvores de decisão e Regressão == | |||
Um modelo de árvore de decisão é utilizado para resolver problemas com base na classificação. Uma árvore de decisão utiliza a estratégia de “dividir para conquistar”, isto é, um problema de procura deverá ser simplificado dividindo o problema “major” em menores problemas. A esses problemas menores, a mesma estratégia é utilizada e têm o nome de subproblemas. As soluções aos subproblemas obtidas são então compactadas de forma a gerar uma solução para o problema original ou “major”. [[[5]]] | |||
Um modelo de árvore de regressão é utilizado para resolver problemas com base na regressão. Este modelo utiliza a mesma estratégia de dividir que a árvore de decisão, mas neste caso para valores contínuos.[[[8]]] | |||
Alguns dos algoritmos baseados em árvores de decisão e regressão são: ID3 (quinlan, 1979), ASSISTANT (Cestnik et al., 1987), CART (Breiman et al., 1984), C4.5 (Quinlan, 1993). O algoritmo mais utilizado para a classificação é o CART, seguido do seu competitor C4.5. [[[9]]] | |||
Tanto uma árvore de decisão como uma árvore de regressão são um grafo acíclico direcionado constituído por nós de divisão com dois ou mais sucessores, ou nós folha. | |||
Um nó de divisão é um teste condicional baseado nos valores do atributo. Um teste condicional é por exemplo: | |||
- Temperatura > 30 ºC; | |||
- Sexo ϵ {Masculino, feminino}; | |||
- [[Image:image09.png|image09.png]] | |||
Um nó folha é uma função. Em problemas de classificação, a constante que minimiza a função de custo é 0-1 e é a moda. Em problemas de regressão, a constante é a média. | |||
== Estratégias de Poda == | |||
A poda é um passo essencial na construção de uma árvore de decisão ou regressão pois é esta que irá reduzir ao máximo o ruído da informação. O ruído da informação pode provocar que a árvore classifique objetos de um modo não confiável e o tamanho das árvores tende a ser muito extenso quando o ruído existe. A poda é importante então para diminuir o erro devido à variância do classificador.[[[5]]] | |||
A poda pode ser classificada então em pré-poda, em que se para a construção da árvore quando algum dos critérios pré estabelecidos é satisfeito; e pós-poda, em que tal como o nome indica, a construção é concluída e só após é feita a poda.[[[5]]] | |||
== Vantagens e Desvantagens == | |||
Vantagens: | |||
# Flexibilidade – Sendo um método não paramétrico, não existe uma distribuição dos dados, estes são dispostos em espaços e cada espaço é aproximado com recurso a muitos modelos. | |||
# Robustez – A estrutura das árvores não varia em por exemplo árvores univariadas. Não sofrem transformações. | |||
# Seleção de atributos – Durante o processo de construção, os atributos tendem a ser robustos e atributos mais irrelevantes e redundantes são fragilizados. | |||
# Interpretabilidade – Interpretando decisões mais simples e locais, podem-se realizar decisões mais complexas e globais. | |||
# Eficiência – Como o algoritmo de um árvore de decisão é top-down usando uma estratégia de dividir, esta torna-se bastante eficiente. | |||
Desvantagens: | |||
# Replicação – Refere-se à duplicação de testes em diferentes ramos da árvore. | |||
# Valores ausentes – Se um valor de atributo é desconhecido, não poderá ser continuado o ramo. | |||
# Atributos contínuos – A ordenação de cada atributo contínuo estima-se que consuma 70% do tempo necessário para induzir uma árvore de decisão. | |||
# Instabilidade – Breiman (1996) e Kohavi e Kunz (1997) apontaram que variações no conjunto de treino podem produzir grande variações na árvore final. Mudando um nó, todas as subárvores abaixo desse nó mudam. | |||
[[Image:image10.jpg|image10.jpg]] | |||
Figura 1. Representação de uma árvore de decisão efetuada no Rapidminer com dados dos sobreviventes do “Titanic”. | |||
=Referências= | =Referências= | ||
<references/> | <references/> |
Revisão das 00h06min de 16 de fevereiro de 2016
MiguelDuarte | |
---|---|
Área(s) de Atuação | Informática Médica |
Entidade(s) Criadora(s) | Mestrado em Informática Médica |
Entidade(s) Gestora(s) | Faculdade de Medicina da Universidade do Porto |
Data de Lançamento | 2016 |
About me
Licenciado em Engenharia de Informática pelo ISEP.
A frequentar Mestrado em Informática Médica na FMUP e FCUP.
Developer no Centro Hospitalar São João, co-responsável pelo desenvolvimento de várias aplicações, móveis e desktop, para uso dos vários grupos profissionais.
Formador de iOS no ISEP com formações desde o iOS 4 até ao iOS 9.
Freelancer como Developer de iOS e Windows Phone.
Amador entusiasta no desenvolvimento de aplicações para domótica e iOT
MiguelDuarte (discussão) 01h30min de 4 de fevereiro de 2016 (CET)
Extração de Conhecimento de Dados
“We study the past to understand the present; we understand the present to guide the future.” - William Lund
Introdução
A Extração de Conhecimento de Dados, muitas das vezes denominada de Data Mining, pode ter diferentes definições dependendo da perspectiva.
Numa perspectiva de negócio o Data Mining é definido como o processo de identificação de relacionamentos e padrões existentes numa base de dados.[1] Pode ainda ser definido como a extração de informação útil para o negocio a partir de grandes bases de dados.[2]
Numa perspectiva mais funcional é a procura de informação importante em grandes volumes de dados, resultado da cooperação de esforços humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objetivos. Os computadores esmiúçam os dados, procurando padrões que correspondam aos objetivos.[3]
Numa perspectiva mais acadêmica será a extração implícita, não trivial de conhecimentos úteis e padrões válidos, previamente desconhecidos, dos dados.[4]
Modelo Preditivo
A análise preditiva é o uso de dados e algoritmos para identificar a probabilidade de resultados futuros com base em dados históricos. Os modelos preditivos utilizam os resultados conhecidos para desenvolver e treinar um modelo que possa ser usado para prever valores para dados diferentes ou novos, usando para isso um algoritmo preditivo de Data Mining.
Um algoritmo preditivo é uma função que, dado um conjunto de exemplos rotulados, constrói um estimador. Se o domínio dos rótulos for um conjunto de valores nominais, estamos perante um problema de classificação, e o estimador criado é uma classificador. Se o domínio for um conjunto infinito e ordenado de valores, estamos perante um problema de regressão e é criado um regressor. [5]
Um estimador (classificador ou regressor) é uma função que atribui a uma das classes, ou um valor real, a um exemplo não rotulado.
Classificação: em que assume valores num conjunto discreto não ordenado.
Regressão: em que assume valores num conjunto infinito e ordenado.
O objetivo é encontrar uma fronteira de decisão que separe os exemplos de uma classe dos exemplos da outra classe.
Diferentes algoritmos de Data Mining podem encontrar diferentes fronteiras de decisão.
Regras de Associação
Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente.
As regras de associação têm a forma onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.
Número máximo de regras de associação é definido por:
Podem ser utilizadas várias métricas para avaliar as regras e identificar quais são interessantes diminuindo assim o número de regras geradas. As restrições mais utilizadas são limiares mínimos de suporte e confiança.[6]
O suporte de um conjunto X é definido como a razão das transações que contém esse conjunto ou seja:
A confiança de uma regra é definida por:
Mas o suporte e confiança não são suficientes para garantir que uma regra seja interessante sem considerar a sua semântica. Se por exemplo considerarmos a regra Se A então B com confiança de 90%, mas se B aparece em 90% das transações a regra não é interessante pois não acrescentou nada em termos de conhecimento, já a regra Se C então D com confiança de 70% é muito mais importante se D aparece em 10% das transações.
Uma das métricas mais utilizada para avaliar dependências de uma regra de associação é denominado Lift, também conhecida como interest (interesse). [7]
O Lift de uma regra indica o quanto mais frequente torna-se Y quando X ocorre:
Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra.
Métodos baseados em Procura
A aprendizagem automática passa também pela procura num conjunto de possíveis opções. A esta procura está associado também um viés, o viés de procura. Este viés representa o atrito e erro associado à procura de hipóteses num espaço de soluções.[[[5]]]
Árvores de decisão e Regressão
Um modelo de árvore de decisão é utilizado para resolver problemas com base na classificação. Uma árvore de decisão utiliza a estratégia de “dividir para conquistar”, isto é, um problema de procura deverá ser simplificado dividindo o problema “major” em menores problemas. A esses problemas menores, a mesma estratégia é utilizada e têm o nome de subproblemas. As soluções aos subproblemas obtidas são então compactadas de forma a gerar uma solução para o problema original ou “major”. [[[5]]]
Um modelo de árvore de regressão é utilizado para resolver problemas com base na regressão. Este modelo utiliza a mesma estratégia de dividir que a árvore de decisão, mas neste caso para valores contínuos.[[[8]]]
Alguns dos algoritmos baseados em árvores de decisão e regressão são: ID3 (quinlan, 1979), ASSISTANT (Cestnik et al., 1987), CART (Breiman et al., 1984), C4.5 (Quinlan, 1993). O algoritmo mais utilizado para a classificação é o CART, seguido do seu competitor C4.5. [[[9]]]
Tanto uma árvore de decisão como uma árvore de regressão são um grafo acíclico direcionado constituído por nós de divisão com dois ou mais sucessores, ou nós folha.
Um nó de divisão é um teste condicional baseado nos valores do atributo. Um teste condicional é por exemplo:
- Temperatura > 30 ºC;
- Sexo ϵ {Masculino, feminino};
Um nó folha é uma função. Em problemas de classificação, a constante que minimiza a função de custo é 0-1 e é a moda. Em problemas de regressão, a constante é a média.
Estratégias de Poda
A poda é um passo essencial na construção de uma árvore de decisão ou regressão pois é esta que irá reduzir ao máximo o ruído da informação. O ruído da informação pode provocar que a árvore classifique objetos de um modo não confiável e o tamanho das árvores tende a ser muito extenso quando o ruído existe. A poda é importante então para diminuir o erro devido à variância do classificador.[[[5]]]
A poda pode ser classificada então em pré-poda, em que se para a construção da árvore quando algum dos critérios pré estabelecidos é satisfeito; e pós-poda, em que tal como o nome indica, a construção é concluída e só após é feita a poda.[[[5]]]
Vantagens e Desvantagens
Vantagens:
- Flexibilidade – Sendo um método não paramétrico, não existe uma distribuição dos dados, estes são dispostos em espaços e cada espaço é aproximado com recurso a muitos modelos.
- Robustez – A estrutura das árvores não varia em por exemplo árvores univariadas. Não sofrem transformações.
- Seleção de atributos – Durante o processo de construção, os atributos tendem a ser robustos e atributos mais irrelevantes e redundantes são fragilizados.
- Interpretabilidade – Interpretando decisões mais simples e locais, podem-se realizar decisões mais complexas e globais.
- Eficiência – Como o algoritmo de um árvore de decisão é top-down usando uma estratégia de dividir, esta torna-se bastante eficiente.
Desvantagens:
- Replicação – Refere-se à duplicação de testes em diferentes ramos da árvore.
- Valores ausentes – Se um valor de atributo é desconhecido, não poderá ser continuado o ramo.
- Atributos contínuos – A ordenação de cada atributo contínuo estima-se que consuma 70% do tempo necessário para induzir uma árvore de decisão.
- Instabilidade – Breiman (1996) e Kohavi e Kunz (1997) apontaram que variações no conjunto de treino podem produzir grande variações na árvore final. Mudando um nó, todas as subárvores abaixo desse nó mudam.
Figura 1. Representação de uma árvore de decisão efetuada no Rapidminer com dados dos sobreviventes do “Titanic”.
Referências
- ↑ R. Groth, Data Mining: Building Competitive Advantage. Prentice Hall, 2000. [1]
- ↑ S. Nagabhushana, Data Warehousing Olap And Data Mining. New Age International, 2006. [2]
- ↑ S. M. Weiss and N. Indurkhya, Predictive Data Mining: A Practical Guide. Morgan Kaufmann, 1998. [3]
- ↑ P. Adriaans, Data Mining. Addison-Wesley Professional, 1996. [4]
- ↑ J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira, Extração de Conhecimento de Dados. 2012. [5]
- ↑ J. Hipp, H. Jochen, G. Ulrich, and N. Gholamreza, “Algorithms for association rule mining --- a general survey and comparison,” ACM SIGKDD Explorations Newsletter, vol. 2, no. 1, pp. 58–64, 2000. [6]
- ↑ S. Brin, B. Sergey, M. Rajeev, J. D. Ullman, and T. Shalom, “Dynamic itemset counting and implication rules for market basket data,” in Proceedings of the 1997 ACM SIGMOD international conference on Management of data - SIGMOD ’97, 1997 [7]