Extração de Conhecimento de Dados: diferenças entre revisões
Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa
Sem resumo de edição |
Sem resumo de edição |
||
Linha 69: | Linha 69: | ||
[[Categoria: | [[Categoria:Extração de Conhecimento]] |
Revisão das 14h47min de 1 de fevereiro de 2016
A Extração de Conhecimento de Dados ou Data Mining é a ciência ou o processo de extração de informação útil a partir de grandes conjuntos de dados.
* Objetivo: encontrar padrões/dependências nos conjuntos de dados, que sejam válidos e de interesse.
Fases do Processo de Extração de Conhecimento de Dados
- Perceção do Domínio Médico:
- Definição do problema;
- Definição dos objetivos médicos;
- Identificação das pessoas chave;
- Identificação das soluções correntes para o problema;
- Identificação dos requisitos e restrições do problema;
- Definição dos critérios de sucesso do ponto de vista médico;
- Averiguação da disponibilidade de peritos e das bases de dados;
- Definição dos critérios de sucesso do ponto de vista do data mining;
- Elaboração de um plano de identificação dos passos críticos;
- Compreensão dos Dados:
- Obtenção dos dados;
- Planeamento - que dados que serão utilizados?;
- Identificação da informação adicional necessária;
- Descrição da Base de Dados;
- Verificação dos dados (completude, redundância, erros, etc.);
- Encriptação de dados sensíveis (se necessário);
- Preparação dos Dados;
- Justificação da inclusão/exclusão de dados;
- Realização de testes de significância;
- Amostragem da base de dados;
- Aperfeiçoamento da amostra de dados selecionada (correções, eliminação de ruído, valores omissos, etc.);
- Produção de novos dados (transformações de atributos, etc.);
- Criação de registos para os dados;
- Agregação de informação;
- Reorganização dos atributos;
- Aplicação de Algoritmos de Data Mining:
- Seleção de técnicas de modelação;
- Definição de procedimentos de treino e teste;
- Construção de modelos;
- Avaliação dos modelos construídos;
- Avaliação do Conhecimento descoberto:
- Interpretação dos resultados obtidos;
- Avaliação da nova informação (se é nova e interessante);
- Interpretação médica dos resultados;
- Verificação do impacto dos resultados nos objetivos médicos;
- Utilização do Conhecimento descoberto:
- Definição do plano de implementação;
- Definição do plano de monitorização.
Tarefas de Extração de Conhecimento de Dados
- Sumarização
- Descrição de dados de forma agregada, utilizando poucos atributos.
- Análise Exploratória de Dados
- Utilização de modelos gráficos para análise exploratória (descobrimento de padrões, relações, etc.).
- Aglomeração / Clustering
- Descoberta de agrupamentos naturais nos dados.
- Classificação
- Construção de classificadores capazes de determinar, para um dado conjunto de classes, a qual pertence um objeto.
- Associação / Link Analysis / Association
- Descoberta de associações entre atributos e objetos.
- Análise de Sequências
- Modelação dos dados através de análises temporais, modelos de séries temporais ou redes neuronais temporais.
- Deteção de Desvios
- Procura de outliers (casos desviantes) ou pequenos padrões no dados.