Article image
Victor Barbosa
Victor Barbosa19/10/2022 12:10
Compartilhe

KDD (Knowledge Discovery Databases)

    KDD ou “Processo de Descoberta de Conhecimento”, segundo Fayyad, Piatetsky e Smyth, é um processo de várias etapas ‘não trivial’ (cada hora pode fazer de um jeito,interativo e iterativo, para a identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir do conjunto de dados.

    A caracteristica ‘não trivial’ diz respeito a complexidade existente na execução e manutenção dos processos de KDD, “interativo” representa a relevancia de um elemento que controle o processo, “iterativo” indica a possibilidade de repetições em qualquer parte dos processos, e “conhecimento útil” indica que o objetivo foi alcançado.

    Geralmente é divido em 5 fases: Seleção, Pré-Processamento, Transformação, Data Mining e Interpretação.

    Seleção:

    • Consiste em pegar um conjunto ou subconjunto de dados que fará parte da análise;
    • A fonte de dados pode ser variadas (planilhas, banco de dados, datawarehouse);
    • Os dados podem vir em diversas estruturas (estruturado, semi-estruturados e não-estruturados).

    Pré-Processamento:

    • Consite em saber sobre a qualidade dos dados. Exceções e ruídos são removidos;
    • Limpeza, correção e remoção de dados inconsistentes;
    • Identificação de dados incompletos, não íntegros e ausentes também fazem parte do processo.

    Transformação:

    • Aplica técnicas de transformação como: normalização, agregação, criação de novos atributos, redução e sintetização dos dados;
    • Busca-se identificar atributos úteis nos dados para alcançar os objetivos pretendidos.

    Mineiração dos dados (Data Mining):

    • Aplicação de algoritmos e técnicas para identificar padrões nos dados e verificar hipóteses.
    • Geralmente as descobertas podem ser descritivas ou preditivas, com os seguintes objetivos:
    • Regressão (uma função que faça o mapeamento dos dados);
    • Clusterização (identificar um conjunto finito de categorias ou clusters);
    • Sumarização (busca uma descrição compacta para o subconjunto de dados);
    • Dependências ou Associações (encontrar dependencias significativas entre as variáveis);
    • Divergências (encontrar alterações significativas entre os valores medidos).

    Interpretação:

    • Consiste em fazer a avaliação do desempenho do modelo, ocorrendo a consolidação do conhecimento descoberto.
    • A avaliação pode ser feita com base na análise de profissionais ou em comparação com dados coletados anteriormente.

    Espero que você tenha aprendido um pouco hoje. Sinta-se à vontade para deixar uma mensagem se tiver algum feedback e compartilhar com qualquer pessoa que possa achar isso útil.

    Compartilhe
    Comentários (0)