Skip to content

Overview sobre Data Mining

Novembro 6, 2011

Neste artigo vou fazer uma abordagem sobre Data Mining e descrever algumas das suas principais caracteristicas.

Tópicos a abordar:

  • O que é Data Mining
  • Etapas para realizar a Exploração de Dados
  • Metodologias de Data Mining
  • Principais Técnicas de Data Mining
  • Referências

O que é Data Mining

Define-se como Data Mining o processo de extracção/descoberta de conhecimento a partir de uma grande quantidade de dados permitindo encontrar correlações, padrões e tendências entre os dados através de modelos matemáticos e estatisticos.

Data Mining também conhecido como Knowledge-Discovery in Databases (KDD), assenta em três pontos chave, os quais passo a citar:

  • Estatística
  • Inteligência Artificial
  • Sistemas de Bases de Dados
Estatística
É o pilar principal, sem ele o Data Mining não existiria.
Este ponto possui técnicas bem definidas também conhecidas por “Exploratory Data Analysis”(EDA), e é utilizada para identificar relações entre diferentes variáveis, quando não há informação suficiente sobre as suas origens.
Entre as suas técnicas destacam-se as seguintes:
– Métodos Computacionais: estatistica descritiva, distribuições, caracterização de variáveis(média, moda, mediana, desvio-padrão), etc.
– Visualização de Dados: esta técnica tem como objectivo representar os dados de uma forma visual(tipicamente através de gráficos(histogramas, gráficos circulares, gráficos de dispersão, etc.), permitindo uma visualização mais clara e ao mesmo tempo mais agradável para quem analisa.
Inteligência Artificial
É baseada em heuristicas, desta forma contribui com técnicas de processamento de informação, baseadas no modelo de raciocinio humano.
Sistemas de Bases de Dados
Armazenam a informação que pretendemos explorar/analisar/investigar utilizando os métodos acima descritos.

Etapas para realizar a Exploração de Dados

O processo de KDD é um conjunto de actividades contínuas que compartilham o conhecimento descoberto a partir de bases de dados.

Esse conjunto é composto pelas seguintes etapas:

  • Selecção de dados

Uma vez definido o domínio sobre o qual se pretende executar o processo de descoberta, o próximo passo é seleccionar e colectar o conjunto de dados ou variáveis necessárias. A maioria das empresas já possui bases de dados, porém, nem sempre todos os dados necessários estão disponíveis nestas bases, o que exige um trabalho de compatibilização.

  • Pré-Processamento

É a actividade pela qual os ruídos, dados estranhos ou inconsistentes são tratados e onde são estabelecidas as estratégias para resolver os problemas de ausência de dados. As causas que levam à situação de ausência de dados são a não disponibilidade dos dados ou a inexistência dos mesmos. Uma situação de não disponibilidade ocorre quando os dados não foram divulgados, como por exemplo, dados  da conta bancária  da pessoa física em função da obrigatoriedade de sigilo. A inexistência dos dados ocorre, por exemplo, quando são necessários dados sobre determinados municípios, incluídos no domínio do processo KDD, que, no momento de organização da base original, ainda não haviam sido criados.

  • Transformação;

Nessa fase, o uso de Data Warehouses expande-se consideravelmente, já que nessas estruturas as informações estão alocadas da forma mais eficiente. Em Data Warehouses, os dados são não – voláteis, classificados por assunto, e de natureza histórica, tendendo portanto a tornarem-se grandes  repositórios de dados extremamente organizados. Entretanto, em algumas aplicações de Data Mining mais específicas, ferramentas avançadas de representação de conhecimento podem descrever o conteúdo de uma base de dados por si só, utilizando esse mapeamento como uma meta – camada para os dados.

  • Data Mining;

A actividade de descoberta do conhecimento é uma das mais fascinantes, onde são processados os algoritmos de Data Mining e de reconhecimento de padrões. A maioria dos métodos de Data Mining é baseada em conceitos de aprendizagem automática, reconhecimento de padrões, estatística, classificação, clusterização, modelos gráficos.

  • Interpretação.

Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas. Porém, estas formas devem possibilitar uma análise criteriosa para identificar a necessidade de retornar a qualquer um dos estágios anteriores do processo de KDD.

O processo de KDD começa obviamente com o entendimento do domínio da aplicação e dos objectivos finais a serem atingidos. Em seguida, é feito um agrupamento organizado de uma massa de dados, alvo da prospecção.
A etapa de pré – processamento também designada por limpeza de dados (data cleaning) vem a seguir, através de um pré – processamento dos dados, visando adequá-los aos algoritmos.
Essa tarefa realiza-se através da integração de dados heterogéneos, eliminação de incompletude dos dados, repetição de tuplos, etc. Essa etapa pode tomar até 80% do tempo necessário para todo o processo, devido às dificuldades de integração de bases de dados heterogéneas.
Os dados pré – processados devem ainda ser submetidos a uma transformação que os armazena adequadamente, visando facilitar o uso das técnicas de Data Mining. Prosseguindo no processo, chega-se à fase de Data Mining especificamente, que começa com a escolha dos algoritmos a serem aplicados. Essa escolha depende fundamentalmente do objectivo do processo de KDD: classificação, clusterização, regras associativas, etc.
De modo geral, na fase de Data Mining, ferramentas especializadas procuram padrões nos dados.
Essa pesquisa por ser efectuada automaticamente pelo sistema ou interactivamente com um analista, responsável pela geração de hipóteses. Diversas ferramentas distintas, como redes neuronais, indução de árvores de decisão, sistemas baseados em regras e programas estatísticos, tanto isoladamente quanto em combinação, podem ser então aplicadas ao problema. Em geral, o processo de busca é interactivo, de forma que os analistas revêem o resultado, formam um novo conjunto de questões para refinar a busca em determinados aspectos das descobertas, e alimentam o sistema com novos parâmetros.

Na fase final do processo, o sistema de Data Mining gera um relatório das descobertas, que passa então a ser interpretado pelos analistas.
Somente após a interpretação das informações obtidas encontramos conhecimento.
Uma diferença significante entre Data Mining e outras ferramentas de análise está no método como exploram as inter – relações entre os dados. As diversas ferramentas de análise disponíveis utilizam um método baseado na verificação, isto é, o utilizador constrói hipóteses sobre inter – relações específicas e então verifica ou refuta, através do sistema.
Esse modelo torna-se dependente da intuição e habilidade do analista em propor hipóteses interessantes, em manipular a complexidade do espaço de atributos, e em refinar a análise baseado nos resultados de consultas a bases de dados potencialmente complexas.
Já o processo de Data Mining fica responsável pela geração de hipóteses, garantindo maior rapidez e completude aos resultados.
Para encontrar respostas ou extrair conhecimento interessante, existem diversos métodos de Data Mining, mas para que a descoberta de conhecimentos seja relevante, é importante estabelecer metas bem definidas. Essas metas são alcançadas por meio dos seguintes métodos de Data Mining:

  • Classificação

Encontrar uma função que associe um caso a uma classe dentro de diversas classes discretas de classificação, de forma a classificar um novo objecto de acordo com um modelo de classificação.

  • Previsão de Séries Temporais

Prevê valores futuros ou desconhecidos de outras variáveis de interesse com base em algumas variáveis e na descoberta de padrões.

  • Regressão Linear

Encontrar uma função para a previsão de uma variável, ou seja, encontrar uma função que represente de uma forma aproximada comportamentos de variáveis. Os métodos de regressão linear permitem a discriminação dos dados através da combinação dos atributos de entrada, o que equivale a determinar rectas de separação de valores.

  • Segmentação

Permite identificar um conjunto finito de categorias ou segmentos para descrever os dados, identificando grupos homogéneos de objectos em que cada grupo é uma classe.

  • Associação/Dependência

Pretende encontrar um modelo que descreva dependências significativas entre variáveis, identificando grupos de dados tipicamente associados interligados directa ou indirectamente entre si.

  • Sumariação

Utiliza métodos para encontrar uma descrição compacta para um subconjunto de dados, como regras de resumo e descobertas de relações funcionais entre variáveis.

  • Visualização

Trata da apresentação dos resultados do Data Mining, através do formato visual.

  • Detecção de Desvios
Trata da descoberta de alterações significativas nos dados, a partir de valores normativos.

O processo KDD é interdisciplinar e envolve áreas relativas à aprendizagem automática, reconhecimento de padrões, bases de dados, estatística e matemática, aquisição de conhecimento para sistemas especialistas e visualização de dados.

Este processo utiliza métodos, algoritmos e técnicas oriundos destas diversas áreas, com o objectivo principal de extrair conhecimento a partir de grandes bases de dados.

  • Aprendizagem Automática
    • Supervisionada

Aprende baseando-se em exemplos (“professor” ajuda  a construir um modelo definem. classes e fornecendo exemplos de cada classe -> formular a descrição e a forma da classe) Ex. Classificação de madeiras.

    • Não Supervisionada

Aprende baseando-se em observações e descobertas (não se definem classes, deve-se observar os exemplos e reconhecer  os padrões por si só -> uma descrição de classes para cada ambiente).

  • Por Reforço

Um agente interagindo com o mundo faz observações, age, e é recompensado ou castigado. Deverá ser capaz de escolher acções de maneira a maximizar o número de recompensas.

Metodologias de Data Mining

  • CRISP-DM

(Cross-Industry Standard Process for Data Mining), está estruturada em torno de tarefas e objectivos para cada uma das fases do projecto de Data Mining.

A metodologia CRISP-DM inclui 6 fases:

    • Compreensão do negocio – obter uma visão clara das necessidades a satisfazer
    • Compreensão dos dados – determinar quais os dados disponíveis (e onde se encontram) para encontrar respostas.
    • Preparação dos dados – Adaptar e formatar os dados de forma apropriada  às respostas a encontrar.
    • Modelação – Criar modelos explicativos das necessidades a satisfazer.
    • Avaliação – Dos modelos da fase anterior para determinar se eles são úteis para as necessidades do negócio.
    • Desenvolvimento – Disponibilizar os resultados do projecto ao decisor.
  • SEMMA

A metodologia SEMMA, foi desenvolvida pela SAS, que define Data Mining como o processo de extrair informação valiosa e relações complexas de um grande volume de dados, dividiram o processo de Data Mining em cinco fases que compõe o acrónimo SEMMA:

    • Sample – Recolha de uma amostra significativamente grande para ser representativa da população e pequena o suficiente para ser manipulada rapidamente.
    • Explore – Exploração estatística e gráfica dos dados para se ter ideia à partida de algum padrão, tendências ou anomalias nos dados.
    • Modify – Modificação dos dados criando, seleccionando e transformando variáveis para obter nova informação. Identificação de pontos extremos, tratamento de valores omissos e segmentação da base de dados.
    • Model – Ajustamento de modelos predicativos, modelação das variáveis objectivo usando algoritmos baseados em árvores de decisão, regressões, redes neuronais ou modelos definidos pelos analistas.
    • Assess – Comparação analítica e gráfica dos vários modelos predicativos. Avalia o melhor e “classifica” nova informação.
  • A Especificação PMML

A Predictive Model Markup Language (PMML) é uma norma para armazenar informação de modelos de Data Mining.

É baseada em XML que providencia e permite a partilha modelos entre as aplicações facilitando assim a interoperabilidade.

Actualmente os grandes fornecedores de soluções de Data Mining já adoptaram o PMML, entre os quais destacamos a IBM, SAS, SPSS e Angross.

O PMML providencia às aplicações um método independente de definir modelos para que os direitos de propriedade e as incompatibilidades deixem de ser barreiras na troca de modelos entre aplicações. Permite desta forma aos utilizadores desenvolver modelos dentro de uma aplicação e usar outro tipo de aplicação para visualizar, analisar e efectuar qualquer outro tipo de tarefa no modelo criado.

Principais técnicas de Data Mining

  • Árvores de Decisão

São estruturas de dados que seguem um formato em árvore, em que cada nó representa um teste a um atributo e por seu turno vai originar a um ramo (sub-árvore) representando o resultado do teste e cada folha será a distribuição de registos.

  • Regras de Associação

O seu principal objectivo é encontrar elementos que ocorrem em comum dentro de um conjunto de dados.
Existem alguns algoritmos que utilizam esta técnica para realizar pesquisas em bases de dados tais como: Apriori,Partition,Eclat,FP-Growth.

  • Rede Neuronal Artificial

Uma rede neuronal artificial forma um modelo computacional capaz de resolver problemas de inteligência artificial, através da construção de um circuito que simule o cérebro humano, e o seu comportamento, tornando possivel a aprendizagem através dos erros.

  • Algoritmos Genéticos

Esta técnica foi concebida com a objectivo de replicar determinados processos observados na evolução das espécies.
Esta técnica baseia-se nas explicações de Charlie Darwin a respeito da selecção e evolução dos individuos da natureza, como por exemplo (hereditariedade, mutação, seleção natural e recombinação).

Referências

From → Uncategorized

Deixe um Comentário

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s

%d bloggers like this: