Extração de conhecimento (também conhecido como processo KDD, do inglês knowledge-discovery in databases) é um processo de extração de informações de base de dados, que cria relações de interesse que não são observadas pelo especialista no assunto, bem como auxilia a validação de conhecimento extraído.
O crescimento rápido do volume das bases de dados em tamanho e dimensionalidade criou a necessidade e a oportunidade para extrair conhecimento destas. Neste contexto, surge no final da década de 1980, um novo ramo da computação, a extração de conhecimento, com o objetivo principal de encontrar uma maneira automatizada de explorar essas bases de dados e reconhecer os padrões existentes através da modelagem de fenômenos do mundo real.
A extração de conhecimento refere-se às etapas que produzem conhecimentos a partir de dados relacionados, e sua principal característica é a extração não-trivial de informações implicitamente contidas em uma base de dados. Essas informações são de difícil detecção por métodos tradicionais de análise e devem ser potencialmente úteis para tomada de decisão. Enquanto os métodos tradicionais são capazes de tratar apenas as informações explícitas, a extração de conhecimento é capaz de detectar informações implícitas armazenadas nos bancos de dados.
O processo é iterativo e, embora apresente uma definição semelhante também ao mineração de dados, deve ser composto de uma série de etapas seqüenciais, podendo haver retorno a etapas anteriores, isto é, as descobertas realizadas (ou a falta delas). Eventualmente, este processo conduz a novas hipóteses e descobertas. Neste caso, o usuário pode decidir pela retomada dos processos de mineração, ou uma nova seleção de atributos, por exemplo, para validar as hipóteses que surgiram ao longo do processo.
O produto esperado da extração de conhecimento é uma informação relevante para ser utilizada pelos tomadores de decisão. Alguns autores, porém, defendem o ponto de vista de que o conhecimento descoberto não precisa necessariamente ser incorporado a um sistema de apoio à decisão (SAD).
O campo de estudo é de interesse comum a diversas áreas, e as primeiras contribuições científicas e técnicas foram apresentadas por pesquisadores de áreas como: aprendizado de máquinas; banco de dados inteligente; computação de alto desempenho; estatística; inteligência artificial; visualização de dados; reconhecimento de padrões e sistemas especialistas. Foram desenvolvidas aplicações também para astronomia, biologia, seguros, marketing, medicina, entre outros.
Etapas do processo KDD
Com base no proposto por FAYYAD et. al (1996) [1] o processo KDD possui 9 fases, sendo elas:
- Desenvolver e compreender o domínio da aplicação: Fase onde é identificando o objetivo do Processo KDD do ponto de vista do cliente.
- Criar um conjunto de dados alvo: Foco na criação do conjunto de dados de destino e subconjunto de amostras de dados ou variáveis.
- Limpeza e o pré-processamento de dados: Realização da limpeza dos dados e estratégias para lidar com campos de dados ausentes.
- Transformação de dados: Etapa para encontrar formas de representar os dados com base no objetivo da análise. Realizando redução no número de variáveis.
- Escolha do método de mineração de dados: Escolher o método de mineração de dados com base nos objetivos da aplicação (Por exemplo: sumarização, classificação, regressão, agrupamento, etc.)
- Análise exploratória e a seleção de modelos e hipóteses: Escolher o(s) algoritmo(s) de datamining e selecionar o(s) método(s) a serem usados para a busca de padrões nos dados.
- Mineração de dados: Busca por padrões de interesse em uma forma representacional específica ou um conjunto de tais representações, incluindo regras de classificação, regressão e agrupamento.
- Interpretar padrões extraídos: Esta etapa envolver interpretar os padrões e modelos extraídos.
- Agir com base no conhecimento descoberto: Usar diretamente as informações descobertas e/ou incorporar o conhecimento em outro sistema para ação posterior ou simplesmente documentá-lo e relatá-lo às partes interessadas.
Referências
- ↑ Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). From data mining to knowledge discovery in databases. [S.l.: s.n.]