Data mining
Data Mining é uma das
novidades da Ciência da Computação que veio para ficar. Com a geração de um volume
cada vez maior de informação, é essencial tentar aproveitar o máximo possível desse
investimento. Talvez a forma mais nobre de se utilizar esses vastos repositórios seja
tentar descobrir se há algum conhecimento escondido neles. Um banco de dados de
transações comerciais pode, por exemplo, conter diversos registros indicando produtos
que são comprados em conjunto. Quando se descobre isso pode-se estabelecer estratégias
para otimizar os resultados financeiros da empresa. Essa já é uma vantagem
suficientemente importante para justificar todo o processo. Contudo, embora essa idéia
básica seja facilmente compreensível, fica sempre uma dúvida sobre como um sistema é
capaz de obter esse tipo de relação.
O que é Data Mining?
"...o processo não-trivial de identificar, em dados, padrões
válidos, novos, potencialmente úteis e ultimamente compreensíveis"
Esse processo vale-se de diversos algoritmos (muitos deles
desenvolvidos recentemente) que processam os dados e encontram esses "padrões
válidos, novos e valiosos". É preciso ressaltar um detalhe que costuma passar
despercebido na literatura: embora os algoritmos atuais sejam capazes de descobrir
padrões "válidos e novos", ainda não temos uma solução eficaz para
determinar padrões valiosos. Por essa razão, Data Mining ainda requer uma
interação muito forte com analistas humanos, que são, em última instância, os
principais responsáveis pela determinação do valor dos padrões encontrados. Além
disso, a condução (direcionamento) da exploração de dados é também tarefa
fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em
nenhum projeto que queira ser bem sucedido.
Os passos do Data Mining
A literatura sobre o assunto trata com mais detalhes todos os
passos necessários ao Data Mining. Passos
fundamentais de uma mineração bem sucedida! A partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc) efetua-se uma limpeza (consistência, preenchimento de informações, remoção de ruído e
redundâncias, etc). Disto nascem os repositórios organizados , que já são úteis de diversas maneiras.
Mas é a partir deles que se pode selecionar algumas colunas para
atravessarem o processo de mineração. Tipicamente, este processo não é o final da
história: de forma interativa e frequentemente usando visualização gráfica, um
analista refina e conduz o processo até que valiosos padrões apareçam. Todo
esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares
(embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso.
Este é um dos conceitos importantes: encontrar
padrões requer que os dados brutos sejam sistematicamente "simplificados" de
forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico.
Faz-se isso porque não parece haver muito conhecimento a extrair de eventos isolados. Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade
impressionante de um determinado produto em uma única data pode apenas significar que
esse cliente em particular procurava grande quantidade desse produto naquele exato
momento. Mas isso provavelmente não indica nenhuma tendência de mercado.
Em outras palavras, não há como explorar essa informação em
particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico
é que isto pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa
vontade de "não perder dados". Para que o processo dê certo, é necessário
sim desprezar os eventos particulares para só manter aquilo que é genérico.
|