proScore

Data Mining � uma das novidades da Ci�ncia da Computa��o que veio para ficar. Com a gera��o de um volume cada vez maior de informa��o, � essencial tentar aproveitar o m�ximo poss�vel desse investimento.
Talvez a forma mais nobre de se utilizar esses vastos reposit�rios seja tentar descobrir se h� algum conhecimento escondido neles. Um banco de dados de transa��es comerciais pode, por exemplo, conter diversos registros indicando produtos que s�o comprados em conjunto. Quando se descobre isso pode-se estabelecer estrat�gias para otimizar os resultados financeiros da empresa. Essa j� � uma vantagem suficientemente importante para justificar todo o processo.
Contudo, embora essa id�ia b�sica seja facilmente compreens�vel, fica sempre uma d�vida sobre como um sistema � capaz de obter esse tipo de rela��o.

O que � Data Mining?

"...o processo n�o-trivial de identificar, em dados, padr�es v�lidos, novos, potencialmente �teis e ultimamente compreens�veis"

Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses "padr�es v�lidos, novos e valiosos". � preciso ressaltar um detalhe que costuma passar despercebido na literatura: embora os algoritmos atuais sejam capazes de descobrir padr�es "v�lidos e novos", ainda n�o temos uma solu��o eficaz para determinar padr�es valiosos. Por essa raz�o, Data Mining ainda requer uma intera��o muito forte com analistas humanos, que s�o, em �ltima inst�ncia, os principais respons�veis pela determina��o do valor dos padr�es encontrados. Al�m disso, a condu��o (direcionamento) da explora��o de dados � tamb�m tarefa fundamentalmente confiada a analistas humanos, um aspecto que n�o pode ser desprezado em nenhum projeto que queira ser bem sucedido.

Os passos do Data Mining

A literatura sobre o assunto trata com mais detalhes todos os passos necess�rios ao Data Mining. Passos fundamentais de uma minera��o bem sucedida! A partir de fontes de dados (bancos de dados, relat�rios, logs de acesso, transa��es, etc) efetua-se uma limpeza (consist�ncia, preenchimento de informa��es, remo��o de ru�do e redund�ncias, etc).
Disto nascem os reposit�rios organizados , que j� s�o �teis de diversas maneiras.

Mas � a partir deles que se pode selecionar algumas colunas para atravessarem o processo de minera��o. Tipicamente, este processo n�o � o final da hist�ria: de forma interativa e frequentemente usando visualiza��o gr�fica, um analista refina e conduz o processo at� que valiosos padr�es apare�am. Todo esse processo parece indicar uma hierarquia, algo que come�a em inst�ncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso.

Este � um dos conceitos importantes: encontrar padr�es requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que � espec�fico e privilegiar aquilo que � gen�rico.
Faz-se isso porque n�o parece haver muito conhecimento a extrair de eventos isolados.
Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma �nica data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Mas isso provavelmente n�o indica nenhuma tend�ncia de mercado.

Em outras palavras, n�o h� como explorar essa informa��o em particular para que no futuro a empresa lucre mais. Apenas com conhecimento gen�rico � que isto pode ser obtido.
Por essa raz�o devemos, em Data Mining, controlar nossa vontade de "n�o perder dados". Para que o processo d� certo, � necess�rio sim desprezar os eventos particulares para s� manter aquilo que � gen�rico.