Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y entendibles al usuario a partir de los datos. [Frawley, Piatetsky-Shapiro y Matheus 1991]
Primero que todo, ¿Porque es buena idea estudiar KDD?
Crecimiento explosivo en el volumén de datos
Avances en tecnologías de
recolección de datos
Sensores
Scanners
Lectores de código de barras
Lectores de cinta magnetica
RFID
La misma web.
GPS
almacenamiento.
Discos duros
Almacenamiento remoto
Memorias USB
Blue Ray
transmisión de datos
Redes de alta velocidad
Redes inalambricas
Telefonía móvil
Sistemas gestores de bases de datos
Relacionales
Orientadas a objetos
Objeto-Relacionales
Bodegas y almacenes de datos
OLAP
Ejemplos representativos
WalMart vende más de 20 Millones de transacciones al día.
En eBay se vende un par de zapatos cada 3 segundos y un carro cada minuto.
eBayMarketplacesFastFacts.pdf
Amazon.com vendió US$6.7 Billones en el ultimo trimestre de 2008.
AmazonQ4_2008FastFacts.pdf
Facebook cuenta con más de 175 millones de usuarios.
FacebookFastFacts.pdf
Cisco Systems Inc vende US$32 millones en su sitio web al día.
Mobil Oil Coporation cuenta con un almacén de datos con capacidad de mas de 100 terabytes de datos relacionados con la exploración de petróleo.
Observatorio Nasa (EOS) genera 50 gigabytes de datos de imágenes remotas por hora.
Proyecto SKICAT procesa 3 Terabytes de información en imagenes del espacio en el observatorio Palomar en California.
SKICAT.pdf
y Cual es el problema?
Todos estos datos se vienen acumulando y se convierten en una 'montaña de datos'.
Trabajar con estos datos supera las técnicas tradiconales.
Hojas de cálculo
Queries ad-hoc
Las técnicas anteriores brindan reportes pero no generan conocimiento.
Areas relacionadas
Inteligencia Artificial
Extración de información
Aprendizaje maquinal
Estadística
Visualización
Es un proceso iterativo e interactivo.
ProcesoKDD.png
Objetivos de Negocio
Para que quiero aplicar un Proceso de KDD?
Que quiero descubrir?
Cual es el problema?
Selección
Seleccionar el conjunto de datos con los atributos relevantes
Seleccionamos todo el conjunto?
Seleccionamos solo una muestra de los datos?
Cuales son los atributos mas importantes?
Escoger posibles fuentes de datos externas
Necesitare complementar la información con otros datos?
Con que otras bases de datos sería interesante cruzar esta información?
Tengo acceso a otras BBDD?
Preprocesamiento o Data Cleaning
Preparar el conjunto de datos que se va a minar.
Analisamos la calidad de los datos
De la calidad de los datos depende el exito del las subsecuentes etapas
Limpieza de datos
Datos nulos (missing)
Datos vacios (empty)
Datos ruidosos (outliers)
* Datos repetidos (Duplicidad)
Requiere la interacción con el usuario
Puede abarcar más del 60% de los recursos destinados.
Transformación / Reducción
Construcción de nuevos atributos a partir de los originales.
Ej: los promedios de las notas
Ej: binarización de tablas transaccionales.
Transformación de atributos númericos en atributos nominales.
Ej: discretizaciones de edades.
Disminuir el número efectivo de registros o atributos.
Eliminación de duplicados
Toma de muestras.
Eliminación de llaves.
Eliminación de datos personales.
Eliminación de columnas que dependen funcionalmente
Ej: Edad y fecha de nacimiento.
Data mining
Determinar que tipo de tarea de minería de datos es el mas apropiado.
Asociación
Patrones secuenciales
Clasificación
Clustering
Elegir el tipo de modelo
Arbol de decisión
Conjunto de reglas
Red neural
Elegir el algoritmo de minería que resuelva la tarea y construya el modelo buscado.
Asociación
Apriori
FPGrowth
EquipAsso
Patrones secuenciales
GSP
PrefixSpan
Clasificación
C4.5
Mate
Squid
Clustering
K-means
Cobweb
Evaluación e Interpretación
Interpretación de los patrones y posible retorno a alguno de las etapas anteriores para una adicional iteración.
Consolidación del conocimiento descubierto
Incorporar este conocimiento al rendimiento del sistema.
Documentarlo en un reporte para las partes interesadas.
Contrastar potenciales conflictos con conocimiento previamente obtenido.
Tareas Data Mining
Reglas de Asociación
Persiguen patrones en los que la presencia de algo implica la presencia de algo más.
Operación que retorna afinidad existente entre conjuntos de items
El 70 % de registros conteniendo items A,B,C también contienen los items D, E
Aplicación canasta familiar
Los resultados del proceso de descubrimiento se presentan en forma de reglas.
El 80% de los hombres que compran papas fritas y cerveza también compran pañales desechables.
Patrones Secuenciales
Descubrir en los clientes ciertos comportamientos de compra en el tiempo.
Un ejemplo de patrón es el cliente que en una tienda de videos, alquila “Guerra de las Galaxias”, luego “El Imperio Contraataca” entonces “El regreso del Jedi”.
“Mujer Bonita y Parque Jurásico”, seguido de “La Novia Fugitiva” entonces “Enrique VIII y Dinosaurio”.
Estos datos no necesariamente son consecutivos.
Los clientes que soportan estos patrónes secuenciales pudieron rentar también otros videos.
Clasificación
Permite obtener resultados a partir de un proceso de aprendizaje supervisado
El sistema se alimenta con una colección de casos o ejemplos denominado conjunto de entrenamiento (training set).
Cada caso se compone de un conjunto de atributos (o características) y pertenece o no a una clase determinada.
El modelo de clasificación se prueba con otros datos denominados datos de prueba
Un vendedor de carros puede clasificar a sus clientes de acuerdo a sus preferencias de modelos y enviarles luego catálogos de los nuevos modelos, maximizando la oportunidad de venta.
Clustering
Clustering o Clasificación no supervisada es el proceso de agrupar datos en clases similares.
Agrupa un conjunto de datos (sin un atributo de clase predefinido) basado en el principio de: maximizar la similitud intraclase y minimizar la similitud interclase
Las categorías pueden ser mutuamente exclusivas o superpuestas.
Ayuda a construir particiones significativas de un gran conjunto de objetos basado en la metodología “divide y conquista”
“Más del 70% de los votantes indecisos perciben ingresos superiores a los U$60.000, se hallan entre los 40 y 50 años de edad y viven en las comunidades
Soporte la toma de decisiones en los niveles gerenciales.