-
¿Que es el proceso KDD?
- Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y entendibles al usuario a partir de los datos. [Frawley, Piatetsky-Shapiro y Matheus 1991]
-
Primero que todo, ¿Porque es buena idea estudiar KDD?
-
Crecimiento explosivo en el volumén de datos
-
Avances en tecnologías de
- recolección de datos
- Sensores
- Scanners
- Lectores de código de barras
- Lectores de cinta magnetica
- RFID
- La misma web.
- GPS
- almacenamiento.
- Discos duros
- Almacenamiento remoto
- Memorias USB
- Blue Ray
- transmisión de datos
- Redes de alta velocidad
- Redes inalambricas
- Telefonía móvil
- Sistemas gestores de bases de datos
- Relacionales
- Orientadas a objetos
- Objeto-Relacionales
- Bodegas y almacenes de datos
- OLAP
-
Ejemplos representativos
- WalMart vende más de 20 Millones de transacciones al día.
-
En eBay se vende un par de zapatos cada 3 segundos y un carro cada minuto.
- eBayMarketplacesFastFacts.pdf
-
Amazon.com vendió US$6.7 Billones en el ultimo trimestre de 2008.
- AmazonQ4_2008FastFacts.pdf
-
Facebook cuenta con más de 175 millones de usuarios.
- FacebookFastFacts.pdf
- Cisco Systems Inc vende US$32 millones en su sitio web al día.
- Mobil Oil Coporation cuenta con un almacén de datos con capacidad de mas de 100 terabytes de datos relacionados con la exploración de petróleo.
- Observatorio Nasa (EOS) genera 50 gigabytes de datos de imágenes remotas por hora.
-
Proyecto SKICAT procesa 3 Terabytes de información en imagenes del espacio en el observatorio Palomar en California.
- SKICAT.pdf
-
y Cual es el problema?
- Todos estos datos se vienen acumulando y se convierten en una 'montaña de datos'.
-
Trabajar con estos datos supera las técnicas tradiconales.
- Hojas de cálculo
- Queries ad-hoc
- Las técnicas anteriores brindan reportes pero no generan conocimiento.
-
Areas relacionadas
- Inteligencia Artificial
- Extración de información
- Aprendizaje maquinal
- Estadística
- Visualización
-
Es un proceso iterativo e interactivo.
-
ProcesoKDD.png
-
Objetivos de Negocio
- Para que quiero aplicar un Proceso de KDD?
- Que quiero descubrir?
- Cual es el problema?
-
Selección
- Seleccionar el conjunto de datos con los atributos relevantes
- Seleccionamos todo el conjunto?
- Seleccionamos solo una muestra de los datos?
- Cuales son los atributos mas importantes?
- Escoger posibles fuentes de datos externas
- Necesitare complementar la información con otros datos?
- Con que otras bases de datos sería interesante cruzar esta información?
- Tengo acceso a otras BBDD?
-
Preprocesamiento o Data Cleaning
- Preparar el conjunto de datos que se va a minar.
- Analisamos la calidad de los datos
- De la calidad de los datos depende el exito del las subsecuentes etapas
- Limpieza de datos
- Datos nulos (missing)
- Datos vacios (empty)
- Datos ruidosos (outliers)
- * Datos repetidos (Duplicidad)
- Requiere la interacción con el usuario
- Puede abarcar más del 60% de los recursos destinados.
-
Transformación / Reducción
- Construcción de nuevos atributos a partir de los originales.
- Ej: los promedios de las notas
- Ej: binarización de tablas transaccionales.
- Transformación de atributos númericos en atributos nominales.
- Ej: discretizaciones de edades.
- Disminuir el número efectivo de registros o atributos.
- Eliminación de duplicados
- Toma de muestras.
- Eliminación de llaves.
- Eliminación de datos personales.
- Eliminación de columnas que dependen funcionalmente
- Ej: Edad y fecha de nacimiento.
-
Data mining
- Determinar que tipo de tarea de minería de datos es el mas apropiado.
- Asociación
- Patrones secuenciales
- Clasificación
- Clustering
- Elegir el tipo de modelo
- Arbol de decisión
- Conjunto de reglas
- Red neural
- Elegir el algoritmo de minería que resuelva la tarea y construya el modelo buscado.
- Asociación
- Apriori
- FPGrowth
- EquipAsso
- Patrones secuenciales
- GSP
- PrefixSpan
- Clasificación
- C4.5
- Mate
- Squid
- Clustering
- K-means
- Cobweb
-
Evaluación e Interpretación
- Interpretación de los patrones y posible retorno a alguno de las etapas anteriores para una adicional iteración.
- Consolidación del conocimiento descubierto
- Incorporar este conocimiento al rendimiento del sistema.
- Documentarlo en un reporte para las partes interesadas.
- Contrastar potenciales conflictos con conocimiento previamente obtenido.
-
Tareas Data Mining
-
Reglas de Asociación
- Persiguen patrones en los que la presencia de algo implica la presencia de algo más.
- Operación que retorna afinidad existente entre conjuntos de items
- El 70 % de registros conteniendo items A,B,C también contienen los items D, E
- Aplicación canasta familiar
- Los resultados del proceso de descubrimiento se presentan en forma de reglas.
- El 80% de los hombres que compran papas fritas y cerveza también compran pañales desechables.
-
Patrones Secuenciales
- Descubrir en los clientes ciertos comportamientos de compra en el tiempo.
- Un ejemplo de patrón es el cliente que en una tienda de videos, alquila “Guerra de las Galaxias”, luego “El Imperio Contraataca” entonces “El regreso del Jedi”.
- “Mujer Bonita y Parque Jurásico”, seguido de “La Novia Fugitiva” entonces “Enrique VIII y Dinosaurio”.
- Estos datos no necesariamente son consecutivos.
- Los clientes que soportan estos patrónes secuenciales pudieron rentar también otros videos.
-
Clasificación
- Permite obtener resultados a partir de un proceso de aprendizaje supervisado
- El sistema se alimenta con una colección de casos o ejemplos denominado conjunto de entrenamiento (training set).
- Cada caso se compone de un conjunto de atributos (o características) y pertenece o no a una clase determinada.
- El modelo de clasificación se prueba con otros datos denominados datos de prueba
- Un vendedor de carros puede clasificar a sus clientes de acuerdo a sus preferencias de modelos y enviarles luego catálogos de los nuevos modelos, maximizando la oportunidad de venta.
-
Clustering
- Clustering o Clasificación no supervisada es el proceso de agrupar datos en clases similares.
- Agrupa un conjunto de datos (sin un atributo de clase predefinido) basado en el principio de: maximizar la similitud intraclase y minimizar la similitud interclase
- Las categorías pueden ser mutuamente exclusivas o superpuestas.
- Ayuda a construir particiones significativas de un gran conjunto de objetos basado en la metodología “divide y conquista”
- “Más del 70% de los votantes indecisos perciben ingresos superiores a los U$60.000, se hallan entre los 40 y 50 años de edad y viven en las comunidades
-
Soporte la toma de decisiones en los niveles gerenciales.
- KDD_y_Business_Intellingence.pdf