KDD Knowledge Discovery in DataBases

¿Que es el proceso KDD?
1. Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y entendibles al usuario a partir de los datos. [Frawley, Piatetsky-Shapiro y Matheus 1991]
2. Primero que todo, ¿Porque es buena idea estudiar KDD?
  1. Crecimiento explosivo en el volumén de datos
    1. Avances en tecnologías de
      1. recolección de datos
      2. Sensores
      3. Scanners
      4. Lectores de código de barras
      5. Lectores de cinta magnetica
      6. RFID
      7. La misma web.
      8. GPS
      9. almacenamiento.
      10. Discos duros
      11. Almacenamiento remoto
      12. Memorias USB
      13. Blue Ray
      14. transmisión de datos
      15. Redes de alta velocidad
      16. Redes inalambricas
      17. Telefonía móvil
      18. Sistemas gestores de bases de datos
      19. Relacionales
      20. Orientadas a objetos
      21. Objeto-Relacionales
      22. Bodegas y almacenes de datos
      23. OLAP
  2. Ejemplos representativos
    1. WalMart vende más de 20 Millones de transacciones al día.
    2. En eBay se vende un par de zapatos cada 3 segundos y un carro cada minuto.
      1. eBayMarketplacesFastFacts.pdf
    3. Amazon.com vendió US$6.7 Billones en el ultimo trimestre de 2008.
      1. AmazonQ4_2008FastFacts.pdf
    4. Facebook cuenta con más de 175 millones de usuarios.
      1. FacebookFastFacts.pdf
    5. Cisco Systems Inc vende US$32 millones en su sitio web al día.
    6. Mobil Oil Coporation cuenta con un almacén de datos con capacidad de mas de 100 terabytes de datos relacionados con la exploración de petróleo.
    7. Observatorio Nasa (EOS) genera 50 gigabytes de datos de imágenes remotas por hora.
    8. Proyecto SKICAT procesa 3 Terabytes de información en imagenes del espacio en el observatorio Palomar en California.
      1. SKICAT.pdf
3. y Cual es el problema?
  1. Todos estos datos se vienen acumulando y se convierten en una 'montaña de datos'.
  2. Trabajar con estos datos supera las técnicas tradiconales.
    1. Hojas de cálculo
    2. Queries ad-hoc
  3. Las técnicas anteriores brindan reportes pero no generan conocimiento.
4. Areas relacionadas
  1. Inteligencia Artificial
  2. Extración de información
  3. Aprendizaje maquinal
  4. Estadística
  5. Visualización
5. Es un proceso iterativo e interactivo.
  1. ProcesoKDD.png
    1. Objetivos de Negocio
      1. Para que quiero aplicar un Proceso de KDD?
      2. Que quiero descubrir?
      3. Cual es el problema?
    2. Selección
      1. Seleccionar el conjunto de datos con los atributos relevantes
      2. Seleccionamos todo el conjunto?
      3. Seleccionamos solo una muestra de los datos?
      4. Cuales son los atributos mas importantes?
      5. Escoger posibles fuentes de datos externas
      6. Necesitare complementar la información con otros datos?
      7. Con que otras bases de datos sería interesante cruzar esta información?
      8. Tengo acceso a otras BBDD?
    3. Preprocesamiento o Data Cleaning
      1. Preparar el conjunto de datos que se va a minar.
      2. Analisamos la calidad de los datos
      3. De la calidad de los datos depende el exito del las subsecuentes etapas
      4. Limpieza de datos
      5. Datos nulos (missing)
      6. Datos vacios (empty)
      7. Datos ruidosos (outliers)
      8. * Datos repetidos (Duplicidad)
      9. Requiere la interacción con el usuario
      10. Puede abarcar más del 60% de los recursos destinados.
    4. Transformación / Reducción
      1. Construcción de nuevos atributos a partir de los originales.
      2. Ej: los promedios de las notas
      3. Ej: binarización de tablas transaccionales.
      4. Transformación de atributos númericos en atributos nominales.
      5. Ej: discretizaciones de edades.
      6. Disminuir el número efectivo de registros o atributos.
      7. Eliminación de duplicados
      8. Toma de muestras.
      9. Eliminación de llaves.
      10. Eliminación de datos personales.
      11. Eliminación de columnas que dependen funcionalmente
      12. Ej: Edad y fecha de nacimiento.
    5. Data mining
      1. Determinar que tipo de tarea de minería de datos es el mas apropiado.
      2. Asociación
      3. Patrones secuenciales
      4. Clasificación
      5. Clustering
      6. Elegir el tipo de modelo
      7. Arbol de decisión
      8. Conjunto de reglas
      9. Red neural
      10. Elegir el algoritmo de minería que resuelva la tarea y construya el modelo buscado.
      11. Asociación
      12. Apriori
      13. FPGrowth
      14. EquipAsso
      15. Patrones secuenciales
      16. GSP
      17. PrefixSpan
      18. Clasificación
      19. C4.5
      20. Mate
      21. Squid
      22. Clustering
      23. K-means
      24. Cobweb
    6. Evaluación e Interpretación
      1. Interpretación de los patrones y posible retorno a alguno de las etapas anteriores para una adicional iteración.
      2. Consolidación del conocimiento descubierto
      3. Incorporar este conocimiento al rendimiento del sistema.
      4. Documentarlo en un reporte para las partes interesadas.
      5. Contrastar potenciales conflictos con conocimiento previamente obtenido.
6. Tareas Data Mining
  1. Reglas de Asociación
    1. Persiguen patrones en los que la presencia de algo implica la presencia de algo más.
    2. Operación que retorna afinidad existente entre conjuntos de items
    3. El 70 % de registros conteniendo items A,B,C también contienen los items D, E
    4. Aplicación canasta familiar
    5. Los resultados del proceso de descubrimiento se presentan en forma de reglas.
    6. El 80% de los hombres que compran papas fritas y cerveza también compran pañales desechables.
  2. Patrones Secuenciales
    1. Descubrir en los clientes ciertos comportamientos de compra en el tiempo.
    2. Un ejemplo de patrón es el cliente que en una tienda de videos, alquila “Guerra de las Galaxias”, luego “El Imperio Contraataca” entonces “El regreso del Jedi”.
    3. “Mujer Bonita y Parque Jurásico”, seguido de “La Novia Fugitiva” entonces “Enrique VIII y Dinosaurio”.
    4. Estos datos no necesariamente son consecutivos.
    5. Los clientes que soportan estos patrónes secuenciales pudieron rentar también otros videos.
  3. Clasificación
    1. Permite obtener resultados a partir de un proceso de aprendizaje supervisado
    2. El sistema se alimenta con una colección de casos o ejemplos denominado conjunto de entrenamiento (training set).
    3. Cada caso se compone de un conjunto de atributos (o características) y pertenece o no a una clase determinada.
    4. El modelo de clasificación se prueba con otros datos denominados datos de prueba
    5. Un vendedor de carros puede clasificar a sus clientes de acuerdo a sus preferencias de modelos y enviarles luego catálogos de los nuevos modelos, maximizando la oportunidad de venta.
  4. Clustering
    1. Clustering o Clasificación no supervisada es el proceso de agrupar datos en clases similares.
    2. Agrupa un conjunto de datos (sin un atributo de clase predefinido) basado en el principio de: maximizar la similitud intraclase y minimizar la similitud interclase
    3. Las categorías pueden ser mutuamente exclusivas o superpuestas.
    4. Ayuda a construir particiones significativas de un gran conjunto de objetos basado en la metodología “divide y conquista”
    5. “Más del 70% de los votantes indecisos perciben ingresos superiores a los U$60.000, se hallan entre los 40 y 50 años de edad y viven en las comunidades
7. Soporte la toma de decisiones en los niveles gerenciales.
  1. KDD_y_Business_Intellingence.pdf