En esta videoclase vamos a introducir
los principales elementos y características
que definen el llamado proceso
de Data mining, o minería de datos.
Podemos definir este proceso como un ciclo
que nos permite descubrir patrones
o información valiosa que está oculta
en los datos y, por tanto,
que no podríamos conocer mediante una
simple inspección directa de los mismos.
Normalmente, el proceso de data mining
consta de una serie de pasos
en cada uno de los cuales empleamos
diferentes herramientas,
tanto computacionales como matemáticas
o estadísticas.
A lo largo de varias décadas, el proceso
de data mining se ha ido refinando
y perfeccionando hasta dar lugar a
metodologías que describen con gran detalle
la secuencia de pasos a seguir en dicho
proceso, así como las tareas que, hoy día,
vamos a realizar en cada uno
de esos pasos.
Aunque existen varias alternativas, los
resultados de varias encuestas
realizadas entre los años 2002 y 2014
han puesto de manifiesto
que la metodología líder entre
los especialistas de data mining
es el llamado "cross industry standard
process for data mining",
más conocido por sus siglas: CRISP-DM.
Pasamos ahora a detallar el esquema
que muestra los diferentes pasos
que conforman la secuencia de
la metodología CRISP-DM.
El primer paso es la comprensión
del negocio.
Contrariamente a lo que muchos puedan
creer, el proceso de minería de datos
no parte directamente del análisis
de los datos.
Esta percepción se ha vuelto,
por desgracia, bastante popular,
especialmente por el hecho del uso
de frases como:
"dejemos que los datos hablen
por sí mismos".
Muy al contrario, a pesar de que los datos
siempre deben dirigir el proceso
de extracción del conocimiento
o identificación de patrones,
el primer paso debe siempre consistir
en conocer, comprender e identificar
los procesos de negocio, especialmente
los parámetros y aspectos clave
que influyen en el rendimiento y mejora
de dicho proceso de negocio.
Solo de este modo podremos concentrarnos
en el objetivo clave de este paso,
que es identificar la pregunta o preguntas
de interés que queremos responder
mediante el análisis de los datos.
Por supuesto, cuando todavía puede
que no tengamos claras dichas preguntas,
siempre podremos recurrir al análisis
exploratorio de datos para intentar
obtener información preliminar que nos
pueda guiar en la búsqueda y definición
de las preguntas de interés.
Sin embargo, una buena pregunta para
el proceso de data mining no surge
exclusivamente del análisis exploratorio
de datos, sino que debe reflejar también
una buena comprensión del proceso de
negocio que se describe mediante esos datos.
El segundo paso es la comprensión
de los datos.
Una vez definida la pregunta
o preguntas de interés, la segunda etapa
del proceso se centra en conseguir una
colección de datos que creemos
que nos permitirán conseguir
respuestas adecuadas.
El analista debe familiarizarse con
los datos, conociendo detalles precisos
como su origen, su significado dentro del
contexto de negocio, de qué forma
se han codificado, su naturaleza, si son
datos cuantitativos o cualitativos,
en qué unidades vienen expresados, etc.
Una vez más, las técnicas de exploración
de datos nos pueden ayudar a revelar
información importante sobre los datos
que nos ayudará a anticipar y prevenir
posibles problemas en etapas sucesivas.
Un ejemplo es alertarnos de la existencia
de datos faltantes, que son valores
de una variable que, por alguna razón
que debemos descubrir,
no han sido registrados convenientemente.
El resultado de esta etapa suele ser
un diccionario de datos, en el que quedan
reflejadas todas las variables que vamos
a considerar en los siguientes pasos
del proceso CRISP-DM: su significado,
naturaleza, unidades,
estadísticos de resumen, así como cualquier
otro detalle que consideremos relevante
para facilitar la aplicación posterior de
técnicas y herramientas de análisis
sobre los datos.
El tercer paso es la preparación
de los datos.
En esta fase, el analista debe preparar
de forma metódica los datos
para su posterior análisis. En esta etapa
surgen algunas tareas importantes.
La primera tarea es la limpieza de datos,
que consiste en eliminar posibles errores
o problemas de codificación en los valores
de las variables, detectando posibles casos
de datos incorrectos que podrían poner
en riesgo los resultados de un análisis posterior.
La segunda tarea es averiguar el formato
de datos para poder leerlos correctamente.
Los datos pueden estar almacenados
en ficheros con diferentes formatos,
o provenir de diferentes tipos de fuentes
de datos, por ejemplo, servicios en línea,
bases de datos o encuestas. Esta tarea
consiste en pasar los datos
a un formato de representación adecuado
para facilitar su análisis posterior.
Otra tarea importante es la llamada
imputación de datos.
Un problema frecuente es el de encontrarnos
con valores no registrados
para alguna de nuestras variables
de interés. En este caso,
se pueden aplicar técnicas estadísticas
que permiten sacar partido
de la información de otras variables que
sí están disponibles para cada individuo
o caso analizado, y que nos permitirán
deducir un valor adecuado
que podamos asignar para cubrir el hueco
de los datos faltantes.
Es importante considerar el tiempo que
debemos dedicar a esta tarea
dentro del proceso total de CRISP-DM.
La experiencia práctica nos dice que,
en numerosas ocasiones,
la preparación de datos puede llegar
a consumir hasta el 85% del tiempo total
dedicado al proyecto por parte del
analista o equipo de ciencia de datos.
El cuarto paso es el modelado, que consiste
en aplicar técnicas y métodos matemáticos
y estadísticos que nos permitan diseñar
y construir modelos para contestar
nuestras preguntas de interés a partir de
la información que nos proporcionan los datos.
Entre las herramientas y técnicas más
importantes que se suelen aplicar
en esta etapa, cabe destacar, por ejemplo,
los modelos estadísticos,
el análisis mediante sistemas de bases
de datos y data warehouse,
las técnicas de inteligencia artificial,
o las llamadas técnicas de aprendizaje
máquina, en inglés "machine learning".
Por supuesto, el volumen y la complejidad
de los datos a analizar juega un papel
esencial en la elección de las herramientas
y técnicas que vamos a aplicar,
así como la forma de implementarlas
mediante sistemas y software de computación.
El quinto paso es la evaluación
del modelo.
Una vez que hemos definido y construido
un modelo para nuestros datos,
debemos evaluarlo de forma crítica.
Para ello, es muy habitual que dividamos
originalmente, en el paso anterior,
el conjunto inicial de datos disponibles
en dos o varios subconjuntos; de esta
forma, uno de los subconjuntos se puede
utilizar para construir el modelo y los
restantes se utilizan para validar los resultados.
El proceso de validación se puede entender
de forma muy intuitiva.
Podemos considerar que el modelo que hemos
construido es un generador de datos sintéticos;
si nuestro modelo es bueno, los datos
sintéticos que genera se parecerán mucho
a los datos originales en los que nos
hemos basado para poder construirlo.
Podríamos entonces caer fácilmente en una
de las peores tentaciones de un analista
de datos: construir un modelo que genere
datos que se acerquen tanto a los originales
que hemos observado, que sean
prácticamente indistinguibles.
Aunque esto podría parecer bueno
a primera vista, no lo es en absoluto.
Pensemos que los datos observados que
usamos para construir el modelo,
son solo un subconjunto, una realización
muy concreta de todo el universo posible
de datos que pueden describir el proceso
que analizamos y a los que nos podemos
enfrentar en un futuro.
Si nuestro modelo se parece demasiado
a los datos captados en esta
realización particular, ¿qué pasará
entonces cuando lleguen datos nuevos
que se parezcan, pero no tanto, a ese
conjunto que hemos usado inicialmente?
Podemos imaginar la respuesta: el modelo
se ajustará muy bien a los datos que usamos
para construirlo, pero no se ajustará tan
bien a los datos nuevos que nos lleguen.
Este problema en particular se denomina
sobreajuste, o en inglés "overfitting",
del modelo a los datos, y se debe evitar
a toda costa.
La solución que buscamos al dividir el
conjunto original en dos o varios subconjuntos,
es usar solo una parte de los datos para
construir el modelo, dejando entonces
los restantes para evaluar la capacidad
de generalización del modelo
para otros datos que reflejan el mismo
proceso pero que son diferentes
de los que se usaron originalmente para
diseñar y construir el modelo.
Una de las técnicas más populares para
este fin se denomina
validación cruzada en k iteraciones,
o en inglés, "k-fold cross validation".
Una vez que hemos construido y validado
nuestro modelo, ya estamos normalmente
capacitados para responder a las preguntas
originales que habíamos formulado.
El sexto y último paso es entonces
el despliegue del modelo en producción.
Una vez estamos satisfechos con nuestro
modelo y hemos dado respuesta
a las preguntas originalmente formuladas,
el último paso suele consistir
en el despliegue de un sistema
de información que implementa
nuestro modelo sobre procesos reales, que
se están llevando a cabo en ese momento.
Un ejemplo sería un modelo que sea creado
para detectar posibles amenazas
de seguridad en una red informática y que
ahora se despliega para analizar
datos de actividad de la red de forma que
dichas amenazas puedan detectarse
o prevenirse en tiempo real.
En muchas ocasiones, el despliegue
en producción de los modelos conlleva
su reimplementación para utilizar sistemas
computacionales y técnicas de programación
que permitan aumentar el rendimiento y
velocidad de ejecución del modelo
cuando debe analizar grandes volúmenes
de datos o estos llegan a gran velocidad,
situaciones como ya sabemos que pueden
ocurrir típicamente en análisis de big data.
Hasta aquí esta videoclase, donde hemos
introducido el proceso de data mining
para extraer información no evidente
de grandes volúmenes de datos.
Muchas gracias.
