Zona Privada Asociados
 
FORMULARIO DE CONTACTO
Deseo suscribirme al Newsletter de la WCA
 

EL PROCESO DE DATA SCIENCE: EXPLORACIÓN DE DATOS

ROBERTO VERDELLI | TECHEDGE GROUP

La exploración de datos es el paso más centrado en el ser humano del proceso de Data Science: como tal, es el más fácil de entender, pero también el más fácil de malinterpretar. Detrás de los números claros y de los llamativos gráficos de colores se esconden varias trampas.

Pero empecemos por el principio.

De acuerdo con la Wikipedia, la exploración de datos es un enfoque similar al análisis inicial de datos, en el que un analista de datos utiliza la exploración visual para comprender lo que hay en un conjunto de datos y las características de esos datos.

Profundicemos en esta definición.

La exploración de datos es un enfoque similar al análisis inicial de datos: en realidad, es el análisis inicial de datos. La exploración precede a cualquier análisis estadístico y modelo de aprendizaje automático. Esto es esencial para evitar un grave peligro: los indicadores sintéticos, como la media y la desviación típica. La paradoja de Simpson es un ejemplo bien conocido que muestra cómo los indicadores globales pueden ser superficiales y engañosos. Por supuesto, se trata de un ejemplo académico, pero algo parecido podría pasar en el mundo real, como veremos en un momento.

La exploración de datos se produce cuando un analista de datos utiliza la exploración visual para comprender lo que hay en un conjunto de datos: por supuesto, es algo más complejo que eso. Imagina leer una enorme tabla con miles de filas y decenas de columnas, llena de números. Exploras visualmente los datos, pero no hay manera de sacar ninguna conclusión. Eso es porque no estamos diseñados para procesar enormes tablas de números. Somos muy buenos leyendo el mundo en términos de formas, dimensiones y colores. Y eso es lo que permite la visualización de datos; una vez traducidos a líneas, puntos y ángulos, los números pueden leerse más fácilmente.  Por desgracia, aquí nos acecha un segundo peligro: gráficos mal diseñados o capciosos. A veces, una visualización errónea impide que los científicos de datos saquen la conclusión correcta o compartan la información correcta. Sarah Leo, de The Economist, publicó hace unas semanas una recopilación de excelentes ejemplos.

El objetivo de la exploración de datos es investigar las características de los datos. Para ser más precisos, tiene dos objetivos principales:

  • Resaltar los rasgos de las variables individuales.
  • Descubrir patrones y relaciones entre variables.


Ambos objetivos son de suma importancia, ya que guían el posterior análisis en profundidad. Más que las palabras, un estudio de caso real puede ayudar a probar esta afirmación y mostrar las trampas de la exploración de datos.

Un estudio de caso: temperatura y carga energética

Utilizaremos un conjunto de datos público de la carga energética y la temperatura del aire en Grecia. Los datos disponibles cubren 4 años con granularidad horaria; en aras de la simplicidad, consideraremos solamente el año 2007. Supongamos que estamos desarrollando algoritmos de predicción energética y nos interesa entender si la temperatura puede ser favorable.

Después del preprocesamiento adecuado, los datos presentan este aspecto:

Nuestro primer intento puede ser computar la correlación lineal de Pearson:

Obtenemos un triste 0,42. Podemos sentirnos tentados de olvidar la temperatura y seguir adelante, pero somos muy conscientes del peligro oculto en el indicador sintético. Así pues, realizamos un análisis visual adecuado.

Vemos entonces que existe una relación clara, pero que no es lineal, por lo que la correlación lineal no puede ser efectiva para resaltar el patrón. Sin embargo, un modelo predictivo apropiado sí puede serlo. El gráfico nos ha ahorrado sacar una conclusión muy equivocada y nos ha proporcionado una excelente pista para mejorar nuestros modelos... No obstante, el mismo gráfico nos está ocultando algo. Si miras con detenimiento, puedes advertir algo extraño en el lado izquierdo, como si hubiera dos nubes de puntos diferentes. Cambiemos un poco la trama:

La relación entre la carga energética y la temperatura cambia con la hora del día. Esta es otra pista útil para diseñar modelos efectivos, pero se ocultaba detrás de un gráfico deficiente. Solo con añadir la hora del día en forma de una escala de color se hizo evidente el patrón.

Conclusión

Hemos mostrado que, en el mundo real, la exploración de datos es fundamental para cualquier proyecto de Data Science. Por muy fácil que parezca, oculta trampas insidiosas que pueden impedir que los científicos de datos saquen las conclusiones correctas. En particular, el estudio de caso nos ha dado algunos consejos:

No saques conclusiones basándote en indicadores sintéticos.

Presta atención a tus gráficos: un gráfico mal diseñado puede llevarte a error, mientras que uno bien hecho te puede dar pistas excelentes.

Sé humano: escucha a tu intuición e investiga cada vez que notes algo extraño.

 


 
Socios Honoríficos y Patrocinadores
Entidades Asociadas

Esta web utiliza cookies para obtener datos estadísticos de la navegación de sus usuarios.
Si continúas navegando consideramos que aceptas su uso. Más información X Cerrar