Extracción y limpieza de datos

limpieza_datosIntuimos una noticia sepultada entre legiones de datos abiertos. Pero la información no siempre es accesible y reutilizable al cien por cien. Quizás la web aporte un PDF que debamos convertir en formato amigable. O el banco forme parte de la página y tengamos que rasgarla, arañarla o, remietiéndonos al extranjerismo, escrapearla. Aún cabe la posibilidad de tener que leer letras y números en una imagen.

Superado el primer escollo, con la base en formato excel a la vista, quedará el proceso de limpieza y refinamiento. Buscamos, por ejemplo, “Nueva York”, pero resulta que la Gran Manzana está escrita de varias maneras: Nueva York, New York, NewYork, NY, N.Y, etc.

En este artículo, examinaremos diferentes herramientas y técnicas para convertir, extraer y limpiar datos.

Extracción de datos

Unas veces la extracción consistirá en convertir el formato, otras, en arrancar los datos de la web cuando no hay manera de descargarlos. Veamos primero esta última opción. Para rasgar datos, existen diversas herramientas. Solo me referiré a las sencillas:

1-Copiar y pegar

La más rudimentaria pero a veces la más efectiva.

2-Table Clipboard

Se trata de una extensión de Firefox que nos permite seleccionar una tabla y con el botón derecho del ratón copiarla. Muy parecida a la anterior. En las opciones del complemento puedes configurarla un poco, como por ejemplo, llevarte o no los enlaces en el copiado.

3-Importar desde excel

Accedemos a la pestaña “Datos” del programa (1), pulsamos el botón “Desde web”(2), escribimos la dirección en la ventana emergente(3), miramos si excel detecta alguna tabla importable -la señala con una flechita amarilla-(4) y apretamos importar(5).

Pasos a seguir para importar una tabla incrustada en la web al programa Excel.
Pasos a seguir para importar a Excel una tabla incrustada en la web.

4-Importar en Hoja de cálculo de Google

Con la fórmula =importHTML(“URL”;”table”;1) podemos importar una tabla de la web. Entre comillas, engancharemos la dirección de la web en la que está la base de datos, después escribiremos “table” –también entrecomillada- y, finalmente, el número de tabla que sea: la primera, la segunda, etc. No me gusta este método porque no es fácil saber qué posición ocupa la tabla.

5-Import.io

Hay que registrase. Pero después es muy sencillo: básicamente consiste en introducir la URL de donde deseamos sacar los datos. El programa te permite descargar la tabla en formato CSV (valores separados por comas). Aquí tienes un enlace en el que se explica cómo transformar CSV en excel.

Otra manera de conseguir que la información sea reutilizable pasa por la conversión de formato:

1-PDF a Excel

Si lo que deseas es convertir formato PDF a excel, dispones de ExtractPDF, PDFConverter y PDFtoExcel. Cometdocs permite además transformar los datos a CSV. Herramientas similares pero de pago son PDF to Excel Converter y VeryPDF. Todas las anteriores ofrecen el servicio on line. Tabula, sin embargo, ha de descargarse, pero es gratuita.

A veces una tabla formará parte de un documento extenso de PDF. Entonces necesitaremos acotar la selección. Con SmallPDF  puedes unir documentos o dividir uno en varios, entre otras gestiones.

Zamzar y OnlineConvert transforman múltiples tipos de documentos, no solo de PDF a excel.

2-Reconocimiento óptico

El banco de datos podría presentarse como imagen, cosa que les ocurre a algunos PDF. En este caso, usaremos FreeOCR o OCRService. Estos servicios leen letras y números presentados como dibujos.

3-De Excel a html

Tableizer hace el camino inverso. Transforma un excel en HTML, para que podamos incorporar una tabla en un blog o web.

Limpieza de datos

Ya podemos toquetear la información a nuestro antojo. Ahora toca revisar y depurar. La limpieza de datos se puede hacer desde el programa excel, pero también existe la herramienta openrefine creada a propósito para enmendar errores y reorganizar información. La podemos descargar desde la página web. Si, como a mí me ocurrió, no puedes abrir el archivo ZIP, sigue las instrucciones de este video para repararlo (muy sencillo).

Para una primera aproximación, recomiendo leer el tutorial de David Cabo, impulsor de Fundación Civio, y hacer la actividad que propone sobre desaparecidos durante la guerra civil española en Euskadi. Es sencillo de seguir, pero un poco duro el ejercicio, ya que descubrirás el nombre y apellidos de hasta tres hermanos fusilados el mismo día.

Otras funcionalidades de Openrefine las podemos ver en este vídeo y en este otro. Entre ellas, cómo lograr la geolocalización a través de una dirección. Pero esto ya es más avanzado.

Además de Openrefine y Excel, existen otras herramientas similares, como DataWrangler.

Después de la extracción y la visualización de datos

Después de extraer datos, convertirlos y limpiarlos, aún quedan dos pasos muy importantes. Primero, conocer aspectos básicos de estadística, para no confundir, por ejemplo, causa con correlación, como señalaba el especialista Alberto Cairo en un reciente Hang out sobre infografía.

Y, segundo, elegir con qué visualización publicar los datos: desde escoger entre un gráfico de columnas o una línea de tendencia, hasta optar por un mapa u otra infografía, que las hay a miles, tantas como la competencia, destreza y experiencia del infografista le permitan. Aún así, numerosos artilugios digitales pueden ayudarnos a los principiantes. Podría ser una cronología, una imagen interactiva o un vídeo animado, pero hay otras herramientas. El objetivo es que la infografía protagonice, ilustre y explique con claridad la noticia o historia.

A veces, gracias a la visualización, en el periodismo de datos destacan unas informaciones por encima de otras -ver el número de manifestaciones en 2014 en España-. Creo que entonces la representación visual ha cumplido con creces su misión, ya que de un vistazo discernimos una noticia. ¡Pero ojo antes de publicar nada, no fuera un error de la persona que introdujo la información! He aquí la importancia de contrastar la informaicón con otras fuentes o de solicitar la corroboración a la institución correspondiente.

¡Recibe las novedades!

Recursos para periodistas y comunicadores, actualidad y comentarios.

¡Ayúdame a difundir el post si te ha gustado!