Charla: Programación y Periodismo de Datos Abiertos

Publicado el 29 de septiembre de 2015

Programación y Periodismo de Datos Abiertos
El viernes 25 de setiembre di una charla a estudiantes de Periodismo de la Universidad Católica del Uruguay. Muchas gracias a Jimena Abad por la invitación 🙂

Para preparar la charla empecé escribiendo todo lo que quería decir, y después fui haciendo diapositivas por cada tema. Empecé desde el concepto de Datos Abiertos y de ahí seguí pasando por varios temas.

 

Datos Abiertos

Datos Abiertos es una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo. Sin restricciones de copyright, patentes u otros mecanismos de control. Ética similar a otros movimientos y comunidades de software libre y acceso libre.

En mi caso llegué a la “movida” por esta misma relación que tiene con el tema del software libre. Esa cultura de apropiarse de la tecnología y la información, y hacerlo de manera colaborativa y compartirla.

Situación en Uruguay

En muchos países existen grupos activistas exigiéndole a sus gobiernos los datos abiertos que nosotros tenemos a disposición. Así que hay que valorar y hacer uso de la información que tenemos a disposición, y seguir exigiendo más datos abiertos de los distintos entes.

Intendencia de Montevideo – Pionero en la región en el tema de datos abiertos.

Catálogo de Datos Abiertos – Gobierno y AGESIC.
Conjuntos de datos y Aplicaciones

DATA – Organización de la sociedad civil
Herramientas – aplicaciones sociales basadas en Datos Abiertos
Comunidad – eventos para la creación de herramientas y reuso de los Datos
Activismo – promoción de Datos Abiertos, Transparencia y Acceso a la Información Pública

Hackatones y comunidad

El problema que yo veía al principio era que gran parte de los participantes del movimiento éramos programadores. Y los programadores somos buenos resolviendo problemas técnicos, pero no necesariamente resolviendo problemas sociales o encontrando usos creativos para los datos abiertos.

La movida fue creciendo y de a poco se fue haciendo más diverso el origen de la sociedad civil partícipe de la movida de datos abiertos. El periodismo siempre fue un área que podía aprovechar muchísimo el tema de los datos abiertos. Por eso es muy bienvenida la iniciativa de la Universidad de incluir el tema de Datos Abiertos en sus cursos de periodismo y espero que se interesen en el tema y lo puedan aprovechar.

Datos Abiertos y periodismo

Son una de las herramientas que tenemos para equilibrar el poder a favor de los ciudadanos, y cuánto más se trabaje en esa dirección, mejor. Están en la agenda política del gobierno actual dentro del marco de Gobierno Abierto. Necesitamos más gente haciendo algo, hay mucho trabajo por hacer en este aspecto, y los Datos Abiertos no sirven de nada si no los explotamos.

Su trabajo consiste en investigar temas de interés público y trabajar con ellos. Los Datos abiertos son una fuente de información fiable (en teoría). Pueden difundir información que se verifica sola citando la fuente de los datos abiertos.

Ejemplo A Tu Servicio: Con el tema del cambio de proveedores de salud en febrero (se abre el corralito), entre el MSP y Data hicimos A Tu Servicio. Publicamos de manera amigable y bien gráfica los datos que los prestadores de salud entregan al MSP.

Al ser lanzado públicamente el proyecto, se contactó mucha gente de prestadores de salud en actitud “amenazante” quejándose por los datos que no los dejaban bien parados. Nosotros hicimos un proyecto 100% objetivo, mostramos datos, no inclinamos la balanza para ningún lado. Eso lo dejamos a criterio del usuario. Los datos “malos” sólo dejaron en evidencia que el prestador había presentado datos mal o fuera de tiempo. Esto ayudó a que algunos prestadores presentaran enseguida datos mejorados.

Hoy en día hay datos de todo tipo para investigar. Los más jugosos probablemente sean los de gobierno. Las cuentas, los candidatos en elecciones, dar transparencia y poder de auditoría a la gente a través de los datos. Cosas que se pueden hacer: mapas, derechos humanos, población, medio ambiente, salud, gasto público, tránsito.

Ejemplos de periodismo de datos en América Latina

Otros: The Guardian Data

Manual de Periodismo de Datos

Recurso útil para aquellos interesados en convertirse en periodistas de datos. Busca orientar en el tema, no es una guía definitiva. Licencia Creative Commons – compartir, editar, atribuir.

Procesamiento de Datos abiertos

Los datos crudos no sirven de mucho. Hay que procesarlos y extraer la información. Muchas veces vienen en formatos no estándar (calidad de datos) como PDF. En la parte de procesado puede entrar la programación, pero tenemos otras herramientas disponibles para ir arrancando.

Visualizaciones, infografías, etc:

Organización de datos

  • OpenRefine – limpiar, transformar, formatear y compartir datos (Me lo recomendó Chino Carranza, así que confío que es bueno)
  • Hojas de cálculo – LibreOffice, Excel, Google Docs.

Scraping

Permite procesar automáticamente sitios web y extraer contenido. Si bien hay herramientas, nunca las probé personalmente. En este aspecto en particular es donde viene muy bien conocer un poco la semántica de los documentos HTML que hacen una página web. Además “scrapear” una página web y procesar su información es muy sencillo con algunos lenguajes de programación. Hay que entender la estructura de un documento HTML, función que hoy en día se puede hacer con casi cualquier navegador web común. Después descargar y procesar programáticamente el sitio.

Programación

Los lenguajes de scripting son ideales para el tipo de programación rápida que se puede necesitar para un análisis sencillo de datos. Además hay gran disponibilidad de herramientas para usarlos. Yo recomiendo personalmente Ruby y Python para este tipo de cosas por ser accesibles para gente que empieza en el tema.

A continuación comenté un ejemplo usando Ruby. Quise mostrar que no era tan complejo como puede parecer, y no se necesitaba demasiado para poder sacar un mínimo de procesamiento a partir de un dato. Descargué del Catálogo de Datos Abiertos el dato Personas fallecidas en siniestros de tránsito 2014 de UNASEV. Este dato está en formato CSV, por lo que es sencillo procesarlo en Ruby.

El código que usé fue el siguiente:

# coding: utf-8
require 'csv'
require 'pp'
tipos = {}
total = 0
 
CSV.foreach('fallecidos_2014.csv', encoding: 'iso-8859-2', col_sep: ';', headers: :first_row) do |row|
  # La quinta columna es el tipo de siniestro
  siniestro = row[4]
  # Agrego el tipo de siniestro y seteo el valor en 0
  tipos[siniestro] ||= 0
  # Sumo 1 a la cantidad de siniestros de este tipo
  tipos[siniestro] += 1
  # Sumo 1 al total
  total += 1
end
 
# Mostrar total:
puts "Total fallecidos en accidentes de tránsito 2014: #{total}"
puts
# Mostrar por tipo:
puts 'Por tipo de siniestro'
pp tipos

Intenté explicar más que nada que procesar el csv era pasar una por una las líneas y manipular los datos (agregar 1 al total, 1 al tipo de siniestro) y más o menos qué hacía cada línea. Obviamente una clase no es suficiente para enseñar programación, pero quise dar una idea bien a alto nivel de que si se lo proponen, no es algo inalcanzable.

Y el resultado:

$ ruby fallecidos.rb 
Total fallecidos en accidentes de tránsito 2014: 538
 
Por tipo de siniestro
{"DESPISTE"=>72,
 "COLISION ENTRE VEHICULOS"=>278,
 "ATROPELLO DE PEATON"=>96,
 "CAIDA"=>56,
 "COLISION CON OBSTACULO"=>25,
 "ATROPELLO DE ANIMALES"=>11}

Comenté que si bien esto no es un estudio intensivo de los datos, ya era más que el dato crudo en sí. Y que es algo que también se puede hacer en una planilla de cálculo, pero que sabiendo programación, este código llevaba muy pocos minutos escribirlo.

Aproveché para disparar contra la prensa. Opiné que estos datos así como están son mucho más información de la que usan a veces alguno “periodistas” uruguayos, que escriben una nota entera en base a un tweet de algún político o algún otro tipo de chusmerío.

Recursos para aprender Ruby

Esto es un tema que ya había tocado en este blog, así que enlacé a Try Ruby como lo más básico y para tener una idea, y al post en particular Cómo empezar con Ruby.

Recursos para empezar con Programación

Conclusión final

La programación lleva tiempo. Ustedes son periodistas, no se pueden exigir ser programadores y levantar un sitio web con un análisis super exhaustivo de datos en una semana. Pero tómenlo como algo que les puede aportar en su carrera y ayudarlos en alguna investigación o para presentar datos.

Repito el agradecimiento a Jimena por la invitación, y es algo muy positivo que desde la educación se esté promoviendo los Datos Abiertos. Espero ver muchos trabajos de periodismo de datos en Uruguay de acá en más.

No hay comentarios en este post

Feed de comentarios

Dejar un comentario

Notificarme los nuevos comentarios por correo electrónico. Tambien puedes suscribirte sin comentar.

Toasty!