Google da un impulso al Open Data al publicar 25 millones de datasets gratuitos.

En este post contaremos qué es el Open Data, para qué sirve y qué datos podemos encontrar. Todo ello con un foco especial en España.

Para poder valorar y dimensionar las posibilidades que nos ofrecen los nuevos recursos Open Data publicados por Google, es necesario comprender cuáles son las posibilidades reales de éstos y su capacidad de interrelación con el resto de fuentes y herramientas disponibles de manera libre: accesibles y reutilizables sin exigencia de permisos específicos o derechos de autor, provenientes de iniciativas públicas o colaborativas para el acceso a información y estadísticas.

¿Qué tipos de datos podemos encontrar dentro del Open Data y para qué ámbitos se pueden usar?

Al pensar en qué datos están disponibles como Open Data, no solo debemos limitarnos a datos estructurados en un fichero formateado, sino también a documentos, cartografía o imágenes: se cubren casi todas las categorías. Pensemos que hay datos de meteorología, como los de la AEMET; datos catastrales; secuencias de ADN del cáncer; hasta las canciones y letras de 50 años de pop mundial. Otro ejemplo, ¿recordáis la noticia de que el INE iba a adquirir de los principales operadores de telecomunicaciones la información de cómo nos movemos los españoles? Pues bien, a esa información estadística no solo tendrá acceso el Gobierno, sino cualquier ciudadano. Está disponible como Open Data por el INE, junto con muchas otras variables provenientes del Censo y Padrón.

España ocupa la segunda plaza en el ranking de países europeos con mayor desarrollo del Open Data, según el informe del Portal Europeo de Datos. Varios organismos locales o autonómicos ya han desarrollado sus propias iniciativas, tales como Open Data Euskadi u Open Data Barcelona. Desde el ámbito privado, múltiples empresas han publicado directorios de datos. Me gusta especialmente el portal de datos abiertos de Esri España.

¿Qué ofrece la herramienta de búsqueda de conjuntos de datos de Google?

buscador de Google Data Search

Google, el buscador rey en internet, con DatasetSearch pretende ser también el buscador de referencia para el mundo de las bases de datos. Empieza fuerte, su directorio da acceso de 25 millones de datasets, que van desde información sobre clima, delincuencia, fútbol, mascotas a información empresarial. Puedes buscar por textos y filtrar resultados por tipo de licencia, actualización o formatos (jpg, json, csv). El volumen de ficheros accesibles seguramente se multiplicará debido al poder del escaparate de Google y a que la publicación de datasets es sencilla, siguiendo el estándar de schema.org.

¿Cómo consumimos estos datos?

En general, la forma más estándar de consumir estos datos es en tiempo real a través de servicios web o APIs. En otros casos, también se permiten descargas para su tratamiento offline. Lo que si tenéis que entender que estos datos están en bruto, sin depurar y que realmente adquieren todo su potencial cuando eres capaz de fusionarlos con otra data propia o proveniente de fuentes terceras.

Un ejemplo de esta fusión y curación de Open Data es nuestra solución Pyramid, que relaciona más de 2.500 datasets  ya depurados y validados, incluyendo datos catastrales, información sociodemográfica, datos de consumidores y los datos de todos los negocios de España. Esta solución facilita el uso del Open Data en proyectos que de otra manera serían inviables para empresas que no tienen recursos y tecnología disponibles para limpiar, conectar y gestionar gigantes volúmenes de datos desestructurados. Así, utilizar una fuente ya depurada y relacionada como Pyramid, te facilita el acceso a todos los datos externos que tus proyectos de datos necesitan.

Otro error común es confundir datos abiertos con fuentes públicamente accesibles. Pensemos en el ejemplo de Linkedin. Está abierto a su consulta  pero limitado el uso de su información para fines comerciales de terceras empresas.

Hay que conocer estas limitaciones, pero hay que aprovechar la riqueza de información que aporta toda la metadata sobre la que está construida la WorldWideWeb. En DataCentric somos especialistas en web crawling, descargas masivas de información de internet y en el formateo y organización de esos datos con técnicas de web scraping. De este modo, construimos bases de datos a medida, que se pueden usar para generar insights, monitorizar a la competencia y sus precios o construir ficheros de potenciales clientes.

Gerardo Raído

Chief Digital Officer en DataCentric

http://www.linkedin.com/in/gerardoraido

http://twitter.com/gerardoraido