¿Qué saben de ti Google y Facebook?

Descubre todos los datos que Google y Facebook tienen de ti. Te conocen mejor que tu propia familia.

Ambas empresas cimentan su imperio sobre la materia prima más valiosa de la tierra, los datos. Información que les vamos dando acceso cada vez que usamos sus maravillosas aplicaciones, que casi siempre nos resultan gratuitas. Pues bien, cuando en internet no pagas por algo, habitualmente significa que el producto eres tú. En este caso, tus datos: de comportamiento, consumo, personalidad o contacto. Este conocimiento que Google y Facebook tienen de ti, lo usan para dar una experiencia más personalizada y crear nuevos productos más adaptados; pero también para convertirse en los principales proveedores de información para la industria publicitaria.

Se puede discutir sobre la bondad para el usuario de este acuerdo escrito, pero inconsciente. Pues todos hemos aceptado extensísimos textos legales, sin leer y comprender la extensión de la información que compartimos. De cara a arrojar luz que nos aporte más consciencia sobre este acuerdo, voy a intentar en este post en desvelar todas las cosas que Google y Facebook saben de ti.

Todos los Datos que Google tiene de ti.

Obvíamente, Google no se limita sólo a su famoso buscador. Para entender su alcance debes añadir todas los datos e interacciones que haces a través de Gmail, Maps, Chrome, Android, Google play, G+, Drive, Youtube o Waze.

Google te ofrece una sencilla opción de para conocer la información que dice utilizar para mostrarte anuncios, en mi caso mi sexo, rango de edad y simplemente unos 70 temas que supuestamente me interesan, que van desde las artes a los concursos televisivos… aunque creo que el último que vi, ha sido el precio justo. Muy decepcionante, Mr. Google.

Sin embargo, si ejerces ante Google tu derecho legal de acceso a todos los datos que tienen tuyos recibes una base de ficheros con unos 10Gb de peso. Esto si es alucinante, pues toda tu actividad aparece registrada y ordenada en su carpeta (ver imagen).

A través de estos archivos puedes consultar todas las búsquedas que has hecho desde 2007, todas. Obviamente también sabe tu teléfono, email, dirección de trabajo, amigos, dónde has sacados tus fotos y qué periódicos o blogs lees. Si accedes al historial de ubicaciones, tiene las coordenadas de todos los sitios por donde has pasado y es capaz de predecir si ibas a pie, en tren o en coche.

En el apartado YouTube está toda la información de los videos visualizados o subidos, todas las búsquedas y comentarios, así como los metadatos de cuánto tiempo de video he visto de cada video. Y esto sólo es el principio, muchos hemos visto la potencia de su asistente de inteligente artificial, capaz de pedir una pizza en tu nombre. Una herramienta en continua escucha de lo que dices y capaz de convertir tus instrucciones vocales en datos estructurados.

Debo de decir que me encantan los productos de Google: que me avise del tráfico antes de salir del trabajo a casa o que me de resultados personalizados. Llega un punto, que casi espero que lea mi mente, y siempre que uso su buscador me impaciento si a la segunda palabra no acierta en rellenar mi búsqueda. Entiendo que esta no sea la opinión de todo el mundo, pero yo estoy contento compartiendo mi información con Google pues eso supone un beneficio en mi vida.

Todos los Datos que Facebook tiene de ti.

Facebook recibe más de 2,5 millones de piezas de contenido cada minuto de sus más de 2,2 mil millones de usuarios. Sin embargo, Facebook es más modesta que Google y los datos que reconoce tener tuyos son menos asombrosos. Asegura que no cruza los datos de Facebook con su otra joya de la corona Whatsapp. A pesar de que sospechosamente te recomienda como amigos gente que sólo tienes en común haberte cruzado un mensaje con ellos.

En su favor, he de decir que si te da una opción muy sencilla y directa para descargar una copia de toda tu información en Facebook. Lo hice con mi cuenta y a pesar de que no soy nada activo en Facebook, mi archivo pesaba unos 300Mb, conteniendo todas las fotos, mensajes, likes o comentarios que había realizado.

Facebook se ha metido en algún que otro problema por su falta de rigor en el uso de los datos que tiene de nosotros. El más reciente, el conocido como “facebookgate” (aquí una explicación de lo sucedido desde DataCentric), que se produjo debido a que Facebook permitía a terceras empresas acceder a datos de sus usuarios e incluso de sus amigos, a través de sistemas de autenticación como Facebook connect. Pero qué interés tenía FB en dar acceso a su información a estas empresas, pues bien, además de hacer su entorno más atractivo para los desarrolladores, el que te tengas que logar a FB para acceder a otras aplicaciones, aumentando con ello la trazabilidad sobre tu comportamiento.

Asimismo, hay multitud de testimonios que aseguran que Facebook e instagram te escuchan, desde el micrófono de tu móvil, y procesan esa metadata en datos estructurados que luego usan para perseguirte con publicidad de productos sobre los que has comentado que te interesaban. Pero este hecho siempre lo ha negado la compañía, aunque en muchos artículos se ponga en duda su versión.

El interés de Facebook en acumular más datos no parece basado en el objetivo de darnos una aplicación personalizada y dirigida en lo que aprende de nosotros, sino sobre todo en ofrecer a los anunciantes unas posibilidades de segmentación que sobrepasan lo inquietante. Por ejemplo, dentro de Facebook ads he creado una segmentación de prueba usuarios varones de más de 18-65 años, en Madrid, interesados en el PP, Siria o el Islam. El filtro me arroja una audiencia de 350.000 usuarios que Facebook me propone impactar con mi publicidad.

Según un estudio de Accenture Digital, el 83% de los consumidores están dispuestos a dejar sus datos para permitir una experiencia más personalizada. En mi opinión aquí estaría la clave: desarrollar esta propuesta de valor para el usuario en el uso de sus datos y ganar su confianza de que sus datos los gestionarás de una manera ética, garantizando su seguridad y privacidad.

Gerardo Raído

Chief Digital Officer en DataCentric

http://www.linkedin.com/in/gerardoraido

http://twitter.com/gerardoraido

marketing digital privacidad

Cómo descargar datos de forma masiva de internet

¿POR QUÉ DESCARGAMOS INTERNET?

En cierta ocasión, leí que una empresa se anunciaba con el siguiente lema “La mejor base de datos es internet” En su momento, hace unos 5 años, la frase sonaba fenomenal, pero hacerlo realidad era francamente difícil y era consciente de que quien lo decía no tenía ni idea de su complejidad técnica.

Con los años mi tesis se demostró. Aquello que sonaba fenomenal a nivel comercial era, a nivel técnico, un invento muy básico para aproximarse a los datos de internet.

Por otro lado, desde hace años pienso que la mejor información sobre una empresa la puedes encontrar directamente en su página web. Ahí las empresas describen quiénes son, qué hacen o donde están.

Desde hace años, trabajo con data crawling y data scraping, creando bases de datos de empresas y conozco las virtudes y los defectos de los depósitos de cuentas, de los códigos de actividad económica y todos los enfoques tradicionales para generar bases de datos y conocimiento sobre empresas.

SENTEMOS LAS BASES

Aunque suene muy crítico, el 95% de las empresas que dicen hacer crawling (descargar datos de internet) trabajan con softwares comerciales de scraping. Esto consiste en entrar en una página web y descargar una serie de datos estructurados contenidos dentro del mismo dominio o URL. Por ejemplo, entrar en la página web de la administración y descargar las direcciones y teléfonos de los ayuntamientos.

De estos actores, una parte importante se dedica a este mismo trabajo sobre páginas web con derechos de propiedad intelectual; por lo que además de tener poca complejidad técnica, en muchos casos es una actividad de dudosa legalidad. Existe toda una industria de empresas que descargan perfiles de Linkedin u hoteles de Booking.

Crawling, del inglés gatear, consiste en la descarga de información de forma masiva para posteriormente indexar el contenido de un conjunto de páginas web no estructuradas. Hacer esto tiene una elevadísima complicación técnica y no existen softwares comerciales, más allá de las herramientas de Google que lo realicen de un modo profesional. De hecho, una parte muy importante de la gente que de verdad hace crawling acude a Common Crawl (un proyecto donde actores comparten una base de datos con índice de una versión de internet relativamente actual y exhaustiva) o a Google.

Podríamos decir que, en el mundo de internet y datos, Google y Amazon son quienes llevan la delantera, pero aquí empieza la parte bonita de la historia.

Cuando empezamos a descargar internet comenzamos como todo el mundo: primero hicimos scraping con un software básico, luego fuimos a Common Crawl y a Google hasta que, fruto de nuestra curiosidad, llegamos a una serie de proyectos de software libre que surgieron con Lucene en la década de los 80 y que han evolucionado hasta nuestros días.

Si el tiempo fuera gratis, todo lo que os vamos a contar es casi gratis. Solo tiene un pequeño coste en Amazon Web Services.

VER CÓDIGO FUENTE

Casi todos los navegadores tienen una función para ver el código fuente de una página web.

Nuestro objetivo es descargar toda esta información y guardar dicho contenido de modo masivo en una base de datos.

Y aquí empieza nuestra aventura…

Las páginas web tienen contenidos estructurados orientados a los navegadores, como pueden ser:

Título: La pestaña con el nombre de la web.
Descripción: Las líneas que aparecen en la lista de resultados de una búsqueda en un navegador debajo del título.
Keywords: Las palabras clave a las que queremos dar un peso específico para que nos encuentren.

Descargar esta información es relativamente sencillo, pero resulta que no todas las páginas tienen estos datos informados o que dentro de un dominio los tiene informados de distinta manera. Por ejemplo, muchas webs tienen una versión en inglés y otra en español o keywords distintas para cada sección.

Luego está todo el contenido no estructurado. La página web de una peluquería de barrio no tiene absolutamente nada que ver con la de la Universidad Complutense de Madrid.

¿Cuál es la parte más relevante del contenido? ¿Cómo descargar la web de una universidad y no tumbar la web de la peluquería? ¿Qué ocurre cuando alguien utiliza un juego de caracteres no estándar, por ejemplo, el japonés?

Tras encontrar la tecnología básica para descargar datos, tuvimos que aprender a parametrizar, equilibrar y realizar cientos de pruebas de concepto para comprobar si realmente estábamos descargando la información que queríamos dentro de una página web.

Para que esto funcionara de modo correcto tuvimos que definir distintas tipologías de webs:

Webs donde hay que hacer scraping para extraer una información precisa (una franquicia o un ministerio).
Webs que son centros de beneficio para las empresas y que normalmente tiene protegida su descarga (Facebook, LinkedIn, etc)
Parking de dominios.
Webs de empresas (con una estructura relativamente estándar: inicio, quiénes somos, Contacto, Servicios, etc)
Páginas web con contenido para adultos o no relevante.
Páginas sin interés como blogs personales.

Por otro lado, un porcentaje de las webs se caen periódicamente, por lo que hay que rastrearlas constantemente por que puede que un día estén en pie y otro tumbadas.

¡Estábamos construyendo una auténtica “araña” para crawlear de verdad!

PERO, ¿QUÉ ES INTERNET?

Esto es una pregunta cuasi filosófica. Hace muchos años intentamos salir a internet a nivel de

Aquello no terminó bien ya que empezábamos a entrar en páginas no indexadas

pertenecientes al Dark Internet. El internet que conocemos es un protocolo de

comunicaciones (actualmente estamos en HTTP/2) donde las IPs son, por decirlo de modo

sencillo, los “números de teléfono” de internet o las “matrículas” de una web.

Los servidores DNS son los encargados de convertir estas IPs en una URL fácilmente recordable.

¿Cómo conseguimos una base de datos con todas las urls donde mandar a nuestra araña?

Nuestra araña es ciega y tenemos que darle un camino. Hemos probado a mandarla a nivel de IP y no es sostenible, y seguir los links entre páginas no garantiza una descarga exhaustiva, así que la única solución era crear una super base de datos con todas las URLs y categorizarlas según la tipología anterior.

Finalmente, la conclusión a la que llegué es que convertir internet en una base de datos es complicadísimo porque nunca sabes qué parte de internet tienes y cuál no.

Y AHORA, ¿QUÉ HACEMOS CON TODO ESTO?

Un día teníamos una araña descargando internet de modo óptimo y guardando los datos en un sistema de ficheros básico no explotables/accesible. Podíamos consultar una a una las webs para ver las descargas, pero para entender el capítulo anterior queríamos tener una visión global de qué estábamos haciendo y necesitábamos alguna base de datos que permitiera guardar y consultar esta información de modo masivo. Ni Oracle ni Postgree soportaban este uso.

Probamos sistemas de BigData como Kassandra, SolR o Elastic Search y finalmente optamos por combinar distintas herramientas: SolR y Elastic Search para indexado y consulta, y Oracle para la gestión del SmallData y algoritmia precisa a nivel de token.

Así, podíamos tener distintos módulos:

Una base de datos que guardaba los itinerarios de la araña. Básicamente un repertorio de URLs con mucha información asociada: Tipología de la web, fecha de la última descarga, resultado y un montón de datos estadísticos como cuántos enlaces tiene, tecnología que utiliza, número de secciones, idiomas que maneja, etc.

Una gran base de datos o índice con la última versión de la información descargada y un histórico de cambios.

Una base de datos relación donde poder guardar las direcciones, teléfonos, horarios de apertura y todo aquel contenido que podemos estructurar.

Este último punto es la clave de todo. Internet es un montón de información no estructurada y nuestro objetivo es estructurarlo para poder accionarlo como una base de datos. Aquí hemos utilizado mucha tecnología y lenguajes como Python o R para optimizar procesos. Aunque el equipo hacía auténticas maravillas con expresiones regulares en PLSQL corriendo sobre campos Clob en Oracle.

ESTO FUNCIONA PERO ES INGOBERNABLE

Ahora que funcionaban todas las piezas tocaba engarzar los procesos y automatizarlos.

Teníamos claros los instrumentos de nuestra orquesta, todos sobaban muy bien y, como decía un compañero, hacíamos las mejores jam sessions pero queríamos trabajar como una orquesta sinfónica para poder ofrecer el producto que queríamos.

Hemos dedicado meses o incluso años a diseñar flujos de trabajo, optimizar procesos y automatizar tareas para invertir el mínimo tiempo posible a optimizar las descargas y la algoritmia.

AHORA SOMOS EXPERTOS

Tras muchas horas de jam sessions hemos afinado nuestras técnicas de crawling y ahora tocamos con soltura los clásicos. Ahora sí que podemos decir que la mejor base de datos es internet. Además, casualmente, el core de Datacentric es el suministro de datos.

El primer uso que hemos dado a esta tecnología es alimentar nuestras propias bases de datos con atributos como URL de un establecimiento, teléfonos u horarios de apertura.

Luego, hemos creado bases de datos de segmentos exclusivos. Hicimos un proyecto para identificar tiendas online/ecommerce a través de técnicas como un scooring que dan peso a palabras como Carrito de la compra o Finalizar pedido. También hemos identificado empresas de alquileres…

También hemos buscado gemelos a los mejores clientes de nuestros clientes, que en cierto sentido es una derivada de lo anterior. Por ejemplo, una empresa de reparto de paquetería que trabaja con ecommerce nos da su base de datos de clientes y descubrimos que las palabras más discriminantes de las webs de sus clientes son carrito de la compra o finalizar pedido.

big data