La tendencia del Big Data hacia el Small y Wide Data

Small y Wide Data tendencia

La tendencia del Big Data hacia el Small y Wide Data

“Muchos datos y mayor velocidad de procesamiento”, ha sido la consigna de las organizaciones que han abrazado el Big Data como herramienta y no es para menos. En la medida en que el hardware y el software de los ordenadores adquirían mayor capacidad para captar, almacenar y tratar gran cantidad de datos, muchas empresas encontraron en ello una herramienta aplicable para analizar diversos aspectos de interés. Datos estructurados, no estructurados y semiestructurados, podían converger para que tras su procesamiento, se pudiera analizar el comportamiento de clientes y predecir tendencias de consumo entre otros asuntos. Pero parece que todo estaría cambiando, ya que la prestigiosa consultora Gartner estima que en 2025, el 70% de las organizaciones habrán abandonado sus enfoques de Big Data. Estos serán sustituidos por Small y Wide Data.

¿En qué consisten estos dos conceptos y cómo influirá su aplicación en la toma de decisiones empresariales? ¿Qué relevancia tiene la calidad de datos en el uso de estas herramientas? Son las preguntas que intentaremos responder brevemente a continuación.

Small y Wide Data en contexto

El Big Data está cediendo terreno a tendencias como Small y Wide Data, y no debería sorprendernos. Sin duda, la pandemia del COVID-19 ha sido un fenómeno capaz de modificar la conducta de consumidores, empresarios y proveedores. Hasta tal punto que ha conseguido cambiar muchos paradigmas considerados inalterables. Entre ellos el entrenamiento de algoritmos de Inteligencia Artificial y Machine Learning, hasta ahora alimentado con datos históricos. Lógicamente, el escenario del análisis de datos también está cambiando notablemente.

En opinión de Jim Hare, vicepresidente de investigación de Gartner, la crisis sanitaria dejó claro que los datos históricos refieren condiciones pasadas. En una situación tan inestable y volátil, el rápido pase a la obsolescencia de estos datos es evidente. Por otro lado, la toma de decisiones es ahora más compleja y exigente, por lo que necesita apoyarse en enfoques de aprendizaje más profundo y que requieren otros datos. De allí la urgencia de echar mano a nuevas técnicas de análisis como Small y Wide Data.

Big Data, una definición para entender las nuevas técnicas de análisis

En primer lugar, recordemos la definición de Big Data, para comprender en contexto las tendencias de Small y Wide Data. Desde una perspectiva rigurosa, Big Data se enfoca en grandes conjuntos de datos cuyo procesamiento no es viable mediante métodos tradicionales. Por eso, también abarca los diversos recursos para procesar, analizar y gestionar dichos conjuntos de datos masivos que por igual son más rápidos y complejos. También apunta a desbloquear el valor que toda esa información pueda proporcionar.

Varios expertos incluyen en la definición de Big Data la analítica y la visualización de datos y los objetivos para los que se emplean las técnicas de big data.

En resumen, nos referimos a Big Data cuando fuentes heterogéneas (personas o máquinas) generan grandes cantidades de datos con mucha rapidez. Estos datos se almacenan y analizan para obtener nuevos puntos de vista sobre un aspecto determinado de la realidad. Intrínsecas a este concepto, encontramos las características de Big Data, conocidas como las “Vs”:

  • Volumen o tamaño del conjunto de datos.
  • Variedad, en la que englobamos los diferentes tipos de datos; estructurados, no estructurados y semiestructurados.
  • Velocidad, que refiere la rapidez del flujo de datos. Aunque también implica la celeridad en la captura, el procesamiento, análisis y comprensión de los datos.
  • Veracidad. Es decir, los datos han de ser precisos y fiables, para generar, al final del proceso, decisiones acertadas. Esta característica está asociada a otro concepto vital; la calidad de datos.
  • Valor, o provecho social y económico implícito en los conjuntos de datos.

Small Data

Teniendo en cuenta lo anterior, ya podemos entender mejor los conceptos de Small y Wide Data. A diferencia del Big Data, el small data consiste en la captación y análisis de conjuntos de datos originados en organizaciones individuales o fundamentados en ejemplos individuales de resolución de problemas. En efecto, no es sencillo extraer o captar los small data de forma útil de los grandes conjuntos datos. Precisamente, ya que bajo este concepto no son necesarios tantos datos para lograr información con valor comercial. Para ello, emplea técnicas de análisis de series de tiempo, datos sintéticos o aprendizaje auto-supervisado.

Los big data revelan tendencias y correlaciones a gran escala que suelen ser muy generales. Por el contrario, los small data ponen el foco en lo que impulsa a cada consumidor, cliente potencial e incluso a empleados de la organización. Para poder realizar análisis y toma de decisiones basados en small data, es imprescindible una buena segmentación. Puedes ver las bases de datos segmentadas para telemarketing B2B y telemarketing B2C de Deyde DataCentric.

El procesamiento de los grandes conjuntos de datos requiere mucho tiempo y recursos. Una vez obtenido el valor, ya están obsoletos y es casi improbable que añadan más valor en el medio plazo. Por el contrario, los datos pequeños siempre son accesibles, lo que permite tomar decisiones rápidas y hasta en tiempo real. En concreto, con small data es factible:

  • Comprender cuáles son los factores que impulsan las compras de los consumidores.
  • Mejorar la estrategia para generar clientes potenciales.
  • Cambiar el formato de comercialización de productos y servicios.
  • Corregir y enriquecer estrategias de marketing en tiempo real.

Wide Data

Wide Data (datos amplios) permite analizar y hacer trabajar en conjunto una gran variedad de fuentes de datos. Ya sean de datos estructurados, no estructurados, pequeñas o grandes. Esto permite encontrar enlaces entre varias fuentes de datos y entre muy diversos formatos; texto, imagen, vídeo, audio, voz y hasta datos de sensores que trabajan olores, temperatura y vibración.

En comparación con small data, enfocado en aplicar técnicas analíticas que rastrean información útil en conjuntos de datos pequeños e individuales, los datos amplios permiten evaluar y combinar diferentes datos pequeños y grandes, estructurados y no estructurados. De tal modo se relacionan fuentes de datos dispares, mediante una amplia variedad de fuentes para concluir en un análisis significativo.

En Deyde DataCentric contamos con Pyramid, la mayor fuente de datos externa de España. Se trata de una única base de datos normalizados, estandarizados relacionados entre sí, que te permitirá adquirir nuevos datos de valor y cualificarlos en tus sistemas. Descubre más sobre Pyramid aquí.

Un ejemplo del análisis mediante Wide Data fue el realizado por la cadena de grandes almacenes estadounidense Target. Sus analistas observaron las compras de los clientes en sus establecimientos, y en paralelo, analizaron el comportamiento de los datos amplios que mostraban la probabilidad de que los consumidores que compran un segmento específico de productos, adquieran otro tipo de compra poco después. En sí, los datos amplios revelaron los hábitos de compra de las familias que esperaban un bebé. Así pudieron planificar una estrategia de marketing efectiva para este público.

Netflix: Las claves del éxito basado en Big Data

mando de televisión poniendo Netflix

Netflix: Las claves del éxito basado en Big Data

Gracias a su trabajo sobre el Big Data, Netflix ha pasado de ser una empresa de alquiler de DVD por correo a ser un líder mundial en la industria del entretenimiento. Netflix recoge y analiza todo tipo de datos del consumo que realizan sus usuarios. Desde qué buscan y cómo etiquetan cada contenido a dónde, cuándo y cómo consumen cada contenido. Sin duda, lo importante está en cómo aprovechan esta analítica de datos para mejorar sus servicios en los siguientes aspectos:

  • Hipersegmentar el cliente.
  • Predecir claves de éxito y tendencias, acertando mucho más que la competencia a la hora de producir y generar contenidos propios.
  • Recomendaciones individualizadas de contenido afín a los gustos que muestra tu consumo. De hecho, el 80% de las reproducciones son recomendaciones del algoritmo.
  • Una plataforma de contenidos simple, usable , con una mejor experiencia de usuario. Se estima que hay unas 40 millones versiones de Netflix.

Cómo convertir las predicciones en una ciencia exacta

Caso de exito Netflix

La plataforma de vídeo por suscripción ha sabido aprovechar como nadie las posibilidades que le ofrece no ya solo el Big Data, sino el Deep Data, que desvela el verdadero valor de los datos. No decide sus contenidos como lo hacen las cadenas tradicionales, consultando la “bola de cristal” de unos pocos directivos, sino que estudia el comportamiento y los hábitos de sus consumidores.

Netflix lo tiene fácil para acceder a la información de sus espectadores. A diferencia de medios como la televisión, que se basan en cuotas de pantalla, el proveedor de vídeo puede extraer los datos de todos sus usuarios:

Datos explícitos

  • Qué búsquedas realizan
  • Las valoraciones de los consumidores
  • La información y comentarios de sus perfiles en redes sociales…

Datos implícitos

  • Qué dispositivos usan
  • Cuál es su día preferido
  • Cuánto tiempo emplean en el servicio y en cada uno de los contenidos
  • Si ven los capítulos enteros o parcialmente e, incluso, qué fragmentos vuelven a visionar
  • En qué momento abandonan el visionado y si lo recuperan o abandonan
  • Qué preferencias tienen en común con sus amigos o con la audiencia de su misma zona geográfica

Todo ese conocimiento, esa inteligencia, hace que la definición de cada producto, cada programa, deje de ser un arte y se convierta en una ciencia. La información que han recopilado durante casi 20 años es lo que les permite decidir qué películas y series incluir en su parrilla. Y de esta forma la firma estadounidense arrasa en todos los países donde se implanta. En cada uno de ellos, ofrece una programación adaptada a los datos que ha recogido, almacenado y analizado de los espectadores de esa región.

Gracias al Big Data, Netflix ha pasado de ser un distribuidor de contenido a convertirse en una de las productoras de mayor éxito, que le han valido varias nominaciones a los Emmy, los Globos de Oro y otros reconocidos premios del sector. Basta con comparar los resultados de las cadenas convencionales con los de la plataforma de vídeo en streaming:

Cuando un canal de televisión lanza una nueva serie, esta tiene tan solo un 35% de posibilidades de triunfar y mantenerse en la parrilla. Cuando lo hace Netflix, sus posibilidades ascienden al 70% (si nos fijamos en el número de contenidos propios que logran continuar una segunda temporada).

Apostando por el éxito de House of Cards o Narcos

Es lo que ocurrió con la aclamada “House of Cards”. Netflix era entonces conocida como firma tecnológica y buscaba hacerse un hueco dentro del ámbito del entretenimiento. Y para ello apostó fuerte: invirtió 100 millones de dólares en producir una serie propia que, además, colgó del tirón en la plataforma, contraviniendo todos los usos y costumbres de los medios convencionales.

Fue un acierto sin precedentes que, sin embargo, no pilló por sorpresa a la propia compañía: “Podían hacerlo con seguridad porque habían analizado su audiencia, sabían cómo respondería a un drama político, que le gustaba el director David Fincher y que la versión británica había sido un éxito”, explicaba Kevin Spacey, protagonista de la serie.

Pero no utilizaron el Big Data solo para estar seguros de que “House of Cards” triunfaría, sino que además garantizaron que así fuera empleando una estrategia de promoción basada en datos. Para ello, hicieron 10 versiones del trailer dirigidas a diferentes audiencias, segmentadas en función de su comportamiento en la plataforma.

La misma receta fue usada para el diseño de Narcos. Netflix uso la analítica de Big Data para predecir el momento óptimo de lanzamiento, selección de actores y la evolución de la serie. En definitiva, el Big Data le ha servido también para mejorar la fidelidad de sus usuarios. ¿Pero cómo lo ha hecho exactamente?

La IA de Netflix y el transfer learning

 

Una vez los datos han sido recolectados y estudiados, Netflix emplea el uso de Inteligencia artificial para así hacer sugerencias de contenido muy ajustadas a cada usuario.

Para ello utiliza las métricas mencionadas con anterioridad y formula una selección de contenidos acorde a los gustos e intereses de cada perfil. Este sistema se denomina transfer learning.  Algunas de las funciones de la Inteligencia Artificial de Netflix son:

  • Selección del lugar donde grabar cada tipo de contenido original calculando los costes del elenco y del equipo, la popularidad del tipo de show, por el idioma, las condiciones climáticas…
  • Predicción del éxito de un contenido según su repercusión y reacciones durante los primeros días.
  • Optimiza la calidad de transmisión mediante el almacenamiento de series y películas en servidores regionales según el crecimiento o decrecimiento del número de espectadores.
  • Y finalmente, es la encargada de crear el perfil de comportamiento de cada individuo para detectar las similitudes y así hacer sus famosas recomendaciones.

Cómo subir el clic y el uso para conjurar el riesgo de baja

Netflix es capaz de determinar cuántas horas al mes debe un suscriptor utilizar el servicio para evitar que se plantee la baja. De manera que, en el momento en que se percata de que la cuota media de uso es inferior a la ratio que ha identificado, toma medidas para incrementarla.

La compañía ha puesto en marcha técnicas que facilitan que el usuario continúe en la aplicación una vez que acaba de ver el contenido elegido:

  • En el caso de las series, cuando finaliza un capítulo se reproduce automáticamente el siguiente.
  • Cuando se trata de películas, la plataforma lanza recomendaciones de otros contenidos (personalizados según los datos que tenga de ese consumidor) justo antes de que aparezcan los créditos. Para acceder a esos productos, basta con pulsar el botón indicado desde la misma pantalla.
  • Actualización constante de sus contenidos apostando por diferentes formatos según los intereses de la población, por ejemplo, los documentales o “docu-series” los cuáles se han puesto muy de moda durante el 2023.
  • Netflix utiliza una fórmula ganadora a la hora de elegir las miniaturas o portadas de sus películas y series. Para ello compara cientos de frames y los pone a prueba durante cierto tiempo (es por ello que a veces verás varias imágenes distintas para el mismo show o película) y comprueba cual es el más atractivo mediante los datos que se producen según la interacción. Otro gran ejemplo de uso de datos y métricas para personalizar la experiencia de usuario.
  • Tiene un apartado únicamente destinado a las tendencias actuales de la zona geográfica en la que se encuentre localizado el perfil. De este modo, Netflix nos indica que es lo que se está viralizando en nuestro entorno, para que en cierto modo nos sintamos conectados y actualizados.
  • Tras buscar un título que no se encuentre disponible, se nos muestra una selección de opciones similares con una gran precisión en cuanto a sus características. Esto tiene el nombre de Top N Ranker, y es un gran sistema para mantener al usuario conectado, pese a no poder cumplir con sus expectativas iniciales.

El éxito empresarial gracias al Big Data

Un factor determinante para su crecimiento ha sido una ingeniosa estrategia de marketing multicanal. Netflix no depende de una única plataforma para darse a conocer, de hecho, es común ver distintos tipos de publicidad según el medio por el que se esté promocionando.

Un buen ejemplo es su uso de Twitter, donde crea debate entre los seguidores y así ganan notoriedad, mientras que en Snapchat utilizan un filtro interactivo con el que los usuarios pueden compartir sus fotos y divertirse. Para ello compara los datos sobre el público que utiliza cada red (edad, sexo, idioma…) y adapta la publicidad para llegar al mayor número de usuarios posible, aunque de una manera personalizada y efectiva.

Los resultados de su estrategia han llevado a Netflix a ser una de las empresas de mayor crecimiento, con 31.620 millones de dólares en facturación en 2022 y cerca de 232,5 millones de abonados en su servicio de televisión on demand. Otras empresas como Spotify también le deben su éxito a los datos.

Como, Netflix tú también puedes monetizar tus datos y establecer modelos de análisis que ayuden a tu empresa a tomar decisiones sobre tus clientes y tu mercado potencial con mayor seguridad y rapidez que tus competidores. En Accumin Intelligence, somos líderes en tecnología y datos. Un asesoramiento y gestión que pueden ayudarte a identificar patrones, comprender a tus clientes y anticipar sus necesidades.

Cómo preparar mi ecosistema de datos para adaptarse al cambio

relaciones entre ecosistemas de datos

Cómo preparar mi ecosistema de datos para adaptarse al cambio

La capacidad de usar datos a mi alrededor a través de data partners confiere a nuestro ecosistema de la plasticidad necesaria para dar respuesta a las problemáticas actuales y a las futuras que puedan surgir en un entorno macroeconómico cada vez más inestable.

Los departamentos tienden a generar silos de datos, generando barreras protectoras de su bien más preciado, la información. Esta tendencia impide a las organizaciones montar soluciones de datos con un impacto estratégico. Las barreras se elevan en murallas cuando hablamos de compartir datos con otras organizaciones. Pero la realidad es que nuestras soluciones de datos muchas veces precisan información que no está en la casa, y necesitamos colaborar con otras empresas que tienen los datos que nos faltan. Las oportunidades de esta compartición de datos se están empezando a explotar con mucho éxito a través de modelos de intercambio que favorece a los players sin poner en riesgo la seguridad del dato.

Share or die: La necesidad del CDO de anticiparse a los rinocerontes grises

A raíz de la pandemia volvió a salir a la luz el concepto de cisne negro. La metáfora del «cisne negro» fue teorizada por Nassin Taleb en 2007 para describir aquellos eventos improbables de gran impacto socioeconómico que se explican una vez sucedidos, como si hubiera sido posible anticiparlos a la luz de los datos disponibles o de los antecedentes históricos.

El concepto de los «rinocerontes grises» es menos popular, fue expuesta por Michele Wucker en la cumbre de Davos de 2013 y ponía el foco no en las señales débiles que advertían de una crisis, sino en las respuestas débiles a esas señales.

Los rinocerontes grises son como los cisnes negros (riesgos de alta probabilidad y gran impacto macroeconómico, ambiental, tecnológico etc.) que, a pesar de ser reconocidos y evaluados, resultan ignorados hasta que nos afectan de forma violenta e irremediable, como si viéramos de lejos un rinoceronte que se dirige hacia nosotros y no le préstamos atención hasta que es demasiado tarde.

viñeta sobre el riego de no adaptarse

Cómo hacer mi ecosistema de datos “a prueba de balas”

Un ecosistema de datos se puede definir como un entorno en el cual se pueden almacenar, procesar y compartir datos, a través de una serie de herramientas y servicios. Como en la biología es algo vivo, dinámico y que siempre contará con, al menos, un productor de datos y un consumidor.

ecosistema de datos 2

Las piezas clave a revisar de nuestro ecosistema son:

  1. Fuentes: Son el primer eslabón de la cadena y en función del objetivo de nuestra organización, necesitaremos datos con diferentes características. Si los objetivos entre fuente y compañía no estan alineados se nos presentará una complejidad extra en su uso para nuestros objetivos de negocio.

También requiere un esfuerzo de descubrimiento y gestión de las fuentes y sus datos, ya que puede dar pie a nuevos modelos de negocio dentro de una organización.

  1. Gobernanza: La gobernanza será una pieza importante debido a que determina cómo vive la información dentro del ecosistema y las leyes por las que se rige. Será importante, porque establecerá la cantidad de fuentes y datos que habitan en dicho ecosistema, asentará las bases de su accesibilidad e interacción, procesos de calidad, qué procesos o análisis se efectúan y por último las decisiones y estrategias que derivan de todo ello.

Además, será clave saber medir y gestionar la información, es decir, qué datos deben vivir o no dentro del ecosistema, y qué métricas utilizo para evaluarlo. Dado que es un ente vivo, seguirá evolucionando incluso ante nuestra inactividad, por tanto, de cara a conseguir una mejora continua, aquellos datos, usos, metodologías o actores que degradan y empeoran el ecosistema global deberán ser detectados y expulsados.

  1. Tecnología: La infraestructura, arquitectura e ingeniería de nuestra solución tienen que hacerla no solo habitable para nuestros datos, sino duradera y ágil, permitiéndoles evolucionar de manera segura en tiempo y forma. Además, debe ser flexible ya que, en un universo cambiante como en el actual, deberá adaptarse a la aparición de nuevos ecosistemas y métodos de conectividad.

Deberá permitir interactuar fácilmente a los usuarios (internos y externos a la organización), tanto en accesibilidad como usabilidad, ya que la subsistencia de un ecosistema depende de ello.

  1. Interacción: Es importante entender que el valor de un ecosistema aumenta proporcionalmente a la cantidad de datos útiles y de calidad producidos o introducidos dentro de él.

Esto tiene que ver fundamentalmente con dos aspectos. En primer lugar, con la generación de nuevos datos mediante la interacción de la información previamente existente en el ecosistema. El segundo, la calidad y cantidad de aprendizajes que se puedan obtener mediante la aplicación de algoritmia.

relaciones entre ecosistemas de datos

Bajo estas premisas vemos que la introducción de datos externos permitirá ir expandiendo el ecosistema y entrar en ciclos virtuosos donde la información genera nueva información, al compartir la información se mejora nuestro ecosistema y los de alrededor, lo que permite seguir generando y compartiendo nuevos datos y aumentando el valor del ecosistema global.

Qué es el Data Sharing ¿Locura o Genialidad?

ecosistema de datos

En relación con esta necesidad nace data sharing, donde entidades y organizaciones de distinto tipo se ponen de acuerdo en compartir datos, aprendizajes y conocimientos en un entorno determinado y atendiendo unas reglas básicas que cumplen todos aquellos que quieran interactuar dentro de ese espacio, con el objetivo de maximizar valor y minimizar esfuerzos.

Tipos de data sharing

 

tipos de data sharing

¿No te va lo de compartir? Todavía tienes el 3rd party data

Si no te va lo de compartir siempre puedes contratar los servicios de un proveedor especialista e integrar datos reputados ya estandarizados, preparados para su explotación y alineados con tus objetivos de negocio.

Otra opción es utilizar a ese especialista como intermediario para generar un modelo conjunto con otro player que mejore los aprendizajes de manera global. En este caso el 3rd party data pone el entorno y la tecnología que permite a las 2 compañías relacionar datos, entrenar modelos y obtener insights de forma segura sin acceder a la información en bruto de la otra parte. 

third party data como intermediario de intercambio de datos

Usa los datos de tu alrededor

La introducción de datos externos a nuestro ecosistema ya sea mediante proveedores, intercambiando información o colaborando con entidades con intereses afines, puede llegar a aportar unos beneficios que sobrepasan al riesgo de compartir información antes guardada con recelo dentro de nuestro ecosistema.

 

¿Quieres saber más del Data Sharing?

Descarga el ebook Data sharing en la estrategia del CDO para diseñar una estrategia orientada a la compartición de datos y el uso de datos externos.

La Inteligencia Artificial y su relación con el Big Data

inteligencia artificial trabajando con datos

La Inteligencia Artificial y su relación con el Big Data

Para algunas personas, la inteligencia artificial (IA) es solo algo que los escritores de ficción usan en sus novelas. Pero no se dan cuenta de que la inteligencia artificial es una parte central de nuestros teléfonos, ordenadores y videojuegos. Y es que si alguna vez te han recomendado en netflix una nueva serie que te ha gustado, es porque la inteligencia artificial de la plataforma ha utilizado tus datos de consumo.

Entonces, ¿qué es la inteligencia artificial? Es una herramienta que va de la mano con el big data y que está ayudando a las empresas a adaptarse mejor a las necesidades de los consumidores permitiendo a las empresas tomar mejores decisiones.

Big Data es parte integral de la inteligencia artificial

Las soluciones tecnológicas de inteligencia artificial brindan a las personas nuevas formas de interactuar con el mundo que los rodea. Les da nuevos conocimientos sobre sus empresas y sus audiencias.

Para eso la IA analiza el big data de maneras que los humanos son simplemente incapaces de hacer ya que para nosotros habrá demasiadas personas con las que comparar y demasiados puntos de información para mirar.

En cambio, las soluciones de inteligencia artificial encuentran patrones en lugares donde las personas incluso nunca piensan en mirar. Pueden encontrar nuevas tendencias en cosas como datos de redes sociales, datos financieros e incluso datos geográficos.

Por ejemplo, la inteligencia artificial puede saber si es probable que alguien compre un producto en función de sus inclinaciones políticas. Solo necesita mirar a través de los perfiles de las redes sociales y compararlos con el tesoro de información disponible a través de big data. De esta manera, los datos son como el combustible que mantiene la inteligencia artificial en marcha.

Al mismo tiempo, la inteligencia artificial recopila información mientras busca patrones. La información que recopila se agrega a bases de datos llenas de información: la infraestructura de big data. Por lo tanto, el big data y la inteligencia artificial se apoyan mutuamente para crear una poderosa máquina de análisis.

La inteligencia artificial es necesaria para entender el Big Data

Por lo tanto, las soluciones de tecnología de inteligencia artificial son partes importantes de big data. Este tipo de programas interpretan las montañas de información que sería imposible analizar para nosotros. Y con estos programas, las personas pueden tomar mejores decisiones utilizando más información de la humanamente posible.

Sin embargo, también significa que invertir en big data no es suficiente para mejorar tu negocio. Los líderes también necesitan invertir en formas de analizar los datos y estar constantemente atentos a nuevas perspectivas. La información en bruto por sí sola no se traduce en éxito, entenderla sí.

El desarrollo de la Inteligencia Artificial requiere Big Data

Un programa de inteligencia artificial comienza de manera similar a un niño recién nacido, naturalmente curioso sobre el mundo que lo rodea. Este tipo de programas están diseñados para interactuar solo con tipos específicos de información. Pero una vez que interactúe con la primera parcela de datos, querrá más.

La mayoría de las veces, los modelos de aprendizaje artificial se alimentan de cosas como imágenes o tablas de datos. Por sí solo, este tipo de información puede no parecer mucho. Pero el poder de la inteligencia artificial es la capacidad de comparar dos conjuntos de datos completamente diferentes, buscando patrones entre ellos.

Cuantos más datos tenga acceso un programa de inteligencia artificial, más poderoso será ya que el programa podrá describir las tendencias con más detalle y con más precisión.

Siempre hay un humano detrás de la inteligencia artificial en los negocios

Es importante darse cuenta de que los programas de inteligencia artificial son desarrollados por personas, que deciden cómo dejarlo crecer y cuál será su propósito. Estos programas pueden parecer comportarse por sí mismos, pero en realidad, están haciendo lo que están diseñados para hacer.

Los equipos de personas deciden a qué información crucial se expondrá por primera vez el programa cuando se cree por primera vez. La información es universal, básica y se ha convertido en el bloque de construcción para la mayoría de la inteligencia artificial. Básicamente, los programas de inteligencia artificial ven las partes más básicas del mundo de la misma manera.

También hay empresas de inteligencia artificial que guían el desarrollo de programas. Deciden las formas en que un programa interactuará con el mundo que lo rodea y lo que es capaz de analizar.

Empieza poco a poco en Big Data e Inteligencia Artificial

Si estás dirigiendo tu propio negocio, puede ser tentador saltar directamente a la inteligencia artificial y el big data. Es posible que desee tirar tanto dinero como pueda en los programas. Sin embargo, invertir en tecnología no es suficiente.

También se necesitan equipos que puedan trabajar con big data e inteligencia artificial que sepan gestionar bases de datos llenas de información y analizarla.

El precio puede ser más alto de lo que cabría esperar. Pero solo comenzar poco a poco, con una base de datos básica de tu región y tu audiencia, puede tener efectos increíbles.

Invertir en Big Data da como resultado un gran éxito

Al invertir en big data, no solo está creando el marco para su futuro programa de inteligencia artificial. También estás invirtiendo en la longevidad de tu empresa y en su relevancia. Conocer mejor el mercado y los consumidores te permitirá crear productos y servicios que sean relevantes y obtengan ventas no solo a corto sino también a largo plazo.

Así puedes consultar tus sistemas de datos al tomar decisiones de negocio, cualificar a tus potenciales y tomar decisiones más efectivas.

La mejor manera de tener éxito en tu mercado es invirtiendo tanto en Big Data como en Inteligencia Artificial. Estas son las herramientas que las grandes empresas de nuestro tiempo utilizan para estar a la cabeza de la innovación y mantenerse por delante de todos sus competidores.

Si buscas tomar decisiones y definir estrategias basadas en datos ¡comunícate con nosotros!

Qué es y qué aplicaciones tiene una red neuronal artificial

red neuronal artificial

Qué es y qué aplicaciones tiene una red neuronal artificial

  • Han adquirido una gran importancia porque nos permiten encontrar soluciones a problemáticas que son difíciles de resolver usando la programación ordinaria basada en reglas. 
  • Sus aplicaciones han revolucionado el mundo de la robótica y la algoritmia de datos.
  • Aunque sean tendencia debemos tener en cuenta que en la mayoría de los casos las mejoras que producen frente a metodologías más simples no justifican su uso.

¿Qué son las redes neuronales artificiales?

Una red neuronal artificial o por sus siglas en inglés (ANN, Artificial Neural Network) es una serie de algoritmos que buscan relaciones en un conjunto de datos. Consta de nodos interconectados que le dan la apariencia de una red neuronal biológica y de la que toma su nombre (a pesar de la falta de consenso en cómo refleja el funcionamiento del cerebro humano). 

Arquitectura de una red neuronal artificial

La arquitectura de estos sistemas está formada por diferentes capas de nodos. La estructura más común suele tener tres capas de nodos interconectados entre sí. 

esquema de una red neuronal artificial estandar
1. Red neuronal artificial estándar. Fuente: https://www.dspguide.com/

La primera capa o capa de entrada (input layer) tiene nodos de entrada que envían datos a una segunda capa. Estos nodos son pasivos y simplemente transmiten la información a la siguiente capa. El número de nodos de esta capa coincide con la cantidad de datos que se introducen.

Los nodos de la segunda capa o capa oculta (hidden layer) filtran los patrones relevantes de los que no lo son identificando la información importante. Estos nodos son activos, lo que significa que combinan los datos procedentes de la capa anterior. Cada input recibido es multiplicado por un peso y los resultantes son sumados entre sí y delimitados con una función (sigmoidea o logística) para mejorar la eficiencia. Estos nodos suelen representar un 10% con respecto a los de la primera capa.

En la tercera capa, también llamada capa de salida (output layer) se repite el proceso de la segunda y los datos se vuelven a combinar y modificar en los nodos activos para producir los valores de salida.

esquema de nodo activo de una red neuronal artificial
2. Nodo activo de una red neuronal artificial. Fuente: https://www.dspguide.com/

Ventajas de la red neuronal artificial

Su habilidad de completar tareas con infinitas combinaciones la hacen idónea teniendo en cuenta la tendencia al alza de las aplicaciones basadas en Big Data.

No obstante, es su única capacidad para dar sentido a datos incompletos, ambiguos o contradictorios los que lo hacen realmente valioso. Es decir, la capacidad para usar procesos controlados cuando no existe un modelo exacto que seguir.

Tipos de redes neuronales

En el ejemplo 1 mostrábamos el funcionamiento de las redes en una arquitectura de tres capas y un único flujo de información. Sin embargo, una red neuronal puede tener infinidad de capas, nodos y estructuras con flujos de información más complejos dando lugar a diferentes tipologías de redes neuronales artificiales

Para qué se usa una red neuronal

Estos sistemas de algoritmia que nos ayudan a resolver problemas tienen múltiples aplicaciones que podemos englobar en:

  • Predicción de sucesos y simulaciones: Producción de los valores de salida esperados en función de los datos entrantes.
  • Reconocimiento y clasificación: Asociación de patrones y organización de conjuntos de datos en clases predefinidas. Incluso identificando características únicas sin datos previos.
  • Procesamiento de datos y modelización: Validación, agregación y análisis de datos. Diseño y búsqueda de fallos en sistemas de software complejos.
  • Ingeniería de control: Monitorización de sistemas informáticos y manipulación de robots. Incluida la creación de sistemas y robots autónomos.
  • Inteligencia Artificial: Formando parte de las tecnologías de deep learning y machine learning que son partes fundamentales de la inteligencia artificial

Cuándo tiene sentido usar una red neuronal y cuándo no

Es necesario conocer las metodologías avanzadas, pero al mismo tiempo tenemos que ser eficientes en nuestros proyectos de datos. Bajo la premisa del principio de parsimonia, una metodología sencilla para un problema concreto nos aporta un modelo falible, pero practico en la mayoría de los casos.

En este artículo hemos hablado de las bondades de las redes neuronales artificiales que indudablemente puede aportar valor en la modelización de datos. Sin embargo, la realidad es que en el 80% de las problemáticas de datos las redes neuronales no producen un resultado mejor que desde los modelos tradicionales.

Por lo que no nos dejemos llevar por la moda en el sector y seamos críticos al analizar un proyecto y valorar la metodología adecuada con la que abordarlo. En este sentido las ANN tienen en grandes volúmenes de datos con muchas casuísticas su ventaja frente a los modelos tradicionales.

LA ENERGÍA DEL FUTURO ES DATA-DRIVEN

Juanjo Casado ponente del Data Day

LA ENERGÍA DEL FUTURO ES DATA-DRIVEN

Repsol se ha convertido hoy en una empresa muy distinta a la que fue es su nacimiento, hace más de 100 años. Comenzó como una compañía energética claramente centrada en el producto – petróleo- para ir evolucionando a una empresa focalizada en ofrecer servicios relacionados con el consumo de energía de fuentes múltiples.

En uno de los momentos más determinantes de esta evolución de la compañía, su CDO, Juanjo Casado, participó en #DataDay2019, donde explicó la auténtica transformación que está viviendo Repsol para adaptarse a una realidad que ya está más cerca que lejos: la energía del futuro será data-driven.

Sin las personas, la tecnología no transforma

En este contexto, Casado recordó las cifras y herramientas de la transformación digital de la compañía. Conscientes de que la tecnología sola no es capaz de transformar el mundo y reforzando el papel de las personas en este cambio, Repsol cuenta con 130 proyectos activos en esta línea, 900 profesionales involucrados en ellos, 500 nuevos puestos de trabajo y 30 partners tecnológicos de alto nivel. La inyección económica para esta transformación de gran envergadura es una inversión de 145 millones, para la que estiman un retorno de mil millones de euros en 5 años.

La trasformación se articula en torno a diez hubs, cada uno de ellos centrado en las diez principales tecnologías “transformacionales” y pensado para acercarlas a las personas. Entre éstas, se encuentran el Data Analytics y la IA, con un hub específico en el que trabajan más de 40 profesionales (ingenieros de datos, analytic translators, data scientists, data managers, etc.).

El trabajo de este hub se estructura en base a cuatro grandes ejes:
– Cambiar la forma de trabajo.
Machine learning everywhere.
– Conocimiento del cliente.
– Creación de nuevos productos y servicios.

VE AQUÍ LA PONENCIA COMPLETA DE JUANJO CASADO EN #DATADAY2019

TELEFÓNICA. DEL BIG DATA A LA INTELIGENCIA ARTIFICIAL

Chema Alonso dando una ponencia en el data day 2019

TELEFÓNICA. DEL BIG DATA A LA INTELIGENCIA ARTIFICIAL

Hace cuatro años, Telefónica fue consciente de que la sociedad no iba a tolerar el uso que determinadas compañías estaban haciendo de los datos y puso en marcha una estrategia para fomentar otra manera de tratar la información. En ese momento, el grupo nombra a Chema Alonso CDO de un entramado de gran complejidad: múltiples empresas, múltiples silos, múltiples países, múltiples idiomas. En Telefónica, el área que depende del CDO comprende cuatro unidades:

  • La Cuarta Plataforma. Estrategia data-centric
  • 11 Paths. Cyberseguridad
  • Luca. Unidad data-centric B2B
  • IA: Aura, Movistar Home

Para hacer que las conexiones entre estas cuatro unidades funcionen y lo hagan superando la descentralización de los datos sin perder capacidad para la toma de decisiones, se está construyendo una red más ágil, veloz e inteligente en la que el cliente sea el soberano de sus datos y actué sobre la propia red de Telefónica. Alonso se presenta como el encargado de la “fontanería fina” para que esto sea posible.

El CDO explicó en su ponencia en #DataDay2019 cómo está trabajando Telefónica para que todas las áreas de la compañía estén gobernadas por datos y ninguna decisión se tome sin analizar los insights que éstos generan. La secuencia para conseguirlo tiene las siguientes fases:

1. Incorporación de especialistas en datos para mejorar el conocimiento.
2. Automatización de los datos.
3. Democratización del acceso a los datos.
4. Creación de servicios de uso interno.
5. Creación de servicios para clientes: b2b, b2c.

Ve ahora la ponencia completa de Chema Alonso en #DataDay2019.

¿Qué es el Procesamiento del Lenguaje Natural y por qué es la revolución del futuro?

persona pensando

Qué es el Procesamiento del Lenguaje Natural y por qué es la revolución del futuro

De acuerdo con las últimas estadísticas del mercado, la creación de datos se está acelerando. Un informe de la empresa Seagate y la consultora IDC concluye que para el año 2025 se habrán creado más de 175ZB de datos en el mundo, un dato que será 5 veces superior al registrado en 2018. El 79% de estos datos están en formato texto, de ahí que el llamado Procesamiento del Lenguaje Natural (PLN), NLP por sus siglas en inglés, este cogiendo tanta importancia y se perciba como elemento clave en la gestión de datos del futuro más cercano.

procesamiento del lenguaje natural
Fuente: NLP Academy

¿Qué es Procesamiento del Lenguaje Natural?

El PLN o NLP es la práctica del entendimiento de cómo las personas organizamos nuestros pensamientos, sentimientos, lenguaje y comportamiento. Un campo que se extiende hasta las ciencias de la computación, inteligencia artificial y lingüística en el estudio de las interacciones entre las computadoras y los seres humanos. El objetivo es poder dotar a la máquina de la capacidad de interpretar el texto simulando la habilidad humana de entender el lenguaje. 

 

La revolución del Procesamiento del Lenguaje Natural en el sector de los datos

El procesamiento del lenguaje natural trata de reconocer patrones y de interpretar cadenas de texto para analizar de forma efectiva grandes volúmenes de datos. Permite filtrar y descubrir nuevos insights dentro de la vorágine de información a la que nos solemos enfrentar en una estrategia de datos, pudiendo centrarnos así en el Smart Data más que en el Big Data. Los Sistemas basados en PLN han permitido grandes innovaciones como el poderoso buscador de Google, el asistente de voz de Amazon, Alexa, o el sistema de recomendación de Spotify (Si quieres saber cómo utilizan técnicas de PLN en Spotify te recomiendo este artículo).

En DataCentric utilizamos técnicas de crawling para descargar información de forma masiva de internet. Y utilizamos algoritmos de PLN para averiguar por contexto la información que buscamos pero que no sabemos dónde encontrar.

Esta práctica se postula como un factor determinante en el sector por su potencial para eliminar las barreras de entrada hacia la industria de los datos y al Business Intelligence, haciéndolo más “user friendly” e interaccional. En un futuro cercano, perfiles menos técnicos podrían interactuar con asistentes inteligentes y realizar tareas de BI desde una plataforma conversacional. Esto acercaría la disciplina a perfiles de negocio y animaría a los reticentes a probar estrategias de BI avanzado, favoreciendo así la prueba e integración de estrategias de datos en el “core” de negocio de las empresas.

 

La revolución del Procesamiento del Lenguaje Natural en marketing

La experiencia de cliente es una lucha continua en los departamentos de marketing. Para las empresas, los costes de un servicio 24/7 en un entorno competitivo y multicanal son inasumibles y la automatización de procesos que se ha realizado hasta ahora sigue mostrando deficiencias para algunos usuarios.

Las aplicaciones del PLN en este campo son múltiples: Chatbots eficientes para la atención al cliente, análisis del sentimiento en redes sociales para saber qué sentimientos produce nuestra marca, inteligencia artificial para evolucionar maquinas hacia robots más inteligentes, mejora del procesamiento de las búsquedas por voz, etc. Nuevos usos que permiten evolucionar las interacciones con el cliente a un nivel más avanzado a lo largo de todo el customer journey y mejorar la experiencia de cliente. Una oportunidad para crear el ecosistema omnicanal, verdaderamente efectivo, que demanda el consumidor actual.

 

Conclusión

Cada vez existen más organizaciones y emprendedores ahí fuera que encuentran nuevas maneras de aprovechar el Procesamiento del Lenguaje Natural para explorar los horizontes dentro de sus respectivos sectores. Ya hemos visto que el PLN tiene el potencial de ayudarnos a descubrir no solo los insights que mueven al consumidor y de transformar la experiencia de cliente, sino también a abrir las puertas hacia una estrategia de datos realmente madura y eficiente. Lo que supone una revolución en toda regla.

 

Jorge González

Responsable de Marketing en DataCentric

La Base de Datos perfecta o cómo hacer Data Crawling

Cómo descargar datos de forma masiva de internet

¿POR QUÉ DESCARGAMOS INTERNET?

En cierta ocasión, leí que una empresa se anunciaba con el siguiente lema “La mejor base de datos es internet” En su momento, hace unos 5 años, la frase sonaba fenomenal, pero hacerlo realidad era francamente difícil y era consciente de que quien lo decía no tenía ni idea de su complejidad técnica.

Con los años mi tesis se demostró. Aquello que sonaba fenomenal a nivel comercial era, a nivel técnico, un invento muy básico para aproximarse a los datos de internet.

Por otro lado, desde hace años pienso que la mejor información sobre una empresa la puedes encontrar directamente en su página web. Ahí las empresas describen quiénes son, qué hacen o donde están.

Desde hace años, trabajo con data crawling y data scraping, creando bases de datos de empresas y conozco las virtudes y los defectos de los depósitos de cuentas, de los códigos de actividad económica y todos los enfoques tradicionales para generar bases de datos y conocimiento sobre empresas.

 

SENTEMOS LAS BASES

Aunque suene muy crítico, el 95% de las empresas que dicen hacer crawling (descargar datos de internet) trabajan con softwares comerciales de scraping. Esto consiste en entrar en una página web y descargar una serie de datos estructurados contenidos dentro del mismo dominio o URL. Por ejemplo, entrar en la página web de la administración y descargar las direcciones y teléfonos de los ayuntamientos.

Crawling

 

De estos actores, una parte importante se dedica a este mismo trabajo sobre páginas web con derechos de propiedad intelectual; por lo que además de tener poca complejidad técnica, en muchos casos es una actividad de dudosa legalidad. Existe toda una industria de empresas que descargan perfiles de Linkedin u hoteles de Booking.

Crawling, del inglés gatear, consiste en la descarga de información de forma masiva para posteriormente indexar el contenido de un conjunto de páginas web no estructuradas. Hacer esto tiene una elevadísima complicación técnica y no existen softwares comerciales, más allá de las herramientas de Google que lo realicen de un modo profesional. De hecho, una parte muy importante de la gente que de verdad hace crawling acude a Common Crawl (un proyecto donde actores comparten una base de datos con índice de una versión de internet relativamente actual y exhaustiva) o a Google.

Podríamos decir que, en el mundo de internet y datos, Google y Amazon son quienes llevan la delantera, pero aquí empieza la parte bonita de la historia.

Cuando empezamos a descargar internet comenzamos como todo el mundo: primero hicimos scraping con un software básico, luego fuimos a Common Crawl y a Google hasta que, fruto de nuestra curiosidad, llegamos a una serie de proyectos de software libre que surgieron con Lucene en la década de los 80 y que han evolucionado hasta nuestros días.

Si el tiempo fuera gratis, todo lo que os vamos a contar es casi gratis. Solo tiene un pequeño coste en Amazon Web Services.

 

VER CÓDIGO FUENTE

 

Casi todos los navegadores tienen una función para ver el código fuente de una página web.

Nuestro objetivo es descargar toda esta información y guardar dicho contenido de modo masivo en una base de datos.

Y aquí empieza nuestra aventura…

Las páginas web tienen contenidos estructurados orientados a los navegadores, como pueden ser:

  • Título: La pestaña con el nombre de la web.
  • Descripción: Las líneas que aparecen en la lista de resultados de una búsqueda en un navegador debajo del título.
  • Keywords: Las palabras clave a las que queremos dar un peso específico para que nos encuentren.

 

Descargar esta información es relativamente sencillo, pero resulta que no todas las páginas tienen estos datos informados o que dentro de un dominio los tiene informados de distinta manera. Por ejemplo, muchas webs tienen una versión en inglés y otra en español o keywords distintas para cada sección.

Luego está todo el contenido no estructurado. La página web de una peluquería de barrio no tiene absolutamente nada que ver con la de la Universidad Complutense de Madrid.

¿Cuál es la parte más relevante del contenido? ¿Cómo descargar la web de una universidad y no tumbar la web de la peluquería? ¿Qué ocurre cuando alguien utiliza un juego de caracteres no estándar, por ejemplo, el japonés?

Tras encontrar la tecnología básica para descargar datos, tuvimos que aprender a parametrizar, equilibrar y realizar cientos de pruebas de concepto para comprobar si realmente estábamos descargando la información que queríamos dentro de una página web.

Para que esto funcionara de modo correcto tuvimos que definir distintas tipologías de webs:

  1. Webs donde hay que hacer scraping para extraer una información precisa (una franquicia o un ministerio).
  2. Webs que son centros de beneficio para las empresas y que normalmente tiene protegida su descarga (Facebook, LinkedIn, etc)
  3. Parking de dominios.
  4. Webs de empresas (con una estructura relativamente estándar: inicio, quiénes somos, Contacto, Servicios, etc)
  5. Páginas web con contenido para adultos o no relevante.
  6. Páginas sin interés como blogs personales.

Por otro lado, un porcentaje de las webs se caen periódicamente, por lo que hay que rastrearlas constantemente por que puede que un día estén en pie y otro tumbadas.

¡Estábamos construyendo una auténtica “araña” para crawlear de verdad!

 

PERO, ¿QUÉ ES INTERNET?

 

Esto es una pregunta cuasi filosófica. Hace muchos años intentamos salir a internet a nivel de

  1. Aquello no terminó bien ya que empezábamos a entrar en páginas no indexadas

pertenecientes al Dark Internet. El internet que conocemos es un protocolo de

comunicaciones (actualmente estamos en HTTP/2) donde las IPs son, por decirlo de modo

sencillo, los “números de teléfono” de internet o las “matrículas” de una web.

 

 

 

 

Los servidores DNS son los encargados de convertir estas IPs en una URL fácilmente recordable.

 

¿Cómo conseguimos una base de datos con todas las urls donde mandar a nuestra araña?

Nuestra araña es ciega y tenemos que darle un camino. Hemos probado a mandarla a nivel de IP y no es sostenible, y seguir los links entre páginas no garantiza una descarga exhaustiva, así que la única solución era crear una super base de datos con todas las URLs y categorizarlas según la tipología anterior.

 

Finalmente, la conclusión a la que llegué es que convertir internet en una base de datos es complicadísimo porque nunca sabes qué parte de internet tienes y cuál no.

 

 

Y AHORA, ¿QUÉ HACEMOS CON TODO ESTO?

 

 

Un día teníamos una araña descargando internet de modo óptimo y guardando los datos en un sistema de ficheros básico no explotables/accesible. Podíamos consultar una a una las webs para ver las descargas, pero para entender el capítulo anterior queríamos tener una visión global de qué estábamos haciendo y necesitábamos alguna base de datos que permitiera guardar y consultar esta información de modo masivo. Ni Oracle ni Postgree soportaban este uso.

Probamos sistemas de BigData como Kassandra, SolR o Elastic Search y finalmente optamos por combinar distintas herramientas: SolR y Elastic Search para indexado y consulta, y Oracle para la gestión del SmallData y algoritmia precisa a nivel de token.

 

Así, podíamos tener distintos módulos:

 

  1. Una base de datos que guardaba los itinerarios de la araña. Básicamente un repertorio de URLs con mucha información asociada: Tipología de la web, fecha de la última descarga, resultado y un montón de datos estadísticos como cuántos enlaces tiene, tecnología que utiliza, número de secciones, idiomas que maneja, etc.

 

  1. Una gran base de datos o índice con la última versión de la información descargada y un histórico de cambios.

 

  1. Una base de datos relación donde poder guardar las direcciones, teléfonos, horarios de apertura y todo aquel contenido que podemos estructurar.

 

Este último punto es la clave de todo. Internet es un montón de información no estructurada y nuestro objetivo es estructurarlo para poder accionarlo como una base de datos. Aquí hemos utilizado mucha tecnología y lenguajes como Python o R para optimizar procesos. Aunque el equipo hacía auténticas maravillas con expresiones regulares en PLSQL corriendo sobre campos Clob en Oracle.

 

 

 

 

 

 

ESTO FUNCIONA PERO ES INGOBERNABLE

 

 

Ahora que funcionaban todas las piezas tocaba engarzar los procesos y automatizarlos.

Teníamos claros los instrumentos de nuestra orquesta, todos sobaban muy bien y, como decía un compañero, hacíamos las mejores jam sessions pero queríamos trabajar como una orquesta sinfónica  para poder ofrecer el producto que queríamos.

 

Hemos dedicado meses o incluso años a diseñar flujos de trabajo, optimizar procesos y automatizar tareas para invertir el mínimo tiempo posible a optimizar las descargas y la algoritmia.

 

 

 AHORA SOMOS EXPERTOS

 

 

Tras muchas horas de jam sessions hemos afinado nuestras técnicas de crawling y ahora tocamos con soltura los clásicos. Ahora sí que podemos decir que la mejor base de datos es internet. Además, casualmente, el core de Datacentric es el suministro de datos.

 

El primer uso que hemos dado a esta tecnología es alimentar nuestras propias bases de datos con atributos como URL de un establecimiento, teléfonos u horarios de apertura.

 

Luego, hemos creado bases de datos de segmentos exclusivos. Hicimos un proyecto para identificar tiendas online/ecommerce a través de técnicas como un scooring que dan peso a palabras como Carrito de la compra o Finalizar pedido. También hemos identificado empresas de alquileres…

 

También hemos buscado gemelos a los mejores clientes de nuestros clientes, que en cierto sentido es una derivada de lo anterior. Por ejemplo, una empresa de reparto de paquetería que trabaja con ecommerce nos da su base de datos de clientes y descubrimos que las palabras más discriminantes de las webs de sus clientes son carrito de la compra o finalizar pedido.

El papel del blockchain en el Database Marketing

imágen representativa del papel del blockchain en el Database Marketing imágen representativa

El papel del blockchain en el Database Marketing

Desde un punto de vista técnico, el blockchain es, en sí mismo, una base de datos: no de ficheros pero sí de transacciones o hashes de transacciones. La combinación de criptografía, matemáticas y el poder de la comunidad, permiten a este sistema acordar la veracidad de la información que contiene de una manera descentralizada; lo que convierte dicha información en inmutable. Las expectativas en torno al blockchain son muchas, en tanto que ha dado un impulso fortísimo al desarrollo de iniciativas orientadas a desintermediar modelos y procesos de negocio.

El mundo de los datos no vive ajeno, ni mucho menos, a la disrupción que puede suponer el Blockchain y, a día de hoy, se han iniciado proyectos y pilotos para aprovechar sus ventajas en relación a generar entornos más transparentes, confiables y  a la eliminación de intermediarios.  En DataCentric nos encontramos inmersos en un ambicioso proyecto al respecto que pronto dará sus frutos.

Toda la verdad sobre el Blockchain

la verdad sobre el blockchainEn un momento en el que media Europa habla con temor sobre el nuevo GDPR,  nos gustaría poner la atención sobre uno de los muchos aspectos positivos que nosotros encontramos en él, en tanto que otorga al propietario último de los datos el control de los mismos. Teniendo en cuenta este nuevo ecosistema legal y las dificultades aparecidas para desarrollar protocolos de validación que permitan cumplir con las nuevas obligaciones comunitarias, se abre una vía al desarrollo de las bases de datos distribuidas. Es hora de desterrar el pánico a los cambios y pensar que si la calidad de los datos y la transparencia en su uso mejoran, ganamos todos.

Proyectos Blockchain en desarrollo

En este momento de ebullición de proyectos, queremos poner el acento sobre algunas iniciativas interesantes y que ya han alcanzado un nivel considerable de desarrollo.

  • En el ámbito del data monetization, que consiste en remunerar a los propios titulares individuales por el uso de sus datos personales, destaca Wibson, que, bajo el lema “plata por data”, ofrece el pago con wibcoins a los usuarios de la plataforma por ceder su información personal.
  • Si hablamos de gestión de consentimientos, es interesante Chandago, que garantiza la trazabilidad y la prueba de obtención de un consentimiento, a través del almacenaje de esa transacción en blockchain.
  • En lo que respecta a gestión de identidades, merece mención el proyecto de Medium que permite verificar identidades o perfiles, ante un tercero, de un usuario que no quiere desvelar sus datos personales.
  • La publicidad digital tiene en la validación de sus resultados un problema importante, debido principalmente a la falta de transparencia en el papel de los intermediarios: ¿qué valor aportan?, ¿qué beneficio consiguen de cada euro invertido?. Con la plataforma Amino Payments que ya usan marcas como AT&T o Bayer para sus campañas, la visibilidad permite recuperar la confianza.

En España, iniciativas como Alastria buscan promover la creación de una infraestructura semipública de blockchain/DLT, que sera la base sobre la que construir futuros proyectos innovadores sobre esta tecnología.

A nivel usuario, si queréis empezar a descubrir su poder, os recomiendo la descarga y uso del navegador web Brave, que devuelve al navegante el poder configurar de una manera potente su seguridad y privacidad.

Después de ver estas iniciativas descentralizadoras, podríamos decir que la revolución en curso no es la de los datos, sino la los propietarios de dichos datos por exigir transparencia en su uso y reclamar para si, al menos, parte de los beneficios que generen.

Gerardo Raído

Chief Digital Officer

¿Qué es Big Data? Explicación para Dummies

¿Qué es Big Data? Explicación para Dummies

¿Qué es Big Data? Explicación para Dummies

¿Recordáis aquellos programas que se dedicaban a rebuscar en la basura de los famosos?

Pues básicamente, eso es lo que hace el Big Data: perfilar y obtener conocimiento sobre las personas en base al rastro de datos que dejan en forma de “basura” digital cada vez que navegan o interactúan con las marcas. Y si en el mundo físico cada vez acumulamos más basura; en nuestra actividad online esos desperdicios se multiplican exponencialmente; en forma de datos estructurados, y sobre todo en  metadatos, que ahora el Big Data nos permite procesar.

¿Qué ha cambiado para que ahora hablemos de la revolución del Big Data?

De algún modo, no es para tanto. La realidad es que llevamos décadas trabajando datos con objetivos de negocio y Business Intelligence, la novedad que aporta el Big Data, debido a nuevas herramientas y metodologías, es que este procesamiento de datos se puede hacer sobre un mayor Volumen de información; a una mayor Velocidad (en muchos caso online) y sobre una gran Variedad de Datos. Estas serían las 3 V primigenias del Big Data, han sido completadas por nuevos “gurus” con otras como Veracidad y Valor. Que son atributos, a mi modo de ver,  no necesarios para hablar de Big Data, sino deseables; como lo serían en la política o en la historia.

Y todo esto ¿Para qué?

De igual modo, es en la aplicación práctica donde se le debe dar sentido a cualquier proyecto de Big Data, sino simplemente será un gasto en tecnología y energía. Hay ejemplos prácticos de Big Data fabulosos. Aplicaciones de Big Data en forma de ahorro costes, como los millones que se ha ahorrado Ford analizando el punto de saturación de su publicidad. En forma de mejor servicio, como Netflix que acierta mucho más que tus mejores amigos sobre que nuevas series o películas te van a gustar. Hasta aplicaciones de Big Data en proyectos de Smart Cities, como Vancouver que ha conseguido reducir los robos en un 24% basando su despliegue policial en un análisis de datos criminales.

Céntrate en el Smart Data más que en el Big Data

En cualquier caso, la mayor parte de los datos que podremos acumular no nos servirán para nada, pero a través del análisis y su corelación con datos comportamentales podremos descubrir algunas gemas ocultas entre toda esta basura. Estas gemas para nosotros serán los insights, información  que nos corelaciona el comportamiento de nuestros usuario con datos que nos permitirán predecir su comportamiento y personalizar nuestros servicios para cada usuario.

A nivel práctico, mi consejo es no ponerse a correr sin saber gatear. Es preferible comenzar por objetivos concretos que sean mejorables y poner en marcha pruebas de concepto que nos permitan identificar problemáticas y áreas de mejora. Una apuesta estratégica e inversión de un proyecto de Big Data debe centrarse, no en la tecnología, ni en la acumulación de datos, sino en la resolución de una problemática de negocio o en la mejora del customer journey para nuestros usuarios.

Descubre cómo Netflix ha superado a Disney en valor bursatil, gracias a convertirse en una data driven company.

Gerardo Raído

Chief Digital Officer en DataCentric

Por qué una migración es el mejor momento para transformar tu modelo de datos (y cómo hacerlo)

Por qué una migración es el mejor momento para transformar tu modelo de datos (y cómo hacerlo)

Por qué una migración es el mejor momento para transformar tu modelo de datos (y cómo hacerlo)

  • El “renovarse o morir” debe ser el mantra por el que se guíe toda migración; no solo por el sistema, también por la arquitectura
  • Una migración es una adaptación tanto a una nueva tecnología como a los objetivos de negocio presente y futuros de la empresa

Las migraciones son uno de los mayores retos de todos los departamentos de IT, BI o Big Data de cualquier empresa. Procesos que se alargan en el tiempo y consumen energías y jornadas como locos. Por eso es tan importante plantearlos con una solidez que asegure cada cimiento y etapa lo suficiente como para no volver atrás constantemente y terminar cerrando el proyecto por inercia.

La migración de datos hasta ahora

Tienes clara tu arquitectura de datos, las tablas y sus relaciones, cada uno de los campos y sus formatos y has estudiado a fondo el nuevo sistema. El proceso de extracción está diseñado y el de volcado casi completo a falta de las pinceladas típicas del directo. Prácticamente se tiene luz verde para la automatización… ¿y para que quede todo igual?

Muchas empresas suelen realizar sus migraciones pensando que las nuevas o mejoradas infraestructuras solucionarán “los errores del pasado”, hasta que se dan cuenta que los fantasmas siempre vuelven.

Puede ser porque en aras de una mayor rapidez no se ha realizado un proceso previo de data cleaning; otras, porque se incorporan fuentes de información a medio camino y volvemos a terminar con tablas e información duplicadas…


El mayor de los problemas, especialmente a futuro, casi siempre viene porque no se ha adaptado el modelo de datos a los objetivos de negocio actuales.


El mercado cambia, tu empresa cambia… el modelo de datos también debe cambiar

Hasta ahora, no era tan común que los modelos de datos de una empresa debieran sufrir cambios. Los mercados eran mucho más estáticos y las posibilidades del Big Data eran poco más que teorías. No había una necesidad real de incorporar nuevas fuentes de información constantemente.

Por eso en el momento de una migración, lo más probable es que el modelo de datos esté obsoleto y desfasado, debido a que fue diseñado previo a la introducción de estrategias de Big Data en la empresa. Por esto, una migración es el mejor momento para transformar el modelo de datos.

datacentric

Cómo alinear el nuevo modelo de datos a los objetivos de negocio

El proceso de migración es algo que ya controlas y las particularidades del mismo quedan entre tu equipo y el nuevo sistema – ¡aunque nuestros expertos con más de 20 años de experiencia en la gestión de Datos pueden echaros un cable! -. Este pequeño step-by-step, es un proceso previo (y necesario) que debes tener en cuenta para asegurarte de que maximizas la utilidad de tu arquitectura de datos:

  1. Involucra a la directiva de la empresa

Es primordial que consigas sentarles en una mesa y debatáis largo y tendido sobre el rumbo de la empresa, los planes de futuro y las necesidades de información de cada departamento.

Lo primero será dar una formación extensiva a la directiva sobre el proceso y las posibilidades del Big Data para la empresa hoy y mañana. Tu objetivo será involucrarles en el proyecto y conseguir que desaten su imaginación de cara al siguiente paso.

Tras la formación y motivación, tocará que ellos te expliquen los pormenores que desconozcas de la empresa. Con ello, conseguirás que empiecen a asociar lo aprendido anteriormente con su plan de negocio. El último paso de este punto será una sesión de brainstorming en toda regla en la que se propongan métricas, fuentes de información, datos y modelos que puedan activarse en un futuro.

  1. Define los nuevos KPIs que determinarán el rumbo de tu empresa

Filtra el oro de la arena del anterior brainstorming y extrae los datos que definirán la Master de tu nuevo modelo de datos y sus relacionales. Deja volar la imaginación y piensa que las posibilidades son infinitas.

  1. Establece las nuevas fuentes de información para conectarte a ellas

Identifica las fuentes de información en las que encontrarás las métricas anteriores: de los diferentes sistemas de tu empresa, de nuevos sistemas que puedas crear, de recopilatorios públicos, de business listings, DMPs servicios de Data Licensing… 

  1. Crea previamente los modelos analíticos que solicitará cada área de tu empresa

Pon a prueba tus necesidades de información creando los principales modelos analíticos que necesitará tu empresa ¿Te has dejado algún dato?

  1. Define la nueva Master Data teniendo todo lo anterior en cuenta

El verdadero problema de las empresas es dar sentido a la gran cantidad de datos que pueden recabar de cientos de formas diferentes. Esa estructuración es lo que se define como Master Data Management y es el primer paso en el Data Governance. El primer paso para que tu empresa pueda empezar a utilizar el Big Data,

  1. Let’s go!

Con estas pautas previas al proceso de migración de tu empresa ya tienes todo lo necesario para acometer esta tarea poco más que titánica y, si decides externalizar parte del proyecto (o todo al completo), en DataCentric encontrarás un partner de confianza.