Data Factory o cómo crear nuevos datos a partir de otros

A la hora de generar datos de valor para nuestro negocio podemos distinguir 2 tipos de datos:

  1. Los datos que tienen valor para mi negocio por sí mismos
  2. Los datos que necesitan un tratamiento de normalización, y/o de correlación con otros datos para poder ser considerados información de valor

Esta activación de los datos, o su transformación para que las áreas de negocio mejoren sus estrategias define el concepto de “Factory”.

Una fábrica, traducción del Inglés “Factory”, define un establecimiento dotado de maquinaria, herramienta e instalaciones necesarias para la fabricación de objetos, obtención de determinados productos o transformación industrial de una fuente de energía. Adaptando esta definición de la RAE al mundo digital, podemos hacer el siguiente paralelismo:

Maquinaria e instalaciones: Big data y potencia de tratamiento

Herramientas: Procesos, algoritmia e inteligencia artificial

transformar datos en valor

Los procesos implicados en dar valor al dato son los siguientes:

  1. Identificación de los datos a tratar
  2. Automatización de la extracción de los datos
  3. Tratamiento básico de los datos (normalización, deduplicación)
  4. Etiquetado de los datos (o creación de diccionario y taxonomía)
  5. Opcional: creación de un gráfico de conocimiento o knowledge graph
  6. Algoritmia simple o compleja aplicada a los datos (AI/ML)
  7. Integración de los resultados para su consumo: Publicaciones, enriquecimiento de otros sistemas (BI, CRM…)
  8. Verificación de la integridad de la información

Lo que cada uno busca con el uso inteligente de los datos es la informacion, a veces oculta, detrás de estos datos. 

Una vez descubierta la información hay que saber activarla a nivel de negocio. Eso se traduce en casos de uso, proyectos, y/o servicios consumiendo estos datos: KYC & KYB (conocer a tus clientes y potenciales, a tus competidores, a tus proveedores), estudios de mercado, preparación de campañas, medición de impactos, gestión del fraude, análisis de cobertura geográfica de servicios, mejora de modelos matemáticos predictivos..etc a continuación veremos algunos ejemplos.

Certificado de Eficiencia Energética (CEE)

Debido a la creciente sensibilización de clientes, entidades bancarias y aseguradoras ante el cambio climático y el correcto cumplimiento de sus obligaciones en materia de responsabilidad social corporativa, surge la necesidad de disponer de manera inminente de los Certificado de Eficiencia Energética (CEE) de su cartera de inmuebles o de los inmuebles asociados a sus servicios.

Actualmente menos del 20% de todo el parque de inmuebles de España, tiene un CEE oficial. En Deyde DataCentric se ha desarrollado un sistema que permite extraer las etiquetas reales de las diferentes fuentes que las publican. Y para los inmuebles sin esta certificación oficial, se han desarrollado modelos matemáticos que, alimentados por datos de certificaciones reales de TINSA y de los testigos de las tasaciones correspondientes, permite estimar las letras y números de emisiones y consumos.

Riesgos medioambientales

La creciente aparición de fenómenos naturales extremos como consecuencia del cambio climático genera la necesidad de controlar al máximo el riesgo de los activos asegurados

Para ello se han generado una serie de capas cartográficas con información sobre la existencia de riesgos naturales para todo el territorio nacional, las cuales serán incorporadas a nivel de registro. Se tienen 3 capas distintas correspondientes a:

  • Riesgo por inundación (fluvial y marítima)
  • Riesgo de desertificación.
  • Riesgo sísmico.

En cada una de estas capas además de los indicadores propios asociados a cada tipo de riesgo se han construido varios indicadores adicionales, el indicador frecuencia, que da información sobre la probabilidad de que se produzca el evento correspondiente y el indicador magnitud, que informa sobre el daño esperado en caso de que éste suceda.

Madurez Digital

La madurez digital de una compañía no es un dato que exista como tal en ninguna fuente de información, pero puede ser una variable importante a la hora de comercializar productos tecnológicos

En este caso partimos de la huella digital de las empresas, que corresponde a toda la información que se puede obtener de sus dominios y páginas web.

Tras asociar de forma segura una empresa con sus dominios en Deyde DataCentric aplicamos una serie de procesos basados en NER (Name Entity Recognition) y NLP (Natural language processing) para sacar la información de estos datos brutos.

A través de diferentes indicadores que extraemos de esta huella digital, hemos creado un indicador de Madurez digital  de estas empresas y su evolución con el tiempo.

Valor de reconstrucción de una vivienda

Uno de los principales parámetros para estimar el valor de una vivienda es el valor de reconstrucción del inmueble. El valor se obtiene multiplicando los metros cuadrados de superficie construida por el valor promedio de reconstrucción de una vivienda de las mismas características. Es decir que no se trata sólo de metros cuadrados, sino que influye el tipo de vivienda, materiales de construcción predominantes y zona geográfica.

El sector bancario, por ejemplo, necesita un valor lo más cercano a la realidad para tener una estimación fiable de un inmueble cuando se ejecuta una hipoteca, y el sector de las aseguradoras lo usan para el cálculo de las primas.

Vemos que en ambos casos hacen faltan procesos que permitan extraer esos datos normalizarlos y transformarlos en información útil para las áreas de negocio. Este conjunto de procesos se tendrá que ejecutar de forma cíclica con herramientas y metodologías que permitan asegurar una información precisa y al día. 

 

Alineación de la estrategia del dato en la empresa

Muchas veces también las áreas de negocio saben qué información podría mejorar sus tomas de decisiones, pero no saben dónde estarían los datos que permitan crear esta información. 

La estrategia del dato en las áreas de negocio

El Data factory es una responsabilidad conjunta de varias áreas dentro de la compañía que deben alinear sus objetivos para dar coherencia y sentido a la estrategia del dato.

 

  • Las áreas de negocio por: 

-> exponer sus estrategias de negocio

-> adaptarse al cambio

 

  • Las áreas de sistemas y operaciones por: 

-> poner a disposición de todos, los medios necesarios para el manejo de los datos durante todo el ciclo de vida

 

  • Las áreas de analítica y analítica avanzada por: 

-> inventar y exponer soluciones adaptadas a cada uno. 

 

En ese sentido con la solución end to end Pyramid, en Deyde DataCentric ayudamos en la activación de los datos, enriqueciéndolos con información de valor permitiendo a las diferentes áreas de negocio a tener una visión “data oriented”, para que los diferentes equipos y responsables de su empresa tomen mejores decisiones en menos tiempo.

En Pyramid se encuentran un conjunto de datos únicos y ya tratados que han sido convertidos en información de valor.

  • Business (B2B): Universo de empresas, empresarios individuales y organismos junto con su información mercantil asociada
  • Context (B2C): Indicadores sociodemográficos, económicos, inmobiliarios y meteorológicos que cualifican el entorno de una localización.
  • Geo: Capas cartográficas e información física asociada que permiten describir, dividir y caracterizar geográficamente el territorio español.
  • Digital: Datos web y audiencias con origen online, huella digital de las empresas a través del crawling semanal de mas de 250 MM de paginas Webs.

Las ventajas de esta solución para integrar este consumo en ciclos normalizados, tal y como se entiende en los conceptos de DataMesh o DataFabric, son: 

  • El acceso simple y directo para consultas tipo SQL
  •  Las APIs genéricas de consumos unitario o masivo
  •  La creación de scripts a medidas (Python, R…)
  • El conector con SALESFORCES y otras herramientas del mercado

Así se crea una dinámica ágil del uso de los datos permitiendo su integración en las metodologías tipo DataOps, o MLOps.

 

Olivier Lefauconnier

Business Development Manager