Metodología para construir soluciones de datos que resuelvan problemas de negocio

Metodología para construir soluciones de datos que resuelvan problemas de negocio

La mayor parte de las soluciones de datos fracasan y esto se debe a diversos factores, y el más común es basarlo todo en la contratación de una determinada tecnología. En realidad, ni una herramienta Big Data ni ninguna algoritmia van a resolver problemas mágicamente o se van a poder implementar en digamos un modelo “plug & go”. Requiere atender a diversas áreas, planificar nuestras acciones y en muchos casos estar dispuestos a iterar.

Para qué nuestras probabilidades de éxito se magnifiquen, he preparado un checklist de elementos a los que atender en nuestra planificación.

Pasos para implantar soluciones data driven orientadas a negocio:

1. Hipótesis de solución de un problema bien definido.

A la hora de elegir un problema es importante escoger problemas de negocio concretos y de alto impacto, con aliados de negocio afectados, y donde se puede demostrar un retorno de la inversión rápido. Es decir, es importante buscar victorias rápidas, quick wins! Pues se va a necesitar la colaboración y datos de unidades de negocio… y en las empresas hay mucha tendencia a no compartir datos.

Por ejemplo, mi problema puede ser no tener una visión unificada de mis clientes y como solución plantear la implantación de un CRM. Pero eso va a tener mucho desgaste de implantación, cambios culturales y tardaré probablemente más de 2 años hasta poder empezar a recoger beneficios. Es preferible empezar con problemáticas más concretas: reducir el churn, mejorar la respuesta de mis campañas de telemarketing o un modelo de mejora de las predicciones de demanda, etc. Y a partir de ahí conseguir medallas pronto antes de atreverme con problemáticas más complejas ya con aliados.

El problema debe estar bien definido. Esto es, identificar quién tiene el problema (unidades, departamento, clientes), y una evaluación de su impacto. Causas del problema e hipótesis de solución con datos.

Si mi objetivo es mejorar la predicción de demanda de equipos de aire acondicionado, pues valoro si con un modelo de datos puedo acertar en cuanto el mercado me va a demandar para evitar stocks y quedarme corto en ventas o largo en producto. En mi evaluación, diré que con mi modelo puedo reducir mis costes por bajar mis stocks o vender más en periodos de éxito por no quedarme sin stocks de productos de gran demanda temporal. Y mucho mejor si estos objetivos los puedo cifrar, p. ej. reducción de stock en un 20%.

2. Selección de datos que me ayudarían a en mi modelo.

En este paso analizaremos qué datos necesitamos para que nuestro modelo funcione. Para ello, debo hacer un mapeo de datos necesarios para nuestra solución, diferenciando entre si esos datos están en mi organización (internos), en el mercado (externos) y si son fácilmente tratables o no. Por ejemplo, hoy por hoy videos, logs o fotografía se pueden transformar en datos pero con un gran esfuerzo de tratamiento.

Mapeo de datos necesarios para la solución

La información interna es la más fácil y barata. Por eso debemos empezar analizando qué fuentes de datos hay en mi empresa, quién los tiene y cómo se usan esos datos actualmente. Requiere preguntar mucho a las distintas unidades de negocio (IT, Finanzas, marketing…).

Seguramente con solo nuestros datos no nos llegue, sobre todo cuando buscamos respuestas de mercado y no solo de nuestros clientes. Gran parte de esta información que necesitemos pueden ser datos abiertos. Empresas como Deyde DataCentric os pueden ayudar a complementar y ofreceros todo un catálogo de datos completos. En el ejemplo de la predicción de demanda de equipos de aire acondicionado, datos como ventas históricas por fechas, calendarios de vacaciones, datos catastrales, datos de otros proveedores de la cadena de suministro y por supuestos datos meteorológicos nos podrían ayudar en nuestro modelo.

3. Limpieza y preparación de los datos para su análisis

Un tema importante son los procesos de calidad de datos para limpiar, validar y relacionar los distintos datasets. Pues con malos datos las respuestas de cualquier modelo serán erróneas.

En muchos casos en esta parte se va gran muchos de nuestros esfuerzos. En concreto más del 50% del tiempo de media. Por ello contar con soluciones profesionales que te permitan reducir tus esfuerzos como la nuestra de MyDataQ.

4. Elección del módelo analítico que puedo usar.

Según si lo que se quiere es dar respuesta a lo que ha pasado o predecir el futuro, la complejidad del módelo y su facilidad de aplicación se complicara.

Los data scientists y analistas te aconsejarán sobre el modelo estadístico o algoritmo más optimo.

En cualquier caso, en mi opinión no conviene enamorarse de “hypes”. No es obligado usar modelos sofisticados como Redes neuronales, gradial boosting, random forest. A veces es mejor es usar modelos estadísticos más sencillos. Es mejor un modelo sencillo que aporte una explicación de qué ocurre o me permita mejorar mi situación actual, que una caja negra que nos predice el futuro pero sin ningún entendimiento de que en se basa.

5. KPIs para evaluar la consecución de nuestras hipótesis y plan de testing.

Necesitaré métricas para evaluar la consecución de nuestras hipótesis. KPIs qué nos respondan a las hipótesis planteadas para saber cómo vamos. Ojo, partimos hipótesis a contrastar, hay que estar preparado para iterar. Pues puede funcionar o no, pero a lo mejor también descubrimos nuevos beneficios inesperados.

Siempre hay una oportunidad de testar. Ya sean test A/B o miltivariantes, e idealmente hacerlo siempre contra un grupo de control.

6. Recursos necesarios: RRHH, tecnología…

En mi planificación debe constar una dotación de recursos. En la parte de equipos, debemos identificar si no tenemos equipos preparados para interpretar data sets complejos, con lo cual en algunos casos se hace necesaria la contratación de personal competente en el análisis estadístico y matemático de datos. En otros casos se necesitará la ayuda de empresas externas que nos ayuden en la dirección de estos proyectos de análisis de datos o en la ejecución de trabajos específicos.

Con todo el modelo de datos definido en los puntos anteriores debemos identificar la solución tecnológica que permita correr a nuestro modelo sin problemas. Idealmente si podemos reusar una tecnología que ya tenemos en la casa mejor. Sino, seleccionar una tecnología que sea integrable con lo que tenemos vía API.

De todos modos, como recomendación general no nos dejemos deslumbrar por funcionalidades mágicas. La tecnología de base de datos debe ser un medio y no un fin. Es mejor un Excel con buenos datos y procesos que no una plataforma potentísima con datos no coherentes. Es mejor un modelo de analítica de datos con datos completos y veraces, que no cualquier modelo complicadísimo con datos erróneos.

Es decir, el proceso debe empezar por un caso bien definido de negocio, después seleccionar los algoritmos analíticos a aplicar y sólo al final ver qué soporte tecnológico se debe desarrollar.

7. Planificación de acciones para asegurar su puesta en marcha, monitorización e integración con las soluciones de la empresa.

Ahora es momento de llevar a la vida a nuestra solución. Se deben definir las acciones para que esto ocurra y estas deben estar lideradas por nosotros mismos para asegurar que nuestra solución se usa por las unidades de negocio que deben hacerlo. Pues sino se corre el peligro de que la misma se quede olvidada en un cajón.

También deberemos asegurar que la solución se integra bien con los sistemas existentes y monitorizar la solución una vez que está en producción para detectar y solucionar posibles problemas.

8. Medición, aprendizaje y compartición de lo aprendido.

Por último, todo lo que hayamos hecho lo debemos medir para ver si funciona o no y llegará el momento de sacar conclusiones y compartir los resultados y aprendizajes con todas las áreas relacionadas Marketing, IT o experiencia de clientes.

Espero que esta metodología te ayude en el éxito de tus proyectos. Si lo deseas también puede visitar el video de mi webinar donde repasaba estos 8 pasos.

Ver Webinar Metodología para construir soluciones de datos que resuelvan problemas de negocio

Gerardo Raído

Chief Digital Officer

DataCentric

http://www.linkedin.com/in/gerardoraido

http://twitter.com/gerardoraido

Retos en la digitalización del sector financiero en España

La digitalización del sector financiero en España se encuentra a un nivel muy avanzado, aunque no está exenta de afrontar retos puntuales.

La banca española es la segunda mejor digitalizada del mundo, pero el crecimiento imparable de los usuarios de servicios financieros online implica cumplir con diversas y cambiantes expectativas.

El incremento de clientes online acelera la digitalización del sector financiero

Ya sabemos que el coronavirus aceleró los procesos de transformación digital en curso en todos los sectores. Sólo que en el ámbito bancario y financiero el ritmo de incorporación tecnológica continúa en crecimiento, dadas las expectativas de los nuevos clientes. Estudios recientes refieren que 55% de usuarios bancarios incrementará la interacción virtual con sus entidades mediante aplicaciones. Mientras un 87% de quienes aumentaron el uso de banca digital en los meses críticos de la pandemia asegura que seguirá empleando dicho canal al mismo nivel. Asimismo, un 44% quiere efectuar operaciones a través de aplicaciones móviles y WebApps. Y un 37% aspira a realizar desde el móvil todas sus operaciones financieras y bancarias.

El desarrollo de estas aplicaciones orienta a la innovación mediante la participación en aceleradoras de startups. Incluso, desde hace años, muchos bancos también están adquiriendo proyectos de emprendimiento dedicados al desarrollo de soluciones digitales para el sector que analizamos. Esto explica por qué España es el sexto mayor ecosistema de fintech a nivel mundial. En nuestro país funcionan más de 400 startups/fintech; 75% de ellas trabajan en asociación con organizaciones financieras y bancarias tradicionales.

De esta forma, se establece una sinergia entre el sector financiero y bancario tradicional y los emprendimientos. Los primeros aprovechan la agilidad de las fintech en el desarrollo de nuevas tecnologías y en el testing de nuevos modelos de negocio. Por su parte, los segundos también se sirven de las fortalezas del sector tradicional: el know how del negocio, la confianza, la capacidad financiera y un porfolio de clientes que las startups no pueden alcanzar en el corto plazo. Todo ello crea condiciones de eficiencia y flexibilidad que permiten mejorar la experiencia de usuario y satisfacer sus expectativas actuales y futuras.

PSD2, bigtech y open banking, la otra cara de las fintech

Sin quitarle mérito a su intención de agilizar su transformación digital, la banca tradicional tiene otra razón para interactuar con startups. La incorporación de nuevos players nativos digitales al mercado financiero, respaldados por las bigtech, tienen mayor capacidad y rapidez para innovar. Incluso dichas entidades pueden anticiparse a las necesidades y expectativas de los usuarios. En otras palabras, las bigtech son fintech más poderosas que comenzaron a operar como plataformas de pago e inversión o directamente como bancos online.

A lo anterior, se une la entrada en vigencia, en 2020, de la Segunda Directiva de Servicios de Pago de la UE o PSD2. Esta figura legal eliminó la “exclusividad” que tenían los bancos en la gestión de la información financiera de sus clientes. Ahora estos últimos pueden autorizar el uso de sus datos a otras entidades de base no financiera, para acceder a una oferta amplia de servicios innovadores.

Acceder a una oferta amplia de servicios innovadores

En este sentido, la PSD2 está impulsando el concepto de open banking (o datos abiertos), que le permite a cualquier entidad tener acceso a información sobre cuentas, procesar pagos y autenticar usuarios de manera segura. Para tener una idea del potencial de este nuevo paradigma, Allied Market Research pronostica que el mercado mundial de open banking llegará en 2026 a 43.152 millones de dólares.

La calidad de datos es crítica en la digitalización del sector financiero

En este escenario de digitalización acelerada, los datos son cada vez más relevantes. Sin duda, hablamos de un activo empresarial valioso que el sector financiero debe gestionar y proteger rigurosamente. De este tratamiento de la información dependerá su conversión en inteligencia de negocio; eso sí, cumpliendo las normativas vigentes como el RGPD, entre otros. Por tanto, la calidad de los datos es vital para que la estrategia de transformación digital sea efectiva. En consecuencia, otro desafío actual de los bancos y entidades financieras es monitorizar y actualizar de forma permanente su gobierno de datos. Con este propósito, dicho órgano debe mantener un marco apropiado en el que se definan los responsables y las fuentes únicas de datos consolidados. Asimismo, el data governance ha de preservar los niveles de confidencialidad y garantizar en todo momento la integridad y seguridad de los datos.

Aunque la cantidad de información crece exponencialmente en la era digital, tecnologías como Big Data y la analítica avanzada pueden procesar velozmente enormes cantidades de datos estructurados o no estructurados. Esta posibilidad de analizar y procesar datos con rapidez permite anticiparse a las necesidades de los clientes y personalizar productos y servicios. Más aún, esta facultad facilita la identificación de oportunidades de cross-selling e incluso permite predecir cuándo un cliente abandonará su entidad bancaria. Pero –reiteramos- la calidad de datos es indispensable para que este proceso se desarrolle de manera efectiva y proporcione resultados acertados.

No por casualidad, entidades como Bankinter o Santander Cosumer eligieron un sistema de tratamiento automatizado en la especialidad de normalización, deduplicación y enriquecimiento de bases de datos que actúa sobre los datos de identificación (nombre, apellidos, ID, etc.), datos de localización (direcciones postales, enriquecimiento con variables geográficas, XY, AGEB, sociodemográficas y tipologías de consumo) y datos de contacto (teléfonos y direcciones de correo electrónico).

Uso de datos para inteligencia de negocio

En muchos casos las compañías acumulan datos como consecuencia del desarrollo de su actividad. Para avanzar en la transformación digital es clave analizar sus posibles usos y accionarlos en pro de mejorar procesos, acciones comerciales y experiencia de cliente. Usos habituales en el sector financiero:

Análisis y segmentación avanzada de clientes con datos sociodemográficos para descubrir gemelos y generar acciones efectivas de captación, crecimiento en clientes con potencial y fidelización de aquellos más valiosos para reducir el abandono.
Elaboración de modelos predictivos de comportamiento de clientes
Análisis geográfico de canibalización de sucursales y estudio de su radio de influencia, para optimizar productos, servicios y campañas comerciales a negocios y particulares.
Optimización y automatización del proceso de admisión con variables que permitan controlar el riesgo por cliente

Uso de datos para inteligencia de negocio

El valor de los datos normalizados en la gestión de clientes

Supongamos que tu empresa de ecommerce realiza una cantidad considerable de envíos de pedidos a clientes. Y al menos un 10% de ellos son devueltos porque la dirección en la etiqueta es errónea o está incompleta. Tales devoluciones implican un alto coste para la compañía si la frecuencia de los errores es constante. En casos como este, donde la exactitud de la información es crítica para la gestión de clientes y proveedores, es imprescindible contar con datos normalizados.

La normalización de la base de datos es un proceso que requiere en buena medida la unificación de criterios para la recopilación y tratamiento de la información; así como otro tanto de atención y paciencia. En las líneas siguientes, hablaremos de las fases del procedimiento necesario para contar con datos correctos, enriquecidos y sin duplicados. Por igual, mencionaremos los beneficios que genera esta práctica.

¿Cuál es el proceso para obtener datos normalizados?

En esencia, la normalización de datos consiste en un proceso de organización de las bases de datos mediante la aplicación de un conjunto de reglas para depurar su estructura. El propósito del procedimiento es quitar de las tablas de datos y sus relacionadas las duplicidades y dependencias innecesarias.

Es pertinente recordar que los datos duplicados son aquellos que generan varios usuarios que agregan datos a la base de datos al mismo tiempo. Pero también aparecen en bases de datos cuyo diseño no incluye la detección de duplicados. Por su pate, las dependencias innecesarias son relaciones que no deberían existir entre datos. Ejemplo de ello sería encontrar calificadores dependientes de terceras tablas o temporales en un registro de información fiscal de la organización.

Esto puede requerir crear nuevas tablas y establecer relaciones entre las mismas siguiendo normas diseñadas tanto para la protección de los datos como para obtener una base de datos mucho más flexible tras despejarlas de redundancias y dependencias.

Obviamente, los datos duplicados ocupan más espacio en el disco de memoria y en el almacenamiento cloud. Aparte de eso, pueden causar problemas de mantenimiento. En el momento de efectuar cambios en datos presentes en varias ubicaciones, estos deben hacerse exactamente igual en cada una de estas.

A modo de ilustración, lograr datos normalizados de la cartera de clientes actuales permitiría eliminar del registro indicadores temporales; por ejemplo, históricos no esenciales. También es factible descartar datos que dependan de terceras tablas.

En concreto, asignar de manera precisa el valor de los datos es muy relevante ya que esta será la única forma de asegurar la eliminación de los duplicados. Por consiguiente, se realizarán los cambios en la data y los mismos se cruzarán con precisión.

Fases o niveles a cumplir para obtener datos normalizados

En realidad, existes varias fases o niveles de normalización aplicables a las bases de datos. No obstante, solo tres son los más comunes en las organizaciones y se les denomina “formas normales”. Cada una incluye normas y criterios que establecen el grado de vulnerabilidad de la información a eventuales errores e inconsistencias. Generalmente, se consideran como datos normalizados al máximo nivel aquellos en los que se aplican las tres formas normales requeridas para la mayoría de aplicaciones. A continuación, describiremos brevemente estos niveles.

Primera forma normal

Para cumplir con esta primera fase, debes realizar lo siguiente:

En primer lugar, eliminar de las tablas individuales los grupos de datos repetidos.
Para cada grupo de datos relacionados, es indispensable crear una tabla independiente.
Asigna una clave primaria a cada grupo de datos relacionados, sin atributos nulos.
Evita emplear varios campos en una misma tabla para guardar datos análogos.
Asimismo, es importante no incorporar datos de idéntico significado en una misma tabla. Igualmente, debes asegurarte de que los atributos sean mínimos e indivisibles y que las filas y columnas sean claramente independientes. Esto evitará que un eventual cambio de orden modifique su significado.

Segunda forma normal

En este punto, debes considerar la gestión de diversos registros. En otras palabras, si un conjunto de datos aplica a varios registros, es recomendable crear tablas independientes y relacionarlas entre sí con una clave externa.

Pongamos por caso la dirección de un cliente en un sistema administrativo. Esta es fundamental en la tabla de Clientes, y es igualmente esencial en las tablas de Pedidos, Envíos, Facturación y Cuentas por cobrar. Entonces, lo aconsejable es almacenar la dirección solo en la tabla de Clientes o en otra que puedes denominar “Direcciones independientes”. No la guardes como entrada independiente en cada tabla donde la requieras.

Tercera forma normal

En este último tramo, los datos inscritos en el mismo registro han de estar estructurados de tal manera que todos los campos respondan a la clave primaria. Dicho nivel es favorable en tablas de datos que necesitan actualización constante. De tal forma, puedes prescindir del desglose de los datos en tablas distintas. En otras palabras, no pertenecerán a la tabla los valores de un registro que no dependan de la clave principal.

A este nivel es factible considerar la información disponible como datos normalizados.

Beneficios de los datos normalizados

En efecto, los datos normalizados, limpios, exactos y consistentes generan beneficios de gran importancia para las organizaciones:

Una gestión de datos más dinámica. En principio, al descartar los duplicados, la gestión y actualización de los datos en los registros será más ágil. Lo que ayuda considerablemente a mejorar la productividad del equipo.
Toma de decisiones más acertadas. Ciertamente, las soluciones de software para el análisis solo pueden aportar información útil fundamentadas en datos normalizados, completos y exactos. Tal información permite a los directivos tomar las mejores decisiones en aspectos como la producción y el marketing.
Mayor integración. La normalización de datos favorece por igual la integración de datos con fuentes de terceros y, en este punto, fortalece la veracidad y la seguridad de los datos disponibles.
Reducción de costes. Al día de hoy, muchas empresas no cuentan con un formato unificado de recolección de datos, lo que deriva en errores de toda clase. Entre ellos, los errores de ortografía, el uso indiscriminado y equivocado de abreviaturas, datos duplicados, etc. Como dijimos al principio, esto puede derivar, por ejemplo, en la devolución de pedidos por tener la dirección del destinatario incorrecta o incompleta. Los datos normalizados evitan estos fallos costosos en recursos y tiempo para las compañías.
Mejora el marketing. La normalización y depuración de los datos hacen más efectivas las estrategias como las de email marketing. Mismas que precisan de exactitud en los nombres de los clientes y en las direcciones de correo.
Incrementa las ventas. Por su parte, el equipo de comerciales de tu empresa acelerará el proceso de ventas al contar con los datos exactos de contacto de los clientes.

MyDataQ de Deyde es tu solución para obtener datos normalizados

MyDataQ es una solución informática muy completa para el tratamiento automatizado de datos, enfocada en la normalización, deduplicación y enriquecimiento de bases de datos. A los efectos, esta herramienta actúa sobre los siguientes datos:

De identificación: nombre, apellidos, documento de identidad, etc.
Localización: direcciones postales, enriquecimiento con variables geográficas, XY, AGEB, sociodemográficas y tipologías de consumo.
Datos de contacto: teléfonos fijos y móviles (celulares), así como direcciones de correo electrónico.

Por si fuera poco, MyDataQ posee una serie de modalidades que la personalizan y adaptan a la naturaleza y las necesidades de tu organización.

MyDataQ es una solución creada por Deyde DataCentric, multinacional tecnológica con más de 20 años de experiencia en el desarrollo de soluciones de calidad de datos.

¿Quieres tener los datos normalizados ahora que conoces todos sus beneficios? ¡Contáctanos!