Gobernanza de datos en la práctica

En el último artículo estuvimos revisando algunas definiciones y los problemas que intenta resolver la implementación de un programa de Gobierno de Datos. Hoy vamos a hablar de cómo poner en práctica dos aspectos que considero claves a la hora de gestionar los datos: gestión de metadatos y calidad de los datos y como ambas se vinculan para sacar el mayor provecho.
Dentro de la implantación de un programa de Gobierno de Datos debemos seguir varios pasos: primero tener la aprobación y apoyo de sponsor dentro de la organización que den sustento al cambio cultural que implica implantar este tipo de iniciativas y luego definir la estructura organizacional que va a trabajar en las iniciativas vinculadas al gobierno de los datos.

Si bien es necesario realizar una evaluación para saber la situación de partida y a qué iniciativas darle prioridad, es habitual que tanto la gestión del metadato como la de calidad siempre sean de las primeras en ejecutarse.

Gestión de Metadatos
Antes de hablar de la gestión, debemos definir de qué hablamos cuando decimos metadatos. La definición técnica nos dice que son “datos sobre los datos”, el objetivo de la gestión de la metadata es convertir esos datos en información y conocimiento de los datos que tiene una organización. Existen diferentes tipos de metadata que podemos clasificar en dos grupos.

Metadatos técnicos. Proporcionan detalles acerca de sistemas de origen y de destino, estructuras de tablas y campos de bases de datos y dependencias de los siguientes tipos de activos:

  • sistemas host, bases de datos, archivos de datos y su contenido.
  • Modelos Físicos y Lógicos.
  • Procesos ETL.
  • Reglas de calidad de datos.
  • Metadatos de modelos analíticos.

Metadatos de negocio. Los metadatos de negocio incluyen términos, reglas de gobernabilidad de información, etiquetas y representantes que proporcionan un contexto de información que permiten la comunicación efectiva y ayudan a hablar de lo mismo dentro de la organización. A modo de ejemplo, una organización puede preguntarse cuál es la definición de “cliente”, lo cual puede tener varias visiones: algunos pensarán que son aquellos que hayan comprado en nuestro negocio, mientras que otros pensarán que son todos aquellos que están considerando hacer una compra. Es importante dar esta discusión y definir a nivel organizacional a quiénes considero cliente en forma transversal para que todos hablemos de lo mismo.
La herramienta que nos ayuda a definir la terminología a través de las diferentes áreas de la organización es el Glosario de Datos. Este permite mantener la consistencia de los términos de negocio con el objetivo de reducir la ambigüedad de las definiciones de los activos de datos además de vincular los distintos tipos de metadatos para dar una visión única y consistente de la definición y de todos los activos técnicos que participan de su ciclo de vida.
A diferencia de los diccionarios de datos, que tienen una visión más técnica, los glosarios de datos tienen un enfoque lógico con el propósito de clarificar los términos de negocio y ayudar a entender a cada área su vinculación con los datos en los sistemas. El glosario de datos es más accesible que un diccionario de datos, lo cual permite que sea utilizado tanto por usuarios de negocio como técnicos.

 

Para poder crear un catálogo debemos:
Planificar la estructura del catálogo
Tanto si se diseña un nuevo catálogo como si diseña uno a partir de uno o más glosarios existentes en la empresa, el proceso es similar. Al desarrollar las categorías, términos y sus relaciones, se deben planificar también qué propiedades personalizadas necesitan los términos, quiénes deben ser los representantes adecuados y las etiquetas que se vayan a utilizar. Se deben definir también los principios, alcance, políticas que van a gobernar nuestro glosario, así como las métricas para medir el cumplimiento de lo definido.
Establecer un equipo de catálogo
Un equipo multidisciplinario debe ser responsable de la gobernabilidad del catálogo. Para incorporar el contenido correcto en el catálogo, se deben identificar a las personas con más conocimiento sobre las áreas de la empresa.

Diseño y desarrollo de términos y activos
Los pasos asociados a la creación del glosario incluyen las siguientes tareas:

  • definición de términos empresariales.
  • Definición de atributos personalizados para términos y categorías.
  • Definir etiquetas para términos, categorías y otros activos.
  • Selección de usuarios como representantes.
  • Relacionar términos con términos.
  • Definición de activos a importar al catálogo.
  • Cargar el catálogo con activos.
  • Asociación de términos con activos.

Publicar el glosario
Una vez que se haya implementado el Glosario de Datos se debe publicar para ser utilizado por la organización. Se deben disponer los procesos para el mantenimiento, asegurando que los términos de negocio se encuentran vinculados con los aspectos técnicos y que estos tienen un único significado para todas las áreas.

Gestión de la calidad de datos
Identificar los problemas de calidad de datos y definir acciones apropiadas para mejorarlos no puede ser un esfuerzo de un grupo de personas aislado dentro de la organización, sino corporativo. Su objetivo es alcanzar y mantener altos niveles de calidad de datos en aquellos datos críticos de la organización. Su misión tiene 3 ejes principales:

Mejorar
Investigar las bases de datos y los procesos que generan o modifican datos para corregir los problemas existentes de calidad. Este enfoque parte de que existen problemas de calidad a solucionar.
Prevenir
Ayudar a las áreas y a los individuos a construir mejores chequeos de datos, mejores procesos de captura, mejores diseños de pantalla, mejores políticas. Es permear la cultura de la calidad a través de la organización.
Monitorear
Mantener en un monitoreo continuo las mejoras realizadas y las acciones preventivas para ver su efectividad.

Antes de poder mejorar, prevenir y monitorear se deben detectar dichos problemas, para ello se tienen 2 enfoques.

Desde el negocio
Este enfoque busca problemas de datos de mala calidad que tienen impacto negativo en los procesos de negocio de la organización. Ejemplos de este enfoque implican quejas, pérdida de cliente, reportes rechazados por organismos centrales, pérdida de oportunidades, decisiones incorrectas, falta de datos para contacto o venta de nuevos productos. Una desventaja de este enfoque es que se necesita estar muy cerca del negocio para detectar estos problemas y requiere esfuerzo y tiempo para analizar si las causas son realmente por problemas de datos.

Desde los datos
Este enfoque busca problemas en los datos, comenzando con la definición de un conjunto de reglas que el dato debería cumplir para ser de calidad. Para ello es necesario conocer el dato, desde su definición, valores posibles, relaciones, etc. El siguiente paso es aplicar el perfilado de datos para validar la metadata generada o completarla. Luego de conocida la calidad de ese dato, los analistas de negocio, al aplicar esas reglas, producen evidencia de los problemas de datos. Esa información es clave para investigar y corregir las causas que generan dicha problemática. Este enfoque es más fácil de alcanzar que el enfoque anterior, ya que requiere menos tiempo, esta menos acotado en el grupo que detecta problemas y consigue encontrar problemas que el otro enfoque no encontraría (si no impacta o no se detecta el impacto de ese dato en el problema de negocio). Como contrapartida, muchas veces los datos pueden ser válidos para las reglas pero no para los procesos de negocio, lo cual va a impactar negativamente antes de determinar el problema.

El enfoque de negocio con características reactivas son los que nos van a llevar a gestionar la limpieza y corrección de los datos para luego establecer el monitoreo. El enfoque desde los datos es más proactivo y es donde la colaboración entre la definición de los términos en un glosario y qué reglas deberían cumplir, hace que primero nos enfoquemos en actividades de perfilado y monitoreo y que de aquí se detecten los problemas para corregir. Un buen programa de calidad de datos debe usar ambos enfoques para capturar la mayor cantidad de problemas de datos existentes.

Conclusión
Tanto la gestión de la metadata como la gestión de la calidad son actividades clave dentro de una iniciativa de Gobierno de Datos. Con una correcta gestión de ambos vamos a poder definir los términos de negocio, cómo se relacionan con sistemas, tablas, reportes, modelos de datos y las reglas de calidad asociadas para determinar su nivel de confianza o potenciales problemas que nos permitan mejorar, prevenir y monitorear la calidad de los datos.

Ing. Gustavo Mesa    @gmesahaisburu

Consultor – Data & Analytics

Leave a Reply