lunes, 22 de noviembre de 2010

SSIS Usando Data Profiling Task

Uno de los problemas más comunes a los que nos enfrentamos a la hora de integrar datos es conocer que es lo que tenemos que integrar. Podemos tener la estructura de los datos, las reglas de negocio, etc.. pero ¿que hay en las tablas? (tablas o cualquier otro origen).
Supongamos que tenemos que evaluar la usabilidad de los campos de una tabla para generar un documento de propuesta de atributos para una dimensión. ¿De que forma sabríamos si realmente sería un atributo útil?
Existen mil y un motivos para que los datos no sean los que esperemos, o lo que la organización espera. La calidad final de la información puede verse devaluada por inconsistencias en los contenidos.
¿Y por qué se degrada la calidad de los datos?
  • Deficiencias en las validaciones de datos algunos sistemas (ERP, etc.)
  • No se realizan chequeos contra datos maestros
  • Los usuarios introducen cualquier cosa
  • Etc.
En fin… el objetivo de este post es hacer perfiles de datos utilizando SSIS. A partir de la versión 2008, SQL Server provee de un nuevo componente para el flujo de control del diseñador de paquetes de Integration Services, el Data Profiling Task o tarea de perfilado de datos en castellano.
image
Esta tarea genera las siguientes métricas sobre los datos:
Utilizando este componente tendremos la capacidad de generar un archivo XML que nos facilita un análisis del contenido de una o varias tablas. Vamos a ver cómo hacemos eso.
Configurando Data Profiling Task
Creamos un nuevo paquete y añadimos el componente Data Profiling Task al flujo de control. Accedemos a la configuración y disponemos de tres secciones General, Profile Request (Solicitud de perfilado) y Expression.
En la sección general configuramos el fichero XML dónde volcará los datos. En esta sección aparece el botón Quick Profile o Perfil Rápido
image
Configuramos una conexión ADO.NET y seleccionamos la tabla o vista sobre la que se requiera la solicitud de perfilados. Posteriormente seleccionamos los tipos de perfilado que deseemos generar.
Si accedemos a la sección de configuración de Solicitud de Perfiles podremos revisar las solicitudes que hemos generado con el asistente.
image
Para optimizar la configuración de las solicitudes de perfiles, revisa la documentación de la MSDN http://msdn.microsoft.com/es-es/library/bb934043(v=SQL.100).aspx
La velocidad de ejecución de la tarea dependerá de la cantidad de datos existentes en la fuente, el número de solicitudes y la configuración de los perfilados que haya seleccionado.
image
Una vez generado el archivo XML podremos analizar los resultados con la herramienta Data Profile Viewer.
image
Recuerda que los archivos generados son XML y que pueden incorporarse a bases de datos fácilmente utilizando SSIS. ¿Te imaginas tener informes e indicadores en tu solución de BI que te informe sobre la variación de la calidad de los datos?
Pues a trabajar! Guiño
Microsoft tiene un video didáctico sobre el uso de estas herramientas: http://msdn.microsoft.com/en-us/library/cc952923(SQL.100).aspx

** Actualización
Navengando un poco he encontrado esta página http://informationqualitysolutions.com/page2/page10/page10.html

Un saludo!

4 comentarios:

  1. Victor,

    Muy bueno el post y la informacion de refencia. Saludos,

    Rafael

    ResponderEliminar
  2. Estimados ya pude generar el archivo XML como puedo leerlo o revisar para conocer el perfilamiento ayuda

    ResponderEliminar

Entradas populares