Data Warehousing

Entre las principales se tiene:

  • Orientado al tema
  • Integrado
  • De tiempo variante
  • No voltil

.Orientado a Temas

Una primera caracterstica del data warehouse es que la informacin se clasifica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. En la Figura N 1 se muestra el contraste entre los dos tipos de orientaciones.

El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicacin.

En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc.

La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de los datos encontrados en el data warehouse. Las principales reas de los temas influyen en la parte ms importante de la estructura clave.

Figura 1

Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En data warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del proceso (en su forma clsica) no es separado de este ambiente.

Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a temas, radican en el contenido de la data a escala detallada. En el data warehouse se excluye la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones.

Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o ms tablas.

.Integracin

El aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior est siempre integrada.

La integracin de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros.

El contraste de la integracin encontrada en el data warehouse con la carencia de integracin del ambiente de aplicaciones, se muestran en la Figura N 2, con diferencias bien marcadas.

A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras.

Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura N 2 mencionada, muestra algunas de las diferencias ms importantes en las formas en que se disean las aplicaciones.

Codificacin

Los diseadores de aplicaciones codifican el campo GENERO en varias formas. Un diseador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".

No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.

Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicacin, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse.

Medida de atributos

Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estndar comn.

Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data warehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento

El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario.

Fuentes Mltiples

El mismo elemento puede derivarse desde fuentes mltiples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito.

Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros.

Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deber estar en el uso de los datos que se encuentre en el depsito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.

Figura 2

.De Tiempo Variante

Toda la informacin del data warehouse es requerida en algn momento. Esta caracterstica bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de informacin, usted espera que los valores requeridos se obtengan a partir del momento de acceso.

Como la informacin en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depsito se llaman de "tiempo variante".

Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias. (Ver Figura N 3).

Figura 3

El tiempo variante se muestra de varias maneras:

  1. La ms simple es que la informacin representa los datos sobre un horizonte largo de tiempo - desde cinco a diez aos. El horizonte de tiempo representado para el ambiente operacional es mucho ms corto - desde valores actuales hasta sesenta a noventa das.

    Las aplicaciones que tienen un buen rendimiento y estn disponibles para el procesamiento de transacciones, deben llevar una cantidad mnima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseo de aplicaciones rgidas.

  2. La segunda manera en la que se muestra el tiempo variante en el data warehouse est en la estructura clave. Cada estructura clave en el data warehouse contiene, implcita o explcitamente, un elemento de tiempo como da, semana, mes, etc.

    El elemento de tiempo est casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existir implcitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

  3. La tercera manera en que aparece el tiempo variante es cuando la informacin del data warehouse, una vez registrada correctamente, no puede ser actualizada. La informacin del data warehouse es, para todos los propsitos prcticos, una serie larga de "snapshots" (vistas instantneas).

    Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.

.De Tiempo Variante

La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable.

En la Figura N 4 se muestra que la actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento operacional y del data warehouse. En el nivel de diseo, la necesidad de ser precavido para actualizar las anomalas no es un factor en el data warehouse, ya que no se hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalizacin y desnormalizacin fsica.

Otra consecuencia de la simplicidad de la operacin del data warehouse est en la tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo debajo de una fachada de simplicidad.

Figura 4

La tecnologa permite realizar copias de seguridad y recuperacin, transacciones e integridad de los datos y la deteccin y solucin al estancamiento que es ms complejo. En el data warehouse no es necesario el procesamiento.

La fuente de casi toda la informacin del data warehouse es el ambiente operacional. A simple vista, se puede pensar que hay redundancia masiva de datos entre los dos ambientes. Desde luego, la primera impresin de muchas personas se centra en la gran redundancia de datos, entre el ambiente operacional y el ambiente de data warehouse. Dicho razonamiento es superficial y demuestra una carencia de entendimiento con respecto a qu ocurre en el data warehouse. De hecho, hay una mnima redundancia de datos entre ambos ambientes.

Se debe considerar lo siguiente:

  • Los datos se filtran cuando pasan desde el ambiente operacional al de depsito. Existe mucha data que nunca sale del ambiente operacional. Slo los datos que realmente se necesitan ingresarn al ambiente de data warehouse.
  • El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La informacin en el ambiente operacional es ms reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo nicos, hay poca superposicin entre los ambientes operacional y de data warehouse.
  • El data warehouse contiene un resumen de la informacin que no se encuentra en el ambiente operacional.
  • Los datos experimentan una transformacin fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayora de los datos se alteran fsica y radicalmente cuando se mueven al depsito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integracin.

En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%.

COMPARTE ESTE ARTÍCULO

ENVIAR A UN AMIGO
COMPARTIR EN FACEBOOK
COMPARTIR EN TWITTER
COMPARTIR EN GOOGLE +
SIGUIENTE ARTÍCULO

¡SÉ EL PRIMERO EN COMENTAR!
Conéctate o Regístrate para dejar tu comentario.