Data warehouse. Definición y funciones

En el entorno empresarial actual, es esencial que una empresa disponga de informes y análisis fiables de sus datos. Las empresas necesitan que sus datos se consoliden e integren para diferentes niveles de agregación, desde el servicio al cliente hasta la integración de socios y las decisiones comerciales ejecutivas de alto nivel. Aquí es donde entra en juego el data warehouse, ya que facilita los informes y el análisis. En este artículo, discutiremos diferentes conceptos de Data Warehouse. Comenzaremos explicando qué es y para qué sirve el data warehouse, su uso en diferentes industrias, sus características y los tipos que existen.

¿Qué es un data warehouse o almacén de datos?

Un data warehouse o almacenamiento de datos es un proceso para recopilar y administrar datos de diversas fuentes para proporcionar información empresarial significativa. Un almacén de datos se usa normalmente para conectar y analizar datos comerciales de fuentes heterogéneas. El data warehouse es el núcleo del sistema de Business Intelligence que está diseñado para el análisis y la generación de informes de datos.

Una definición de data warehouse es la que lo considera una combinación de tecnologías y componentes que ayuda al uso estratégico de los datos. Se trata de un almacenamiento electrónico de una gran cantidad de información por parte de una empresa que está diseñado para consultas y análisis en lugar de procesamiento de transacciones. Es un proceso de transformar datos en información y ponerlos a disposición de los usuarios de manera oportuna para marcar la diferencia.

El concepto de data warehouse ha existido desde la década de 1980, cuando se desarrolló para ayudar a la transición de datos de operaciones meramente de potencia a sistemas de apoyo a la toma de decisiones que revelan inteligencia empresarial. La gran cantidad de datos en los almacenes de datos proviene de diferentes lugares, como aplicaciones internas como marketing, ventas y finanzas; aplicaciones orientadas al cliente; y sistemas de socios externos, entre otros.

A nivel técnico, un almacén de datos extrae periódicamente datos de esas aplicaciones y sistemas. Luego, los datos pasan por procesos de formateo e importación para que coincidan con los datos que ya están en el almacén. El almacén de datos almacena estos datos procesados para que estén listos para que los tomadores de decisiones accedan. La frecuencia con la que ocurren las extracciones de datos, o cómo se formatean los datos, etc., variará según las necesidades de la organización.

Funciones de los data warehouses

El almacenamiento de datos se utiliza para proporcionar una mayor comprensión del desempeño de una empresa al comparar datos consolidados de múltiples fuentes heterogéneas. Un data warehouse está diseñado para ejecutar consultas y análisis de datos históricos derivados de fuentes transaccionales.

Una vez que los datos se han incorporado al almacén, no cambian y no se pueden alterar, ya que un almacén de datos ejecuta análisis de eventos que ya han ocurrido enfocándose en los cambios en los datos a lo largo del tiempo. Los datos almacenados deben almacenarse de manera segura, confiable, fácil de recuperar y fácil de administrar.

Hay ciertos pasos que se toman para crear un data warehouse. El primer paso es la extracción de datos, que implica recopilar grandes cantidades de datos de múltiples puntos de origen. Una vez que se han compilado los datos, pasan por la limpieza de datos, el proceso de peinar los datos en busca de errores y corregir o excluir los errores encontrados.

Los datos limpios se convierten luego de un formato de base de datos a un formato de almacén. Una vez que se almacenan, los datos se clasifican, consolidan, resumen, etc. para que estén más coordinados y sean más fáciles de usar. Con el tiempo, a medida que se van actualizando las múltiples fuentes de datos, se añaden más datos al almacén.

Un almacén de datos funciona como un depósito central donde la información llega de una o más fuentes de datos.

Los datos pueden ser:

Estructurados
Semiestructurados
No estructurados

Al reunir toda esta información en un solo lugar, la empresa puede analizar a sus clientes de forma más integral. Esto ayuda a garantizar que se ha tenido en cuenta toda la información disponible. El almacenamiento de datos hace posible la minería de datos. La minería de datos busca patrones en los datos que puedan generar mayores ventas y ganancias.

Características

Las principales características del data warehouse son:

Orientado al tema: un data warehouse ofrece información destinada a un tema específico en vez de las operaciones en curso de toda la organización. Los ejemplos de temas de data warehouse incluyen información de productos, datos de ventas, detalles de clientes y proveedores, etc.
Integrado: un almacén de datos se desarrolla combinando datos de múltiples fuentes heterogéneas, como archivos planos y bases de datos relacionales, lo que en consecuencia mejora el análisis de datos.
Variante de tiempo: los datos en un almacén de datos brindan información de un cierto punto histórico de tiempo, por lo tanto, la información en un almacén de datos se categoriza con un marco de tiempo particular.
No volátil: No volátil se refiere a los datos anteriores que no se omiten cuando se le agregan datos más nuevos. Un almacén de datos está separado de una base de datos operativa, lo que significa que ningún cambio regular en la base de datos operativa se ve en el almacén de datos.

Estructura

La estructura tradicional de data warehouse emplea una estructura de tres niveles compuesta por los siguientes niveles.

Nivel inferior: este nivel contiene el servidor de base de datos que se utiliza para extraer datos de muchas fuentes diferentes, como las bases de datos transaccionales que se utilizan para aplicaciones de front-end.
Nivel medio: El nivel medio alberga un servidor OLAP, que transforma los datos en una estructura más adecuada para análisis y consultas complejas. El servidor OLAP puede funcionar de dos maneras: ya sea como un sistema de administración de base de datos relacional extendido que mapea las operaciones en datos multidimensionales a operaciones relacionales estándar (OLAP relacional), o usando un modelo OLAP multidimensional que implementa directamente los datos y operaciones multidimensionales.
Nivel superior: el nivel superior es la capa del cliente. Este nivel contiene las herramientas utilizadas para el análisis de datos de alto nivel, la consulta de informes y la minería de datos.

En los últimos años, los almacenes de datos se están trasladando a la nube. Los nuevos almacenes de datos basados en la nube no se adhieren a la arquitectura tradicional; cada oferta de almacenamiento de datos tiene una arquitectura única.

Dos de los almacenes basados en la nube más populares son Amazon Redshift y Google BigQuery.

Elementos que los componen

Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas ETL (extraer, transformar, cargar), metadatos y herramientas de acceso. Todos estos componentes están diseñados para la velocidad, de modo que se puedan obtener resultados rápidamente y analizar datos sobre la marcha.

Metadatos

Los metadatos son datos sobre tus datos. Especifica la fuente, el uso, los valores y otras características de los conjuntos de datos en tu almacén de datos. Hay metadatos comerciales, que agregan contexto a tus datos, y metadatos técnicos, que describen cómo acceder a los datos, incluido dónde residen y cómo están estructurados.

Middleware

Las herramientas de acceso permiten a los usuarios interactuar con los datos de su almacén de datos. Entre los ejemplos de herramientas de acceso se incluyen: herramientas de consulta y generación de informes, herramientas de desarrollo de aplicaciones, herramientas de minería de datos y herramientas OLAP.

Funciones ETL

Los datos se extraen de los sistemas de origen y se modifican para alinear la información para un consumo analítico rápido utilizando una variedad de enfoques de integración de datos como ETL (extraer, transformar, cargar), así como replicación de datos en tiempo real, carga masiva servicios de procesamiento, transformación de datos y calidad y enriquecimiento de datos.

Base de datos central

Una base de datos sirve como base del almacén de datos. Tradicionalmente, han sido bases de datos relacionales estándar que se ejecutan en las instalaciones o en la nube. Pero debido a Big Data, la necesidad de un rendimiento en tiempo real y una reducción drástica en el coste de la RAM, las bases de datos en memoria están ganando popularidad rápidamente.

Tipos de data warehouse

Hay tres tipos principales de almacenamiento de datos. Cada uno tiene su función específica en las operaciones de gestión de datos.

Almacén de datos empresariales

El almacén de datos empresarial (EDW) sirve como base de datos central o clave para facilitar la toma de decisiones en toda la empresa. Los principales beneficios de tener un EDW incluyen el acceso a información entre organizaciones, la capacidad de ejecutar consultas complejas y la habilitación de conocimientos enriquecidos y con visión de futuro para decisiones basadas en datos y evaluación temprana de riesgos.

ODS (almacén de datos operativos)

En ODS, el almacén de datos se actualiza en tiempo real. Por lo tanto, a menudo se usa para actividades empresariales de rutina, como almacenar registros de los empleados. Se utiliza como fuente para proporcionar datos al almacén de datos empresarial.

Data Mart

Es un subconjunto de un almacén de datos destinado a brindar soporte a un departamento, región o unidad comercial en particular. Considera esto: tienes varios departamentos, incluidos ventas, marketing, desarrollo de productos, etc. Cada departamento tendrá un depósito central donde almacena datos. Este repositorio se llama despensa de datos.

Los datos del data mart se almacenan en el ODS diariamente / semanalmente (o según se configure). El ODS actúa como un área de preparación para la integración de datos. Luego envía los datos a la EDW, donde se almacenan y se utilizan para fines de BI.

Los data marts o subconjuntos de datos

Los data marts contienen un subconjunto de datos de toda la organización que son valiosos para grupos específicos de personas en una organización. En otras palabras, una despensa de datos contiene solo aquellos datos que son específicos de un grupo en particular. Por ejemplo, la despensa de datos de marketing puede contener solo datos relacionados con artículos, clientes y ventas. Los mercados de datos se limitan a los sujetos.

Puntos para recordar acerca de los Data Marts:

Los servidores basados en Windows o Unix / Linux se utilizan para implementar data marts. Se implementan en servidores de bajo coste.
El ciclo de implementación de un data mart se mide en períodos cortos de tiempo, es decir, en semanas en lugar de meses o años.
El ciclo de vida de los mercados de datos puede ser complejo a largo plazo, si su planificación y diseño no abarcan toda la organización.
Los data marts son de tamaño pequeño y flexibles.
Los mercados de datos se personalizan por departamento.
La fuente de una despensa de datos es un almacén de datos estructurado por departamentos.

Cubos OLAP

El servidor de procesamiento analítico en línea (OLAP) se basa en el modelo de datos multidimensionales. Permite a los administradores y analistas obtener una visión de la información a través de un acceso rápido, consistente e interactivo a la información.

Tenemos cuatro tipos de servidores OLAP:

OLAP relacional

Los servidores ROLAP se colocan entre el servidor back-end relacional y las herramientas front-end del cliente. Para almacenar y administrar los datos del almacén, ROLAP utiliza DBMS relacional o relacional extendido.

ROLAP incluye lo siguiente:

Implementación de lógica de navegación de agregación.
Optimización para cada back-end de DBMS.
Herramientas y servicios adicionales.

OLAP multidimensional

MOLAP utiliza motores de almacenamiento multidimensionales basados en matrices para vistas multidimensionales de datos. Con almacenes de datos multidimensionales, la utilización del almacenamiento puede ser baja si el conjunto de datos es escaso. Por lo tanto, muchos servidores MOLAP utilizan dos niveles de representación de almacenamiento de datos para manejar conjuntos de datos densos y dispersos.

OLAP híbrido

OLAP híbrido es una combinación de ROLAP y MOLAP. Ofrece una mayor escalabilidad de ROLAP y un cálculo más rápido de MOLAP. Los servidores HOLAP permiten almacenar grandes volúmenes de datos de información detallada. Las agregaciones se almacenan por separado en la tienda MOLAP.

Servidores SQL especializados

Los servidores SQL especializados brindan soporte de procesamiento de consultas y lenguaje de consulta avanzado para consultas SQL sobre esquemas de estrella y copo de nieve en un entorno de solo lectura.

Analizaremos las operaciones OLAP en datos multidimensionales.

Enrollar: Roll-up realiza la agregación en un cubo de datos de cualquiera de las siguientes formas:

- Al escalar una jerarquía de conceptos para una dimensión
- Por reducción de dimensión
Profundizar: Drill-down es la operación inversa de roll-up. Se realiza de una de las siguientes formas:
- Reduciendo una jerarquía de conceptos para una dimensión
- Introduciendo una nueva dimensión.
Cortar: La operación de corte selecciona una dimensión particular de un cubo dado y proporciona un nuevo subcubo.
Rotar: Gira los ejes de datos a la vista para proporcionar una presentación alternativa de datos.

Diferencias entre data lake y data warehouse

Cuando se trata de almacenar big data, las dos opciones más populares son los data lake y los data warehouse. Los almacenes de datos se utilizan para analizar datos estructurados archivados, mientras que los lagos de datos se utilizan para almacenar macrodatos de todas las estructuras.

Analizamos las diferencias entre ambos conceptos en base a cinco categorías.

Tipo de datos

La limpieza de datos es una habilidad clave para los datos porque los datos vienen naturalmente en formas desordenadas e imperfectas. Los datos sin procesar que no se han limpiado se denominan datos no estructurados, que comprenden la mayor parte de los datos del mundo, como fotos, registros de chat y archivos PDF. Los datos no estructurados que se han limpiado para adaptarse a un esquema, organizados en tablas y definidos por tipos de datos y relaciones, se denominan datos estructurados . Esta es la diferencia fundamental entre lagos y almacenes.

Los data lakes almacenan datos de una amplia variedad de fuentes como dispositivos IoT, transmisiones de redes sociales en tiempo real, datos de usuarios y transacciones de aplicaciones web. A veces, estos datos están estructurados, pero a menudo son bastante desordenados porque los datos se ingieren directamente de la fuente de datos. Los data warehouse, por otro lado, contienen datos históricos que se han limpiado para adaptarse a un esquema relacional.

Propósito

Los lagos de datos se utilizan para el almacenamiento rentable de grandes cantidades de datos de muchas fuentes. Permitir datos de cualquier estructura reduce el coste porque los datos son más flexibles y escalables, ya que los datos no necesitan ajustarse a un esquema específico. Sin embargo, los datos estructurados son más fáciles de analizar porque son más limpios y tienen un esquema uniforme para realizar consultas. Al restringir los datos a un esquema, los almacenes de datos son muy eficientes para analizar datos históricos para decisiones de datos específicas.

Usuarios

Los data lake y los data warehouse son útiles para diferentes usuarios. Los analistas de datos y los analistas comerciales a menudo trabajan en almacenes de datos que contienen datos explícitamente pertinentes que se han procesado para su trabajo. Los almacenes de datos requieren un nivel inferior de conocimientos de programación y ciencia de datos para su uso.

Los lagos de datos los configuran y mantienen los ingenieros de datos que los integran en las canalizaciones de datos. Los científicos de datos trabajan más de cerca con los lagos de datos, ya que contienen datos de un alcance más amplio y actual.

Tareas

Los ingenieros de datos utilizan lagos de datos para almacenar los datos entrantes. Sin embargo, los lagos de datos no solo se limitan al almacenamiento. Los datos no estructurados son más flexibles y escalables, lo que a menudo es mejor para el análisis de big data.

Los almacenes de datos suelen estar configurados como de solo lectura para los usuarios analistas, que principalmente leen y agregan datos para obtener información. Dado que los datos ya están limpios y se pueden archivar, generalmente no es necesario insertar o actualizar datos.

Tamaño

No debería sorprendernos que los lagos de datos sean mucho más grandes porque retienen todos los datos que pueden ser relevantes para una empresa. Los lagos de datos suelen tener un tamaño de petabytes, ¡eso es 1000 terabytes! Los almacenes de datos son mucho más selectivos en cuanto a qué datos se almacenan.

Almacenes de datos en la nube

A medida que las empresas se trasladan a la nube, también lo hacen sus bases de datos y herramientas de almacenamiento de datos. La nube ofrece muchas ventajas: flexibilidad, colaboración y accesibilidad desde cualquier lugar. Herramientas populares como Amazon Redshift, Microsoft Azure SQL Data Warehouse, Snowflake y Google BigQuery han ofrecido a las empresas formas sencillas de almacenar y analizar sus datos en la nube.

El modelo de nube reduce las barreras de entrada, especialmente el coste, la complejidad y el largo tiempo de generación de valor, que tradicionalmente han limitado la adopción y el uso exitoso de la tecnología de almacenamiento de datos. Permite a una organización escalar hacia arriba o hacia abajo, para encender o apagar, la capacidad de almacenamiento de datos según sea necesario. Además, es rápido y fácil comenzar con un almacén de datos en la nube. Hacerlo no requiere una gran inversión inicial ni un proceso de implementación lento (y no menos costoso).

La arquitectura del almacén de datos en la nube elimina en gran medida los riesgos endémicos del paradigma del almacén de datos local. No tienes que presupuestar y adquirir hardware y software. No es necesario que reserves una partida presupuestaria para mantenimiento y soporte anuales.

En la nube, las consideraciones de costes que tradicionalmente han preocupado a los equipos de almacenamiento de datos desaparecen.

Ventajas del data warehouse

Estas son algunas de las ventajas del data warehouse:

El almacén de datos permite a los usuarios comerciales acceder rápidamente a datos críticos de algunas fuentes, todo en un solo lugar.
El almacén de datos proporciona información coherente sobre diversas actividades multifuncionales. También es compatible con informes y consultas ad-hoc.
Data Warehouse ayuda a integrar muchas fuentes de datos para reducir el estrés en el sistema de producción.
El almacén de datos ayuda a reducir el tiempo de respuesta total para análisis e informes.
La reestructuración y la integración facilitan al usuario el uso de informes y análisis.
El almacén de datos permite a los usuarios acceder a datos críticos de varias fuentes en un solo lugar. Por lo tanto, ahorra tiempo al usuario al recuperar datos de múltiples fuentes.
El almacén de datos almacena una gran cantidad de datos históricos. Esto ayuda a los usuarios a analizar diferentes períodos de tiempo y tendencias para hacer predicciones futuras.

Pasos para construir un data warehouse

La mejor manera de abordar el riesgo comercial asociado con una implementación de Data warehouse es emplear una estrategia de tres puntas como se indica a continuación.

Estrategia empresarial: Aquí identificamos técnicas, incluyendo la arquitectura y las herramientas actuales. También identificamos hechos, dimensiones y atributos. También se pasa el mapeo y la transformación de datos.
Entrega por etapas: la implementación del almacén de datos debe realizarse por etapas según las áreas temáticas. Las entidades comerciales relacionadas, como la reserva y la facturación, deben implementarse primero y luego integrarse entre sí.
Creación de prototipos iterativos: en lugar de un enfoque de gran explosión para la implementación, el Datawarehouse debe desarrollarse y probarse iterativamente.

A continuación, se muestran los pasos clave en la implementación de data warehouse.

Necesidad de definir el alcance del proyecto
Necesidad de determinar las necesidades comerciales
Definir los requisitos operativos del almacén de datos
Adquirir o desarrollar herramientas de extracción
Definir los requisitos de datos del almacén de datos
Documentar los datos faltantes
Asignar el almacén de datos operativos al almacén de datos
Desarrollar el diseño de la base de datos de almacenamiento de datos
Extraer datos del almacén de datos operativos
Cargar almacén de datos
Mantener el almacén de datos

Ejemplos de data warehouse

A continuación, se muestran algunos ejemplos de cómo se utiliza el almacenamiento de datos en todos los ámbitos. Veamos varias industrias que consideran el almacenamiento de datos como una parte esencial de sus operaciones diarias.

Sector de inversiones y seguros

En el sector de inversiones y seguros, los almacenes de datos se utilizan principalmente para analizar las tendencias del mercado y de los clientes y otros patrones de datos. Los mercados de valores son subsectores importantes en los que los almacenes de datos juegan un papel crucial porque una diferencia de un solo punto puede generar pérdidas masivas en todos los ámbitos. En estos sectores, los almacenes de datos generalmente se comparten y se centran en la transmisión de datos en tiempo real.

Cadenas minoristas

En el sector minorista, los almacenes de datos se utilizan principalmente para distribución y marketing para permitir el seguimiento de artículos, examinar las políticas de precios, realizar un seguimiento de las ofertas promocionales y analizar las tendencias de compra de los clientes. Las cadenas minoristas suelen incorporar un almacén de datos empresarial para satisfacer las necesidades de previsión e inteligencia empresarial.

Cuidado de la salud

En el sector de la salud, se utiliza un almacén de datos para pronosticar resultados, generar informes de tratamiento, compartir datos con proveedores de seguros, laboratorios de investigación y otras unidades médicas. Los almacenes de datos empresariales son la columna vertebral de los sistemas de atención médica porque la información de tratamiento más reciente y actualizada es crucial para salvar vidas.

Data Warehouse. Definición y funciones