¿Qué viene después de Data Lakehouse?

¿Qué viene después de Data Lakehouse?

  • Big Data
  • mayo 4, 2022
  • No Comment
  • 82
  • 10 minutes read


A medida que los conjuntos de datos crecen y se vuelven más complejos, las empresas se esfuerzan por crear nuevos sistemas para almacenarlos, analizarlos y obtener valor de ellos. Esto ha creado una mezcolanza de soluciones que cumplen ciertas tareas pero se quedan cortas en otras áreas. Lo que se necesita es un nuevo enfoque que comience donde terminan las soluciones actuales.

La última entrada en el léxico es Data Lakehouse. Este nuevo objetivo combina capacidades de dos arquitecturas familiares para cualquiera que haya trabajado en el negocio de datos: lagos de datos y almacenes de datos. Los defensores dicen que un lago combina la flexibilidad y el bajo costo de un lago de datos con la facilidad de acceso, la familiaridad y el soporte para el análisis empresarial que se encuentra en los almacenes de datos. Algunos argumentan que ayuda a las organizaciones a desencadenar y expandir el uso de datos en los almacenes y evita que los lagos de datos se conviertan en pantanos.

Dado que los dos componentes de entrada, el almacén de datos y el lago de datos, tienen sus ventajas y desventajas, ¿cómo se pueden combinar las mejores capacidades de cada componente en el proceso para enfrentar los desafíos del mañana?

Los componentes y dónde se queda corto el proceso

Los lagos de datos almacenan datos en su estado original. Tienden a mantener los datos en su forma original (estructurados, no estructurados, archivos de imagen, PDF, bases de datos) que no se han utilizado pero que podrían considerarse para un uso operativo futuro.

Los almacenes de datos almacenan datos centrales fundamentales que hacen funcionar el negocio, como B. Registros de clientes y listas de materiales de la cadena de suministro. Los datos sin procesar deben procesarse contra un esquema para que encajen en el almacén de datos antes de que se consulten y analicen. En ambos casos, se requiere un tipo de tecnología de centro de datos para preparar los datos para su uso.

Los centros de datos son puertas de enlace a través de las cuales los datos se pueden fusionar, transformar y enriquecer para moverlos a otro destino. Los especialistas en integración de datos de TI los utilizan para crear integraciones de toda la empresa donde normalmente no existían. Los centros de datos complementan los almacenes de datos, los lagos de datos y, en términos más generales, las casas de lagos de datos porque admiten el consumo orquestado y con estado de datos contra el modelo de datos en cada etapa de la canalización de datos.

Los centros de análisis ayudan a canalizar los datos a un conjunto más amplio de usuarios: analistas y científicos de datos, así como ciudadanos o análogos de usuarios avanzados de esos dos roles. Funcionan como conmutadores punto a punto. Dependen de una fuente externa (un almacén de datos en la nube, un lago de datos o un lago de datos) para almacenar los datos de entrada.

A diferencia de los tres términos anteriores, el término «centro de análisis» no es algo que se escuche mucho porque en realidad no lo es. centros en absoluto. No admiten el mantenimiento de datos en vistas guardadas de varios proyectos para uso a largo plazo. Más bien, se especializan en permitir que una variedad de proyectos analíticos sean ejecutados por usuarios que no son de TI, incluidos analistas, científicos de datos y desarrolladores ciudadanos con habilidades de BI y herramientas de informes.

Sin la capacidad de extraer fácilmente datos de múltiples fuentes de datos y vincular elementos de datos compuestos de esas múltiples fuentes a las herramientas de análisis para la presentación, realmente no tiene un centro de análisis, en gran parte porque no tiene un centro de datos. Sin embargo, son excelentes para los usuarios que no son de TI y que realmente quieren centrarse en el análisis y confiar en TI para obtener acceso y soporte para los datos que necesitan. Con la TI sobrecargada y los registros mucho más diversos y cambiantes, esta dependencia se está convirtiendo cada vez más en un impedimento importante.

Promesas rotas

Si bien las cuatro soluciones realizan funciones específicas, ninguna puede operar sin un soporte de TI significativo. En otras palabras, la idea de un único almacén de datos virtual compartido, accesible para un grupo multidisciplinario de usuarios y vinculado a sus herramientas analíticas favoritas, prometida por los lagos de datos, los almacenes de datos y los centros de datos, no existe. La industria no ha creado un verdadero centro de análisis que satisfaga todas las necesidades de los stakeholders.

Los lagos de datos resuelven algunos problemas, pero no todos. Evolucionan el concepto de lagos de datos, incorporando algunas de las características y funcionalidades que se encuentran en los almacenes de datos mientras abordan las necesidades de la ciencia de datos. Los científicos de datos pueden beneficiarse de la facilidad de uso, que les permite explorar consultas más amplias y experimentar con la forma en que los datos se integran con la automatización y orquestación de procesos. Sin embargo, a medida que aumenta el uso de datos, también aumenta la necesidad de funcionalidad dentro de un centro de datos y un almacén de datos.

La solución real, especialmente dado el rápido ciclo de desarrollo continuo y mejora continua, es combinar elementos de todas estas tecnologías en una sola.

Presentamos el centro de análisis de datos

En lugar de crear silos (centros de datos para TI y centros de análisis para usuarios que no son de TI), las organizaciones necesitan un nuevo vehículo que reúna todos los elementos en la forma en que prometen los lagos de datos. Esto se puede definir como «Centro de análisis de datos». Los centros de análisis de datos pueden ser utilizados por una variedad de unidades comerciales y de TI en múltiples conjuntos de datos. Puede extraer elementos de las cuatro tecnologías: centros de datos, centros de análisis, lagos de datos y almacenes de datos.

Al igual que un centro de datos, un centro de análisis de datos se conecta a varias fuentes de datos. Pero a diferencia de un centro de datos, ofrece persistencia en un repositorio en la nube. También permite el mantenimiento de varios tipos de datos que se pueden ingerir tanto en modo por lotes como de transmisión con opciones de autoservicio de código bajo a cero a través de menús desplegables para usuarios que no son de TI.

Al igual que un lago de datos, el repositorio de almacenamiento en la nube de un centro de análisis de datos puede manejar cualquier tipo de datos y aprovechar los estándares de la industria para el análisis y el movimiento de datos. Sin embargo, a diferencia de los lagos de datos actuales, los centros de análisis de datos también admiten cargas de trabajo de inteligencia empresarial (BI) orientada al usuario final y análisis avanzado mediante el uso de SQL. Podría describirse como un centro bidireccional que admite múltiples entradas y salidas, brindando soluciones para todas las permutaciones de datos de entrada y herramientas de salida utilizadas por una amplia gama de usuarios que no son de TI.

Los centros de análisis de datos son compatibles con las herramientas de BI, generación de informes, visualización y análisis avanzado más populares. Sin embargo, a diferencia de los centros de datos, lagos de datos y almacenes de datos actuales, los centros de análisis de datos proporcionan herramientas de autoservicio fáciles de usar que permiten a los usuarios sin conocimientos técnicos conectar cualquier fuente de datos a cualquier herramienta del usuario final, sin que TI tenga intervenir una vez o diariamente.

En resumen, un centro de análisis de datos brinda a las organizaciones lo que necesitan en el entorno actual centrado en datos en constante evolución: la capacidad de almacenar, administrar y analizar datos de manera holística por diversos equipos virtuales. Combina las capacidades críticas de recopilación y análisis de datos de estas conocidas soluciones, pero hace que todas estas capacidades estén disponibles de manera que los usuarios comerciales clave puedan acceder fácilmente e integrarse en programas y procesos.

Sobre el Autor

Lewis Carr es el director sénior de marketing de productos de Actian. En su función, Lewis lidera la gestión de productos, el marketing y la estrategia y ejecución de soluciones. Lewis tiene una amplia experiencia en la nube, análisis de big data, IoT, movilidad y seguridad, así como experiencia en desarrollo de contenido original y gestión de equipos diversos. Es colaborador individual y gerente en ingeniería, preventa, desarrollo comercial y la mayoría de las áreas de marketing dirigidas a empresas, gobiernos, OEM y mercados integrados.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1



Related post

Diversas técnicas de modelado de almacenamiento de datos y su implementación en la plataforma Databricks Lakehouse

Diversas técnicas de modelado de almacenamiento de datos y…

Lakehouse es un nuevo paradigma de plataforma de datos que combina las mejores cualidades de los lagos de datos y los…
¿Por qué las grandes empresas utilizan Microsoft Power BI?

¿Por qué las grandes empresas utilizan Microsoft Power BI?

Que evolución la tecnología y la la red está teniendo un profundo impacto en el panorama empresarial de todo el mundo.…
Por qué el big data está creando un gran mercado para las NFT

Por qué el big data está creando un gran…

La tecnología de big data ha llevado a otros importantes avances tecnológicos. Hemos hablado extensamente sobre las aplicaciones de big data…

Leave a Reply

Tu dirección de correo electrónico no será publicada.