Data lake VS Warehouse
Data lake (lago de datos )
Un data lake es un repositorio centralizado que le permite almacenar todos sus datos estructurados y no estructurados en cualquier escala. Puede almacenar sus datos tal como están, sin tener que estructurar primero los datos, y ejecutar diferentes tipos de análisis, desde paneles y visualizaciones hasta procesamiento de big data, análisis en tiempo real y aprendizaje automático para guiar mejores decisiones.
-
Capacidad de obtener valor a partir de tipos ilimitados de datos
-
Posibilidad de almacenar todo tipo de datos estructurados y no estructurados en un data lake, desde datos de CRM hasta publicaciones en redes sociales
-
Mayor flexibilidad: no tiene que tener todas las respuestas por adelantado
-
Posibilidad de almacenar datos en bruto: puede refinarlo a medida que su comprensión mejore
-
Formas ilimitadas de consultar los datos
-
Aplicación de una variedad de herramientas para obtener una idea de lo que significan los datos
-
Eliminación de silos de datos
-
Acceso democratizado a los datos a través de una única vista unificada de datos en toda la organización cuando se utiliza una plataforma de gestión de datos efectiva
Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.
Características del Almacén de Datos
-
Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
-
Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
-
Dependiente del tiempo. Esta dependencia aparece de tres formas:
-
La información representa los datos sobre un horizonte largo de tiempo.
-
Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
-
La información, una vez registrada correctamente, no puede ser actualizada.
-
-
No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.
Warehouse (almacen de datos)
Diferencia que existe entre data lake y warehouse
Técnicamente, los data lakes pueden admitir a todos los usuarios y estar disponibles para ellos, mientras que los data warehouse son utilizados para usuarios de negocio, muy específicos, con el objetivo de informar y extraer un significado particular de la información que se definió al configurarlo.
Profesiones relacionadas al análisis y ciencia de datos
.
El manager o consultor
Tiene una actitud directiva y de gestión. Es el responsable de un proyecto, de su gestión, equipo y resultados finales. Además, hacer de intermediario entre los diferentes equipos, incluso con el cliente, es una de sus tareas principales. Conoce el entorno big data, su tecnología y programación, pero no la utiliza.
El analista de datos o data analyst
Se encarga de recopilar todo de tipo de datos, sobretodo los ya existentes para realizar una consultoría previa a un proyecto. Con los datos recopilados, realiza informes para definir un proyecto o para corroborar que lo que se está haciendo va por buen camino.
El científico de datos o data scientist
Se encuentra a un nivel superior del analista de datos o data analyst. Tiene un conocimiento más avanzado del ámbito y de las tecnologías, de manera que puede crear algoritmos para acotar, definir o perfeccionar toda la recopilación de datos, con el objetivo de mejorar el proyecto. Desarrolla sus propios modelos de programación.
El arquitecto o ingeniero de Big Data
Se encarga de big data. Se diferencia del analista de datos o data analyst porque los datos con los que trabaja son mucho mayores. Cuenta con una formación en programación muy detallada y amplia con el objetivo de trabajar un volumen de datos elevado.
https://www.deustoformacion.com/blog/gestion-empresas/que-es-para-que-sirve-data-lake
​
https://www.tecnologias-informacion.com/data-lake.html
​
https://sites.google.com/site/bidawasig/almacen-de-datos-caracteristicas
​
https://www.techedgegroup.com/es/blog/data-lake-data-warehouse-definicion-diferencias
​
http://dataanalysis.blogs.uoc.edu/2019/07/04/profesiones-data-science-mas-buscadas/