Page 1 of 1

数据湖我们讨论了数据仓库

Posted: Thu Jan 16, 2025 5:42 am
by suchona.kani.z
它主要根据精确定义的模式处理结构化数据。随着硬盘存储成本随着时间的推移而下降,现在可以存储越来越多的数据。这些数据通常结构化程度较低,范围从音频和视频数据到非结构化文本文档。简单来说,数据湖只是低成本存储中的一个数据文件夹,可以存储任意数据。

事实证明,数据仓库系统不适合管理大量数据或具有不同结构的数据。这就是数据湖概念发挥作用的地方,它提供了一种在 Hadoop 分布式文件系统 (HDFS) 和后来的 AWS S3 等系统中存储所有类型数据的解决方案。

数据湖是一个中央存储库,允许公司存储和管理大量结构化、半结构化和非结构化数据。与传统数据仓库不同,数据湖以其原始的本机格式存储数据,不需要预定义的模式。这种灵活性使公司能够经济有效地收集和存储来自不同来源(例如日志文件、传感器数据或社交媒体帖子)的大量数据。

传统的数据仓库是单一的本地系统,其中数据处理和存储 开曼群岛 whatsapp 数据 紧密耦合。在大数据背景下,出现了分布式计算的概念,其中数据分布在多台计算机上,每台计算机都具有计算和存储能力的组合。

随着云计算的出现,发生了范式转变,使得不同计算机上的计算和存储性能得以分离。事实证明,这种架构上的改变更加高效。此外,在云环境中,即用即付 (OPEX) 模式比传统的资本支出模式 (CAPEX) 更便宜,后者通常需要预先进行不灵活的投资。

经典的数据湖可能如下所示:


数据湖的可视化

可以看出,原始数据层以未经修改的形式存储各种类型的数据。然后,这些数据在干净数据层中进行清理和转换,以适应特定的用例。应该注意的是,不同的人或公司可能对这些班次使用不同的名称,例如:

铜、银、金
临时的、原始的、可靠的、精致的
着陆数据、原始数据、标准化数据、处理数据
原始数据、分级数据、分析数据
这些替代名称反映了数据生态系统内构建数据管理流程的多样性和灵活性。

虽然数据湖的灵活性在很多方面带来了优势,但它也有一些缺点。

1.数据治理:由于最初缺乏结构,很难确保数据治理和维护数据湖中的数据质量。因此,公司必须采取健全的治理实践。
2.复杂性:随着数据湖中数据量的增加,管理和导航会变得更加复杂,这可能会导致所谓的“数据沼泽”。
3. 安全性:如果数据湖没有得到充分保护,可能会出现安全问题,包括未经授权的访问和潜在的数据泄露。
4. 延迟:在数据湖中实时访问和处理数据可能比传统的数据仓库解决方案更具挑战性。
5.数据沼泽:这种高度的灵活性往往会导致产生大量数据,这通常被称为“数据沼泽”。
数据湖最初被吹捧为解决关系数据仓库问题的灵丹妙药,有望节省成本、可扩展性和性能改进。 Cloudera 和 Hortonworks 等公司将它们作为“一刀切”的解决方案进行营销。然而,现实更为复杂,因为查询数据湖需要高级技能。最终用户在使用 Hive 和 Python 等工具时遇到了困难,导致用这些所谓的神奇解决方案取代传统数据仓库的尝试失败了。