OLTP,Online Transaction Processing
)和日常操作。数据库通常由数据库管理系统(DBMS)控制,其中关系数据库管理系统(RDBMS)是最流行的子集。
企业通常在需要快速访问数据时使用数据库。例如,航空公司可能依赖数据库来处理顾客的在线购票,而像亚马逊这样的电子商务公司可能使用数据库来跟踪库存水平并推荐顾客可能感兴趣的产品。
为了确保事务的完整性,数据库需要具备四个组成部分:
原子性(Atomicity):整个事务要么全部执行成功,要么全部不执行。
一致性(Consistency):事务执行前后,数据库必须保持一致性约束。
隔离性(Isolation):确保多个事务可以并发执行,而不会导致数据库状态不一致。
持久性(Durability):一旦事务执行完成,对数据库的更新和修改必须被永久保存,即使系统发生故障也不能丢失。
许多当今领先的企业,包括航空、酒店、医疗保健和零售行业,都在使用数据仓库来优化数据收集,减少浪费,并提高数据生成的效率。
数据仓库的一些好处:
与整个企业数据存储在数据仓库中不同,数据集市通常是针对特定用户群体或特定用途进行优化和设计的。
数据集市可以独立于整体数据仓库进行构建和部署,或者作为数据仓库的一部分存在。
数据集市提供了更具体、更精细化的数据视图和分析能力,以满足特定业务需求。
以下是数据集市的三种类型:
Independent Data Mart
)Dependent Data Mart
)Hybrid Data Mart
)数据集市能够根据不同的业务需求和用户需求,提供定制化的数据视图和访问权限,以支持更有效的数据分析和业务决策。
数据湖(Data Lake
)是一个数据存储库,可以存储结构化数据、半结构化数据和非结构化数据,而无需预定义数据结构。
数据湖强调数据的存储和采集,而不是预定义的数据处理。
数据湖的运作方式类似其名字所暗示的:所有数据,无论其格式如何,都以原始形式存储。
可以想象每个企业数据的一小部分就像水滴一样。这些小水滴数据自由流动,从各种源头汇聚成河流,最终汇入数据湖,形成一个庞大的数据湖泊。
数据湖的主要优势之一是可以在不进行预处理的情况下存储数据。数据只是简单地流入数据湖,等待分析师和业务用户未来的请求,用于其他业务功能。
此外,这种自由流动的过程意味着可以收集、存储和检索比以往任何时候都多的数据。
由于数据湖本身是非结构化的,因此更容易访问和修改其中的数据。
无限数据源:由于其自由流动的特性,数据湖可以处理来自无限数量来源的数据。
原始和非结构化数据的存储:由于数据湖的灵活构造,它可以接收结构化和非结构化数据,与大多数传统数据仓库不同。
消除数据孤岛:数据湖消除了数据孤岛,帮助组织最大化利用所有数据的潜力,包括非结构化数据。
降低成本:数据湖通过消除过时的传统数据存储方法,可以为组织节省大量资金。