大数据知识点概要

Hadoop

Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集

核心组成部分

  1. HDFS是Hadoop的分布式文件系统,用于存储大规模数据集。它将数据切分成块并分布在集群中的多个节点上,以实现高容错性和可扩展性。HDFS的副本机制确保数据的冗余存储,以防止数据丢失。

  2. MapReduce是一种编程模型和计算框架,用于并行处理大规模数据。它将计算任务分为Map阶段和Reduce阶段,以支持分布式计算。MapReduce框架自动处理数据分片、任务分发、结果合并等复杂细节,使开发者能够专注于编写Map和Reduce函数来实现实际的业务逻辑。

  3. YARN是Hadoop的资源管理和作业调度平台。它负责集群资源的分配和作业的管理,使多个应用程序可以在共享的集群上同时运行,实现资源的高效利用。

ZooKeeper

是一个开源的分布式协调服务,用于构建分布式应用程序和服务的可靠、高性能的协调基础设施。它提供了一组简单且易于使用的原语,如分布式锁、配置管理、命名空间等,用于解决分布式系统中的一致性、同步和协调问题。

Hive

基于Hadoop的数据仓库工具,提供SQL查询和分析能力。

HBase

分布式、面向列的NoSQL数据库。

Flume

用于数据采集、传输和聚合的分布式系统。

Kafka

是一个高性能、分布式、持久性的流数据平台,用于发布、订阅和处理实时数据流。它最初由LinkedIn开发,并且现在是Apache软件基金会的一个顶级项目。Kafka的设计目标是处理大规模的数据流,并为实时数据传输和处理提供可靠的解决方案。

Spark

是一个快速、通用、分布式的大数据处理和分析引擎,用于批量处理、实时处理、机器学习和图计算等任务。Spark最初由加州大学伯克利分校开发,并且现在是Apache软件基金会的一个顶级项目。它旨在解决Hadoop MapReduce的一些限制,提供更高的性能和更丰富的功能。

与hadoop区别

  • 计算模型:Hadoop使用MapReduce计算模型,其中计算任务被分成Map和Reduce阶段。而Spark使用更灵活的基于内存的计算模型,使得它在某些情况下比Hadoop更快。
  • 内存处理:Spark将数据存储在内存中,以便在多次处理之间快速访问。相比之下,Hadoop需要在每个Map和Reduce阶段之间将数据写入磁盘。
  • 延迟:由于内存处理和计算模型的差异,Spark通常具有比Hadoop更低的延迟。这使得Spark适用于实时数据流处理和交互式查询。
  • 数据处理抽象:Spark引入了弹性分布式数据集(RDD)的概念,它是一个可并行操作的分布式数据集合。Hadoop使用HDFS来存储数据,需要通过MapReduce任务进行处理。
  • 生态系统:Hadoop生态系统包括HDFS、MapReduce、YARN等组件,而Spark生态系统包括Spark Core、Spark SQL、Spark Streaming、MLlib等组件。

Spark可以与Hadoop一起使用,甚至可以在HDFS上读写数据。这使得Spark可以利用Hadoop的分布式存储和资源管理功能。一些场景中,Spark可以作为替代Hadoop MapReduce的更快的计算引擎。

Flink

是一个开源的流式数据处理框架,旨在处理和分析实时数据流。它提供了高性能、可扩展的流处理能力,并支持事件时间处理、状态管理和容错性。Flink 也支持批处理作业,因此可以用于混合的流批一体的大数据处理。

数据仓库

是一个用于存储、集成和管理结构化数据的中央存储库。它的设计目标是支持分析性查询和报表生成,为决策支持提供数据的一致性和准确性。数据仓库通常会经过数据抽取、转换和加载(ETL)过程,将数据从不同来源进行整合和清洗,然后存储在多维模型中,以便进行复杂的分析查询。

数据湖

是一个存储各种类型(结构化、半结构化、非结构化)数据的中央存储库,目的是存储原始数据以及大量的未处理数据。数据湖的设计思想是在存储阶段不对数据进行严格的结构化和整理,而是将数据以其原始形式存储,然后在需要时再进行处理和分析。数据湖可以容纳大量的数据,包括传感器数据、日志、社交媒体数据等

cesium

cesium简介

2024-6-3 21:46:42

大数据

kafka

2024-6-9 1:08:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索