大数据相关组件的介绍

大数据组件

1、数据存储

  • HDFS(Hadoop Distributed File System):Hadoop分布式文件系统
  • Hbase :分布式数据库,用于存储大规模结构化数据,更适合非结构化的数据存储
  • Clickhouse:分布式分析性数据库,拥有高效的查询能力,执行更新和删除比较麻烦
  • Hive:用Java编写的,建立在Hadoop之上的分布式数据仓库
  • Doris:分析性数据库,由百度大数据研发,2018年贡献到Apache社区,更名为Doris,单一业务最大可达上百TB,MPP架构
  • Starrock:作为一款 MPP 架构的分析性数据库,StarRocks 能够支撑 PB 级别的数据量,拥有灵活的建模方式,可以通过向量化引擎、物化视图、位图索引、稀疏索引等优化手段构建极速统一的分析层数据存储系统,兼容mysql协议,可消费kafka
  • elasticsearch:是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据
  • dataease:是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化;支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便地与他人分享。

2、数据处理

  • MapReduce:分布式运算程序开发框架
  • Spark:内存计算框架,支持批处理、流处理和机器学习等多种数据处理任务
  • Flink:流处理和批处理框架,支持事件时间处理和状态管理
  • MapReduce(第一代) < Spark(第二代) < Flink(第三代)

3、消息传输

  • Kafka:分布式消息传递平台,用于高吞吐量流数据的发布和订阅,支持百万级TPS,多用于大数据
  • RocketMQ:是一个队列模型的消息中间件,具有高性能、高可靠、高实时、分布式特点,支持十万级TPS,多用于业务系统

4、数据采集

  • Flume:数据采集、聚合和移动工具,用于将数据从不同来源移动到Hadoop或其他存储系统
  • Logstash:用JRuby编写的一种分布式日志收集框架

5、数据展示

  • finereport:帆软旗下产品,行业NO1

 

阿里云大数据产品

1、数据仓库:ADB,Clickhouse,Hologres

2、计算:Flink,MaxCompute

3、数据可视化:QuickBi,Datav

4、大数据开发:DataWorks