大数据相关组件的介绍

wangwen
大数据
2023-09-26
541热度
0评论

大数据组件

1、数据存储

HDFS(Hadoop Distributed File System)：Hadoop分布式文件系统
Hbase ：分布式数据库，用于存储大规模结构化数据，更适合非结构化的数据存储
Clickhouse：分布式分析性数据库，拥有高效的查询能力，执行更新和删除比较麻烦
Hive：用Java编写的，建立在Hadoop之上的分布式数据仓库
Doris：分析性数据库，由百度大数据研发，2018年贡献到Apache社区，更名为Doris，单一业务最大可达上百TB，MPP架构
Starrock：作为一款 MPP 架构的分析性数据库，StarRocks 能够支撑 PB 级别的数据量，拥有灵活的建模方式，可以通过向量化引擎、物化视图、位图索引、稀疏索引等优化手段构建极速统一的分析层数据存储系统，兼容mysql协议，可消费kafka
elasticsearch：是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据
dataease：是开源的数据可视化分析工具，帮助用户快速分析数据并洞察业务趋势，从而实现业务的改进与优化；支持丰富的数据源连接，能够通过拖拉拽方式快速制作图表，并可以方便地与他人分享。

2、数据处理

MapReduce：分布式运算程序开发框架
Spark：内存计算框架，支持批处理、流处理和机器学习等多种数据处理任务
Flink：流处理和批处理框架，支持事件时间处理和状态管理
MapReduce（第一代） < Spark（第二代） < Flink（第三代）

3、消息传输

Kafka：分布式消息传递平台，用于高吞吐量流数据的发布和订阅，支持百万级TPS，多用于大数据
RocketMQ：是一个队列模型的消息中间件，具有高性能、高可靠、高实时、分布式特点，支持十万级TPS，多用于业务系统

4、数据采集

Flume：数据采集、聚合和移动工具，用于将数据从不同来源移动到Hadoop或其他存储系统
Logstash：用JRuby编写的一种分布式日志收集框架

5、数据展示

finereport：帆软旗下产品，行业NO1

阿里云大数据产品

1、数据仓库：ADB，Clickhouse，Hologres

2、计算：Flink，MaxCompute

3、数据可视化：QuickBi，Datav

4、大数据开发：DataWorks

恨相知晚

一起参与讨论！

基于.少年歌行. 595252427. ICP备案号鄂ICP备2023029652号

总访问量：272070 今日访问量：351 今天第351 位访问ip：216.73.216.35