大数据相关组件的介绍
- 大数据
- 2023-09-26
- 425热度
- 0评论
大数据组件
1、数据存储
- HDFS(Hadoop Distributed File System):Hadoop分布式文件系统
- Hbase :分布式数据库,用于存储大规模结构化数据,更适合非结构化的数据存储
- Clickhouse:分布式分析性数据库,拥有高效的查询能力,执行更新和删除比较麻烦
- Hive:用Java编写的,建立在Hadoop之上的分布式数据仓库
- Doris:分析性数据库,由百度大数据研发,2018年贡献到Apache社区,更名为Doris,单一业务最大可达上百TB,MPP架构
- Starrock:作为一款 MPP 架构的分析性数据库,StarRocks 能够支撑 PB 级别的数据量,拥有灵活的建模方式,可以通过向量化引擎、物化视图、位图索引、稀疏索引等优化手段构建极速统一的分析层数据存储系统,兼容mysql协议,可消费kafka
- elasticsearch:是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据
- dataease:是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化;支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便地与他人分享。
2、数据处理
- MapReduce:分布式运算程序开发框架
- Spark:内存计算框架,支持批处理、流处理和机器学习等多种数据处理任务
- Flink:流处理和批处理框架,支持事件时间处理和状态管理
- MapReduce(第一代) < Spark(第二代) < Flink(第三代)
3、消息传输
- Kafka:分布式消息传递平台,用于高吞吐量流数据的发布和订阅,支持百万级TPS,多用于大数据
- RocketMQ:是一个队列模型的消息中间件,具有高性能、高可靠、高实时、分布式特点,支持十万级TPS,多用于业务系统
4、数据采集
- Flume:数据采集、聚合和移动工具,用于将数据从不同来源移动到Hadoop或其他存储系统
- Logstash:用JRuby编写的一种分布式日志收集框架
5、数据展示
- finereport:帆软旗下产品,行业NO1
