Code前端首页关于Code前端联系我们

基于HBase和Spark构建企业级数据处理平台

terry 3年前 (2023-09-26) 阅读数 153 #数据库

面临的场景

金融风控

用户画像库 ♸系统信息爬虫订单数据

个性推荐

用户行为分析
用户画像
推荐引擎
海量实时数据处理s❝ss❝和文章
聊天、评论
海实际成交量-时间数据处理

时空时间序列

监测数据
轨迹、设备数据
地理信息♿区域分布统计数据
- 维度表和结果表
- 离线分析
- 海量实时数据存储
新挑战
Apache HBase（在线查询）功能： ❿❓ 空闲表（Schema❓❓）随机查询、范围查询
嵌入海量数据分布式存储
高吞吐量、低延迟
基于Web的分布式数据库
多版本、增量删除❙❀新挑战

流式和批量存储

复杂分析

机器学习、图计算

生态统一分析

选择Spark的理由是

快：通过查询执行、Cache等技术的优化，Spark可以快速分析任意数量的数据。逻辑回归场景比Hadoop快100倍
一站式：Spark还支持复杂的SQL分析、流处理、机器学习、图数据处理等模型，并且以上几种模型可以组合在一个应用中解决场景问题
开发人员友好：还支持 SQL、Python、Scala、Java 和 R 等多种开发语言
优秀的生态系统：支持与 Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL 一起使用服务器等

平台组织及问题

一站式数据处理平台架构

数据存储：使用Spark Streaming，可以对Phoen HixBase进行流式ETL和增量存储。
在线查询：HBase/Phoenix可以对外提供高并发的在线搜索
离线分析和算法：如果HBase/Phoenix数据需要复杂的分析和算法分析，可以使用Sparks SQL、机器学习和图谱数据处理等待

典型业务场景：爬虫搜索引擎

性能：流吞吐量 20 万条/秒
查询能力：HBase 搜索自动同步外部搜索。一站式解决方案：Spark服务天然支持通过SQL读取HBase数据进行ETL的能力，Spark HBase Solr一站式数据处理平台

典型业务场景：大数据风控系统

Spark支持事中风控仓和事后风控仓（推荐、风控）
毫秒级识别和拦截收费单，并发数数十万
Spark卓越的计算能力：当数据量较大时，Spark的时代parquet分析是基于列式存储Greenplum集群。次性能提升
一站式解决方案：Spark服务支持通过SQL原生读取
HBase SQL（Phoenix）数据功能
专注于业务：完全托管的Spark服务，保证作业运行的稳定性。解放人力进行运维，数据工作台降低了Spark作业管理成本
原理与实践
Spark API的开发经历了RDD、DataFrame、DataSet使用Spark-Streaming方法处理实时数据。
作业堆积、延迟高、并发不足？
每批并发：增加kafka订阅的分区，
代码热点优化：看栈、广播、代码优化
Spark流式处理Inbound HBase♼-Bchous处理：1ms延迟
有Spark HBase 连接器优化
代码托管于：（包含 Spark 操作 Hbase 和 Phoenix）

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：HBase集群多租户实践：《从零开始的单行HBase 10》下一篇：hive架构、好处、使用场景以及在hadoop生态系统中的地位