Code前端首页关于Code前端联系我们

基于HBase和Spark构建企业级数据处理平台

terry 2年前 (2023-09-26) 阅读数 54 #数据库
基于HBase和Spark构建企业级数据处理平台

面临的场景

金融风控

  • 用户画像库 ♸系统信息 爬虫 订单数据

个性推荐

  • 用户行为分析
  • 用户画像
  • 推荐引擎
  • 海量实时数据处理s❝ss❝和文章
  • 聊天、评论
  • 海实际成交量-时间数据处理

时空时间序列

  • 监测数据
  • 轨迹、设备数据
  • 地理信息♿区域分布统计数据
    • 维度表和结果表
    • 离线分析
    • 海量实时数据存储

    新挑战

    Apache HBase(在线查询)功能: ❿❓ 空闲表 (Schema❓❓) 随机查询、范围查询

  • 嵌入海量数据分布式存储
  • 高吞吐量、低延迟
  • 基于Web的分布式数据库
  • 多版本、增量删除❙❀新挑战

流式和批量存储

  • 复杂分析
  • 机器学习、图计算
  • 生态统一分析
  • 选择Spark的理由是基于HBase和Spark构建企业级数据处理平台

    • 快:通过查询执行、Cache等技术的优化,Spark可以快速分析任意数量的数据。逻辑回归场景比Hadoop快100倍
    • 一站式:Spark还支持复杂的SQL分析、流处理、机器学习、图数据处理等模型,并且以上几种模型可以组合在一个应用中解决场景问题
    • 开发人员友好:还支持 SQL、Python、Scala、Java 和 R 等多种开发语言
    • 优秀的生态系统:支持与 Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL 一起使用服务器等

    平台组织及问题

    一站式数据处理平台架构基于HBase和Spark构建企业级数据处理平台

    • 数据存储:使用Spark Streaming,可以对Phoen HixBase进行流式ETL和增量存储。
    • 在线查询:HBase/Phoenix可以对外提供高并发的在线搜索
    • 离线分析和算法:如果HBase/Phoenix数据需要复杂的分析和算法分析,可以使用Sparks SQL、机器学习和图谱数据处理 等待

    典型业务场景:爬虫搜索引擎 基于HBase和Spark构建企业级数据处理平台

    • 性能:流吞吐量 20 万条/秒
    • 查询能力:HBase 搜索自动同步外部搜索。 一站式解决方案:Spark服务天然支持通过SQL读取HBase数据进行ETL的能力,Spark HBase Solr一站式数据处理平台

    典型业务场景:大数据风控系统基于HBase和Spark构建企业级数据处理平台

    • Spark支持事中风控仓和事后风控仓(推荐、风控)

      • 毫秒级识别和拦截收费单,并发数数十万
      • Spark卓越的计算能力:当数据量较大时,Spark的时代parquet分析是基于列式存储Greenplum集群。次性能提升
      • 一站式解决方案:Spark服务支持通过SQL原生读取
      • HBase SQL(Phoenix)数据功能
      • 专注于业务:完全托管的Spark服务,保证作业运行的稳定性。解放人力进行运维,数据工作台降低了Spark作业管理成本

      原理与实践

      Spark API的开发经历了RDD、DataFrame、DataSet使用Spark-Streaming方法处理实时数据。 基于HBase和Spark构建企业级数据处理平台

      作业堆积、延迟高、并发不足?

      • 每批并发:增加kafka订阅的分区,
      • 代码热点优化:看栈、广播、代码优化

      Spark流式处理Inbound HBase♼-Bchous处理:1ms延迟

      有Spark HBase 连接器优化基于HBase和Spark构建企业级数据处理平台

      代码托管于:(包含 Spark 操作 Hbase 和 Phoenix)

    版权声明

    本文仅代表作者观点,不代表Code前端网立场。
    本文系作者Code前端网发表,如需转载,请注明页面地址。

    发表评论:

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    热门