基于HBase和Spark构建企业级数据处理平台

面临的场景
金融风控
- 用户画像库 ♸系统信息 爬虫 订单数据
个性推荐
- 用户行为分析
- 用户画像
- 推荐引擎
- 海量实时数据处理s❝ss❝和文章
- 聊天、评论
- 海实际成交量-时间数据处理
时空时间序列
- 监测数据
- 轨迹、设备数据
- 地理信息♿区域分布统计数据
- 维度表和结果表
- 离线分析
- 海量实时数据存储
新挑战
Apache HBase(在线查询)功能: ❿❓ 空闲表 (Schema❓❓) 随机查询、范围查询
- 嵌入海量数据分布式存储
- 高吞吐量、低延迟
- 基于Web的分布式数据库
- 多版本、增量删除❙❀新挑战
流式和批量存储 选择Spark的理由是 平台组织及问题 一站式数据处理平台架构 典型业务场景:爬虫搜索引擎 典型业务场景:大数据风控系统 原理与实践 Spark API的开发经历了RDD、DataFrame、DataSet使用Spark-Streaming方法处理实时数据。 作业堆积、延迟高、并发不足? Spark流式处理Inbound HBase♼-Bchous处理:1ms延迟 有Spark HBase 连接器优化 代码托管于:(包含 Spark 操作 Hbase 和 Phoenix)
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。