大数据分析的六大工具:hadoop 到 Pentaho BI
1。 hadoop
Hadoop是一个可以对大量数据进行分布式处理的软件框架。但 Hadoop 以可靠、高效且可扩展的方式做到这一点。 Hadoop 是可靠的,因为它假设计算元素和存储将发生故障,因此它维护工作数据的多个副本,确保可以针对故障节点重新分配处理。 Hadoop之所以高效,是因为它以并行方式工作,通过并行处理来加快处理速度。 Hadoop 还具有可扩展性,能够处理 PB 级的数据。此外,Hadoop 依赖于社区服务器,因此相对便宜,任何人都可以使用。
Hadoop 带有一个用 Java 语言编写的框架,因此非常适合在 Linux 生产平台上运行。 Hadoop 上的应用程序也可以用其他语言编写,例如 C++。
2。 HPCC
HPCC,高性能计算和通信的缩写。 1993年,美国联邦科学、工程和技术协调委员会向国会提交了一份“大挑战项目:高性能计算和通信”报告,又称HPCC计划报告,是美国总统的科学战略项目。 。目的是通过加强研究开发,解决一批重要科技挑战。 HPCC是一项在美国实施信息高速公路的计划。实施这一计划将耗资数百亿美元。主要目标是:开发可扩展的计算系统和相关软件以支持太比特级网络传输性能,并开发数千兆比特网络技术以扩展研究和教育机构和网络连接。
3。 Storm
Storm是免费开源软件,是一个分布式、容错、实时计算系统。 Storm可以非常可靠地处理巨大的数据流,用于处理Hadoop批量数据。 Storm 很简单,支持多种编程语言,而且使用起来很有趣。 Storm 是 Twitter 开源的。其他著名的应用公司包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等。
Storm有很多应用领域:实时分析、在线机器学习、不间断计算、分布式RPC(远程过程)。调用协议(通过网络向外部计算机程序请求服务的方法)、ETL(Extraction-Transformation-Loading,数据提取、转换和加载的简称)等。Storm的处理速度惊人:经测试,每个节点每秒可以处理100万个数据元组。 Storm 具有可扩展性、容错性并且易于设置和操作。
4。 Apache Drill
为了帮助企业用户找到更高效、更快捷的方式来搜索 Hadoop 数据,Apache 软件基金会最近推出了一个名为“Drill”的开源项目。 Apache Drill 实现了 Google 的 Dremel。该项目将创建谷歌Dremel Hadoop工具的开源版本,谷歌用它来加速Hadoop数据分析工具的互联网应用。 “Drill”将帮助Hadoop用户更快地搜索海量数据集。
通过开发“Drill”Apache开源项目,组织将能够基于Drill的API接口和灵活强大的架构来支持广泛的数据源、数据格式和查询语言。
5。 RapidMiner
RapidMiner 是世界领先的数据挖掘解决方案,在很大程度上拥有先进的技术。它涵盖了广泛的数据挖掘任务,包括各种数据艺术,并且可以促进数据挖掘过程的设计和评估。
6。 Pentaho BI
Pentaho BI 平台不同于传统的 BI 产品。它是一个以流程为中心、以解决方案为导向的框架。其目的是集成一系列企业级BI产品、开源软件、API等组件,以方便商业智能应用的开发。它的出现使得一系列独立的商业智能产品,如Jfree、Quartz等可以集成在一起,形成复杂而完整的商业智能解决方案。
Pentaho BI 平台构建在服务器、引擎和组件的基础上。这些提供了系统的J2EE服务器、安全性、门户、工作流、规则引擎、映射、协作、内容管理、数据集成、分析和建模。这些组件大多数都是基于标准的,可以用其他产品替换。
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。