本文转自Oracle blog(https://blogs.oracle.com/exadatacn/oraclebda)
By: Eric Min Technical Support Engineer
Oracle BDA是一款灵活的, 高性能的, 安全的平台, 在Hadoop和NoSQL系统运行不同的工作负载。Oracle Big Data SQL, Oracle BDA扩展了甲骨文行业领先的SQL在Hadoop和NoSQL系统的实现。将Hadoop生态系统的最新技术和强大的Oracle SQL 功能结合在一起, 安装在一个预先装配的平台上, Oracle BDA是唯一能够支持新的大数据产品的快速开发并且与现有的关系型数据紧密集成的设备。
官方手册和Datashhet
https://docs.oracle.com/en/bigdata/
https://docs.oracle.com/bigdata/bda411/index.htm
http://www.oracle.com/technetwork/database/bigdata-appliance/overview/bigdataappliance-datasheet-1883358.pdf
Oracle提供的一个集成的大数据解决方案
Oracle Big Dat Appliance X6-2
本文以BDA X6-2为例, Oracle BDA是一个开放的 , 多用途的集成系统, 用于Hadoop和NoSQL的处理Oracle BDA被设计成用于运行不同的工作负载 – 从单一的Hadoop工作负载(YARN, Spark, Hive etc.)到交互式的, 全范围的使用Oracle Big Data SQL的SQL交互查询。这些功能既可以在本地部署也可以部署在Oracle大数据云上。
Oracle BDA提供了一个开放的环境, 用于革新的同时保持紧密的集成以及企业级的技术支持。组织可以部署外部软件来支持新功能 – 像图形分析, 自然语言处理以及欺诈监测。非Oracle组件的支持由各自的支持渠道提供, 而不是由Oracle提供。
BDA软件高阶概览
BDA X6-2包括软件:
操作系统:
- Oracle Linux 5 或者Oracle Linux 6
集成软件:
Cloudera Enterprise 5 – 数据中心版支持:
Cloudera’s Distribution including Apache Hadoop (CDH)
Cloudera Impala
Cloudera Search
Apache HBase and Apache Accumulo
Apache Spark
Apache Kafka
Cloudera Manager with support for:
Cloudera NavigatorCloudera Back - up and Disaster Recovery (BDR)
Oracle Perfect Balance
Oracle Table Access for Hadoop
其他软件:
Oracle Java JDK 8
MySQL Database Enterprise
Server - Advanced Edition*
Oracle Big Data Appliance Enterprise Manager Plug-In
Oracle R Distribution
Oracle NoSQL Database
Community Edition (CE)**
* 受限的使用许可
** Oracle NoSQL数据库CE版本的支持不包含在BDA中。一个单独的Oracle NoSQL 数据库CE版本的支持订阅是必须的。
BDA X6-2 – 可选软件
Oracle Big Data SQL
Oracle Big Data Connectors:
Oracle SQL Connector for Hadoop
Oracle Loader for Hadoop
Oracle XQuery for Hadoop
Oracle R Advanced Analytics for Hadoop
Oracle Data Integrator
Oracle Audit Vault and
Database Firewall for Hadoop Auditing
Oracle Data Integrator
Oracle GoldenGate
Oracle NoSQL Database Enterprise Edition
Oracle Big Data Spatial and Graph
Oracle Big Data Discovery
硬件细节及规格:
满配:18个计算/存储节点
标配: 6个计算/存储节点
*每个节点配有:
2 x 22核(2.2GHz) Intel Xeon E5-2699 v4 CPU
8 x 32GB DDR4-2400内存(每个节点最大可扩展至768GB)
12x 8TB 7200转高容量SAS硬盘
2 x QDR 40 Gb/s InfiniBand端口
4 x 10 Gb以太网端口
1 x ILOM以太网端口
每台机器配有:
2 x 32端口QDR InfiniBand Leaf交换机
32 x InfiniBand端口
8 x 10Gb以太网端口
1 x 36端口QDR InfiniBand Spine交换机
36 x InfiniBand端口
额外的硬件组件包括:
以太网管理交换机
2 x 冗余电源适配器
42U机柜包装
备件包括:
1 x 8TB高容量SAS硬盘
InfiniBand网线
完整的安全性
数据安全是企业级大数据解决方案最关键的;BDA自身提供了强大的身份认证, 授权以及hadoop的数据审计。
强大的身份认证由kerberos提供。 这样确保了所有用户和系统的双向身份确认, 并且确保了欺诈服务被添加到系统中。
BDA利用Apache Sentry (一个Oracle开发人员作为创始人的开源项目) 去授权通过工具访问的SQL, 像Hive和Impala。通过交付和开发Sentry, Oracle交付了Hadoop可用的最高数据安全级别的BDA。
网络加密和静态数据加密都被包含在了BDA中并且有Oracle提供支持。BDA支持最新的静态数据创新加密, 并且通过一秘钥管理设施支持原始的HDFS加密。这个实现给HDFS所有数据开启了最牢固的安全保证。网络加密阻止了受保护的数据被嗅探并且可以通过BDA一键开启。
为了确保安全和数据访问合规, BDA集成了Oracle Audit Vault和数据库防火墙。Oracle Audit Vault代理预先安装在BDA里用于跟踪和审计Hadoop System上的数据访问。通过利用Oracle Audit Vault和数据库防火墙, 跨组织的所有审计被合并为一个单一的审计库来确保对所有数据全面的观察。
除了保证Hadoop系统的安全, Oracle Big Data SQL使组织可以在查询Hdaoop和NoSQL数据时利用数据库安全功能。结合了Oracle Big Data SQL的BDA交付了一个在所有大数据系统中最安全的系统。
简化的运维
Oracle Enterprise
Manager提供了一个入口点来管理整个系统 – 软件和硬件 – 提供了在组织中跨产品的连续性。为了给Hadoop提供更深入的管理能力, Enterprise Manager使用了上下文感知来与Cloudera
Manager来集成。
BDA通过一键式的安装, 更新, 打补丁以及扩展工具 - Mammoth来进行简化的日常维护, 可以通过Mammoth快速部署更新 (通常每季度一次) 而不需要宕机时间。Mammoth同时还在Hadoop版本和自动服务管理进行Oracle测试的, 无缝的升级, 这样可以确保Hadoop主节点和数据节点最大的平衡。
Oracle为BDA提供了相关的支持, 给组织提供了一站式的硬件及软件 (包括所有的Cloudera软件) 以及任何额外的安装Oracle软件的服务。
灵活的配置
BDA设计为可以支持随着数据和增长的扩展。最初的大数据实施可能从BDA的初始版本开始。包含六个服务器的机柜完全的安装了整套的交换机以及电源适配器, 这是和BDA全配完全一致的。初始化版本的BDA以及交换机使得机器可以非常简单高效的进行扩展, 可以从一个单节点通过Oracle BDA的高容量节点加上InfiniBand设施扩展到更多个节点。
模块儿化的硬件构建块
除了在同一个机柜进行扩展以外, 多个机柜可以通过集成的InfiniBand组件构建更大的配置。可以通过连接InfiniBand线无阻碍的扩展到18个机柜, 而且不需要任何外部交换机, 并且更大块儿网络配置也是支持的而且不需要额外的交换机。InfiniBand的使用通过少机柜转换构造需要从而极大的降低了大配置的花费成本。它可以配置成一个单集群或者多集群。这样可以更好的根据客户的需要来部署开发, 测试和生产环境。
连通性和性能增强
Hadoop的表访问特性也是Oracle BDA的特性, 它可以将Oracle的数据库表转化到Hadoop中并且Spark数据源使用了从Oracle数据库到BDA的查询检查。
Hadoop的数据访问使用了Hive SQL, Spark SQL还有Hadoop以及Spark APIs在Oracle数据库进行直接的以及一致性的数据访问, 他们支持HCatalog, InputFormat, SerDes以及Storage Handler (外部表)。Oracle数据库中的数据通过安全连接被平行访问 (Kerberos, SSL, Oracle Wallet) 。
完善的平衡也是BDA的一个特性,它使得BDA的MapReduce jobs更好的处理偏离的数据。虽然默认的Hadoop分布式方法可以适当的减少大工作量的负载,但是它不能均匀的分配数据偏离的jobs的负载。完美的平衡是针对这个问题来进行发现和优化数据偏离。
Oracle大数据一体机是由硬件和软件组件组成的工程系统,根据Oracle MAA的标准将设计,测试和优化一体化,从而提供了最高应用可用性和性能。它提供了: >> 一个完整的和优化的大数据解决方案 >> 单一供应商提供硬件和软件的技术支持 >> 一个易于部署的解决方案 Oracle大数据一体机给运行不同负载的Hadoop和NoSQL系统提供了一个灵活的,高性能的以及安全的平台。此平台可以获取,组织并且支持深度分析流入到企业中来自不同数据源的巨大而且复杂的数据流;并根据它自身的结构,负载特性以及终端用户需求结合了为数据选择最佳存储和处理位置的能力。 Oracle大数据一体机与Oracle数据库以及Oracle Exadata数据库一体机紧密地集成在一起,并且结合了被Oracle内部和全球范围内关键客户验证的同样的最高可用性架构。Oracle Exadata数据库一提机器提供在托管数据仓库和事务处理数据库方面的杰出性能。 为了达到最高速度和效率,Oracle大数据一体机可以通过使用InfiniBand技术连接到Oracle Exadata数据库一体机。In...
Sunday, September 24, 2017 | BDA | Read More
Oracle的最高可用性架构(MAA)是Oracle的最佳实践蓝本,基于已证实的Oracle高可用性技术,以及专家建议和客户体验。MAA的最佳实践已经高度集成到Oracle大数据一体机的设计和操作能力中,并且它们为大数据提供了最全面的高可用性解决方案。 Oracle MAA 的白皮书在Oracle技术网络(OTN)网站上的MAA主页发表。 Oracle大数据一体机(BDA)最高可用性架构是一个最佳实践蓝本,使用Oracle最高可用性技术和提供的信息实现一个最佳的高可用性部署。 这篇白皮书关于Oralce最高可用性架构(MAA)的测试是运行在Oracle大数据一体机和Oracle Exadata数据库一体机上,来验证高可用性以及在各种宕机场景中测量宕机时间。 这篇白皮书的最新版本涵盖了Oracle 大数据一体机MAA项目的第一阶段。该项目包括以下两个阶段: 阶段1: 单个站点的高可用性和宕机场景 阶段2: 跨多个站点的灾难恢复场景 覆盖第一阶段的白皮书现在已经在这里发表了. 中文版本请见如下博文: 1....
Monday, September 18, 2017 | BDA | Read More
没有人需要详细说明数据科学的重要性和重要性,所以我们不讨论为什么您应该关注框架和工具,以便在Hadoop基础设施上启用ai/ml和更多有趣的东西。在Oracle一体机上实现这一点的一种方法是使用Cloudera数据科学工作台(CDSW)。有关CDSW的一些信息和它的好处,请参阅本文的最后部分。 它是如何工作的? 假设您想要使用CDSW来满足您的数据科学需求,那么我们可以使用BDA一体机来支持对CDSW的支持。 CDSW将在集群上运行(一组)边缘节点。这些节点必须遵循一些特定的OS版本,因此我们发布了一个新的BDA基本镜像,用于提供Oracle Linux 7(UEK4)的边缘节点的支持。CDSW从CDSW 1.1开始支持Oracle Linux 7(更多版本信息请参考这里)。 随着操作系统版本的扩大,我们将支持CDSW,并且在一个包含8个节点的BDA(如下图所示)中,你需要把这两个边缘节点重新安装BDA OL7基本镜像,配置网络并将节点作为边缘节点集成到集群中。在此之后,你可以按照Cloudera的文档安装CDSW。 正如您在上图中看到的,这两个边缘节点...
Wednesday, September 13, 2017 | BDA | Read More
从边缘节点(Edge Node)访问BDA上CDH集群(非安全访问)
BDA 4.7 with CDH 5.9.0, Oracle Linux 6.7 Edge Node with CDH 5.9.3, Oracle Linux 6.7. 安装之前的准备: 1. 安装JDK(JDK 1.7+): 以JDK 1.7为例: 从http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jdk-7u25-oth-JPR下载Oracle jdk 1.7.0_25 $ rpm -ivh jdk-7u25-linux-x64.rpm $ vi /etc/profile 在最后加上: export JAVA_HOME=/usr/java/jdk1.7.0_25 export PATH=$JAVA_HOME/bin:$PATH 保存后运行: $ source /etc/profile $ echo $JAVA_HOME /usr/java/jdk1.7.0_25 2. 配置yum源 $ vi...
Saturday, January 7, 2017 | BDA | Read More
Reference
https://www.oracle.com/engineered-systems/big-data-appliance/index.html
https://blogs.oracle.com/exadatacn/bda
https://docs.oracle.com/bigdata/bda411/index.htm