IBM InfoSphere CDC是一款功能强大的数据实时复制软件,不仅广泛应用于传统ODS、数据仓库、数据集市及BI系统的异构平台集成,同时也提供对Cloud的全面支持;对于各种 Cloud 应用场景,CDC 不仅能提供低影响、近实时的海量数据复制,同时还可确保数据在传输过程中的完整性和安全性。

作为IBM重金打造的旗舰品牌,Bluemix 公有云平台是一个基于 Cloud Foundry 开源项目的平台即服务(PaaS)产品,它使得组织和开发人员能够快速而又轻松地在云上创建、部署和管理应用程序。Bluemix 为全球广大用户提供丰富的应用和服务,这其中也包括云端的 IBM Hadoop产品:BigInsights。

通过IBM InfoSphere CDC,可以轻松将本地数据库(On Premise)的数据实时同步到位于 Bluemix 云端的BigInsights,从而解决在大数据分析中所面对的几大问题:
- 海量数据的处理
- 数据来源的多样性
- 数据分析的敏捷性
- 数据分析的持久性

接下来,我们将通过以下步骤来演示如何利用CDC搭建本地数据库(例如DB2)到云端BigInsights的实时同步场景。
On Premise 系统配置
1. 配置并确认当前DB2数据库正常运行。
2. 安装InfoSphere CDCfor DB2(位于源端的CDC引擎,通过实时解析DB2日志来捕获增量数据变化)。
3. 安装InfoSphere CDC for DataStage(位于目标端的CDC引擎,将源端的实时增量数据应用于目标端Hadoop平台/HDFS文件系统)。
4. 配置CDC服务器到Bluemix的内部网络连接(防火墙)。
5. 安装CDC配置管理监控平台(Management Console 和 Access Server)。

1. 登录Bluemix平台(要求使用Bluemix ID)。
https://console.ng.bluemix.net/
2. 点击页面上方的"目录",并在页面左侧的"服务"栏中勾选"数据与分析",然后选择"BigInsights for Apache Hadoop"。
3. 进入"BigInsights for Apache Hadoop"页面,指定相关属性并创建服务。

1. 从Bluemix的用户仪表盘中,点击新创建的"BigInsights for Apache Hadoop"服务。

2. 检查当前服务的有效期,通常免费使用一个月。
3. 检查当前服务的凭证及配置信息,例如用户名、密码。
1. 在BigInsights for Apache Hadoop页面中点击"Launch" 以启动服务。
2. 检查BigInsights for Apache Hadoop的主机名,端口(8443)及URL前缀(/gateway/default/),以供CDC配置使用。

创建CDC预订和配置表映射
1. 在CDC配置管理监控平台(Management Console)中,创建预订并运行表映射向导。

2. 选择目标端交付方法为 Apache Hadoop -> Web HDFS。

3. 选择需要复制的DB2源表,并指定目标端BigInsights的Web HDFS目录路径。

配置CDC预订的Hadoop属性
1. 右键点击预订,选择Hadoop Properties。

2. 可修改Batch Size值(生成落地文件的触发条件),并输入通过Web HDFS连接BigInsights的连接信息。

3. 启动预订,开始实时复制。
验证数据实时同步结果
1. 在本地DB2数据库上运行若干个交易,使得CDC所监控的源表数据产生变更。
2. 在目标端BigInsights for Apache Hadoop主页上点击BigSheets,便可监控到数据从源端
DB2已实时同步过来,整个过程完全自动化,低延迟且准确无误。

详情请咨询在线客服!