最近,一家金融行业的客户告诉奇点云后端架构师,他们在用的CDH 6 被扫出 19类安全漏洞 。“CDH早已停止服务支持,而到这个时候,我们才有了必须换掉它的危机感。”客户说。
(相关资料图)
1. 背景: 为什么要替代?
CDH(Cloudera Distribution of Hadoop)是知名大数据厂商Cloudera的主打产品;HDP(Hortonworks Data Platform)则是同样杰出的厂商Hortonworks的代表产品。CDH、HDP都是为数据工程、数据仓库场景提供支持的大数据平台,帮助企业管理大数据集群,完成数据的存储及计算。
2019年,在Cloudera与Hortonworks合并、进行产品整合后,新Cloudera(合并后的厂牌)发布了商业版大数据平台产品CDP(Cloudera Data Platform),同期宣布当年11月后,Cloudera新发产品 均不再提供社区版(免费版) ,必须订阅企业版方可正常使用。
CDH6、HDP3成为了最后的开源社区版,它可以被继续使用,只是Cloudera官方不再对其进行技术支持(包括但不限于特性升级、bug修复等),也不再有社区开发者共同贡献维护;客户也可以选择升级为CDP(付费订阅,参考价格“50个节点,50万美元/年订阅费”)。分别在2021年12月、2022年3月,Cloudera正式终止了对HDP及CDH的支持。
出于对价格、迁移复杂度等要素的考虑,即便在停止维护的2022年,CDH依旧是国内许多企业的选择。“去年的国际政经形势比较紧张,俄罗斯还曾多次遇到技术封锁,但总感觉我们对国产替代的需求还比较远,而且毕竟换底层,都担心伤筋动骨。”这家金融客户的IT总监回忆道,“如今扫出多个安全漏洞而没有维护,让我们觉得不得不行动了。”
经分析,这家金融客户扫描出的漏洞中,包含4类高危漏洞(包括知名的log4j漏洞)、13类中危漏洞、2类低危漏洞, 覆盖授权验证、访问控制、身份验证等方面,可能会导致未经授权的访问、数据泄露、拒绝服务攻击等安全问题 ,危害企业数据安全和业务稳定性。
2. 选型: 看产品,也看服务
基于“CDH替代”、“云上EMR迁移”等数十则客户实践,我们总结了大数据集群管理引擎选型的常见指标: 功能覆盖度;稳定性;安全性;运维服务;迁移方案;成本效益。
(下文以“大数据集群管理引擎”统称CDH、云上EMR等大数据管理平台。)
· 功能覆盖度 :大数据集群管理引擎,顾名思义就是要满足企业对大数据集群的管理和日常运维的需求,包括数据计算、数据存储、数据处理、数据分析等场景。其中“Stack管理”是基本之本,以帮助企业用户快速构建、部署大数据应用。
· 稳定性 :企业级的大数据集群管理引擎必备保障,包括高可用性、容错性、数据一致性等。
· 安全性 :从数据安全、架构安全等层面,确保企业数据全链路安全合规。
· 运维服务 :提供完善的技术支持,快速响应和解决问题,以保证业务的连续性。
· CDH集群迁移方案 :有平滑迁移的成熟方案,保障新平台能平稳替代现有CDH,迁移具备可行性、可操作性及对现有数据和业务的保障能力。
· 成本效益 :基于企业长期的预算计划,综合权衡功能、服务与成本。
“CDH6毕竟是几年前的版本了,我们的数据业务需求也在变化, 需要支持更丰富的数据库引擎,也需要保证在更大数据量下的高性能。包括容器化、精细化安全权限管控这类技术,能做到会更好。 ”
换掉CDH,企业最基本的要求是功能及性能上与CDH持平,价格相较CDP商业版有显著优势。而出于数据迁移成本、潜在风险、新阶段业务需求等考量,企业在寻找替代时,对“替代者”的要求往往更高。
3. 测试:
十多类测试后, 为什么选择DataKun
本案例的金融客户,以行业标准的应用场景为参考方向,设计了十余类测试,其中 重点考察了功能覆盖度、稳定性、安全性及安全漏洞修复方案、CDH集群迁移方案、全容器化、性能等维度 。最终,这家客户确认从CDH6迁移至DataKun(奇点云数据存算引擎)。
DataKun架构图
测评细节( 点击上图放大看)
除了大数据集群管理引擎常见的测试指标及成本测算,客户也基于业务需要,着重验证了特色方案及国产环境下的性能:
· 全容器化
传统的大数据集群管理引擎存在部署繁琐、维护难度大、资源利用率低下等问题。而DataKun已支持全容器化,可以将应用封装成轻量级的容器, 实现秒级启动、停止,部署时间缩短80%以上 ,同时提高资源利用率和系统弹性。
对于这家金融客户而言,金融业务流程复杂、通常涉及大量的计算和数据处理,会对系统负载造成巨大的压力。
基于全容器化技术, DataKun进而实现“潮汐调度”,能根据业务负载自动调整容器资源的使用情况,以满足不同的业务需求和资源利用要求 ,帮助企业提高业务灵活性、降低系统负载、提高任务执行效率与系统稳定性。
· 性能优化
通常来说,要考察新引擎的性能表现(效率、准确性)是否满足企业日常的大数据处理需求,具体维度包括 数据处理速度、数据吞吐量、数据存储和检索速度等 。
在金融行业,由于数据量大、数据类型复杂,以及对数据处理速度的要求高,这家客户对ClickHouse的性能要求也相应更高。
经过大量实验与测试, DataKun完成了对ClickHouse的深度优化, 性能提升了100% ,核心优化人群圈选、漏斗分析、归因分析等能力,可以满足企业对于海量数据的实时查询和分析需求。
“对开源组件进行性能优化, 需要深入理解开源组件的架构、原理、实现细节,否则无法找出性能瓶颈并破解问题。 在性能优化过程中,也需要较高的技术水平和实践经验,才能有较好的成果。”奇点云资深技术专家牧然介绍,“ 除了ClickHouse,Flink、Spark我们也做了优化。 ”
· 国产环境兼容
数据云产品已完成从IT基础设施、基础软件到应用软件的全产业链国产产品兼容性互认证,包括龙芯中科、华为、麒麟软件、统信软件、人大金仓、达梦等等。以麒麟、鲲鹏为核心的全国产环境下,依旧表现不凡,可实现95%以上性能(相较Intel x86环境),并仍在逐步提升。
谈及对国产环境适配度的考察,客户表示:“可见的几年内,国内金融行业一定需要全面拥抱国产,我们不如在前期就做好布局,减少后期切换不必要的麻烦。”
4 迁移: 可靠、安全、高效
完成测试及选型后,下一步就是迁移。成熟的迁移方案设计应至少包括以下3个维度: 可靠、安全、高效 。
· 可靠
如何保障大数据集群管理引擎迁移的可靠?简单来说, 迁移前有完善的方案,迁移后有准确的验证。
为确保迁移的成功,必须预先考虑和解决可能出现的错误和异常情况。因此,迁移方案必须具备可恢复性和可重复性,以便在发生错误或异常情况时迅速恢复迁移过程(即可恢复性),或视需求重新启动迁移过程(可重复性),以确保数据和应用程序的完整性和安全性。
此外,迁移完成后,设置有严格的数据验证和测试,确保数据的一致性和正确性。
· 安全
数据是企业的核心资产。为保障数据的安全,迁移方案必须采取一系列措施,如加密和解密、访问控制和身份验证等,确保数据不会损失或泄露。
同时,也应建立相应的监控机制,及时发现和处理数据安全问题,以保障整个迁移过程的顺利进行。
· 高效
在优先确保迁移的“可靠”和“安全”后,进一步,则应提升迁移的体验,实现高效平滑迁移,从而缓解数据迁移对业务产生的影响。
特别是在数据量大的情况下,迁移对业务的影响更会被放大, 不好的体验感也会被放大。
在奇点云的迁移流程中,设置有一系列措施,包括使用并行传输机制、增量迁移策略等高效迁移的方法,结合客户场景需求采用,从而最大限度减少对业务的影响。
CDH迁移至DataKun 流程图
本次从CDH6到DataKun的迁移,全过程约1小时,完成1T透明加密数据、近2T未加密数据及近千张表的迁移,经数据完整性、准确性、一致性的验证,迁移准确无误。迁移完成当日,客户就已恢复日常数据作业。同时,基于DataSimba+DataKun的双层安全机制,安全性也进一步得到保障。