从数据到洞察,杉岩的对象是如何支撑新型数据湖的
浏览:150 时间:2022-12-25

传统数据湖面临性能挑战

随着数据分析和人工智能应用的普及,企业数据量大幅增加,创新业务层出不穷。企业对数据分析的灵活性、性能和成本的要求越来越高。传统大数据Hadoop系统搭建的数据分析平台已经不能满足企业的需求。越来越多的企业基于数据湖搭建大数据处理平台。数据湖的典型特征是存储和计算分离,可以降低系统成本,实现更好的系统可扩展性。

数据湖体系结构使企业能够在一块数据上扩展创新业务,而不必在每次开发新业务时都制作数据副本。然而,传统的数据湖方案在性能上仍然存在明显的不足。传统的数据湖虽然依靠云存储,降低了存储成本,但在数据分析过程中,完全依靠云存储的吞吐能力进行数据扫描。该方法仅适用于对延迟不敏感的应用,如ETL和批处理计算,但不能支持秒级数据检索和时间序列数据分析。

数据湖支持大数据分析和机器学习平台

数据湖除了服务于传统的Hadoop/Spark大数据分析平台外,还需要满足AI算法模型训练、推理和数据归档的需求,这就要求存储系统支持多种协议,提高处理效率。例如,在自动驾驶模型训练和分析的场景中,车辆采集的视频和雷达数据需要通过文件或对象接口导入和存储,然后通过HDFS接口进行预处理。预处理后的结果通过AI进行训练,通过文件接口由计算服务器进行模拟,从而获得新的算法和模型,用于下一轮测试。单对象存储或HDFS存储无法支持这些需求,需要更专业的存储平台来提供服务。

杉岩数据的MOS海量对象存储可以通过异构纳米管整合管理现有的HDFS数据源和NAS数据源,存储在公有云中的数据也可以通过混合云存储方案带入MOS对象存储池进行统一管理。杉岩数据最近发布的MosFS高性能数据湖文件网关位于系统架构中的MOS对象存储池上,为Hadoop/Spark大数据分析平台和TensorFlow/pyTorch/Caffe机器学习平台提供原生HDFS接口、S3/OSS对象接口和pOSIX文件接口。

图1:数据湖文件网关架构

MOS对象存储与MOS FS 文件网关相结合构建的数据湖架构,为企业管理众多数据源,实现高性能存储和数据治理提供了坚实的基础。

高效的多数据源管理

MOS可以管理第三方NAS存储、对象存储和HDFS数据源,通过映射向上层提供数据服务,可以实现现有IT架构下存储系统的快速切换,长时间的数据迁移可以在后台异步进行。数据的统一管理可以服务于多个平台和应用程序,而无需多个副本,从而减少了对存储空间的需求。

内容感知多级缓存加速

机器学习平台在模型训练中要求超高吞吐量和超低延迟。MosFS可以与上层应用进行链接,通过标签感知和应用可以获得相关性较高的数据。机器学习平台可以通过路径、数据标签和多策略组合获得高相关性的数据集。在实际操作中,MosFS将上述数据映射到目录中,并通过内存和SSD多级缓存加速数据访问。比如在自动驾驶的训练中,算法需要白天四车道所有车辆拍摄的视频和图片,MosFS可以通过这些数据特征对应的标签将MOS存储资源库中的相关数据映射到一个目录中,并通过多级缓存提供给训练算法。

多策略数据映射简化了管理

MosFS的数据映射能力实现了数据访问的虚拟化,并通过全局命名空间将数据呈现给上层应用。时间、标签和文件名前缀等多粒度策略可以简化数据管理。

分布式数据湖文件网关,性能接近本地全闪存

MOS fs 文件网关和MOS对象存储可以位于同一位置,也可以单独部署。为了满足机器学习平台超高吞吐量和超低延迟的性能需求,通常将MosFS分布在计算服务器上。在这种情况下,MosFS与计算服务器的本地保留内存和SSD形成分布式缓存层,以加快训练速度。传统的分布式NAS作为机器学习的后端存储存在成本高、数据无法与其他类型的存储进行通信、数据管理复杂导致训练效率低下等缺点。相比之下,MosFS可以管理MOS、原始NAS和HDFS存储,统一所有数据视图,分布式数据缓存可以多次提高训练效率,性能接近使用计算服务器的本地SSD。

图2:文件网关数据湖分布在计算服务器上

增强HDFS协议,实现大数据存储与计算分离

作为传统的数据仓库存储平台,HDFS在数据湖场景中面临着性能和成本问题。在实际应用中,当数据量超过10 ~ 20 PB时,HDFS性能会严重下降。另外,HDFS基本上只支持多副本存储模式,对纠删码的支持效果并不好。MosFS和MOS结合构建的数据湖存储兼容HDFS接口和S3协议,可以实现存储与Hadoop计算平台的分离,帮助客户将HDFS数据收集到MOS存储中,实现非结构化数据、半结构化数据和结构化数据的统一管理。MosFS提供的原生HDFS接口与主流平台100%兼容,内部实现了S3/OSS与HDFS接口协议的互通转换,避免了数据的多次拷贝。

图3:数据湖架构实现了存储和计算的分离

大数据分析与AI训练推理的融合需求越来越多。传统大数据存储只提供HDFS接口。如果将大数据分析的结果用于AI训练,需要将数据复制到其他存储中进行处理,导致数据分析整体效率较低,存储空间浪费。杉岩新数据湖架构不仅可以为大数据分析提供HDFS接口,还可以为AI训练推理提供文件和对象接口。大数据分析的结果可以通过文件接口直接访问,无需复制和等待,大大提高了融合场景下大数据分析的效率。

人工智能培训实践案例

类脑智能技术与应用国家工程实验室是由中国科技大学建立,中科院, 复旦大学、微软、百度中科类脑,于2017年共建的国家工程实验室,是实验室的产业化平台。它通过构建“高级人工智能算法公有计算云私有部署云”的智能混合云平台,向外界提供计算资源、人工智能技术、智能解决方案等服务。

中科类脑研发的类脑云OS提供大规模计算能力、数据和智能技术,有效降低人工智能创业门槛,推动人工智能应用生态发展,赋能各行业完成智能化升级转型。目前,该平台已汇聚了180个AI前沿算法和100个通用数据集,在平台建设和行业落地方面有着丰富的经验。

杉岩新数据湖架构已在类脑云OS中得到应用。根据中科类脑的训练方案,数据集被放置在本地固态硬盘、分布式网络连接存储和杉岩移动存储系统上。性能对比测试结果表明,MOS FS的训练时间与本地SSD接近。与分布式NAS相比,单GpU节点下MosFS的读取性能提升了62.5%,双GpU节点的分布式训练性能提升了75.8%。集群规模越大,越能体现杉岩数据湖方案的性能,表现出优秀的可扩展性。

图4:本地SSD、MosFS和NAS的模型训练性能对比

总结:智能应用和大数据分析需要智能的新数据湖

数据基础设施正朝着智能化和融合化的方向发展。如果数据湖不能实现有效的数据管理,就会成为“数据沼泽”。智能管理要求存储提供多维检索能力、生命周期管理能力和数据可视化能力,实现对数据的合理分类和管理,加速数据清洗、转换和流动的过程。存储和计算架构分离,结构化数据、半结构化数据和非结构化数据统一存储在数据湖里,海量数据可以在数据湖里融合,不同类型数据存储的边界逐渐模糊。

人工智能和大数据分析应用程序的集成使一条数据能够同时用于多个计算和分析过程。新一代数据湖存储平台必须具备多源数据管理能力,包括混合云能力和异构存储能力,以及能够智能感知内容的高性能多协议数据服务能力。新的数据湖架构将为数据分析和智能应用的开发和运营带来极大便利,加速迭代分析过程,简化基础设施需求,提供全面的数据服务能力,方便人们高效提取数据价值。