利用跨境训练实现自动驾驶汽车的联邦学习

联邦学习正在彻底改变自动驾驶汽车 (AV) 的发展,尤其是在跨国场景中,多样化的数据来源和条件至关重要。与需要集中数据存储的传统机器学习方法不同,联邦学习使 AV 能够使用本地收集的数据协作训练算法,同时保持数据分散。这种方法增强了隐私和安全性,因为敏感数据永远不会离开该国,并且通过结合各种驾驶环境和情况提高了模型的稳健性。

联邦学习还有助于解决监管合规和数据移动限制问题,这是全球范围内的重大问题。不同国家/地区对数据隐私和跨境数据传输的规定各不相同,这使得集中式数据存储和处理具有挑战性。

通过启用本地数据使用并最大限度地减少数据移动的需求,联合学习可确保自动驾驶汽车能够遵守这些法规,同时仍能从集体学习过程中受益。当自动驾驶汽车穿越不同国家的地形、气候和交通法规时,联合学习使它们能够调整和优化其性能,确保更安全、更可靠的自动驾驶体验

在这篇文章中,我们描述了我们在 AV 跨境训练中实现联邦学习的努力。我们使用开源联邦学习框架NVIDIA FLARE开发了一个 AV 联邦学习平台。借助该平台,我们使用来自多个不同国家的数据训练了一个包含十多个 AV 模型的全球模型。我们描述了我们的用例、与现有 ML 训练平台的集成以及我们的作业 UI 界面,以及我们遇到的挑战。

动机和用例

NVIDIA AV 团队的业务遍布全球,收集来自不同地区的数据以推进我们的 AV 计划。为了训练我们的模型(尤其是针对物体检测、停车和标志检测等任务),我们必须考虑处理来自多个国家的数据的复杂性。

为了为每个国家开发单独的自动驾驶汽车模型,审批流程成倍增加,增加了成本和延误。由于可能存在数十种不同的模型,获得监管部门批准的负担可能会变得非常沉重。相反,更有效的方法是建立一个统一的全球模型,前提是其性能达到或超过各个国家特定模型的指标。

整合来自多个国家的数据的另一个动机是,有机会解决可能并非在每个国家都存在的罕见用例。虽然经过全球训练的模型可能并不总是能显著提高整体性能指标,但它可以增强模型有效处理不常见场景的能力

训练全局模型需要使用多种数据源。传统上,这需要将所有数据集中到数据湖中并从单个位置进行训练。然而,这种方法带来了一些挑战。同步大量多模态传感器数据不仅耗时,而且成本高昂。

各个地区的严格数据保护法(例如中国的《个人信息保护法》(PIPL)、欧盟的《通用数据保护条例》(GDPR)和《人工智能法案》以及韩国等地的类似法规)严格限制跨境数据传输,这进一步使集中培训变得复杂。

为了应对这些挑战,我们开发了一个基于 NVIDIA FLARE 的联合学习平台。该平台使我们能够在特定国家/地区的数据上训练深度学习模型,而无需直接访问原始数据集,从而确保遵守当地法规并维护数据隐私。通过联合数据,我们可以有效地训练全球 AV 模型,结合来自不同地区的见解,同时遵守隐私和监管要求。

AV 联邦学习部署设置

该部署由两个联邦学习客户端和一个中央服务器组成。客户端在不同的机器学习训练系统上运行,而联邦学习服务器托管在日本的 AWS 上。此外,我们在香港维护一个开发联邦学习服务器实例,用于测试和持续开发。

图1显示了整体架构。

地图显示了太平洋,一个客户端在美国,另一个客户端在中国,联邦学习服务器位于日本。
图 1. 跨境联邦学习设置

AV联邦学习平台

我们的 AV 联 IG数据库 邦学习  平台由许多子系统组成:

与现有 AV 机器学习训练系统集成 (MegLev: NDAS)
作业编排服务
采用 NVIDIA FLARE 的联邦学习引擎

特殊数据

与现有 AV 培训平台集成

系统设置中的一个主要挑战是有效地整合两个不同的训练系统:本地机器学习基础设施(MAGLEV),它不知道 NVFLARE,以及它的训练基础设施,称为 NDAS。

NDAS 独立于联邦学习 (FL) 系统运行,并且由于 NVIDIA AV 部门内的许多团队都在使用它,因此将整个系统过渡到 FL 框架 己的思维往往不知道从 是不可行的。我们需要一个解决方案来整合这两个系统。

为了解决这个问题,我们使用了 NVFLARE 第三方集成功能,使本地训练能够在 MAGLEV 框架内继续进行,同时将模型参数传输到 NVIDIA FLARE 客户端。我们通过多次迭代优化了模型传输过程,在 NVIDIA FLARE 中使用了基于文件的参数传输 (FilePipe) 和基于 TCP 的参数传输 (CellPipe)。

系统图显示了位于中国和美国的 MAGLEV 训练系统,其中 NVIDIA FLARE 服务器托管在 AWS 上。
图 2. AV 联邦学习平台的系统架构

AV 联邦学习编排服务

我们开发了一套前端和后端服务,旨在简化联邦学习作业的创建和监控。该系统简化了用户体验,可以高效启动作业并无缝跟踪作业进度。

图表显示了由 Web UI、后端和作业自动恢复/恢复机制组成的系统。
图 3. AV 联邦学习作业自动恢复、恢复和编排
该系统已稳定运行一年多,并配有监控工具来跟踪其性能。图 4 显示了两个实例的每月训练模型统计数据,展示了模型训练工作的一致性和规模。

表格显示了每月训练的模型数量,按架构和实例细分。
图 4. 两个实例的月度训练模型统计数据
ALT:屏幕截图显示了两个训练实例的每月训练模型统计数据。

视频 1 展示了职业培训流程。它展示了 AV-FL 系统 Web 仪表板以及如何通过几次点击启动培训工作流程。

视频 1. 自动驾驶汽车中的联邦学习:跨境训练

联邦学习工作流程

由于我们正在使用 AV 传感器 cg 线索  数据进行跨境训练,我们的工作流程模式与医疗保健或移动设备联合学习中使用的工作流程模式有很大不同:

医疗保健和边缘设备:众多客户端,每个客户端拥有的数据量有限。
AV跨境培训:客户端较少,每个客户端都有海量的数据。
鉴于这些差异,我们可以使用各种工作流模式进行模型训练。根据我们过去的经验,我们选择了循环工作流(也称为循环权重转移)作为初始方法。为了防止梯度冲突,服务器一次只从一个客户端收集梯度更新。

图表显示培训从一个站点转移到另一个站点,其中一个站点处于活动状态,而另一个站点处于排队状态。
图 5. 来自不同站点的循环训练

跨境培训面临的挑战

全球人工智能模型的开发和部署面临重大挑战,这可能会阻碍有效的跨境训练:

IT 设置

网络带宽
网络中断

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注