Automated Mapping of Task-Based Programs onto Distributed and Heterogeneous Machines

问题：

上图显示了三种内存：只能由CPU寻址的系统内存（每个插槽一个），只能由GPU寻址的帧缓冲区内存和两者均可寻址的零拷贝内存。假如一个GPU计算t1需要访问放置在零拷贝内存中的数据c，那么它通常会运行得更慢。因为访问零拷贝内存和帧缓冲区内存相比延迟会更大，带宽也会减小。但是，如果后续要访问c的计算t2是在CPU或者另外一个GPU上，那么直接将c放置在零拷贝内存中可能比先将c放置在t1的帧缓冲区内存中然后复制更新到t2可寻址到的内存更快。同样的，假如另一个和计算t1并发执行在同一个GPU的计算t3打算访问放置在帧缓冲区内存中的数据时，帧缓冲区内存可能不足够再存储一次数据c。要为c选择最快的内存分配，必须知道每个映射选择的成本。这样的映射决策组合在实际应用程序中是指数级的。由于应用程序组件之间的依赖性、通信链路的速度不同以及硬件资源的容量限制，此类映射决策的组合变得很复杂。

到目前为止，解决映射问题的最常见方法是在运行时系统中使用贪婪的启发式方法。比如，如果存在GPU，则始终将任务映射到GPU上，且始终将任务参数映射到最近的具有足够容量的处理器内存中。这种启发式方法并不能使所有应用都实现高性能，因此一些系统为程序员提供了影响映射的机制，并且至少有一个系统提供了允许应用程序控制映射决策的完整接口[6]。手写的映射可以使用应用程序和目标机器的知识，从而实现比系统选择的启发式映射有着更高的性能。然而，手写映射需要对应用程序和目标机器有着深入的了解，根据经验，复杂应用程序的手写映射可能需要一天到几天的时间。

AutoMap的核心是一种新的搜索算法，称为约束坐标下降法或CCD。CCD交替进行于优化任务映射和数据映射之间，其根据最大化运行速度来权衡任务的映射和根据最小化通信来权衡数据的映射。AutoMap为了确保搜索了解执行任务和复制数据的实际成本，其选择动态分析方法而不是依赖静态估计。各个映射在每次运行时的性能可能会有显著差异，因此为了获得性能均值和方差的可靠估计，需要执行多次任务。

实现

前提概要

首先！

采用组任务
拓展了搜索空间，考虑是否分布式运行

整体架构：

driver确定处理器和存储器的类型
mapper来进行具体的映射

搜索算法

约束条件
- 任务的数据被映射到任务的处理器可寻址的内存中
- 如果在C中两个数据存在边，那么这两个数据都会映射到同一个内存类型中
C是由G导出的图
- 每一个点c代表一个数据集合
- 两个点之间存在边则代表两个数据有重叠的部分
- 边的权值代表两个数据集合的重叠部分大小
O是集合重叠的一个映射
根据任务运行时时间排序t
- 一种直观获取高性能的映射方案的方法
- 先放运行时间长的任务
得出一次新的映射移除1/（n-1）权值最小的边
- 初始的限制简化了搜索空间
- 一步步放松了对数据移动的约束

约束条件
- 任务的数据被映射到任务的处理器可寻址的内存中
- 如果在C中两个数据存在边，那么这两个数据都会映射到同一个内存类型中
OptimizeTask
- 采用坐标下降法获得一个最快的映射f和其性能p
Co-location Constrains
- 保证了满足约束条件
- 具体方法：迭代运行以下两种判断
  1. 如果f'因为任务t不能访问集合参数c违反约束1，则将t移动到能够访问内存类c的处理器类。
  2. 如果f'因为数据集合c被移动到内存类k，且(c,c')∈E，c'却被映射到不同的内存类别中而违反约束2，那么c'也被移动到该内存类别k中

结果

找到不常见的映射！性能优于自动映射器，基本相当于甚至优于专家自定义的手写映射器。

【SC 2023】Automated Mapping of Task-Based Programs onto Distributed and Heterogeneous Machines

Automated Mapping of Task-Based Programs onto Distributed and Heterogeneous Machines

问题：

相关背景

基于任务编程

相关工作

实现

前提概要

搜索算法

结果

results matching ""

No results matching ""