NBJL 2020论文导读3:Twig: Multi-Agent Task Management for Colocated Latency-Critical Cloud Services

张自强

论文下载:https://drive.google.com/file/d/1Z2mCiq9buypXF7TVh5RWt85jY97ZjBhk/view

论文信息: 发表在HPCA2020,作者如下:Rajiv Nishtala (Norwegian University of Science and Technology); Vinicius Petrucci (University of Pittsburgh); Paul Carpenter (Barcelona Supercomputing Center); Magnus Själander (Norwegian University of Science and Technology)

 

  1. 论文摘要

数据中心上运行的许多云服务对延迟的要求相当高,并且随时间变化,另外还需要严格的用户满意度。共置服务的延迟目标和资源竞争是巨大的问题,所以如何在满足QoS的情况下减少能耗成为问题。

本文介绍了Twig,这是一种可伸缩的任务管理器,用于管理共置在服务器系统上的延迟关键型服务并且降低能耗。 Twig成功地利用深度强化学习来利用PMCs来表征尾部延迟,并在数据中心内推动高能效的任务管理决策。

本文做出以下主要贡献:

1)证明了尾部延迟和PMCs之间存在关系。

2)实现BDQ的扩展,该网络能够在共享环境中协调多个服务。

3)实现Twig的设计,Twig是基于强化学习的任务管理方案,它可以动态地协调和分配共置LC服务的核心映射和DVFS设置。

4)展示了Twig在运行时动态适应新的云服务的能力。

不需要服务或特定于系统的信息,而是使用通用性能监视计数器(PMC)来管理资源分配。证明Twig在各种服务中表现良好,并通过从PMC中学习来动态适应系统以改善服务映射核心并调整DVFS设置。


2,论文内容

       论文最关键的部分就是设计了Twig的结构,如下:

       Twig分为三个部分:1System monitor:负责使用配置文件工具在线程级别定期收集PMC,以测量每个LC服务的活动。 对于每个服务将其所有线程中的PMC相加。 为了减少随时间变化的噪声,在最近的η个时间步长内,为每个聚合计数器计算加权和。2Learning agent:使用BDQ网络,并且在强化学习的探索与利用的困境中,此agent不仅使用了当前最好的action,而且还探索了可能会更好的action。 由参数epsilon (ε)来控制。3mapper module:Learning agent接收每个服务的资源分配请求。确保service已映射到核心并设置DVFS状态。其余的内核(如果有)被设置为最低DVFS状态以节省功耗。优先考虑单个服务的核心顺序,以提高缓存的局部性。

       论文中还给出了twig和其他的management的对比实验:

     其中Twig-S为单service的管理器,在满足QoS的情况下具有了更少的能源消耗。同样的Twig-C为多service的管理器也具有很优秀的结果。


3 认识和体会

在我们的工作中提出了消除各种service之间干扰的细粒度资源划分解决方案,检测到合并服务之间的干扰,并动态调整资源分配。 尽管能够很好地维持QoS,但同时提高了系统吞吐量和提高能效。

从本文得到的启发,主要是第一点是本文提出的使用PMCs的方式能够很好的进行移植扩展,对于多种平台的共置服务都可以给出较好的管理效果,和我们之前的参数使用比较类似,但是本文提出的方式能够很好的进行能源管理,这是值得我们借鉴的。第二点是本文提出的BDQ模型可以进行多维度的服务管理学习。另外的第三点就是Twig可以使用转移学习来快速学习如何管理新服务。