NBJL 2020论文导读3:Twig: Multi-Agent Task Management for Colocated Latency-Critical Cloud Services
张自强
论文下载:https://drive.google.com/file/d/1Z2mCiq9buypXF7TVh5RWt85jY97ZjBhk/view
论文信息: 发表在HPCA2020,作者如下:Rajiv Nishtala (Norwegian University of Science and Technology); Vinicius Petrucci (University of Pittsburgh); Paul Carpenter (Barcelona Supercomputing Center); Magnus Själander (Norwegian University of Science and Technology)
论文摘要
数据中心上运行的许多云服务对延迟的要求相当高,并且随时间变化,另外还需要严格的用户满意度。共置服务的延迟目标和资源竞争是巨大的问题,所以如何在满足QoS的情况下减少能耗成为问题。
本文介绍了Twig,这是一种可伸缩的任务管理器,用于管理共置在服务器系统上的延迟关键型服务并且降低能耗。 Twig成功地利用深度强化学习来利用PMCs来表征尾部延迟,并在数据中心内推动高能效的任务管理决策。
本文做出以下主要贡献:
1)证明了尾部延迟和PMCs之间存在关系。
2)实现BDQ的扩展,该网络能够在共享环境中协调多个服务。
3)实现Twig的设计,Twig是基于强化学习的任务管理方案,它可以动态地协调和分配共置LC服务的核心映射和DVFS设置。
4)展示了Twig在运行时动态适应新的云服务的能力。
不需要服务或特定于系统的信息,而是使用通用性能监视计数器(PMC)来管理资源分配。证明Twig在各种服务中表现良好,并通过从PMC中学习来动态适应系统以改善服务映射核心并调整DVFS设置。
2,论文内容
论文最关键的部分就是设计了Twig的结构,如下:
Twig分为三个部分:1)System monitor:负责使用配置文件工具在线程级别定期收集PMC,以测量每个LC服务的活动。 对于每个服务将其所有线程中的PMC相加。 为了减少随时间变化的噪声,在最近的η个时间步长内,为每个聚合计数器计算加权和。2)Learning agent:使用BDQ网络,并且在强化学习的探索与利用的困境中,此agent不仅使用了当前最好的action,而且还探索了可能会更好的action。 由参数epsilon (ε)来控制。3)mapper module:从Learning agent接收每个服务的资源分配请求。确保service已映射到核心并设置DVFS状态。其余的内核(如果有)被设置为最低DVFS状态以节省功耗。优先考虑单个服务的核心顺序,以提高缓存的局部性。
论文中还给出了twig和其他的management的对比实验:
其中Twig-S为单service的管理器,在满足QoS的情况下具有了更少的能源消耗。同样的Twig-C为多service的管理器也具有很优秀的结果。
3 认识和体会
在我们的工作中提出了消除各种service之间干扰的细粒度资源划分解决方案,检测到合并服务之间的干扰,并动态调整资源分配。 尽管能够很好地维持QoS,但同时提高了系统吞吐量和提高能效。
从本文得到的启发,主要是第一点是本文提出的使用PMCs的方式能够很好的进行移植扩展,对于多种平台的共置服务都可以给出较好的管理效果,和我们之前的参数使用比较类似,但是本文提出的方式能够很好的进行能源管理,这是值得我们借鉴的。第二点是本文提出的BDQ模型可以进行多维度的服务管理学习。另外的第三点就是Twig可以使用转移学习来快速学习如何管理新服务。