标题
  • 标题
  • 作者
  • 关键词

As-Stream:一种针对波动数据流的算子智能并行化策略

2022-06-14分类号:TP181

【作者】李维  李城龙  杨家海  
【部门】清华大学信息化技术中心  中国地质大学(北京)  清华大学网络科学与网络空间研究院  
【摘要】大量研究提出了从在线资源管理层面来优化波动数据流的方法,却忽略了从流应用层面来优化算子并行度.例如,在Apache Storm中,算子并行度一旦设置就无法进行动态调整.该文提出了一种针对波动数据流的算子智能并行化策略As-Stream,显著提升了流计算平台的性能.该方法在弹性智能监控模块中基于无监督学习和自适应分析对参数进行实时调优.As-Stream包括并行瓶颈识别、参数计划生成、参数迁移转换和参数迁移调度算法.该系统在Apache Storm平台上实现,并在真实的分布式流计算环境中进行了大量测试.结果表明,As-Stream性能比现有通用调度策略有显著提升:当资源充足时,平均吞吐量提高了2.4倍;当资源受限时,平均延迟减小了44%.
【关键词】流计算  机器学习  算子并行度  资源分配
【基金】国家自然科学基金面上项目(62172251);; 清华大学自主科研计划资助(2021Z11GHX010)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递