Conveners
分布式计算与云计算II
- 雷明 尚 (Institute of Nuclear Energy Safety Technology, CAS)
亚康 李
(高能所)
05/07/2017, 16:20
计算基础设施与数据中心
分会报告
随着高能物理实验的规模不断扩大,计算和存储需求在不断地增长,即将建成的中国散裂中子源(简称CSNS)同样面临着数据分析处理与海量实验数据存储的巨大需求。本文基于CSNS的实际需求,对面向中子散射实验的计算环境进行详细介绍。文章首先介绍CSNS的计算特征和实际需求,然后详细阐述基于计算需求构建的分布式存储系统、云计算平台、高性能计算平台等基础设施,最后对当前的计算环境进行总结并介绍未来的扩展计划。
Mr
Tao 崔涛
(高能所)
05/07/2017, 16:40
计算基础设施与数据中心
分会报告
随着虚拟化计算系统的发展和规模化,灵活的虚拟资源调度和虚拟机镜像管控成为虚拟计算系统高效运行的关键。高能所虚拟计算系统要求虚拟机根据计算作业的情况动态生成和注销,这就要求虚拟机能够动态的加入作业调度系统、监视系统,并且能够快速的实现操作系统的自我更新等。我们在实现虚拟计算环境的过程中,提出了一套基于数据库的虚拟机调度和控制的解决方案-VMCtrl。VMCtrl方案能够配合HTCondor调度系统实现虚拟资源的灵活快速的调度,还能够实现环境匹配、账号同步、实时命令执行等功能,为虚拟计算环境的灵活调度和控制提供了完善的解决方案。本文详细讨论了这套方案,并分析了方案的效率和进一步发展的方向。
Mr
俊 王
(南京电讯技术研究所)
05/07/2017, 17:00
科学数据管理技术与系统
分会报告
本文以大数据为研究背景,分析并研究了大数据存储的现状和存在问题,设计并提出一种适应于 Web
应用的分布式大数据存储架构,通过采用内存数据库与现有数据库的混合组网和数据分片存储等技术,提升大数
据处理能力,为 Web 应用中的高效数据存储提供支撑。
Ms
然 杜
(高能所)
05/07/2017, 17:20
计算基础设施与数据中心
分会报告
资源管理和调度系统是高性能计算集群的关键系统,不同资源管理和调度系统对其应用场景各有侧重。高能所计算集群发展至今,随着集群规模和用户需求的变化,形成了PBS、HTCondor和SLURM多资源管理和调度系统并存的现状。在此过程中,往往需要研究资源管理和调度系统的资源管理策略、作业调度算法、系统整体性能等。为了方便研究,开发了一个作业测试工具集。该工具集适用于上述多个资源管理和调度系统,可根据研究目的生成测试作业库,并提供图形化结果分析工具。本文将在详细阐述该工具集的架构和设计后,给出一个利用该工具集进行作业调度算法研究的实例,以展示该工具集的作用和效果。
振京 CHENG Zhenjing
(高能所)
05/07/2017, 17:40
分布式计算技术与系统
分会报告
作为新型计算资源管理技术,云计算和虚拟化正在高能物理领域得到越来越广泛的应用。在此背景下,中国科学院高能物理研究所基于开源的云计算管理软件Openstac和KVM搭建了高能所公共服务云IHEPCloud,使用作业管理系统Torque PBS、HTCondor等调度和管理用户作业。考虑到IHEPCloud 硬件资源由计算中心和各高能物理实验提供,以往采取的方式是为各实验合作组,如LHAASO,JUNO,CEPC 等建设独立的虚拟计算集群来提供计算服务。但是这种方式下各物理实验可使用的CPU 核数是固定的,而各物理实验的资源使用高峰时间是不同的,经常出现部分实验的队列有大量作业排队,部分实验有大量计算节点空闲的情况,从而导致整体资源利用率较低。
本文从这个角度出发,提出了弹性的虚拟计算资源管理机制。系统通过高吞吐量计算系统HTCondor...