1. IE browser is NOT supported anymore. Please use Chrome, Firefox or Edge instead.
2. If you are a new user, please register to get an IHEP SSO account through https://login.ihep.ac.cn/registlight.jsp Any questions, please email us at helpdesk@ihep.ac.cn or call 88236855.
3. If you need to create a conference in the "Conferences, Workshops and Events" zone, please email us at helpdesk@ihep.ac.cn.
4. The max file size allowed for upload is 100 Mb.
3–7 Jul 2017
威海学术中心
Asia/Shanghai timezone

分布式计算站点统一部署与监控系统的研究与实现

4 Jul 2017, 17:40
20m
读星厅 (威海学术中心)

读星厅

威海学术中心

山东威海
分会报告 计算基础设施与数据中心 分布式计算与云计算I

Speaker

Mr wei 郑伟 (高能所)

Description

目前,高能物理分布式计算实验合作广泛,高等院校和研究单位如中国科学技术大学、北京航空航天大学、成都文献情报中心等都建立了分布式计算物理集群。这些分布式站点大多由高校或研究单位的物理实验室承担,人员结构主要以物理研究人员为主,没有相应的计算机专业人员负责集群站点的管理和运维工作。所以这些站点经常因为出现一些小的系统问题,因没能够及时有效的解决而造成站点较长时间不可使用。 分布式计算对站点的可用性和可靠性要求较高,当前的各个分布式站点规模各异、IT基础设施复杂多样,对实现网络、计算、存储、数据库等资源的统一部署和运维提出了更高的要求。同时如果这些站点的计算环境不一致,导致同样的物理作业运行在不同的站点或者服务器上可能出现无法运行或者得到不同的结果。因此需要保持分布式计算站点部署统一和配置一致,进行集中监控和运维,从而对分布式计算环境提供更好的技术支撑,提高站点的可用性、可靠性,能够更好的支持BES、JUNO、LHHASO等物理实验。 本系统以统一配置和管理不同规模的站点基础设施为主要目标,实现对计算、存储、网络等IT基础设施的智能化、自动化和配置一致性管理;设计并实现一个能够跨地域快速响应的监控系统,进行统一运维。实现对资源进行统一的管理、分配、调度和运维,优化管理模式,提高资源的利用率,降低系统运维强度和复杂性,为分布式计算提供稳定、高效的计算环境。

Primary author

Mr wei 郑伟 (高能所)

Co-authors

Mr Xiaofei 闫晓飞 (高能所) Mr 胡 HU Qingbao (高能所)

Presentation materials