Speaker
Mr
Tao 崔涛
(高能所)
Description
中国科学院高能物理所计算中心,承担了高能物理海量数据的处理工作。本地计算系统是一个批作业系统。该计算系统采用HTCondor实现计算资源的调度和管理、采用EOS/Lustre实现数据存储和访问。数据中心网络是采用机框式双核心加10G/25GToR构成星型拓扑的大二层网络。骨干链路聚合带宽为8*100G。在高能所数据中心网络环境中,批作业在骨干链路上产生的流量峰值已经达到了350Gbps。高带宽、高通量数据中心网络中的超大流量给流量获取和分析带来了挑战,传统的基于SNMP、gRPC等技术实现的流量监测,只能基于网络设备的端口计数器,进行总体流量的监控,无法对流量构成进行分析和研究。基于镜像、sflow等方法实现数据采集,虽然可以实现对流量构成的分析,但是要实现全拓扑的流量监控,设备能力、数据分析能力面临很大的挑战。为实现全拓扑流量采集和分析,掌握数据中心网络的流量构成、分布和运行特征,本文提出一种实现方法,该方法通过在操作系统层面部署软件采集每个socket的流量;通过网络扫描发现主机的流量路径;并将二者相结合实现从主机、应用、网络拓扑以及时序等多维度的分析网络流量的构成、分布和运行动态,揭示高能物理计算系统在数据中心网络中产生的流量的运行规律,为数据中心网络的运行和优化提供决策依据。该方法解决了高带宽高通量数据中心网络的全拓扑流量获取的难题,并且能够在一定粒度上实现了对流量构成的分析和基于应用的流量运行动态展示。
Primary author
Mr
Tao 崔涛
(高能所)
Co-author
Ms
珊 曾
(高能所)