高性能作业计算平台



——CAE仿真计算作业调度系统

随着工程仿真技术在产品研发中应用的广泛深入、CAD-2-Mesh方式的流行、非线性技术的普及、整车整机装配仿真的需求的出现、多物理场耦合仿真以及多学科优化等技术的推广,基于CAE大规模复杂仿真计算成为企业产品研发的重要技术手段和急迫的需求。

IT硬件的普及,尤其是基于高速互联的HPC集群的日益平民化,越来越多的企业,学校和科研院所具备了硬件基础.各大CAE厂商也纷纷推出了针对HPC集群的产品模块.可以说,基于HPC集群的大型仿真时代已经到来.伴随而来的是,由单机仿真过滤到HPC多机并行仿真,Windows系统过渡到Linux系统,由资源独享变成HPC资源共享,以上种种给一线仿真工程师带来的诸多的困扰.如何能够让仿真人员快速高效便捷地像使用单机一样使用HPC集群系统成为目前亟待解决的问题.

1. 产品定位

目前95%以上的HPC集群运行在以稳定安全的企业版Linux平台上,而我们绝大部分仿真人员是从Windows单机软件开始接触和使用CAE软件的,这两者之间的使用方式有着巨大的差别.高性能作业计算平台的出现让完全不懂Linux的仿真人员在Linux集群系统上进行仿真计算,而不用直接操作Linux集群.

在仿真软件与计算资源不断增长和集中的同时,而应用人员却趋于分散。这往往给软硬件资源管理和高效使用这些资源带来瓶颈。高性能作业计算平台致力于构建完善、便捷、稳定的作业提交环境,减少维护成本,提高HPC集群的使用效率。

高性能作业计算平台直接面向仿真应用工程人员,为其提供与后台计算资源和完善友好的作业提交管理界面,并实现了作业的多用户多作业并发提交与管理。本系统不仅支持大规模计算,而且对前处理,后处理以及实时监控功能有非常好的支撑。高性能作业计算平台将十余年CAE仿真经验整合到高性能作业计算平台

2. 产品价值

高性能作业计算平台ANSYS仿真计算带来如下的价值:

让完全不熟悉Linux的客户用好基于Linux的仿真计算平台,降低HPC集群使用门槛。

用户共享使用,共享软件资源和硬件资源的同时, 调度资源请求冲突。

固化,规范化CAE软件仿真求解高性能计算并同时支持前后处理和过程监控。

支持符合CAE特征的高级调度方式,区别于普通的作业调度系统,可大幅提高仿真效率。

完全免命令行提交作业和维护集群,减少IT部门对HPC的运营成本。

3. 产品价值解释

21世纪初出现并日益流行的多核计算将CAE的仿真带入HPC时代,但是我们有很大一部分仿真人员对Linux下的HPC集群使用不熟悉,造成设备和软件不能真正利用起来. 高性能作业计算平台就是要简化CAE在集群上的使用和管理,让用户通过简单的界面把作业提交到HPC集群上进行排队和计算,从而实现资源共享.

另外,对于国防军工保密单位,还专门定制了基于三员管理的安全保密措施,并通过了多家军工保密单位的保密检查。

4. 适用客户

商业仿真软件客户,包括但不限于

ANSYS Mechanical

ANSYS Multiphysics

ANSYS CFX

ANSYS Fluent

ANSYS AUTODYN

ANSYS LS-DYNA

ANSYS HFSS

Feko

MSC Nastran

Abaqus

StarCD

CST

COMSOL

NUMECA

STARCCM

MATLAB

MAXWELL

ADAMS


自研MPI程序

基于商业软件改造的自研程序客户

基于开源MPI的自研程序客户

基于TensorFlow,PyTorchGPU自研程序客户

5. 运行环境

硬件:IntelAMDX86架构主机。

服务器端:  RedHat Enterprise Linux 645678版本。

Windows2012及以上版本。

Web门户:  兼容IE6,7,8,9,10,FireFox,Chrome,Safari的浏览器

客户端:   Win7 win10等基于.Net3.5 4.0

功能清单

简化ANSYS高性能计算。避免复杂的Linux命令和操作,提供友好的交互界面,降低高性能计算系统使用难度;便捷的使用模式,用户通过选择应用软件的计算文件,以及并行数,点击提交,系统自动把作业分配到合适的远端计算服务器集群上,计算结果文件自动下载到本地;动态显示作业计算中状态信息,或者迭代信息。

多用户共享使用ANSYSCAE软件(MechanicalMultiphysicsCFXFluentAUTODYNANSYS LS-DYNA, HFSS,Maxwell等)进行求解。

CAE软件求解器许可证(license)的调度。

ANSYS软件求解服务器的硬件资源调度。

多用户、多任务、多种ANSYS仿真作业并发求解,计算资源的负载均衡和仿真计算任务调度。

CAE软件资源实时状态监控。

求解服务器CPU等硬件资源实时状态监控。

工作站(前后处理)与求解服务器之间大文件(10~100GB)传输。

提供便捷的远程可视化终端解决方案。

用户管理,包括添加删除用户,给用户分配相应的计算资源

统计信息,HPC集群上的用户使用记录进行汇总并形成图表

CAE License管理功能,可以分用户分主机进行License使用控制

一次性批量提交多个作业

6. 仿真IT架构

对于很多ANSYS用户来说,只会购买有限的ANSYS软件许可,例如ANSYS Mechanical。由于软件价格极其昂贵,需要尽量选用最优的硬件来进行仿真求解,同时需要尽可能地共享软件和硬件资源。例如,选用一台性能较好的计算服务器或者高性能工作站用来做ANSYS Mechanical的仿真求解,如下图所示,三位仿真应用工程师通过网络共享使用计算服务器(或者高性能工作站)上的ANSYS软件进行仿真计算。高性能作业计算平台能够充分利用ANSYS软件以及计算服务器的资源,进行仿真计算作业调度和分配。

仿真IT架构示例

7. 功能介绍

高性能作业计算平台不仅支持典型的CAE作业,包含ANSYS公司的MechanicalMultiphysicsCFXFluentAUTODYNANSYS LS-DYNA。而且支持LSTC公司的LS-DYNA MSC公司的NastranDASSAULT公司的Abaqus;以及其他基于MPI技术求解的软件,甚至是用户自编或开源的CAE软件,都可以与作业调度器做集成,用户可以通过作业模板定制新增软件和具体CAE求解器的多种命令行调用方式。针对每种(类)软件、每个(类)账户、每种服务器架构等可设定灵活的调度策略,实现计算资源的负载均衡和计算任务的最优调度。

- 高性能作业计算平台主界面(PC客户端)


- 高性能作业计算平台主界面(WebPortal)

首先,管理员分配HPC系统的用户名,密码,以及IP地址来配置计算服务器的连接信息。当客户端与计算服务器连接成功后,系统会自动获取到远程ANSYS软件的配置信息。客户端就可以使用计算服务器上的仿真软件。

高性能作业计算平台用户配置信息

在客户端中,可以选择作业求解器以及相关的模板,输入文件(包括本地以及远程两种模式)当用户点击主界面的提交按钮,高性能作业计算平台系统会根据用户默认使用的License信息和选择的CPU数量给出提示,用户可以确认提交或取消。系统会提示License总数和剩余数,包括求解器主License和并行License;同时系统还提示当前用户所选择的机器队列的CPU总数及可用数。

高性能作业计算平台 WebPortal中作业提交页面

高性能作业计算平台软件监控功能,包括:软件模块,Feature,使用数,可用数,总数。

高性能作业计算平台软件授权信息

高性能作业计算平台集群主机信息,包括:主机名,平均负载,CPU总数,内存使用(量),内存总数(总量),SWAP使用(量),SWAP总数(总量)。

高性能作业计算平台集群主机信息

用户还能直接通过可视化VNC模块登录到远程图形终端。进行:一,远程后处理;二,查看计算作业的收敛曲线图。

高性能作业计算平台 VNC远程后处理之CFX - 1

ANSYS Fluent收敛曲线

高性能作业计算平台提供了ANSYS前后处理机器与远程计算服务器文件存储之间的大文件传输机制,保证仿真计算的结果文件(通常超过100GB)能够稳定地传输到本地,工程师也可以选择性地传输部分结果文件。

集成远程加密大文件传输服务

仿真求解计算过程中,工程师可以实时地查看远程仿真求解计算的Output文件,如下图是ANSYS Mechanical的实时输出的Output文件,客户端会定时刷新Output文件(例如20秒)。

高性能作业计算平台 ANSYS作业Output输出

高性能作业计算平台 LSDYNA作业Output输出

- 使用高性能作业计算平台前后计算资源对比示意图