Cray社とAltair RADIOSS 14による衝突試験での新たな成果

*本記事は、米国本社のブログ『Innovation Intelligence』の投稿文を翻訳したものです。

CrayとAltairの両社は数十年にわたってHPCシミュレーションおよびコンピュテーションの分野を牽引してきました。この度、共同研究の最新の結果が公開されたことを受け、RADIOSSの衝突試験の新たなベンチマークを発表できることになりました。数千万要素のモデルを数万コアで計算した本プロジェクトの詳細を、以下にご紹介します。10月27日のライブWebディスカッションにもぜひご参加ください。

テクノロジー: Altair RADIOSSとCray® XC40™システム

Cray社とAltairは、製造業向けのHPCの分野でリーダーとしての確固たる地位を築いています。Cray社は、最高のスケーラビリティを誇るCray® XC40™スーパーコンピューターや、大規模なキャパシティと大量のデータを使用するワークロードに最適な高スケーラビリティのモジュラープラットフォームであるCray® CS400™スーパーコンピューターをはじめ、さまざまなコンピューティングおよびストレージソリューションを提供しています。一方でAltairは、設計のパフォーマンス、スループット、使いやすさを最大限に高めた各種製品とツールが統合された、先進的な衝突シミュレーション製品群を提供しています。この製品群の中でCray社のシステムの恩恵を最も受けるソフトウェアがRADIOSSです。非線形性の高い構造解析に対応するソルバーのRADIOSSは、25年以上にわたって自動車の衝突・衝撃を扱う標準ソフトウェアとしての地位を確立してきました。

radioss crash1

チャレンジ: 大規模な衝突シミュレーション

シミュレーションの分野では衝突試験は非常に良く知られている領域ですが、システムの複雑さが増していくなかで、パフォーマンスの問題が常についてまわることになります。また、新たな要素や検討事項も浮上しています。非線形性が増した解析課題、マルチフィジックス、新しい複合材や高強度素材の使用などは、そのほんの一例です。この状況に対処するには、1つのジョブを時間内に完了して設計スケジュールを滞りなく進行でき、会社規模の設計プロセスを処理できるハードウェアアーキテクチャーが欠かせません。

こうした必要性から、数千もの計算コアを駆使して個々のジョブを処理できるスケーラビリティのほか、システム全体で数万コア規模のキャパシティが求められるようになっています。もちろんアプリケーションは、大量のコアを使用しても高いパフォーマンスを発揮できなければなりません。

crash2

試験: XC40システム上でRADIOSSを使って1000万要素のモデルを解析

大規模な衝突試験を効率良く実行するソリューションを試すため、Cray社とAltairは、大量のコアを使用する場合のRADIOSSのパフォーマンスについて共同研究を実施しました。パブリックドメインのNCAC FORD Taurusモデルを基にしたモデルを用い、RADIOSSに合わせて調整したほか、メッシュの細分化により要素数を約1000万にしました。スケーラビリティの研究が目的だったため、シミュレーション時間は最初の2ミリ秒までとしました。これは完全な衝突シミュレーションの約1パーセントに当たりますが、一般的に衝突シミュレーションでは、これだけでも解析全体を推測するのに十分な情報が得られます。また解析者は、コア数を変えたり、セットアップを最適化したり、パフォーマンスの解析や改良を行ったりしながら、試験の回数を多く重ねることができます。

このベンチマークでは、最高のパフォーマンスを得るために、HyperWorks 14.0でまもなくリリース予定の新バージョンであるRADIOSS 14.0を使用することにしました。RADIOSS 14.0は、MPICHアプリケーションバイナリインターフェース(ABI)互換イニシアチブをサポートするIntel MPI 5.0でビルドされています。このバイナリはCray MPT 7.0の下でネイティブに実行することができ、最高の速度を発揮します。Crayシステム上での実行に際しては、RADIOSS 14.0をこれ以上変更したりラッパーを使用したりする必要はありません。あらゆるLinux®クラスターで使用できるものと同一の実行可能ファイルを、XC40システムやCS400システムでも実行できるのです。さらにRADIOSS 14.0には、I/Oとメモリ管理の最適化といった、大量のコアで大規模なモデルを解析するための機能強化がいくつか加えられています。領域分割法とソートアルゴリズムも見直され、並列計算の効率性が向上しています。

ハードウェア面では、XC40システム(Intel® Xeon E5-2698 V3(16コア、2.3 GHz)を搭載)へのリモートアクセスをCray社から提供していただきました。

crash3

結果と興味深い知見

Altairが16,000コア以上を使ってRADIOSSを試験的に実行したのは今回が初めてでしたが、結果には大変満足しています。RADIOSSは市場でトップクラスのスケーラビリティを誇る衝突解析ソフトウェアであるというAltairの主張が、このプロジェクトによって明確に裏付けられました。ハイブリッド並列化モデル(MPI/Open MPを実装)を採用したRADIOSSは、多数のコアを使って大規模なジョブを効率良く処理するのに最適です。

今回の試験からは、RADIOSSのハイブリッドMPI/OpenMPスケーリングをCrayシステム上で最適化する方法についてもいくつかの知見が得られました:

  • ノード数の少ないシステム(ノード数が6~128)の場合は、OpenMPスレッディングを使用しないピュアMPIの設定で最も速度が出る。
  • ノード数がそれ以上になる場合は、各ノードでMPIランクとOpenMPスレッディングを組み合わせる(512ノード使用時は最大32のOpenMPスレッドと1つのMPIランク)ことが、パフォーマンスの維持に適している。
  • スケーラビリティが低下する可能性がある場合(プロセッサー当たりのドメインのサイズが比較的に小さい場合など)では、ハイブリッド化が有効である。たとえば、8,192コアでは16スレッド、16,382コアでは32スレッドが最適である。

今回の試験結果により、スケーラビリティを最適化するには、計算コア1個につき約4,000要素という比率を維持することが最適であることがわかりました。非常に大規模なモデル(たとえば要素数が1億のモデル)の場合には、512ノード(16,386コア以上を使用)を優に超えても非常に効率良くスケーリングできることが見込まれます。

Cray社にとっては、Altair RADIOSSチームのような先進的なアプリケーションデベロッパーと緊密に協力することで、Cray社およびAltairの双方の顧客に大きな付加価値を生み出せることがわかりました。ご存知のように、XC40システムをはじめとするCray社のシステムは驚異的なパフォーマンスを発揮します。ただしそうしたソリューションの可能性を完全に引き出すには、Cray社、アプリケーションデベロッパー、そしてCAEユーザー間の協力が常に効果的です。アプリケーションのカタログは、こちらからダウンロードしていただけます。

今後予定されているライブウェビナーでは、今回のプロジェクトや、Cray社のシステム上でRADIOSSのパフォーマンスをチューニングする方法のその他の詳細についてお話しします。

高精度の衝突・安全シミュレーションのパフォーマンスを最適化する方法の詳細については、10月27日に開催の専門家のディスカッションをご覧ください

image17

0 0 votes
Article Rating

カテゴリー: Altair Global Blog

Subscribe
Notify of
0 Comments
Inline Feedbacks
View all comments