NVIDIA A100 80GB PCIe

new

NVIDIA A100 80GB PCIe は、2020年5月のNVIDIA社のイベントGTC2020で発表されたAmpereアーキテクチャのA100にHBM2の80GBメモリを搭載したモデルです。TMSCの7nm プロセスルールを採用し826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載したまさに史上最大にして最速のGPUであり、倍精度・単精度をはじめ多様な精度を兼ね備え、マルチインスタンスGPU(MIG)機能により1つのGPUで最大7つのジョブを同時に実行可能。世界で最も困難な計算に AI、データ分析、 HPC分野で驚異的な性能を発揮します。また、40GBモデルでは1.6TB/sだったメモリ帯域も2.0TB/sと20%アップされ高速大容量の演算や学習を大きく加速します。

税別参考価格¥1,985,000-  

アカデミック向けの特別価格をご用意しています詳しくは弊社までお問い合わせ下さい。
※本製品はPassive(ファンレス)の構造であり また消費電力も高く搭載機器を選びます。搭載予定のメーカー・機種については弊社までご相談下さい。ジーデップ・アドバンスでは A100搭載対応サーバー もラインナップしています。
 

  • PCIe Gen4
  • HBM2
  • NV-Link
  • MIG
  • 標準3年保証
モデル
特徴
仕様
お問い合わせ

MIG(Multi-instance GPU)

MIGは1つのNVIDIA A100を最大で7つのインスタンスに分割して利用できる機能で、完全に分離されたそれぞれのインスタンスに広帯域のメモリ、キャッシュ、CPUコアを割り当て、規模の大小を問わずフレキシブルに様々なワークローに対応することが可能です。 例えば4インスタンスをDeeplearning学習用に割り当て、2インスタンスをHPCとして解析、そして1インスタンスを推論で利用するなど、複数のワークロードを互いのレイテンシとスループットに影響を与えることなく単一のA100 上で同時に実行できます。

MIG(Multi-instance GPU)

様々な精度のサポート

2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。

CUDA® コア精度 FP64、 FP32、 FP16、bfloat16、 INT8
Tensor コア精度 FP64、 TF32、 bfloat16、 FP16、INT8、 INT4、 INT1

これら様々な精度のサポートにより、UC Berkeley(カリフォルニア大学バークレー校)や 米スタンフォード大学などの大学・研究機関と、Googleなどが連携して策定した機械学習の標準的なベンチマーク 「MLPerf」においてNVIDA A100は8つのカテゴリで新記録を樹立しています。
様々な精度のサポート

新しい演算フォーマットTF32(Tensor Float 32)

さらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。

通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。

新しい演算フォーマットTF32(Tensor Float 32)

スパース性を利用した第三世代Tensorコア

NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
これによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。
モデル
特徴
仕様
お問い合わせ

デスクトップ

ワークステーション

サーバー

ストレージ

ノート

アクセラレーター

ネットワーク

静音モデル

TOPへ

Linux対応について

Linux対応について
[ 動作確認モデル ]

動作確認を行ったモデルには[ Linux対応 ]のマークを表示しています。

[ ディストリビューション ]

動作確認は標準のインストーラーを使用したインストールとX-windowの起動、及びLANチップの動作確認(DHCPでのインターネット接続)までを確認しました。
ディストリビューションはRed Hat Enterprise Linux とCentOSですが、ご要望によっては、FedraやUbuntuなど、その他ディストリビューションやバージョンについてもお気軽にご相談下さい。

[ 動作確認デバイス ]

ビデオ内蔵モデルについては内蔵ビデオチップを無効化し別途ビデオカード(nVIDIA社製)を搭載して動作確認を行っているモデルもあります。
また同様にオンボードLANチップではなく別途LANカード(Realtek社製、intel社製)を搭載し動作確認を行っているモデルもございます。

※音源(サウンド)の動作については弊社では確認を行っておりません。インストーラー標準のドライバーで動作する場合もございますが、Linuxのドライバー自体が無く動作認識しないチップもございます。ご理解下さい。

[ 設定、インストール ]

インテルやPGI等の有償コンパイラやMKL等のライブラリやツール類のインストール、各種サーバー構築、設定も承っています。お気軽にご相談下さい。

Copyright (c) 2013-2019 univPCcom Allright reserved.