ONNX Runtime
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/08 16:10 UTC 版)
「Open Neural Network Exchange」の記事における「ONNX Runtime」の解説
ONNX Runtime (略称: ORT) は様々な環境におけるONNXモデルの推論・学習高速化を目的としたオープンソースプロジェクトである。フレームワーク・OS・ハードウェアを問わず単一のRuntime APIを介してONNXモデルを利用できる。またデプロイ環境に合わせた最適化を自動でおこなう。ONNX Runtimeは設計方針としてアクセラレータ・ランタイム抽象化とパフォーマンス最適化の両立を掲げており、ONNXモデルの自動分割と最適アクセラレータによるサブモデル実行によりこれを実現している。 ONNX Runtimeがサポートする最適化には以下が挙げられる。 モデル量子化: 8-bit Model Quantization グラフ最適化: Basic (不要ノード除去・一部のop fusions), Extended (op fusions), Layout (NCHWc Optimizer) の三段階 対応するアクセラレータは最大10以上である。x64 CPU向けには Default CPU (by MLAS)、oneDNN・OpenVINO (Intelに最適化)、TVM が存在する。
※この「ONNX Runtime」の解説は、「Open Neural Network Exchange」の解説の一部です。
「ONNX Runtime」を含む「Open Neural Network Exchange」の記事については、「Open Neural Network Exchange」の概要を参照ください。
- ONNX Runtimeのページへのリンク