「35倍性能」の説得力が薄らぎつつあり
AIの主戦場は「学習」から「推論」へ。NVIDIA GPUが割高視され始めた理由

NVIDIAのAI向けチップは、競合他社の代替製品と比べて総保有コスト(TCO)で優れていると広く考えられている。同社のCEOであるJensen Huang氏も、粗利率70%レベルとされる自社製品について、「価格以上のワット当たり性能を提供している」と繰り返し主張してきた。
しかし、AIエンジニアやハイパースケール事業者の担当者は、ワット当たり性能だけでなく、「冷却コスト」「電力コスト」「トータルTCO」「ROI(投資回収)」などを重視しており、NVIDIAが掲げる「電力効率が従来比で最大35倍」という主張には、納得していない層が多いと報じられている。
これは、米独立系投資銀行Evercoreの株式リサーチ部門「ISI」が公表した分析によるものだ。その直前にはモルガン・スタンレーが、カスタムAIチップと比べて、NVIDIAのBlackwell GPUでデータセンターを構築するコストは2倍に達する一方、ワット当たり性能は最大8倍高いと主張していた。
しかしEvercoreは、AIインフラ投資が「トレーニング主導の時代」から「推論主導の時代」へ移行しつつあると分析している。それに伴い、評価軸も「最大スループット/帯域幅」から、「トークンあたりコスト」「冷却・電力込みのTCO」「ROI(投資収益率/投資利益率)」へシフトしていると述べている。
この見方は、AIインフラ提供ベンダーNebiusの専門家による発言とも一致している。そこでは、「企業ワークロードの約95%は推論が占めており、GPUは “100万トークンをいくらで生成できるか” といった単価で評価されている」と説明されていた。
こうした認識を背景に、NVIDIAの「35倍性能」という謳い文句は、実務上のコスト感覚と乖離していると受け止められ始めている。むしろ、70%前後とみられる高いマージンの方が、“割高感”として意識されつつあることが示唆されている。
Evercoreによる「NVIDIA Extreme Co-Design Delivering X-Factors Every Year」と題されたスライドでは、推論分野においては、GoogleのTPUや、Amazon Web ServicesのTrainium、AMDやマイクロソフトのMaiaなど、SRAMを多く搭載した “用途特化型” ASIC(特定用途向け集積回路)が有利になりやすいとされている。そのうえで、「NVIDIAの推論シェアは将来的に50%程度まで低下する」との予想も示されている。
これまでAI業界では巨大モデルの開発が中心だった。学習処理は計算量が膨大で、アルゴリズム変化も激しいため、柔軟性に優れたNVIDIAの汎用GPUが強みを発揮しやすかった。
しかし、AIが商用サービスとして推論中心へ移行するなかで、重視されるのは柔軟性よりもトークン単価などのコストパフォーマンスになりつつある。結果として、ワークロードを明確に絞り込める大手事業者ほど、用途特化ASICの方が有利になりやすい状況が生まれているわけだ。
もちろん、直ちにNVIDIAの優位性が崩れるわけではない。とはいえ、今後数年にわたり、同社の急成長が徐々に頭打ちになっていく可能性は十分ありそうだ。
