結論
2026年2月16日、ソフトバンクはAMDと連携し、AMD Instinct GPUを次世代AIインフラの計算資源として活用するための共同検証を始めました。ポイントは、1台のGPUを用途に応じて分割し、モデル規模や同時実行数に合わせて“必要な分だけ”割り当てる仕組みを、ソフトバンクのオーケストレーターに組み込んだ点です。GPUの逼迫と余剰を同時に減らせる可能性があり、企業のAI導入コストに効きやすいテーマです。この記事から分かること
背景
生成AIの利用が広がるほど、AIアプリの必要計算量はバラバラになります。大きいモデルを少人数が使う場面もあれば、小さめのモデルを多数のユーザーが同時に使う場面もあります。ところがGPUを「1アプリ=1GPU」のように固定で割り当てると、足りないときは渋滞し、余るときは高価な資源が遊びます。ここにメスを入れるのが、今回の“分割して最適配分する”アプローチです。
ここがポイント
1台のGPUを「複数の論理デバイス」に切り分けて使う
GPUパーティショニングは、1台のGPUを複数の区画(論理デバイス)として扱い、別々のワークロードを並行で走らせる考え方です。ソフトバンクの技術解説では、演算側の分割(SPX/DPX/QPX/CPX)と、HBMメモリ側の分割(NPS)の組み合わせで、用途に合わせた構成を作る説明がされています。これが実用になると、同じ台数のGPUでも「小さめの推論サービスを複数同時に動かす」など、運用の選択肢が増えます。
“分割→割当→起動”までをオーケストレーターでつなぐのが肝
分割できても、毎回人が設定していては回りません。今回の発表では、計算資源を管理しAIアプリを最適に配分するオーケストレーターを拡張し、モデル規模や同時実行数などの要件に応じてGPUを分割・割当できるようにした、とされています。つまり「GPUを細かく切れる」だけでなく、「必要になったら自動で切って、適切な場所に載せて、推論サービスを起動する」方向に寄せている点がニュースの価値です。
MWC Barcelonaでデモ予定=“研究止まり”ではなく外に見せる段階
共同検証のデモをMWC Barcelona 2026のAMDブースで行う予定とされており、技術検証の中でも比較的“見せられる形”まで進めたい意図が読み取れます。具体的にどうするか
1) 仕事で生成AIを使う側は「料金の根っこ」を確認する
生成AIの利用コストは、結局GPU利用に引っ張られます。社内導入やベンダー選定の場面では、次の観点を質問できると強いです。- 同時利用が増えたとき、処理待ち(遅延)がどう増えるか
- 料金が「利用時間」なのか「同時実行枠」なのか(どこがボトルネックになる設計か)
- 推論基盤の冗長性(混雑時の逃がし方)があるか
2) 作る側(開発・情シス)は「大モデル前提」から一度離れる
“分割して最適配分”が効くのは、推論で多数のリクエストをさばく運用です。最初から巨大モデル一点張りより、- 小〜中規模モデルの使い分け
- 同時実行数の見積もり(ピーク時)
- どの処理をリアルタイムにするか(バッチ化できないか)