エヌビディア、サムスン電子とのファウンダリ協力

この記事で分かること

どんな製品を製造するのか

AI推論専用チップ「Groq LP30」(4nm)、自動運転プロセッサ、次世代「Groq LP40」(交渉中)、そしてHBM4・HBM4E・HBM5といった高帯域幅メモリを製造・供給しています。


なぜサムスンなのか

TSMCへの一社依存リスクと台湾の地政学的リスクを分散するため、先端プロセスで唯一対抗できるサムスンを選択。キャパシティ逼迫の回避と、メモリ・ロジックの一括調達という統合力も決め手です。

Groq LP30がHBMなしで動作できる理由

HBMの代わりにオンチップSRAMをメインメモリとして搭載し、コンパイラが全処理を事前に完全予測する「決定論的パイプライン」を採用。データ移動の遅延をゼロにし、容量不足はチップの並列接続で補います。

エヌビディア、サムスン電子とのファウンダリ協力

 2026年6月8日、サムスン電子の半導体部門長である全永鉉(チョン・ヨンヒョン)氏は、同社がエヌビディアのジェンスン・フアンCEOと、次世代チップやHBM4E・HBM5といった将来技術に向けたファウンドリ(受託生産)協力について幅広く協議したことを明らかにしました。

 この会談はエヌビディアCEOの訪韓に合わせて実現したもので、両社の関係強化が急速に進んでいます。会談ではHBMなどメモリー供給を巡る懸案を話し合うとみられていました。

 今回の協議はサムスンのファウンドリー事業の再浮上という文脈でも注目されています。TSMCが世界市場で約68%のシェアを誇る一方、サムスンのシェアは8.1%から7.7%へと低下していたため、エヌビディアとの協力拡大は、同社の製造技術力と歩留まり改善が認められた形といえます。

どんなチップを生産するのか


①「Groq LP30」── AI推論専用の言語処理ユニット(LPU)

 現在サムスンが受託生産している最注目チップが、このGroq LP30です。LP30チップは、ダイあたり512MBのオンチップSRAMを搭載し、チップあたり150TB/sというメモリ帯域幅を実現します。

 2026年3月のGTC基調講演でエヌビディアが発表した「Groq 3 LPX」ラックシステムの中核を担い、サムスンの4nmプロセスで製造されています。

 このチップは従来のGPUとはまったく異なる思想で設計されており、エヌビディアのRubin GPUがスループット重視の学習やプリフィル処理向けに288GBのHBM4メモリを搭載するのに対し、LP30は外部メモリを使わずオンチップSRAMだけで動作するため、HBM供給が逼迫する市場環境でも安定した製造が可能という利点があります。

 フルラック構成では256基のLPUが搭載され、合計128GBのSRAMと40PB/sの総帯域幅を実現。エヌビディアによれば、Rubin NVL72と組み合わせることで1兆パラメータモデルの推論において最大35倍のメガワットあたり性能向上を達成し、運用コストは100万トークンあたり45ドルを目標としています。

②「Groq LP40」── 次世代への受注交渉が進行中

 6月8日の会談では、次世代チップ「Groq LP40」の受託生産についても交渉が行われ、TSMCに対抗できる可能性が浮上しています。

 LP40はエヌビディアの次世代アーキテクチャ「Feynman」世代に向けたチップで、LP35(Rubin Ultra向け)をはさんだロードマップ上の後継品です。

③自動運転向けプロセッサ

 サムスンは現在、エヌビディア向けに自動運転プロセッサも受託生産しており、4nmおよび8nmプロセスを使用しています。エヌビディアが自動車メーカーへ提供する「DRIVE AGX」などのプラットフォームに使われるチップが対象とみられています。

④メモリチップ「HBM4・HBM4E・HBM5」

 ロジックチップだけでなく、メモリ分野でも協力が続きます。サムスンはHBM4Eについて、ピンあたりの最大転送速度16Gbps・スタックあたりの総帯域幅4TB/sを実現することを正式に公表しており、エヌビディアの次世代AIアクセラレーター「Vera Rubin Ultra」への搭載が見込まれています。さらにCOMPUTEX TAIPEI 2026では第8世代となるHBM5を初披露し、将来技術のロードマップも示しました。

 HBM5についてはサムスンの2nmプロセスでベースダイを製造することが計画されており、Vera Rubinの次世代AIアクセラレーターに向けた帯域幅と電力効率の向上を目指しています。


サムスンはエヌビディア向けに、AI推論専用チップ「Groq LP30(4nm)」、自動運転プロセッサ(4・8nm)、HBM4/4E/5メモリを生産・協議中です。次世代「LP40」の受注交渉も進行しており、TSMCへの対抗軸として存在感を高めています。

なぜサムスンに委託するのか


①「TSMC一社依存」というリスクへの対応

 最大の背景は、エヌビディアが長年にわたってTSMCへほぼ完全に依存してきたことへの構造的なリスク管理です。エヌビディアのTSMCへの依存は戦略的資産である一方、リスクでもあります。

 インテルやサムスンが代替ファウンドリーとして台頭しつつあり、エヌビディアの米国内製造推進と代替ファウンドリーへの分散は、こうしたリスクを軽減するための取り組みです。

 特に台湾の地政学的リスクが深刻で、TSMCの製造キャパシティの80%以上は依然として台湾に集中しており、台湾海峡有事や緊張激化が生じた場合、業績に関わらず大きな打撃を受けるリスクがあります。

 AIが経済・安全保障の根幹を担うようになった今、唯一のサプライヤーへの依存はエヌビディアにとって看過できない問題です。

②TSMCのキャパシティ逼迫という現実

 地政学リスクに加えて、より現実的・即時的な問題として、TSMCの生産能力が限界に達しています。TSMCの先端パッケージングライン(CoWoS)は2025年を通じ、また2026年に入っても実質的に売り切れ状態が続いています。

 エヌビディアはこのキャパシティの大きな割合を確保していますが、それでも無制限の需要には対応できません。

 CoWoS供給不足とエヌビディアの需要増大により、TSMCのファウンドリー受注は一部がAmkorやASEなどのOSAT企業へと流出しており、TSMCの市場シェアが失われる可能性への懸念も生じています。つまりエヌビディアは「TSMCに任せたくても任せられない」状況にも直面しています。

③サムスンが「唯一の現実的な代替選択肢」である

  現在、TSMCに先端プロセスで対抗できるのはサムスンのみです。インテルのファウンドリーは機能不全に陥り、TSMCは高コストで生産能力が逼迫し地政学的リスクも抱えています。

 AIは重要すぎて、台湾に集中する単一サプライヤーに全てを賭けることはできません。サムスンは先端ノードにおける唯一の現実的な代替選択肢です。

④メモリとロジックを一括提供できる「統合力」

 サムスン固有の強みとして、ロジック半導体の受託製造とHBMメモリの両方を同一企業から調達できる点が挙げられます。

 他社では製造とメモリを別々に発注して調整するコストとリスクが生じますが、サムスンはそれを一本化できます。

 また、米国テキサス州テイラーに建設中のサムスン新工場は2026年内の稼働開始が計画通り進行しており、米中対立や台湾海峡リスクを懸念する北米顧客にとって、米国内で最先端プロセスの供給源を持つことはサプライチェーン強靭化の必須条件となりつつあります。

⑤Groq買収に伴う「例外的なチップ」という事情

 LP30チップについては、もう一つ特殊な背景があります。このチップはHBMを使わずオンチップSRAMだけで動作するアーキテクチャのため、HBM供給制約と先端パッケージングの問題を回避できる設計です。

 つまりTSMCのCoWoSが必須ではなく、サムスンの4nmプロセスで十分に製造できるという技術的合理性もありました。


エヌビディアがサムスンを選ぶ主因は、TSMC一社依存の地政学リスク軽減・生産能力逼迫の回避・インテル凋落後の唯一の代替ファウンドリーという三点です。さらにメモリとロジックの一括調達、米国内工場の活用も後押ししています。

Groq LP30はなぜHBMなしで動作できるのか


そもそも「メモリの壁」とは何か

 GPUがAI推論を行う際、最大のボトルネックはメモリアクセスの遅さです。70BパラメータのモデルをFP8精度で動かす場合、重みデータだけで約70GBになります。

 デコード処理の1ステップごとにすべての重みを読み出す必要があるため、H100 SXMの3.35TB/s帯域でも70GBの読み出しに約21ミリ秒かかります。この「データを運ぶ時間」がGPUの推論速度の上限を決めてしまいます。

LP30の根本的な発想転換:SRAMをメインメモリに使う

 LP30はこの問題を、HBMをそもそも使わないという発想で解決しています。DRAMやHBMはウェイト(重み)の取得のたびに数百ナノ秒のアクセス遅延が発生します。

 これは高バッチの学習処理では許容できても、推論処理では演算強度が低いため遅延のペナルティが顕在化します。LPUはオンチップSRAMを「キャッシュではなくメインのウェイトストレージ」として統合しており、演算ユニットがフルスピードでデータを引き出せます。

 SRAMのアクセス速度はHBMの約20倍高速です。さらにエネルギー効率も圧倒的で、HBM経由のデータ取得はビットあたり約6ピコジュールのエネルギーを消費しますが、オンチップSRAMではわずか0.3ピコジュール、つまり20分の1のエネルギーで済みます。

「決定論的パイプライン」という設計哲学

 単にSRAMを大量搭載するだけでは意味がありません。LP30を機能させるのは「決定論的実行」という核心的な設計思想です。

 LP30はキャッシュなし・キャッシュミスという概念すらないフラットなSRAMファーストのメモリアーキテクチャを採用しており、コンパイラがすべてのデータのプログラム実行全体での正確な物理バンク位置を直接アドレス指定します。

 ワークロードがコンパイルされた瞬間から、各チップ・各ステージ・各時刻で何が起きるかをシステムが完全に把握しています。各計算ステップが完全に同期されるため、各段階の処理が最大効率で動作します。GPUの動的スケジューリングが生む予測不能な遅延を、設計段階で完全に排除しているのです。

容量不足はチップを並べて解決する

 「500MBのSRAMでは数十GBの大規模モデルは動かないのでは」という点があります。これをLP30は「チップを多数並列接続する」ことで解決します。

 「データはチップから外に出ません。メモリが多く必要になれば、チップを追加するだけです。すべてが同期的・決定論的に行われるため高スループットと低コストが実現します」とGroqは説明しています。

 各チップのローカルSRAMに必要なデータを保持し、チップ間でやり取りするのは前後の演算ステ  ージが生成した中間出力のみです。このデータ転送はLPU同士の直接通信で完結し、外部HBMチップも外部ルーターも不要です。

LP30が担う役割の限定性が鍵

 LP30がHBMなしで成立するもう一つの理由は、担当する処理を「デコード」に絞り込んでいることです。LPUは推論パイプラインにおける自己回帰的なデコードフェーズに最適化されており、モデルのアクティブなパラメータすべてをトークン生成のたびにメモリからストリーミングする処理を担います。

 この繰り返し処理こそSRAMの決定論的アーキテクチャが最も威力を発揮する領域です。学習や推論の前処理(プリフィル)はGPUが担当するため、LP30は特化した処理だけを圧倒的効率で行えます。


LP30はHBMの代わりに超高速オンチップSRAMをメインメモリとして採用し、コンパイラが全処理を事前に完全予測する「決定論的パイプライン」でデータ移動の遅延をゼロにします。容量不足はチップの並列接続で補い、デコード処理に特化することで成立する設計です。

コメント

タイトルとURLをコピーしました