日本AI基盤モデル開発への投資企業増加

この記事で分かること
日本AI基盤モデル開発への投資企業増加
日本AI基盤モデル開発はどんなAIを開発するのか
旭化成・富士通・安川電機の出資目的は何か
どのようにマルチモーダルを実現するのか

この記事で分かること

1. 開発するAIの概要

製造業や自動運転など現実世界を自律制御・最適化する「フィジカルAI」の共通基盤です。国内最高峰の計算基盤を使い、1兆パラメータ級かつ画像やセンサー値を同時処理するマルチモーダルな国産AIを構築します。

2. 3社の出資目的

自社の高品質な現場データを提供して国産巨大AIの構築に貢献し、その成果である最先端モデルを自社の次世代事業（素材開発、自律型ロボット、産業ITソリューション）へ実装して競争力を強化するためです。

3. マルチモーダルの実現方法

テキスト、画像、産業センサー等の異なるデータを共通の数値（トークン）に変換し、単一の巨大Transformerモデル内で時間軸を厳密に同期させ、初期段階から統合学習（Early Fusion）を行います。

日本AI基盤モデル開発への投資企業増加

　ソフトバンクが主導して2026年4月に設立された、国産の生成AI基盤モデル開発を目指す新会社「日本AI基盤モデル開発」（仮称含む）に対し、新たに旭化成、富士通、安川電機の3社が出資を検討していることが明らかになりました。

　この動きは、日本がグローバルで強みを持つ製造業・産業領域に特化した「フィジカルAI」の実現に向けた、非常に重要なステップとして注目されています。

日本AI基盤モデル開発はどんなAIを開発するのか

　新会社「日本AI基盤モデル開発」が目指しているのは、ChatGPTのような「文章で会話するAI」ではありません。

　彼らが開発するのは、物理世界（現実世界）のロボットや機械、自動車、工場などを自律的に制御・最適化するための「フィジカルAI」の脳盤となる、国内最大規模のマルチモーダル基盤モデルです。

1. 開発するAIの3大特徴

　新会社が開発するAIモデルは、これまでの国産AIとは一線を画す、圧倒的な規模と処理能力を持った「超大型の頭脳」です。

1兆パラメータ級の超大規模モデル（GPT-4クラスの規模）現在、国内で開発されている多くのAIは、効率性を重視した軽量・省エネ型（数百億パラメータ規模）が主流です。しかし、新会社はそれらの数十倍から数百倍にあたる1兆パラメータ級を目指します。物理世界の複雑な事象を高度に認知・判断するには、圧倒的な「脳の容量（パラメータ数）」が必要という思想に基づいています。
マルチモーダル（多様なデータの同時理解）テキスト（言語）だけでなく、画像、動画、音声、そして各種センサー値、機械音、温度、圧力、動作ログにいたるまで、現実世界のあらゆる異種データを統合してリアルタイムに処理・理解します。
完全国内完結による「データ主権」の確保ソフトバンクが国内（苫小牧や大阪堺など）に構築する巨額のGPU計算基盤を使い、開発・学習をすべて日本国内で行います。これにより、製造業の機密性の高い現場データや生産ラインのノウハウを海外のクラウド（米中ビッグテック）に渡すことなく、安全に学習させることができます。

2. どのようなデータを学習させるのか？

　このAIが賢くなるための「教材」は、ウェブ上のテキストではなく、参画する日本のトップ企業群が持ち寄る最高品質の「産業・現場データ」です。

自動車・モビリティ（ホンダ）：自動運転の走行映像、車両センサーデータ、制御ログ
ロボティクス・エンタメ（ソニーG）：高度な画像センサーデータ、ロボットの駆動データ
産業用ロボット・FA（安川電機など）：サーボモーターの電流値、ロボットアームの軌道、工場の稼働音
素材・プラント（日本製鉄、旭化成など）：高炉や化学プラントの温度・圧力センサー、材料シミュレーションデータ
通信・インフラ（ソフトバンク、NEC）：大規模なネットワーク運用ログ、日本語のコア言語データ

3. このAIが実現する具体的な機能（応用例）

　この共通基盤モデル（頭脳）が完成すると、出資企業はそれを自社専用に微調整（ファメインチューニング）し、以下のような高度な「フィジカルAI」として現場に実装します。

① 工場・プラントの「完全自律制御・最適化」

　従来の工場は、人間がプログラムした通りにしか動きませんでした。このAIを組み込むことで、機械が「いつもと違う妙な振動音がする（官能検査の自動化）」と自ら察知して異常を予兆したり、歩留まり（良品率）を最大化するために温度や圧力をAIがリアルタイムで自律制御したりできるようになります。

② 次世代AIロボットの自律駆動

　ロボットアームに対して「このバラバラに置かれた部品を、傷つけずに組み立てて」と曖昧な指示を出すだけで、AIがカメラ映像とセンサー値から物体の形状や硬さを判断し、力加減を自律的に調節して作業を行えるようになります。

③ 高度な自動運転とモビリティの進化

　ホンダの自動運転技術などに組み込まれ、天候の急変や予期せぬ障害物の動きに対しても、視覚・音・車両センサーを瞬時に統合して、人間以上に安全で滑らかな判断を下す車両制御を実現します。

4. なぜ「1つの共通モデル」で作るのか？

　物理世界のAIを1から開発するには、数千億円規模の計算基盤（GPU）と膨大なデータが必要です。これを日本のメーカーが各社バラバラに投資していては、資金力で勝るGAFAMなどの米中巨大ITに太刀打ちできません。

　そこで、「基礎となる巨大な頭脳（共通の基盤モデル）は1つにまとめてみんなで作り、それを各社が持ち帰って自社の秘匿データと組み合わせ、独自の競争力（ロボット、車、化学プラント等）に変える」という「協調と競争」の戦略をとっています。

　経済産業省（NEDO）による最大級の資金支援も受け、2027年までのモデル開発、そして2030年度までの本格的な社会・現場実装に向けてプロジェクトが動いています。

「日本AI基盤モデル開発」は、製造業やロボティクス、自動運転などの現実世界（物理空間）を自律的に制御・最適化する「フィジカルAI」の共通基盤を開発します。1兆パラメータ級の大規模な頭脳を国内企業が共同で構築する試みです。

旭化成・富士通・安川電機の出資目的は何か

　旭化成、富士通、安川電機の3社が「日本AI基盤モデル開発」に出資を検討している主な目的は、「自社が持つ最高品質の現場データを提供し、共同開発された超巨大AIを自社の次世代事業に実装すること」にあります。

　出資額は1社あたり数千万円規模と少額であることから、資金的な支援というよりも、「強力な国産AI連合への参画パス（切符）を得ること」が実質的な目的です。各社の具体的な狙いは以下の通りです。

1. 旭化成の目的：素材開発の高速化とプラントの自律化

マテリアルズ・インフォマティクス（MI）の高度化化学・素材開発において、AIを用いて新材料の組み合わせや分子構造をシミュレーションする技術を飛躍的に進化させ、開発期間を大幅に短縮します。
次世代プラントの運用自社の化学プラントなどで得られる温度・圧力・熟練工の操業ノウハウなどのデータをAIに学習させ、事故の予兆検知や、最適な自動運転・省エネ制御を実現します。

2. 安川電機の目的：自律型ロボット（フィジカルAI）の実現

「動くAIロボット」の開発産業用ロボットやサーボモーターの世界大手として、工場自動化（FA）の現場データを保有しています。これらを1兆パラメータ級のAIと結びつけることで、指示を自ら解釈し、状況に合わせて力加減や軌道を自律的に判断して動く次世代ロボットの開発を目指します。
スマート工場の世界標準獲得同社が推進するデジタルデータソリューション（i³-Mechatronicsなど）に最先端の国産AIを組み込み、工場の生産性を極限まで高めるソリューションビジネスを強化します。

3. 富士通の目的：産業向けITソリューションへの統合と社会実装

自社ITサービス（AI）の強化自社でもAI技術（Fujitsu Kozuchiなど）を展開していますが、今回開発される国内最大規模の基盤モデルを自社のITサービスやクラウド、スーパーコンピュータ技術と連携させ、顧客企業への提案力を圧倒的に高めます。
プラットフォーマーとしての参画日本の製造業や社会インフラ全体のデジタルトランスフォーメーション（DX）を支える中核ベンダーとして、この巨大な国産AIを社会実装する役割（インテグレーション）を主導する狙いがあります。

共通する最大の狙い：「米中ビッグテックへの対抗」と「データ主権」

　3社に共通する背景として、「自社の機密性の高い製造・現場データを、海外（米中）のクラウドやAIに渡したくない」という強い動機があります。

　最先端の巨大AIを1社単独で開発するには数千億円規模の投資が必要ですが、この新会社を「協調領域（みんなで共通の頭脳を作る場）」として活用することで、コストを抑えつつ、安全な国内インフラの上で自社専用の特化型AIを構築することができます。

3社は自社の高品質な現場データを提供して国産の巨大AI構築に貢献し、その成果である最先端の基盤モデルを自社の次世代事業（素材開発、自律型ロボット、産業ITソリューション）へ実装・強化することを目指しています。

どのようにマルチモーダルを実現するのか

　「日本AI基盤モデル開発」が目指す1兆パラメータ級の「フィジカルAI」において、マルチモーダル（テキスト、画像、映像、音声、時系列センサーデータなどの統合処理）をどのように実現するのか、その技術的なアプローチは主に以下の4つのステップ・アーキテクチャに基づいています。

　現在主流となっている「ネイティブ・マルチモーダル（初期段階からの統合学習）」の仕組みを軸に解説します。

1. 異種データの「統一トークン化（Unified Tokenization）」

　AIのベースとなるTransformer（トランスフォーマー）は、本質的には「数字の列（トークン）」しか処理できません。そのため、まず物理世界のあらゆる異なるデータを、同じ形式のベクトル（埋め込み表現）に変換します。

テキスト・制御ログ：従来の言語モデル同様、単語やコードをID化してベクトルに変換。
画像・映像（視覚データ）：画像を小さな格子状の断片（パッチ）に分割し、それぞれの特徴量を抽出してベクトル化（Vision Transformer: ViTの手法）。
産業用センサー・時系列データ（電流、振動、温度、圧力）：波形データや数値の連続を、一定の時間窓（ウィンドウ）ごとに区切り、ベクトル空間へと写像（Time-series Embedding）。これにより、機械の「振動」や「電圧の変化」も、テキストの「単語」と同じようにAIが扱えるようになります。

2. 統合型アーキテクチャ（Unified Transformer）

　従来のマルチモーダルAIは、画像用、音声用、テキスト用で別々のAIモデル（エンコーダー）を用意し、最後にそれらの出力を強引に結合する手法（Late Fusion）が一般的でした。

　しかし、新会社が目指す次世代AIでは、最初から1つの巨大なTransformerモデルにすべてのトークン（テキスト、画像、センサー値）を並列に流し込む「Early Fusion（ネイティブ・マルチモーダル）」を採用するとみられます。

　これにより、AIの内部（Attentionレイヤー）で、以下のようなモダリティを跨いだ高度な相関関係（クロスアテンション）を直接計算できるようになります。

【AI内部での処理イメージ】

「カメラ映像のこのノイズ」＋「サーボモーターの電流値の急激なスパイク」＋「内部圧力の低下」＝『配管の詰まり、またはモーターの過負荷』という因果関係を、単一の脳内で同時に理解する。

3. 時空間アライメント（時間の同期）

　フィジカルAIにおいて最も重要なのが、「時間軸の同期」です。ウェブ上のAI（LLM）と異なり、現実のロボットや自動運転では、コンマ数秒のズレが致命傷になります。

タイムスタンプによる整列1秒間に30フレーム進む「映像」と、1秒間に数千回サンプリングされる「モーターの電流値」を、厳密な時間軸（タイムスタンプ）で同期させてAIに入力します。
因果関係の学習「ロボットアームがこの軌道で動いた（アクション）」→「その0.1秒後にセンサーの負荷が増した（リアクション）」という、物理世界における原因と結果のタイムラグを、トランスフォーマーのコンテキスト（文脈）として学習させます。

4. 巨大計算基盤による「大規模事前学習（Pre-training）」

　これらの一見バラバラなデータを意味的に結びつけるには、莫大な計算量による学習（自己教師あり学習）が必要です。

　ソフトバンクが提供する国内最高峰のGPU計算基盤（NVIDIAの最新アーキテクチャなど）を活用し、数千億〜兆規模のトークンを同時に処理します。

　テキストと画像を大量に結びつけた「CLIP」のようなアプローチの発展形として、「産業データ（センサー・画像・制御コマンド）の巨大な相関マップ」をAIのパラメータ（1兆規模）の中に焼き付けていきます。

　このアプローチにより、最終的にAIが出力するのは「テキスト（回答）」だけではありません。

　AIの出力層から、直接「ロボットを動かすための制御コマンド（モーターの回転角や電圧制御値）」や「自動運転のステアリング角」をトークンとして吐き出すことが可能になります。

　つまり、「現実世界を見て、聞いて、感じて、そのまま現実世界を動かすコード（命令）を地続きで生成する脳」が、この技術によって実現します。

テキストや画像、工場センサー等の異なるデータを共通の数値（トークン）に変換し、単一の巨大なTransformerモデルで時間軸を同期して初期から統合学習（Early Fusion）することで実現します。