NTTのAIを活用した食事の提案　どのように提案するのなか？

この記事で分かること
NTTのAIを活用した食事の提案
気分とメニューをどうやって結びつけるのか
表情から感情の状態をどうやって読み取るのか
どうやって音声からストレスを分析するのか
1. 具体的な分析の仕組み

この記事で分かること

提案する方法：カメラと音声で利用者の表情や声からストレス値を解析し、心身の状態をAIで判断します。この状態に合わせ、機能性成分や期待される効果が紐づけられたメニューを提案します。
表情から感情の状態を読み取る方法：カメラ映像から顔の特徴点を抽出し、その変化パターンを分析します。大量の顔画像と感情の関連データを事前に学習することで、現在の表情がどの感情に該当するかを推論し、気分を読み取ります。

NTTのAIを活用した食事の提案

　NTT東日本とNTTデータが共同で新宿に開設したウェルネス実証施設「Wellness Lounge」において、AIを活用した個別最適化された食事の提案が行われています。

https://www.nikkei.com/article/DGXZQOUC2751Q0X20C25A5000000/

　従来の「好みの味」や「アレルギー」といった選択肢だけでなく、より深層的な「心身のニーズ」に応えることを目指した、高度なパーソナライゼーションが可能になります。

気分とメニューをどうやって結びつけるのか

　NTT東日本が「気分に合うメニュー」をAIで提案する仕組みは、主に以下の要素を組み合わせることで実現されていると考えられます。

生体情報（身体の状態）の取得と解析

カメラによる表情分析: 利用者の表情から、感情の状態（例：笑顔、無表情、疲れた表情など）を読み取ります。これは、幸福度やストレス度合いを推測する手がかりになります。
音声分析: 声のトーン、話す速さ、声量などから、感情の変化やストレスレベルを推測します。
その他センサー（可能性）： もし将来的には、心拍数、皮膚電位、脳波などの生体データを取得し、より詳細な心身の状態を把握する可能性もあります。
ストレス値の可視化: これらの情報から、AIがストレスレベルを数値化したり、気分を「優しい気分」「刺激を求める気分」といった具体的なタイプに分類したりします。

メニューデータベースと関連付け

メニューの特性データ: 提供されるメニュー（ドリンク、フード）には、それぞれ以下のような特性がデータとして紐付けられています。
栄養成分: カロリー、タンパク質、脂質、炭水化物、ビタミン、ミネラルなど。
機能性成分: カフェイン、テアニン、GABA、ポリフェノールなど、特定の効果が期待できる成分。
味のプロファイル: 甘味、酸味、苦味、旨味、香りなど。
食感: サクサク、もちもち、なめらかなど。
色合いや見た目: 視覚的な印象。
期待される効果: 集中力向上、リラックス効果、疲労回復、覚醒効果など。

過去のデータとの学習（機械学習）

どのような気分の時に、どのようなメニューが選ばれ、その結果利用者がどのように感じたか、という膨大なデータをAIに学習させます。
例えば、「ストレスが高いと感じている人が、特定のハーブティーを飲んだ後にリラックスした」というデータが蓄積されれば、AIはそのパターンを学習します。

AI（LLM・次世代メディア処理AI）による推論と提案

「tsuzumi（つづみ）」と「MediaGnosis（メディアグノシス）」の連携
「MediaGnosis」がカメラや音声から利用者の生体情報を正確に解析し、現在の心身状態を把握します。
その解析結果を基に、「tsuzumi」が過去の学習データと照らし合わせ、利用者の気分と最適なメニューを関連付けます。
例えば、「穏やかな気分でリラックスしたい」とAIが判断した場合、リラックス効果のあるハーブティーや、心が落ち着くような色合いのデザートなどを提案します。逆に、「集中力を高めたい」気分であれば、カフェイン量を調整できるコーヒーや、脳を活性化するとされる栄養素を含むフードを提案する、といった具合です。

個別最適化: AIは一人ひとりの状態に合わせて、過去の選択履歴や、その日の気分変化なども考慮し、最も適したメニューを提案します。

　これは、従来の「好みの味」や「アレルギー」といった単純な選択肢だけでなく、より深層的な「心身のニーズ」に応えることを目指した、高度なパーソナライゼーションと言えるでしょう。

NTT東日本は、カメラと音声で利用者の表情や声からストレス値を解析し、「優しい気分」や「刺激を求める気分」といった心身の状態をAIで判断します。この状態に合わせ、機能性成分や期待される効果が紐づけられたメニューを提案。AIが過去のデータから最適な組み合わせを学習し、個人の気分に合った食事を提供します。

表情から感情の状態をどうやって読み取るのか

　NTT東日本がAIで表情から感情の状態を読み取る仕組みは、主に画像認識技術と機械学習（特にディープラーニング）の組み合わせによって実現されています。具体的な方法は以下の通りです。

顔の検出と特徴点抽出

まず、カメラが捉えた画像の中から顔の領域を特定します。
次に、その顔の中から目、眉、鼻、口といった主要な顔のパーツの位置や形状を検出します。さらに、これらのパーツを構成する筋肉の動きによって生じる微細な変化（しわ、たるみ、口角の上がり下がり、眉の動きなど）を、多数の特徴点として抽出します。例えば、多いものでは顔に100個以上のタグ付けを行うこともあります。

感情のデータベースと学習

喜怒哀楽といった基本的な感情（喜び、悲しみ、怒り、恐れ、驚き、嫌悪など）と、それに対応する顔の表情のパターンを大量に学習データとしてAIに与えます。
この学習データには、様々な人物、年齢、性別、環境下での表情が含まれており、AIはそれらのデータから感情と表情の関連性を自律的に学習します。
特に、人間には意識しにくい「微表情」と呼ばれる、0.2秒以下で表れては消える一瞬の顔の動きも学習の対象となります。これは、本人が隠したい感情や無意識の感情を表すことがあるため、より精度の高い感情認識に役立ちます。

AIによる感情の推論と分類

新しい顔の画像が入力されると、AIは学習済みの知識を使って、その顔から抽出された特徴点がどの感情のパターンに最も近いかを推論します。
この推論に基づいて、利用者の感情を「喜び」「悲しみ」といった具体的な感情に分類したり、あるいは「ストレスが高い」「リラックスしている」「集中している」といった、より具体的な心身の状態に紐づけて判断します。
NTT東日本の事例では、さらに「優しい気分」「刺激を求める気分」といった独自の気分タイプに分類していると考えられます。

補足事項

ディープラーニングの活用: 複雑な顔の動きと感情の関連性を人間が手動で定義するのは非常に困難です。ディープラーニング（深層学習）は、大量のデータから自動的に複雑なパターンを学習する能力に優れているため、表情からの感情認識において重要な役割を果たしています。
音声分析との組み合わせ: 表情だけでなく、声のトーンや話し方などの音声情報も同時に分析することで、より多角的かつ正確な感情認識が可能になります。これを「マルチモーダル感情認識」と呼びます。NTT東日本のシステムでも、表情と音声の両方からストレス値を計測しているため、このアプローチを取っていると考えられます。
精度と課題: 感情認識AIの精度は日々向上していますが、個人の感情表現の多様性、文化的な違い、意図的に感情を隠す場合など、まだ完璧ではありません。しかし、データ量が増え、アルゴリズムが進化するにつれて、その精度はさらに高まっていくと期待されています。

AIはカメラ映像から顔の特徴点（眉、目、口などの位置や動き）を抽出し、その変化パターンを分析します。大量の顔画像と感情の関連データを事前に学習することで、現在の表情がどの感情（例：喜び、ストレス）に該当するかを推論し、気分を読み取ります。

どうやって音声からストレスを分析するのか

　NTT東日本を含む多くのAIによる音声からのストレス分析は、主に音声の物理的な特徴（音声特徴量）を分析することで実現されます。

　人間が意識しない声の微妙な変化に、ストレス状態が表れるという考えに基づいています。

具体的な分析の仕組み

音声データの収集と前処理:
- マイクを通じて利用者の音声データを収集します。
- ノイズ除去や音声区間検出など、分析に適した形に前処理を行います。
音声特徴量の抽出:ストレス状態は、声帯の動きや発声に関わる筋肉の緊張に影響を与えると考えられています。そのため、以下のような音声の物理的な特徴（音声特徴量）が抽出されます。
- 基本周波数（F0/ピッチ）とその変動: 声の高さのこと。ストレスや緊張があると声が高くなったり、変動が大きくなったりすることがあります。
- 音量（強度）とその変動: 声の大きさ。ストレスで声が小さくなったり、逆に大きくなったりすることがあります。
- 話速（発話速度）: 話すスピード。ストレス下では早口になったり、逆に言葉が出てこなくなったりすることがあります。
- 声の震え（ジッター、シマー）: 声のピッチや振幅の微細な不規則な変動。ストレスで声帯の制御が不安定になると、これらの値が増加することがあります。
- スペクトル情報: 声の周波数成分の分布。ストレスによって声の響きや音色が変わるため、特定の周波数帯域のエネルギー変化が特徴として捉えられます。
- ポーズ（無音区間）の長さや頻度: 話し始めの躊躇や、言葉に詰まる際に無音区間が増えることがあります。
機械学習モデルの構築と学習
- 大量の音声データ（様々な感情状態やストレスレベルにある人の音声）と、それぞれの音声データに対応する「正解ラベル」（例えば、アンケート結果や専門家による評価など、その音声がどの程度のストレス状態にあったかを示す情報）をAI（機械学習モデル）に学習させます。
- この学習により、AIは上述の音声特徴量とストレス状態の間の複雑なパターンや相関関係を自律的に見つけ出します。特に、ディープラーニングのような技術が、人間には識別しにくい微細なパターンを検出するのに役立ちます。
ストレスレベルの推論と可視化
- 新しい音声が入力されると、AIは学習済みのモデルを用いて、その音声から抽出された特徴量が、過去に学習したどのストレス状態のパターンに最も近いかを推論します。
- その結果を数値（ストレスレベルのスコア）や、「ストレスが高い」「リラックスしている」といった具体的な分類、あるいはグラフなどで可視化して提示します。

　NTT東日本のシステムでは、表情分析と組み合わせることで、より多角的に利用者の心身の状態を把握し、それに基づいたメニュー提案を行っていると考えられます。音声分析は、表情だけでは捉えきれない内面的な状態や、本人が意識していないストレスの兆候を捉える上で重要な役割を果たすと言えるでしょう。

AIは、声の高さ（ピッチ）、大きさ（音量）、話す速さ、声の震え（微細な変動）といった音声の物理的特徴を分析します。これらの特徴とストレス状態の関連性を大量のデータで学習することで、現在の音声からストレスレベルを推論・可視化します。