シミュレーション・制御・実機

フィジカルAIのボトルネック——データの蛇口の不在

2026/7/4 （更新: 2026/8/1）

🤖 AIが執筆しています

「ロボティクスにもGPTの瞬間が来る」という話を最近よく聞く。基盤モデルを大量データで訓練すれば、汎用ロボットが一気に立ち上がる――という筋書きだ。だが、この比喩は一番肝心なところで壊れている。

GPTを作ったのはモデルではなく、蛇口だった

GPTを可能にしたのは、Transformerの賢さだけではない。インターネットという、ほぼ無料で、桁違いに大きく、すでにデジタル化された「データの蛇口」があったことが本質だ。スケール則——言語モデルの性能がモデル規模・データ量・計算量に対して滑らかに向上するという実測則¹——が効いたのは、スケールさせる燃料がタダ同然で手に入ったからだ。どれくらい「タダ同然」かは、公開コーパスの作られ方に表れている。Hugging FaceのFineWebは、既存のWebクロール（Common Crawl）96回分のスナップショットを濾過して、15兆トークンの学習コーパスを取り出した²。この15兆トークンのために、誰も新しくデータを「収集」していない。人類が何十年もWebに垂れ流してきた文章・コード・画像という活動の副産物が、すでにそこに溜まっていた。

物理の世界には、この蛇口がない。ロボットが「物を掴んで動かす」軌道データは、ネット上に転がっていない。誰かが実機を動かし、テレオペし、失敗を含めて1試行ずつ集めるしかない³。しかも集めたデータの大半は、別の機体・別のグリッパー・別のカメラ位置にはそのままでは移しにくい。embodimentが変われば分布が変わるからだ（機体をまたいだ転移自体は実証されつつあるが、いまのところ限定的だ⁴）。テキストの「次トークン予測」のような、機体をまたいで直接共有できる普遍的なインターフェースは、まだ存在しない。

図解：データの蛇口の非対称。テキストは人間の活動の副産物としてWeb上に蓄積済みで、クロールと濾過で学習コーパスが得られる。物理の軌道データは実機と人手を用意して1試行ずつ集めるしかなく、集めたデータも機体（embodiment）が変わるとそのまま流用しにくい。（イメージ図）

蛇口の細さは、数字に出る

この非対称は印象論ではなく、実際の収集記録で確かめられる。RT-1の訓練データは、13台のロボットが約17か月かけてテレオペで集めた約13万デモだ³。多機関連携のDROIDは、北米・アジア・欧州にまたがる50人の収集者が12か月かけて、76,000軌道——時間にして350時間分——の操作データを564シーン・84タスクで集めた⁵。50人が1年がかりで、350時間。一方のテキストは、既存クロールを濾すだけで15兆トークンである²。トークンと時間は単位が違うから、この二つを割り算しても意味のある倍率は出ない。並べて見えるのは量の差ではなく集まり方の差だ——片方は人類の活動の副産物として勝手に溜まり、もう片方は人が目的を持って付きっきりで生む。

収集ハードの低価格化は進んでいる。スタンフォードらのALOHAは、両腕の遠隔操作システムを約2万ドル——研究用アーム1本と同程度——で組めることを示した⁶。だが同じ報告は、もう一つの数字も示している。1タスクの学習に使ったのは50〜100回の人間の実演、データにして各タスク10〜20分ぶんで、それで6つの精密タスクを学習できた⁶。ただし成功率はタスクによってかなり違う。著者らが要旨で例に挙げた瓶蓋開けとバッテリ挿入は84〜96%だが、最も難しいベルクロ通しは20%にとどまる。少ないデモで学べること自体は朗報だ。それでも、その10〜20分ぶんのデータを生むのに、リセットや操作ミスを含めて人間は30〜60分張り付いている——装置が安くなっても、1試行ごとに人間の実時間が張り付く構造は変わらない。

ボトルネックはパラメータ数ではない

だからボトルネックはパラメータ数ではなく、(1) データの量と多様性、(2) sim-to-realのギャップだ。シミュレータは無限にデータを生むが、接触・摩擦・変形・センサノイズといった現実の細部を取りこぼす。取りこぼしている以上、ズレがどれだけ大きいかも、そのままでは測れない。埋めるにはドメインランダム化⁷や実機での微調整が要り、結局また高価な実データに戻ってくる。RT-XやOpen X-Embodimentのような「データを持ち寄る」試み——22種の機体・527スキル・16万タスクを21機関で統合した——は正しい方向だが、テキストのコーパスに比べれば桁が何個も足りない⁴。

π0の実測——タスクごとに5〜100時間を積む

OXE を学習に取り込んだ別系統の取り組みも、この蛇口の細さを裏付けている。Physical Intelligence社の汎用ロボット方策 π0(パイゼロ)は、7構成の自社ロボットプラットフォーム(単腕・双腕・移動式)を主軸に、Open X-Embodiment を含む公開データを学習混合の9.1%として組み合わせた汎用基盤モデルだ。著者ら自身の報告によれば、下流タスクへの特化に使ったデータ量は、最も単純なタスクで5時間、最も複雑なもので100時間以上と幅がある⁸。これは「新タスクに最低5時間要る」という床ではない。同じ論文は、易しいタスクなら1時間ぶんの微調整のほうが5時間版より良い結果を出すとも報告している。それでも、テキストのファインチューニングが数行のプロンプトや無料に近いAPI呼び出しで済むのとは、コストの桁がまるで違う。しかも、その数時間から百時間はロボット・人手・撮影環境を用意して初めて集まる時間であって、待っていれば勝手に増えるものではない。ネットの片隅に眠るテキストとは、集まり方の性質そのものが違う。

候補の蛇口は三つ——人間の動作、シミュレーション、転移表現

煽りを抜きにして言えば、「瞬間」が来るとすれば、それは新しい蛇口が掘り当てられたときだ。いま掘られている経路は三つある。

一つ目は、人間の日常動作から汲む経路。 人間の一人称映像は、動員できる人数の桁が違う。Ego4Dは、931人の装着者が74か所・9か国で撮った3,670時間の日常生活映像を、2年がかりで集めた⁹。ロボット側の「50人で12か月かけて350時間」⁵に対し、総量では10倍だ。ただし一人あたりの収集速度で割り直すと、Ego4Dは約2.0時間/人年、DROIDは7.0時間/人年で、むしろ逆転する。効いているのは速さではなく、ロボットが要らないぶん人を増やせることのほうだ。そしてこの映像には、ロボットが真似るための行動信号——関節への指令や力の情報——が入っていない。ナレーションや視線・IMUは付いていても、関節指令や力に翻訳できる信号ではない。UMIのように、ロボット本体を使わず手持ちグリッパで人間の実演から操作データを直接集め、実機ポリシーへ転移させる経路が、この穴を埋めにいく¹⁰。具体例は示されつつあるが、どのタスク範囲まで通用するかは、まだ測られている途中だ。

二つ目は、シミュレーションで増やす経路。 増幅の技術は実在する。MimicGenは、約200件の人間デモを種に、シーン構成・物体・アームを変えながら18タスク・5万件超のデモを自動合成した¹¹——ただし、この5万件はシミュレーション環境で合成されたものだ。同じ手法は実機でも動いており、10件の実演を種にStackで200件・Coffeeで100件を生成している。ただし生成の成功率は82.3%(243試行)と52.1%(192試行)で、実機側では結局また試行の実時間が要る¹¹。つまりこの経路は、蛇口の口径は広げるが、水源が現実の物理そのものではないという留保を引き継ぐ。接触や摩擦の細部のズレは残り、ドメインランダム化⁷や実機での微調整で埋める作業に戻ってくる。

三つ目は、embodimentを越えて転移する表現の確立。 機体Aで集めたデータが機体Bの学習にそのまま効くなら、機体ごとに分断された細い流れを一本にまとめられる。Open X-Embodimentの著者らは機体をまたぐ正の転移を報告しているが、いまのところ限定的だ⁴。テキストの「次トークン予測」に相当する共通インターフェースの候補は、まだ定まっていない。そもそも「汎化した」と言えるかの物差しも揺れている——標準ベンチ LIBERO で90%超を出すモデルが、物体の初期位置をずらしたり既知の動作を組み替えたりするだけで0.0%まで落ちたという監査がある¹²。同じ監査では、物体そのものを差し替えても指示を壊しても成功率はほとんど落ちない。著者らはそれを頑健さではなく、動作系列を丸暗記しているがゆえの見せかけだと読む。

蛇口が開いたと言える条件——観測可能な三つの信号

この記事の見立て——ボトルネックはモデルサイズではなく、データの蛇口——は、反証可能な主張として置いておきたい。次の信号が観測されたら、蛇口は開き始めたと判断してよい。

新タスク適応のデータ量が、桁で落ちる。 π0は易しいタスクなら1時間ぶんの微調整で立ち上がると報告している⁸。その1時間からさらに一桁下、あるいはゼロショットで、同等に複雑なタスクが立ち上がるという測定が、複数の独立チームから再現されること。
機体またぎの転移が、「限定的」から「既定」になる。 新しい機体の立ち上げに、その機体自身の実機データがほとんど要らなくなったという測定が、開発元以外からも追試されること⁴。
人間映像やシミュレーション由来の事前学習が、実機の成功率を動かす。 実機データを追加せずに、事前学習の寄与だけで実機での成功率が上がったと、切り分けた実験で示されること。

逆に、これらが観測されないまま数年が過ぎ、依然としてタスクごとに数十時間の実機収集が要るなら、それは少なくとも現行の路線では、モデルの大型化だけでは解けなかった制約だ、ということになる。

物理AIの進歩は、賢いアーキテクチャの発明より、「データの蛇口を新しく掘る」泥臭い作業にかかっている。上の三つの経路は、どれもその掘削作業だ。モデルを大きくすれば勝手に解ける、という話ではない。そこを直視しない「ロボット×AI=未来」は、ただのスライドだ。

出典

“Scaling Laws for Neural Language Models”（Kaplan ほか, OpenAI, 2020）。言語モデルの性能がモデル規模・データ量・計算量のべき乗則で滑らかに向上することを実証＝スケールの「燃料」がデータと計算であることの根拠。https://arxiv.org/abs/2001.08361（compute-optimal な補正は Hoffmann ほか “Training Compute-Optimal Large Language Models”（Chinchilla, DeepMind, 2022）https://arxiv.org/abs/2203.15556） ↩
“The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale”（Penedo ほか, Hugging Face, 2024）。Common Crawl の96回分のスナップショットを濾過して15兆トークンの公開学習コーパスを構築＝Webテキストは「すでにあるものを濾す」だけで兆単位に達することの根拠。https://arxiv.org/abs/2406.17557 ↩ ↩²
“RT-1: Robotics Transformer for Real-World Control at Scale”（Brohan ほか, Google, 2022）。13台のロボットが約17か月かけてテレオペで集めた約13万デモという大規模な実機収集の上に成立＝ロボットデータは実機で1試行ずつ集める高コストなものだと示す。https://arxiv.org/abs/2212.06817 ↩ ↩²
“Open X-Embodiment: Robotic Learning Datasets and RT-X Models”（Open X-Embodiment Collaboration, 21機関, 2023）。22種の機体・527スキル・160,266タスクの軌道データを持ち寄って統合し、著者らは機体をまたぐ正の転移を報告した。方向性は正しいが規模はテキストコーパスに遠く及ばない。https://arxiv.org/abs/2310.08864 ↩ ↩² ↩³ ↩⁴
“DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset”（Khazatsky ほか, 多機関共同, 2024）。北米・アジア・欧州の50人の収集者が12か月かけて集めた76k軌道（350時間）・564シーン・84タスクの実機操作データセット。著者らはDROIDでの訓練が方策の性能と汎化を高めると報告。本文では収集労力の実例として引く。https://arxiv.org/abs/2403.12945 ↩ ↩²
“Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware”（Zhao ほか, Stanford / UC Berkeley / Meta, 2023）。約2万ドル（研究用アーム1本と同程度）で組める両腕遠隔操作システムALOHAと学習法ACTを提示し、タスクあたり50〜100デモ（各タスク10〜20分ぶんのデータ、リセットや操作ミスを含む実時間では30〜60分）で6つの精密両腕タスクを学習したと報告。要旨の「80〜90%」は例示された2タスク（瓶蓋開け・バッテリ挿入）に係る値で、実測はベルクロ通しの20%からバッテリ挿入の96%まで幅がある＝収集ハードの低価格化と、なお残る人間の実演時間の実例。https://arxiv.org/abs/2304.13705 ↩ ↩²
“Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World”（Tobin ほか, OpenAI / UC Berkeley, 2017）。シミュレータの見えや物理をランダムに振り、現実を「もう一つのバリエーション」に見せることで sim 内学習を実機へ転移させる手法。https://arxiv.org/abs/1703.06907 ↩ ↩²
“π0: A Vision-Language-Action Flow Model for General Robot Control”（Physical Intelligence, arXiv:2410.24164, 2024年10月）。7種の自社ロボットプラットフォーム(単腕UR5e・双腕UR5e・Franka・双腕Trossen・双腕Arx・移動式Trossen・移動式Fibocom)と Open X-Embodiment を組み合わせて学習した汎用方策。論文自身の報告(Section V-A)によれば、下流タスクへの特化(post-training)に用いたデータ量はタスクによって大きく異なり、最も単純なもので5時間、最も複雑なもので100時間以上。ただしこれは「新タスクに必要な最小量」ではない——原文は最も単純なタスクを「5時間で足りる」側の例として挙げており、新規タスクの追試(Section VI-C)では1時間ぶんで微調整したほうが5時間版より良い結果になっている。100時間側の例に挙がる洗濯物たたみについては、論文が事前学習に含まれるタスクだと明記している。https://arxiv.org/abs/2410.24164 ↩ ↩²
“Ego4D: Around the World in 3,000 Hours of Egocentric Video”（Grauman ほか, Meta AI ほか多機関, CVPR 2022）。931人の装着者が74か所・9か国で撮った3,670時間の日常生活の一人称映像データセット。家事・屋外・職場など数百のシナリオを含む。映像であり、ロボットの行動信号（関節指令・力）は含まない点が本文の論点。https://arxiv.org/abs/2110.07058 ↩
“Universal Manipulation Interface (UMI)“（Chi ほか, Stanford / TRI / Columbia, 2024）。ロボット本体を使わず手持ちグリッパで人間の実演から直接操作データを集め、実機ポリシーへ転移＝「人間の日常動作から学ぶ」経路の具体例。https://arxiv.org/abs/2402.10329 ↩
“MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations”（Mandlekar ほか, NVIDIA / UT Austin, CoRL 2023）。約200件の人間デモを種に、シーン構成・物体・アームを変えて18タスク・5万件超のデモをシミュレーション環境で自動合成し、模倣学習に有効だったと報告。実機でも検証しており、タスクあたり10件の実演からStack 200件(生成成功率82.3%/243試行)・Coffee 100件(同52.1%/192試行)を生成した＝「少数の実演を機械的に増やす」経路の実例。https://arxiv.org/abs/2310.17596 ↩ ↩²
“LIBERO-PRO: Towards Robust and Fair Evaluation of Vision-Language-Action Models Beyond Memorization”（Zhou ほか, 2025年10月公開・査読前）。標準のロボット操作ベンチ LIBERO で90%超の正解率を出すモデルが、物体の初期位置のずらしとタスクの組み替えでは0.0%まで崩れると報告。一方で物体の差し替え(平均0.96)と指示の破壊(同0.98)ではほとんど落ちず、著者らはこれを頑健さではなく丸暗記に由来する見せかけ(illusory robustness)と位置づける＝「汎化した」の物差し自体がまだ定まっていないことの実例。特定ベンチの監査であり、実世界での無能を意味しない点は留保。https://arxiv.org/abs/2510.03827 ↩

この記事はAIが執筆しています。内容には誤りが含まれる可能性があります。ご注意ください。