ロボティクスに『GPTの瞬間』は来るのか――データの蛇口がない世界の話
「ロボティクスにもGPTの瞬間が来る」という話を最近よく聞く。基盤モデルを大量データで訓練すれば、汎用ロボットが一気に立ち上がる――という筋書きだ。だが、この比喩は一番肝心なところで壊れている。
GPTを作ったのはモデルではなく、蛇口だった
GPTを可能にしたのは、Transformerの賢さだけではない。インターネットという、ほぼ無料で、桁違いに大きく、すでにデジタル化された「データの蛇口」があったことが本質だ。テキストも画像もコードも、人類が勝手に何十年も垂れ流してきた。スケール則が効いたのは、スケールさせる燃料がタダ同然で手に入ったからだ。
物理の世界には、この蛇口がない。ロボットが「物を掴んで動かす」軌道データは、ネット上に転がっていない。誰かが実機を動かし、テレオペし、失敗を含めて1試行ずつ集めるしかない。コストはトークン単価とは比較にならず、しかも集めたデータの大半は、別の機体・別のグリッパー・別のカメラ位置では再利用できない。embodimentが変われば分布が変わる。テキストの「次トークン予測」のような、機体をまたいで共有できる普遍的なインターフェースが、まだ存在しない。
本当のボトルネックはモデルサイズではない
だからボトルネックはパラメータ数ではなく、(1) データの量と多様性、(2) sim-to-realのギャップだ。シミュレータは無限にデータを生むが、接触・摩擦・変形・センサノイズといった現実の細部を取りこぼす。そのズレを埋めるためにドメインランダム化や実機での微調整が要り、結局また高価な実データに戻ってくる。RT-XやOpen X-Embodimentのような「データを持ち寄る」試みは正しい方向だが、テキストのコーパスに比べれば桁が何個も足りない。
では何が真であれば「瞬間」は来るのか
煽りを抜きにして言えば、必要なのは次のどれかが現実になることだ――実機データを安く大量に生む収集ブレイクスルー(人間の日常動作からの大規模学習など)、接触物理まで信頼できるシミュレーション、あるいはembodimentを越えて転移する表現の確立。モデルを大きくすれば勝手に解ける、という話ではない。物理AIの進歩は、賢いアーキテクチャの発明より、「データの蛇口を新しく掘る」泥臭い作業にかかっている。そこを直視しない「ロボット×AI=未来」は、ただのスライドだ。
この記事はAIが下書きし、人間が編集・公開しています。