In Silico

ドメインランダム化は技術ではなく、告白だ

2026/6/21

ロボットの強化学習(RL)をシミュレーションで訓練し、実機に移す。その定番がドメインランダム化(DR)だ。摩擦も質量も遅延も乱数で揺らして訓練し、実世界を「ただのもう一つのバリエーション」として扱わせる。賢い。だが見方を変えると、DRは**「現実の何が効くのかを測れなかった」という告白**に近い。

DRが何で、何を買っているか

DRの原典は Tobin ら 2017(arXiv:1703.06907)。非現実的なランダムテクスチャで訓練した検出器を、実画像ゼロで実機に移した。狙いは明快——「本質的な特徴だけを学ばせるために、わざと非現実的に乱す」。視覚のように測りようがない高エントロピーの空間では、これは正しい。実テクスチャ全部を同定するより、ランダム化する方が筋がいい。

問題は**力学(ダイナミクス)**を盲目的にランダム化したときだ。

「ちょうど良さ」の地獄

DRには有名なジレンマがある。狭すぎれば転移しない。広すぎれば学習が壊れる。これを最も率直に告白しているのが、OpenAIの自動DR(ADR)論文だ(arXiv:1910.07113)。彼ら自身が書いている——DRは「大量の手調整とタイトな反復を要した」「ランダム化パラメータが増えるほど手調整は非直感的で困難になる」、そして決定的な一文、「環境が複雑すぎると、課題が難しすぎて十分な強化学習信号が得られず、ポリシーは決して学習しない」。固定ランダム化のエントロピーが大きいほど訓練は長引く。狭い=転移せず、広い=学習信号が消える。これは「測らずに当て推量した」症状だ。

そのコストは見える数字になる。Rubik’s Cubeを解いたあの手は、変形するキューブの摩擦・弾性を「測定・モデル化が極めて困難」として、DR/ADRで創発的な頑健性を買った。だが平均的なスクランブルで約60%、最難で約20%の成功率を、莫大な計算で得たものだ(手の動作はNNだが、解法手順は古典ソルバが計算している点も正直に付記しておく)。

計測する、という別の道

DRが計算と保守性を払って「無知を回避」するのに対し、もう一つの道は計測で隙間を直接埋める。実は分野の進化そのものが、その方向を指している。SimOptは実機ロールアウトに合うようランダム化分布を適応させ(arXiv:1810.05687)、BayRnはベイズ最適化で分布パラメータを実機に合わせ込む(arXiv:2003.02471)。Grounded Action Transformation はシミュレータ自体を実機に合わせて補正し、人型の前進速度を大きく改善した(Stone lab)。

制御の言葉に置き換えると分かりやすい。野放図なDR ≈ ロバスト制御(当て推量した不確かさ集合に対して安全マージンを取る)。システム同定/グラウンディング ≈ 適応制御(プラントを測ってから制御する)。あなたが当て推量した集合のために広いマージンを取る——もし測っていれば、そのマージンは要らなかった。

告白を、正直に切り分ける

DRを藁人形にはしたくない。見た目(テクスチャ・照明)は測りようがないから、ランダム化が原理的に正しい。力学(摩擦・遅延・質量)は低次元で同定可能だから、測る方が安い。だから罪なのは「見た目のランダム化」ではなく「力学の盲目的ランダム化」だ。

そして決定的な証拠は、分野自身の足取りだ。ADR・SimOpt・BayRn・GAT——「自動」「適応」「ベイズ」と名のつくDRの変種はすべて、固定範囲のDRが結局は計測へ引き返している姿である。

現実とのギャップは、世界をもっとたくさんシミュレートして閉じるものではない。手元にある一つの世界を、測って閉じるものだ。


参考: Tobin ら DR (IROS 2017, arXiv:1703.06907); OpenAI ADR/Rubik’s Cube (arXiv:1910.07113); SimOpt (arXiv:1810.05687); BayRn (Muratore ら, arXiv:2003.02471); Robot Learning from Randomized Simulations 総説 (arXiv:2111.00956); Grounded Action Transformation (Stone lab)。注: 「広いDR→保守的ポリシー」は分野で広く支持される直観だが、保守性を単独で分離した統制実験は確認できていない(各論文の記述に基づく)。CAD²RLはTobinの命名に先行する実例。

この記事はAIが下書きし、人間が編集・公開しています。