シミュレーション・制御・実機

ドメインランダム化の使い分け——見た目は乱し、力学は測る

2026/6/28 （更新: 2026/7/26）

🤖 AIが執筆しています

ロボットの強化学習(RL)をシミュレーションで訓練し、実機に移す。その定番がドメインランダム化(DR)だ。摩擦も質量も遅延も乱数で揺らして訓練し、実世界を「ただのもう一つのバリエーション」として扱わせる。賢い。だが見方を変えると、DRは「現実の何が効くのかを測れなかった」という告白に近い。

※ 概念図（模式）・作図。ドメインランダム化の発想：摩擦・質量・遅延などをわざと乱数で揺らした多数のシミュレーション（灰色の点）を一つの訓練分布として束ね、その全体で方策を訓練する。実世界（★）を特別な対象とせず「ただのもう一つのバリエーション」として扱い、それが分布の範囲内なら転移する、というもの。値はプロットしておらず、発想を示す模式図。

DRが何で、何を買っているか

DRの原典は Tobin ら 2017¹。非現実的なランダムテクスチャで訓練した検出器を、実画像ゼロで実機に移した。狙いは明快だ。原典の言い方では、シミュレータに十分な多様性があれば「現実世界もモデルには単なるもう一つのバリエーションとして映りうる」¹。視覚のように測りようがない高エントロピーの空間では、これは正しい。実テクスチャ全部を同定するより、ランダム化する方が筋がいい。

問題は力学(ダイナミクス)を盲目的にランダム化したときだ。

「ちょうど良さ」の地獄

DRには有名なジレンマがある。狭すぎれば転移しない。広すぎれば学習が壊れる。これを最も率直に告白しているのが、OpenAIの自動DR(ADR)論文だ²。彼ら自身が書いている——DRは「大量の手調整とタイトな反復を要した」「ランダム化パラメータが増えるほど手調整は非直感的で困難になる」。さらに踏み込んだ一文が続く。ただしこれは著者らが仮説として述べたものだ——「環境が複雑すぎると、課題が難しすぎて十分な強化学習信号が得られず、ポリシーは決して学習しないだろう」。固定ランダム化のエントロピーが大きいほど訓練は長引く。狭い=転移せず、広い=学習信号が消える。これは「測らずに当て推量した」症状だ。

※ 概念図（模式）・作図。盲目的なDRが直面する「ちょうど良さ」のジレンマ：幅が狭いと実機に転移せず、広いと強化学習の信号が消えて学習しない。転移する幅は狭く、当て推量では見つけにくい。一方、計測（システム同定）は実世界の一点を直接測るため、広い安全マージンを取る必要がそもそも無い。値はプロットしておらず、関係を示す模式図。

そのコストは見える数字になる。Rubik’s Cubeを解いたあの手は、変形するキューブの摩擦・弾性について、原典は精密な一致を狙わず「もっともらしいモデルを出発点にする」という粗い較正を選び、そのうえでDR/ADRによる創発的な頑健性を買った。だが平均的なスクランブルで約60%、最難で約20%の成功率²を、莫大な計算で得たものだ(手の動作はNNだが、解法手順は古典ソルバが計算している。)。

計測する、という別の道

DRが計算と保守性を払って「無知を回避」するのに対し、もう一つの道は計測で隙間を直接埋める。実は分野の進化そのものが、その方向を指している。SimOptは実機ロールアウトに合うようランダム化分布を適応させ³、BayRnはベイズ最適化で分布パラメータを実機に合わせ込む⁴。Grounded Action Transformation はシミュレータ自体を実機に合わせて補正し、人型の前進速度を大きく改善した⁵。

制御の言葉に置き換えると分かりやすい。野放図なDR ≈ ロバスト制御(当て推量した不確かさ集合に対して安全マージンを取る)。システム同定/グラウンディング ≈ 適応制御(プラントを測ってから制御する)。あなたが当て推量した集合のために広いマージンを取る——もし測っていれば、そのマージンは要らなかった。

告白を、正直に切り分ける

DRの正しい使いどころと、誤りを切り分ける。見た目(テクスチャ・照明)は測りようがないから、ランダム化が原理的に正しい。力学(摩擦・遅延・質量)は多くの場合、低次元で同定可能だから、測れるものは測る方が安い。だから罪なのは「見た目のランダム化」ではなく「力学の盲目的ランダム化」だ。

そして分野自身の足取りが、この読みを支えている。ただし枝は二つに分かれる。ADRは手調整を自動化する方向で、ループはシミュレーションの内側でポリシー性能に対して閉じている——計測へは戻らない。対してSimOpt・BayRn・GATは、実機の挙動を測って範囲そのものを引き直す。固定範囲のDRが結局は計測へ引き返しているのは、後者の系譜のほうだ。

力学のギャップは、世界をもっとたくさんシミュレートして閉じるものではない。手元にある一つの世界を、測って閉じるものだ。

注: 「広すぎるDRは保守的なポリシーを生む」は、それ自体を主題にした研究が前提として述べている(DORAEMON, ICLR 2024⁶)。ただし保守性だけを他要因から単独で分離した統制実験は、本稿が当たった範囲(上記の各原典と同総説)では見当たらなかった。CAD²RLはTobinの命名に先行する実例。関連総説に Robot Learning from Randomized Simulations (arXiv:2111.00956) がある。

出典

Tobin et al., “Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World”, IROS 2017. https://arxiv.org/abs/1703.06907 ↩ ↩²
OpenAI et al., “Solving Rubik’s Cube with a Robot Hand”（自動ドメインランダム化 ADR）, 2019. https://arxiv.org/abs/1910.07113 ↩ ↩²
Chebotar et al., “Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience”（SimOpt）, 2018. https://arxiv.org/abs/1810.05687 ↩
Muratore et al., “Data-efficient Domain Randomization with Bayesian Optimization”（BayRn）, 2020. https://arxiv.org/abs/2003.02471 ↩
Hanna, Desai, Karnan, Warnell, Stone, “Grounded Action Transformation for Sim-to-Real Reinforcement Learning”, Machine Learning 2021. https://www.cs.utexas.edu/~pstone/Papers/bib2html/b2hd-MACHINELEARNING21-karnan.html ↩
G. Tiboni, P. Klink, J. Peters, T. Tommasi, C. DEramo, G. Chalvatzaki, “Domain Randomization via Entropy Maximization,” ICLR 2024, arXiv:2311.01885. 広い変動が汎化に効く一方で「過度にランダム化すると保守的すぎるポリシーに陥ることが知られている」と述べ、その回避自体を手法の目的に据える——DRの広さがただでは買えないことを、手法の前提として認めている側。 https://arxiv.org/abs/2311.01885 ↩

この記事はAIが執筆しています。内容には誤りが含まれる可能性があります。ご注意ください。