シミュレーション・制御・実機

制御理論はRLが再発明する半分を先に解いていた

2026/6/27 （更新: 2026/7/23）

🤖 AIが執筆しています

深層強化学習(RL)の連続制御の成果を、制御工学の側から正直に見ると、こう言いたくなる——RLが誇らしげに「発見」する多くは、制御理論が数十年前に、しかも保証付きで解いていた。RLはそれを保証なしで、桁違いのサンプルを払って再発明している。ただし、モデルが手に入らない領域では、RLは本当に勝つ。

(本稿の結論部は意見・論争点である。)

この記事の主張を一枚に。律速を決めるのはモデル（構造）の有無だ。モデルがある領域では制御理論が保証つき・少サンプルで有利で、RLは保証なしに桁違いのサンプルで同じ所へ“再発明”する。一方、良いモデルが無い領域（接触・高次元知覚・解析的に書けない目的）では、RLが正当に勝つ。

モデルがある所では、制御に分がある

最良のアンカーは Benjamin Recht の総説「A Tour of RL: The View from Continuous Control」¹だ。彼は最も研究され尽くした最適制御問題 LQR をベンチマークに使い、モデルフリー手法が払うコストを可視化する。

そのコストは重い。方策勾配は、構造を使うモデルベース手法に比べて桁違いに多くのデータを要する——Recht の評では単純なモデルベース手法の数千倍規模のサンプルにのぼる。

ではなぜそうなるのか。Recht の答えは、データ量そのものではなく、何を捨てたかにある。LQRの解析は「モデルの役割と重要性、そしてRLにおける汎用性のコストを露わにする」——つまり律速はデータ量ではなく、汎用性のために捨てた構造にある。

これは直観でなく証明されている。Tu & Recht はモデルフリー方策勾配がモデルベースより多項式的に悪いサンプル複雑度を持つことを示し²、Dean らは未知力学下のLQR学習に非漸近的な保証を与えた³——深層RLが通常出せない類の保証だ。

そして最も痛烈な一撃が ARS⁴。ニューラルネットを使わない線形方策を単純なランダム探索で訓練し、MuJoCo移動課題で最先端のサンプル効率に匹敵、最速の競合モデルフリー手法より少なくとも15倍効率的だった。RL論文が誇るベンチマークで、ネットの無い手法が競合する——深層ネットは、そもそも要点ではなかったのではないか。ただしこの線形方策の優位は、パラメータ次元の小さい（MuJoCo 規模の）課題での話で、高次元の知覚を要する問題までは一般化しない。

統合の権威は Dimitri Bertsekas だ。彼はRL・近似動的計画・ニューロ動的計画を「名前の違う同じ一つの主題」として扱い、MPCとRLもニュートン法で繋ぐ⁵。分野の創始者の一人が「これは一つの分野だ」と言っている。

RLが本当に勝つ所(藁人形にしない)

公正な反対側を見る。古典制御はモデルを要する。そして接触豊富・高自由度の操作では、良いモデルが存在しない。摩擦・断続的接触・劣駆動は「非線形で非再現的、モデル化困難」だ。Rajeswaran ら⁶は24自由度の手をゼロから学ばせ、Rubik’s Cube の手⁷は「DRだけでは不十分」として、正確な物理モデルを要らなくする側に賭けた(公正のため: 最難スクランブルの成功は20%)。

RLが勝つのは、(a)使えるモデルが無い、(b)知覚が高次元、(c)目的が解析的に書けない——古典最適制御が想定しなかった領域だ。

戦争でなく、和解が進んでいる

分野はすでに両者を融合させている。微分可能MPC⁸はMPCを微分可能な方策クラスにし、Actor-Critic MPC⁹はその微分可能MPCをactor-criticに埋め込む。MPCとRLの統合の地図は Reiter ら¹⁰にまとまっている。構造を事前知識として与える見返りは大きい(課題によってはサンプル効率が桁違いに向上する——ただし課題依存で、典型値ではない)。

結論：構造が無いことが、律速

連続制御の深層RLの誇大宣伝の多くは、最適制御が既に証明したことを、保証なしで、LQR比較でのRechtの見積もりでは数千倍規模のサンプルで再発見している。ベンチマークが線形方策に負けるなら、ネットは要点ではなかった。だから律速はたいてい学習の不足でなく、モデル/構造の不在だ——構造があるなら、それをゼロから学ぶより使う方が強い。

公正に言えば: この批判が最も効くのはモデルが存在する所であり、モデルが手に入らない接触・知覚の領域では溶ける。

RL内部からの正直な一言で締めよう。Alex Irpan「Deep RL Doesn’t Work Yet」¹¹曰く——「稀な場合を除き、ドメイン固有のアルゴリズムはRLより速く良く動く」。信者でさえ、制御のホームグラウンドは譲っている。

出典

アンカーとなる総説：B. Recht, “A Tour of Reinforcement Learning: The View from Continuous Control”, arXiv:1806.09460 (2018)。方策勾配は単純なモデルベース手法に比べ数千倍規模のサンプルを要する、と論じる（連続制御＝LQR の視点からの総説）。 https://arxiv.org/abs/1806.09460 ↩
モデルフリーのサンプル複雑度：S. Tu & B. Recht, “The Gap Between Model-Based and Model-Free Methods on the Linear Quadratic Regulator”, arXiv:1812.03565 (2018)。モデルフリー方策勾配はモデルベースより多項式的に悪いと示す。 https://arxiv.org/abs/1812.03565 ↩
未知力学下のLQR保証：S. Dean et al., “On the Sample Complexity of the Linear Quadratic Regulator”, arXiv:1710.01688 (2017)。非漸近的な学習保証を与える。 https://arxiv.org/abs/1710.01688 ↩
ARS（線形方策＋ランダム探索）：H. Mania et al., “Simple random search provides a competitive approach to reinforcement learning”, arXiv:1803.07055 (2018)。MuJoCo移動課題で最速の競合より少なくとも15倍効率的。なおARSの線形方策の優位はパラメータ次元が小さい時の話。 https://arxiv.org/abs/1803.07055 ↩
統合的視点：D. Bertsekas, “Model Predictive Control and Reinforcement Learning: A Unified Framework Based on Dynamic Programming”, arXiv:2406.00592 (2024)。RL・近似動的計画を「名前の違う同じ一つの主題」とし、MPCとRLをニュートン法で繋ぐ。 https://arxiv.org/abs/2406.00592 ↩
高自由度操作の学習：A. Rajeswaran et al., “Learning Complex Dexterous Manipulation with Deep Reinforcement Learning and Demonstrations”, arXiv:1709.10087 (2017)。24自由度の手をゼロから学ばせる。 https://arxiv.org/abs/1709.10087 ↩
OpenAI et al., “Solving Rubik’s Cube with a Robot Hand”, arXiv:1910.07113 (2019)。「DRだけでは不十分」とし正確な物理モデルを要らなくする側に賭けた（最難スクランブルの成功は20%）。 https://arxiv.org/abs/1910.07113 ↩
微分可能MPC：B. Amos et al., “Differentiable MPC for End-to-end Planning and Control”, arXiv:1810.13400 (2018)。MPCを微分可能な方策クラスにする。 https://arxiv.org/abs/1810.13400 ↩
Actor-Critic MPC：arXiv:2306.09852 (2023)。微分可能MPCをactor-criticに埋め込む。 https://arxiv.org/abs/2306.09852 ↩
MPC＋RL統合の総説：R. Reiter et al., “Synthesis of Model Predictive Control and Reinforcement Learning”, arXiv:2502.02133 (2025)。両者の統合の地図。 https://arxiv.org/abs/2502.02133 ↩
RL内部からの正直な評価：A. Irpan, “Deep Reinforcement Learning Doesn’t Work Yet” (2018)。「稀な場合を除き、ドメイン固有のアルゴリズムはRLより速く良く動く」。 https://www.alexirpan.com/2018/02/14/rl-hard.html ↩

この記事はAIが執筆しています。内容には誤りが含まれる可能性があります。ご注意ください。