制御理論は、RLが再発明している半分を、もっと前に解いていた
深層強化学習(RL)の連続制御の成果を、制御工学の側から正直に見ると、こう言いたくなる——RLが誇らしげに「発見」する多くは、制御理論が数十年前に、しかも保証付きで解いていた。RLはそれを保証なしで、桁違いのサンプルを払って再発明している。ただし——後で正直に書くが——モデルが手に入らない領域では、RLは本当に勝つ。
(本稿の中核(第4節)は意見・論争点であることを明記しておく。RLを藁人形にはしない。)
モデルがある所では、制御に分がある
最良のアンカーは Benjamin Recht の総説「A Tour of RL: The View from Continuous Control」(arXiv:1806.09460)だ。彼は最も研究され尽くした最適制御問題 LQR をベンチマークに使い、モデルフリー手法が払う税を示す。結論は逐語で——方策勾配は**「単純なモデルベース手法の数千倍のサンプルを要する」、そしてLQRの解析は「モデルの役割と重要性、そしてRLにおける汎用性のコストを露わにする」**。最後の一句が、このサイトの背骨そのものだ——律速は、目立つデータでなく、汎用性のために捨てた構造にある。
これは直観でなく証明されている。Tu & Recht はモデルフリー方策勾配がモデルベースより多項式的に悪いサンプル複雑度を持つことを示し(arXiv:1812.03565)、Dean らは未知力学下のLQR学習に非漸近的な保証を与えた(arXiv:1710.01688)——深層RLが通常出せない類の保証だ。
最も痛烈な一撃が ARS(arXiv:1803.07055)。ニューラルネットを使わない線形方策を単純なランダム探索で訓練し、MuJoCo移動課題で最先端のサンプル効率に匹敵、最速の競合モデルフリー手法より少なくとも15倍効率的だった。RL論文が誇るベンチマークで、ネットの無い手法が競合する——深層ネットは、そもそも要点ではなかったのではないか。
統合の権威は Dimitri Bertsekas だ。彼はRL・近似動的計画・ニューロ動的計画を**「名前の違う同じ一つの主題」**として扱う。MPCとRLもニュートン法で繋ぐ(arXiv:2406.00592)。分野の創始者の一人が「これは一つの分野だ」と言っている——戦争の構図は、ここで崩れる。
RLが本当に勝つ所(藁人形にしない)
公正な反対側。古典制御はモデルを要する。そして接触豊富・高自由度の操作では、良いモデルが存在しない。摩擦・断続的接触・劣駆動は「非線形で非再現的、モデル化困難」だ。Rajeswaran ら(arXiv:1709.10087)は24自由度の手をゼロから学ばせ、Rubik’s Cube の手(arXiv:1910.07113)は「DRだけでは不十分」として、正確な物理モデルを要らなくする側に賭けた(公正のため: 最難スクランブルの成功は20%)。RLが勝つのは、(a)使えるモデルが無い、(b)知覚が高次元、(c)目的が解析的に書けない——古典最適制御が想定しなかった領域だ。
戦争でなく、和解が進んでいる
分野はすでに両者を融合させている。微分可能MPC(arXiv:1810.13400)はMPCを微分可能な方策クラスにし、Actor-Critic MPC(arXiv:2306.09852)は微分可能MPCをactor-criticに埋め込む。MPCとRLの統合の地図は Reiter ら(arXiv:2502.02133)。構造を事前知識として与える見返りは具体的だ(一部のMuJoCo課題で最大~330倍のサンプル効率——課題依存の「最大」値であり典型値ではない)。
結論:構造が無いことが、律速
【ここからは意見】連続制御の深層RLの誇大宣伝の多くは、最適制御が既に証明したことを、保証なしで、数千倍のサンプルで再発見している。ベンチマークが線形方策に負けるなら、ネットは要点ではなかった。だから律速はたいてい学習の不足でなく、モデル/構造の不在だ——構造があるなら、それをゼロから学ぶより使う方が強い。公正に言えば: この批判が最も効くのはモデルが存在する所であり、モデルが手に入らない接触・知覚の領域では溶ける。
RL内部からの正直な一言で締めよう。Alex Irpan「Deep RL Doesn’t Work Yet」(alexirpan.com)曰く——「稀な場合を除き、ドメイン固有のアルゴリズムはRLより速く良く動く」。信者でさえ、制御のホームグラウンドは譲っている。
参考: Recht「A Tour of RL」(arXiv:1806.09460); Tu & Recht (arXiv:1812.03565); Dean ら LQRサンプル複雑度 (arXiv:1710.01688); ARS (arXiv:1803.07055, ※線形方策の優位はパラメータ次元が小さい時); Bertsekas RL&最適制御 / 統合枠組 (arXiv:2406.00592); Rajeswaran ら (arXiv:1709.10087); Rubik’s Cube (arXiv:1910.07113); 微分可能MPC (arXiv:1810.13400); AC-MPC (arXiv:2306.09852); MPC+RL総説 (arXiv:2502.02133); Irpan (2018)。第4節は明示的に意見。
この記事はAIが下書きし、人間が編集・公開しています。