AI・信頼性・評価

採点できる問いなら、AIが人間より良い『解析の道具』を書く——DeepMindのERA

2026/7/3

🤖 AIが下書き・人間が編集

DeepMindのAIシステム『ERA』が採点できる指標のある問いで人間最良の解析ソフトを上回る仕組みの関係図。科学の課題＋採点できる指標（例：公開リーダーボード）→ LLMと探索木でソフトを反復改良 → 人間の最良手法を上回るソフトが出る。実例：単一細胞解析で新手法を40件、COVID入院予測でモデルを14件。ただし課題と物差しは人間が与える必要がある。 — ※ 概念図（フロー）・作図：AI。採点できる指標がある問いで、AIがソフトを反復改良して人間の最良を上回る。

要点： AIが「答える」だけでなく「科学の道具を作る」段階に入った。2026年6月に Nature が報告した、DeepMind が MIT・ハーバードと組んで作った ERA（Empirical Research Assistant） は、LLM と探索木を使って科学用のソフトウェアを反復的に書き直し、品質スコアを上げていくシステムだ¹。その結果、単一細胞データ解析では人間が作った最良手法を上回る新しい手法を40件、公開リーダーボード上で見つけた。COVID-19 の入院予測では、CDC のアンサンブルと他の全モデルを上回るモデルを14件生んだ¹。ただし効く条件がはっきりしている——「採点できる」品質指標がある問いに限る。

何をしたのか

ERA の仕組みは単純で強い。ある課題に対して「良さ」を測る品質指標（例：公開ベンチマークのスコア）を与えると、LLM が解法のソフトウェアを書き、探索木でその変種を系統的に試し、スコアが上がる方向へ解を育てていく¹。人間が手法を一つ設計して論文にする代わりに、機械が指標に対して解法群を最適化する。

成果は二つの領域で具体的だ。単一細胞解析では、既存の公開リーダーボードで、人間の最良手法を上回る新手法を40件¹。疫学では、COVID-19 入院予測で CDC の集団予測（アンサンブル）と個別モデルの全てを上回る14モデル¹。どちらも「AIがそれっぽい提案をした」ではなく、既存の物差しの上で人間の最良を数値で超えたという点が新しい。査読を経て Nature に載った仕事である¹。

なぜ効くのか、どこまでか

効く理由と限界は同じ一点から来る——採点できる指標があること。指標がはっきりしていれば、「より良い解法を書く」は探索で解ける最適化問題になり、機械は根気よく人間より広く探せる。逆に言えば、課題の設定と「良さ」の定義は人間が与える。ERA は問いを立てるわけでも、物差しを選ぶわけでもない。

だから、これは「AIが科学者を置き換えた」話ではない。むしろ、採点関数に落とせる部分——手法エンジニアリング、モデル選択、パイプラインの作り込み——が機械側に寄り、人間の仕事が何を問うか・何を良しとするかへ移る、という再配置だ。同じ方向の動きは他にもある：Nature 級の論文が報告した SOTA に、コーディングエージェントがどこまで届くかを測るベンチマーク（NatureBench）も登場しており²、「AIが実証研究のソフトを書く」能力を正面から評価しようとする流れの中にある。

実務で何が変わるか

計算・実証系の仕事に関わるなら、勘所は絞れる。

「採点できる指標」があるタスクは、手法探索を機械に回せる。 リーダーボードや明確なスコアがあるなら、最良の手法を人が一つずつ設計するより、指標に対して探索させるほうが強いことがある¹。
希少な入力は『良い指標を作ること』へ移る。 機械は与えた指標を全力で上げにくる。だから指標の質——本当に測りたいものを測れているか、抜け道（リーカ・過学習）で稼げないか——が、これまで以上に成果を左右する。
リーダーボード越えを鵜呑みにしない。 公開ベンチで人間最良を超えたことは、その指標の上での話だ。実データ・実運用への一般化は別途の検証が要る——「採点できる問い」の外側は、まだ人間の領分である。

出典

“An AI system to help scientists write expert-level empirical software”（Nature, 2026年6月, s41586-026-10658-6）。DeepMind が MIT・ハーバードと開発した ERA（Empirical Research Assistant）＝LLM＋探索木で品質指標を最大化する科学ソフトを生成。単一細胞解析で人間最良を上回る新手法を40件（公開リーダーボード）、COVID-19 入院予測で CDC アンサンブルと全個別モデルを上回るモデルを14件。https://www.nature.com/articles/s41586-026-10658-6 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷
同じ「AIが実証研究のソフトを書く」能力を測る独立の動きの例——“NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?”（arXiv:2606.24530）。Nature 系論文の到達点にコーディングエージェントがどこまで届くかを評価するベンチマーク。https://arxiv.org/abs/2606.24530 ↩

この記事はAIが下書きし、人間が編集・公開しています。