AI・信頼性・評価
採点できる問いなら、AIが人間より良い『解析の道具』を書く——DeepMindのERA
要点: AIが「答える」だけでなく「科学の道具を作る」段階に入った。2026年6月に Nature が報告した、DeepMind が MIT・ハーバードと組んで作った ERA(Empirical Research Assistant) は、LLM と探索木を使って科学用のソフトウェアを反復的に書き直し、品質スコアを上げていくシステムだ1。その結果、単一細胞データ解析では人間が作った最良手法を上回る新しい手法を40件、公開リーダーボード上で見つけた。COVID-19 の入院予測では、CDC のアンサンブルと他の全モデルを上回るモデルを14件生んだ1。ただし効く条件がはっきりしている——「採点できる」品質指標がある問いに限る。
何をしたのか
ERA の仕組みは単純で強い。ある課題に対して「良さ」を測る品質指標(例:公開ベンチマークのスコア)を与えると、LLM が解法のソフトウェアを書き、探索木でその変種を系統的に試し、スコアが上がる方向へ解を育てていく1。人間が手法を一つ設計して論文にする代わりに、機械が指標に対して解法群を最適化する。
成果は二つの領域で具体的だ。単一細胞解析では、既存の公開リーダーボードで、人間の最良手法を上回る新手法を40件1。疫学では、COVID-19 入院予測で CDC の集団予測(アンサンブル)と個別モデルの全てを上回る14モデル1。どちらも「AIがそれっぽい提案をした」ではなく、既存の物差しの上で人間の最良を数値で超えたという点が新しい。査読を経て Nature に載った仕事である1。
なぜ効くのか、どこまでか
効く理由と限界は同じ一点から来る——採点できる指標があること。指標がはっきりしていれば、「より良い解法を書く」は探索で解ける最適化問題になり、機械は根気よく人間より広く探せる。逆に言えば、課題の設定と「良さ」の定義は人間が与える。ERA は問いを立てるわけでも、物差しを選ぶわけでもない。
だから、これは「AIが科学者を置き換えた」話ではない。むしろ、採点関数に落とせる部分——手法エンジニアリング、モデル選択、パイプラインの作り込み——が機械側に寄り、人間の仕事が何を問うか・何を良しとするかへ移る、という再配置だ。同じ方向の動きは他にもある:Nature 級の論文が報告した SOTA に、コーディングエージェントがどこまで届くかを測るベンチマーク(NatureBench)も登場しており2、「AIが実証研究のソフトを書く」能力を正面から評価しようとする流れの中にある。
実務で何が変わるか
計算・実証系の仕事に関わるなら、勘所は絞れる。
- 「採点できる指標」があるタスクは、手法探索を機械に回せる。 リーダーボードや明確なスコアがあるなら、最良の手法を人が一つずつ設計するより、指標に対して探索させるほうが強いことがある1。
- 希少な入力は『良い指標を作ること』へ移る。 機械は与えた指標を全力で上げにくる。だから指標の質——本当に測りたいものを測れているか、抜け道(リーカ・過学習)で稼げないか——が、これまで以上に成果を左右する。
- リーダーボード越えを鵜呑みにしない。 公開ベンチで人間最良を超えたことは、その指標の上での話だ。実データ・実運用への一般化は別途の検証が要る——「採点できる問い」の外側は、まだ人間の領分である。
出典
-
“An AI system to help scientists write expert-level empirical software”(Nature, 2026年6月,
s41586-026-10658-6)。DeepMind が MIT・ハーバードと開発した ERA(Empirical Research Assistant)=LLM+探索木で品質指標を最大化する科学ソフトを生成。単一細胞解析で人間最良を上回る新手法を40件(公開リーダーボード)、COVID-19 入院予測で CDC アンサンブルと全個別モデルを上回るモデルを14件。https://www.nature.com/articles/s41586-026-10658-6 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 -
同じ「AIが実証研究のソフトを書く」能力を測る独立の動きの例——“NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?”(arXiv:2606.24530)。Nature 系論文の到達点にコーディングエージェントがどこまで届くかを評価するベンチマーク。https://arxiv.org/abs/2606.24530 ↩
この記事はAIが下書きし、人間が編集・公開しています。