In Silico

用語集

記事に出てくる略語・専門用語をまとめた。記事の中では、各用語の初出に点線が付き、 カーソルを乗せる(スマホはタップ)と説明が出る。ここはその全体一覧である。

BCI
ブレイン・コンピュータ・インターフェース(Brain-Computer Interface)。脳と機械を直接つなぐ技術。
CGCNN
結晶構造から物性を予測するグラフニューラルネットワーク(Crystal Graph CNN)。
DFT
密度汎関数理論(Density Functional Theory)。材料の物性を量子力学から計算する標準手法。
DPO
直接選好最適化(Direct Preference Optimization)。RLHFを簡略化した微調整法。
DR
ドメインランダム化(Domain Randomization)。学習時に物理条件を乱数で変え、現実とのズレに強い方策を得る手法。
ECE
期待較正誤差(Expected Calibration Error)。モデルの自信と実際の正答率のズレを測る指標。
EEG
脳波(Electroencephalography)。頭皮で測る脳の電気信号。
GNoME
DeepMindの材料探索AI。多数の安定結晶の候補を提示した。
LLM
大規模言語モデル(Large Language Model)。大量のテキストで訓練され、文章を生成・理解するAIの中核。
LQR
線形二次レギュレータ(Linear-Quadratic Regulator)。最適制御の古典的手法。
MD
分子動力学(Molecular Dynamics)。原子の運動を数値計算で追うシミュレーション。
MEGNet
材料の物性を予測するグラフニューラルネットワーク(MatErials Graph Network)。
METR
AIの自律タスク遂行能力を計測する独立研究組織。
MLCC
積層セラミックコンデンサ(Multi-Layer Ceramic Capacitor)。電子機器に大量に使われる超小型部品。
PPO
近接方策最適化(Proximal Policy Optimization)。安定して学習する代表的な強化学習アルゴリズム。
RAG
検索拡張生成(Retrieval-Augmented Generation)。外部文書を検索して回答に与え、根拠を補う方式。
ReAct
推論(Reason)と行動(Act)を交互に行うエージェントの枠組み(arXiv:2210.03629)。
Reflexion
失敗を言葉で振り返り、再挑戦するエージェント手法(arXiv:2303.11366)。
REINFORCE
方策勾配法の基本アルゴリズム。報酬で方策を直接更新する。
RL
強化学習(Reinforcement Learning)。試行錯誤と報酬で方策を学ぶ機械学習。
RLHF
人間のフィードバックによる強化学習(RL from Human Feedback)。人の好みに合わせてモデルを微調整する手法。
SWE-bench
実在のGitHub課題をエージェントに解かせ、テストで自動採点する評価ベンチマーク。
Toolformer
モデルが道具(API)の使い方を自分で学ぶ手法(arXiv:2302.04761)。
UCB
上限信頼区間(Upper Confidence Bound)。バンディット問題で使う探索アルゴリズム。
Voyager
スキルを蓄積していく自律エージェント(arXiv:2305.16291)。
WFC
Wave Function Collapse。制約を満たすパターンを生成するアルゴリズム。