ころがる狸

ころがる狸のデータ解析ブログ

【マテリアルズインフォマティクス】主要技術一覧

こんにちは。今日は材料と情報科学の融合領域の話題を取り上げたいと思います。材料科学の世界でも機械学習技術の活用は大きく進展しており、このような科学分野を一般にマテリアルズインフォマティクスと総称します。特定の技術のことを指すのではなく、技術のまとまりや研究分野のことを指しているためどこかモヤっとした概念なのですが、この領域は10年ほど前から世界的に研究されています。私自身もこの分野に携わった経験があるため、私見ではありますが比較的良く目にすると思われる主要な技術について、一覧表を作成してみました。この中の技術を使ってたらそれはMIなんだと私は思っています(曖昧な表現ですが・・・)。
<お断り>
こちらの一覧表は私の主観に基づいて作成しております。また私はこの分野のポスドク・教員ではないことをあらかじめご了承下さい。

物性予測技術

  • 多層パーセプトロン
  • グラフ畳み込みニューラルネットワーク
  • ランダムフォレスト
  • サポートベクター回帰

ニューラルネットワークを使った回帰モデルは非常に多く提案されており、予測対象によっては高い精度での予測が可能となっています。特にグラフ畳み込みニューラルネットワークは非常にホットな研究領域で、材料中の原子のつながりをグラフと見做すことで化合物の特徴を抽出する技術です。物性予測技術や化合物の生成モデルでの活用が見られ、最近では説明可能なグラフモデルの研究も活発に進んでいます。逆に言うと世界中の色んな人が多種多様なグラフベースのモデルを作っているので、研究のオリジナリティを出すのが難しそうだとも思います。
【参考資料】多層パーセプトロンモデルを使って材料データ収集から物性予測までやりました。
dajiro.hatenablog.com
【参考資料】グラフ畳み込みニューラルネットワークの入門記事を書きました。
dajiro.hatenablog.com


次元圧縮

  • 主成分分析(PCA)
  • t分布確率的近傍埋め込み法(t-sne)
  • 多次元尺度構成法(MSD)

これらもデータサイエンス全般で活用されている汎用的な技術ですね。X線回折などのスペクトルデータのMDSや、分子動力学計算で得られた化合物のトラジェクトリーの主成分分析などが具体的な活用例となるでしょうか。
材料データではありませんが、米国株の次元圧縮をやった結果があるので、こちらもご参照下さい。
dajiro.hatenablog.com

説明変数選択

  • LASSO
  • ランダムフォレスト

物性予測には入力となる説明変数が必要ですが(原子のイオン半径、電気陰性度など、色々)そのうち特に重要な説明変数の検出にはこれらの技術が一般的に使われていると思います。これもデータサイエンスや統計学の分野で広く使われる技術だと思います。

位相的データ解析

  • パーシステントホモロジー

東北大学の研究グループによる以下の論文をきっかけに火のついた技術だと思います。この技術を使って得られるパーシステント図により、系がガラス状態にあるのか、液体状態にあるかなど相に関する情報を抽出することが出来ます。数学と材料科学が見事に融合した学際的な研究事例で、21世紀の材料科学はこうあるんだという予感をさせるような研究成果でした。
Hierarchical structures of amorphous solids characterized by persistent homology | PNAS

シミュレーション・実験計画最適化

  • ベイズ最適化
  • ガウス過程回帰

このブログでも扱ったことがありますが、ガウス過程回帰を使うと予測と誤差の評価を同時に行うことができます。この技術を活用すると、シミュレーションや実験の成否を決める評価指標を最大化するような最適なパラメータの組み合わせを選定できるようになります。scikit-learnでの実装が簡単だと思いますが、大規模系で計算が遅くなるという短所を補ったライブラリも存在しています。
scikit-learn.org
github.com

記述子・フィンガープリント

  • 原子中心対称性関数(ACSF)
  • Coulomb Matrix
  • Smooth Overlap of Atomic Positions(SOAP)

機械学習モデルを使う場合には物性値をそのまま入力に使う場合もありますが、組成・構造情報を何らかの形でベクトル表現に埋め込み、それを元に機械学習モデルを構築することも多いです。その際の材料の記述子として非常に多くのものが提案されています。上記のACSFは微分可能であるという特徴があるので分子動力学計算に用いるAI力場の構築に使われることがほとんどです。上記のほかには、材料情報科学のためのツールキットRDkitに大量の記述子・フィンガープリントが実装されています。
www.rdkit.org

逆分子設計

  • ハイスループットスクリーニング
  • グラフ畳み込み方策ネットワーク(GCPN)
  • MolGAN

機械学習を用いた逆分子設計は非常に若い分野なのでポテンシャルが未知数です。流石に実用材料がこれにより予測されたことはまだ無いかとは思います(2020年4月現在)。分子生成器として有名なものの1つがMolGANです。これはグラフニューラルネットワークの分野で著名な研究者が開発したモデルで、GAN(敵対的生成ネットワーク)と呼ばれる技術をベースに化合物を生成します。化合物情報はグラフとして扱い、所望の物性を持つ分子が生成されるように強化学習の手法を取り入れて、期待する分子が生成された場合には報酬が与えられるように設計されています。TensorFlow実装とPytorch実装がgithubで公開されており簡単に動かせるので、気なる方は試してみましょう!
arxiv.org
TensorFlow実装(MolGAN論文筆頭著者のgithub)
github.com
逆分子設計に関する本ブログ記事
dajiro.hatenablog.com

材料データベース

  • Materials Project
  • AFLOW
  • OQMD(The Open Quantum Materials Database)
  • NIMS 物質・材料データベース
  • QMデータベース

データベースがなければ機械学習もできないということで、著名なデータベースの一部を紹介します。QMデータベースやMaterialsProjectは論文などでも頻繁に引用されていると思います。MaterialsProjectは開発が非常に活発で、pymatgenというpythonAPIが用意されているため扱いも容易です。QMデータベースは、調べてみると以下のウェブサイトで詳細に解説されいるのでお勧めです。
materialsproject.org

future-chem.com

マテリアルズインフォマティクス(MI)に対する所見

もはやMIなくして材料科学はあり得ないでしょう。AIブームによって技術開発が一気に加速しましたし、21世紀の材料科学を支える土台となることはほぼ間違いないと思います。実験と違いMIは家でもできます。実家のPCを使ってもできるんです。材料分野に携わるのであればMIを活用しない手はないと思います。
MIに対する批判はあるでしょうか。確かに期待の高さは過剰かもしれません。この期待に応えられるほど、そもそもの材料科学に伸びしろがあるのかは分かりません。何十年も前から産業界で使われている材料は同じですし、MIで報告される新物質は半導体・熱電材料など一部の物質群に限定されている気もしますし。また合成が容易で大気に安定な化合物は誰もが欲しがるものですが、そもそもそういう材料はできやすいので実験科学者によって既に発見されているケースが多く、MIが予測するのは超高圧相だったり大気不安定材料だったり、合成に難点がある材料であることもあります。
とはいえ、MIは簡単にできますし間違いなく便利なので、繰り返しになりますがやらない手はない技術と言えるでしょう。