アナリティクスアプローチとは?

アナリティクスアプローチは、 ユーザーが所望する物性値(目的物性値) を満たすと推測される化学構造式を得る手法である。 このアプローチは、 化学構造式と物性値の相関関係(回帰モデル)を導き出す「順問題」と呼ばれる過程と、 回帰モデルから目的物性値を満たす化学構造式を生成する 「逆問題」と呼ばれる過程がある(図 1)。 特にこのアプローチで期待されることは、 逆問題解析において、既存の化合物に加えて先例のない新しい化学構造式を創出することである。

図 1 アナリティクスアプローチの流れ

アナリティクスアプローチのワークフロー

アナリティクスアプローチの入力情報として必要なものは、 化学構造式とそれに紐づく物性値がセットになったデータのリストである。 例えば、モノポリマーの構造と、 そのガラス転移温 度(Tg)のようなデータである。 出力情報は、目的物性値(例えば、Tg=100°C)を有すると予測される化学構造式のリストとなる。

入力データは、順問題と逆問題の 2 つのステップを通じて処理される。 まず、入力情報とし て読み込まれた化学構造式は、 事前に準備された特徴量(記述子)を利用して、 数値(特徴ベクトル)に変換される。 特徴量は、物性と関連していると推測される分子構造の特徴を反映していることが望ましい。 一般的には、原子数、芳香環、シクロ構造、Finger Print 等を記述子として用い特徴ベクトルを生成する。 次に、特徴ベクトルと物性値を関連付けたモデル(予測モデル)を構築する。 一般的にはこの構築には Lasso 回帰、Ridge 回帰、Elastic Net 回帰等のモデルが利用される。 ここまでが、順問題と呼ばれる過程になる。

予測精度が高い予測モデルが構築できれば、 逆問題を解く過程に進むことができる。 まず逆問題では、 予測モデル中から目的物性値を持つと推測される特徴ベクトルを探索する。 この探索には、 粒子群最適化(PSO)法などが適用される。 最後のステップでは、 与えられた特徴ベクトルから、 数理統計上可能な化学構造式が網羅的に生成される。 このアルゴリズムには、グラフ理論などが適用される。 これらが、アナリティクスアプローチの一連の作業となる。

アナリティクスアプローチにおいて重要なのは、 順問題に読み込ませるデータセットの品質であり、 特にデータ数は非常に重要な要因である。 最低限必要なデータ数を一概に述べることはできないが、 信頼性の高い予測モデルを構築するには、 予測モデルに使われるデータ数を記述子の数で割った数が 5 以上であることが望ましい。 1)

アナリティクスアプローチの実用例

アナリティクスアプローチの実用例として、 武田らの報告を紹介する。 2) この研究事例では、 株式会社林原が、3種類の融点を目的物性値として糖質構造の設計を行った。 その一部を図2に示しているが、 システムから出力された構造群には2つの特徴が観察された。 1つは、出力された構造群は、データセットよりも構造のバリエーションが増えていた。 これは、ユーザーに新たな発見のヒントを与える結果であり、 アナリティクスアプローチの有効性が分かるだろう。 2つめは、融点を高く設定するほど、 二糖・三糖の出力結果に環構造の占める割合が多くなる傾向が 見られた(図 2)。 この傾向は、糖質科学の一般的な仮説と合致しており、このアプローチの妥当性を示している。

先例のない新しい化合物を生成する事が可能なアナリティクスアプローチのもう一つの魅力は、 構造生成のスピードである。 今回得られた化学構造式を、 人間の技術者がシステムと同様の速さで構造を列挙することは極めて困難と考えられる。 前述の株式会社林原の所望の融点を有する構造を生成するために要した時間は約半日であった。

図 2 糖質の設計例

融点のターゲット値を(a)100°C、(b)150°C、(c)200°Cに設定して糖質を設計した一例。

参考文献

  1. ^ 湯田浩太郎, 計算毒性学と科学データサイエンスの基本、CBI 学会 2019 年大会、 2019年10月
  2. ^ Takeda et. Al., Molecular inverse-design platform for material industries, arXiv:2004.11521, (2020).