バイオ分野での新発見を加速 -未知の酵素探索への応用-
株式会社林原 研究部門 藤田章弘
Q1: MI を導入する以前に抱えていた課題・問題点を教えてください。
所望の機能を持つ酵素を膨大な情報の中からモレなく探すことは大変困難です。
酵素は、20 種類のアミノ酸が一列に数百個連なって構成されています。 このアミノ酸がどういう順番で並んでいるか(配列)によって、その酵素の機能が決定されます。 例えば、500 個のアミノ酸で構成される酵素の配列には、 20500 種というバリエーションが考えられます。 全世界の研究者が膨大な量の実験を行い、これらの酵素一つ一つについて機能を調べ、 その知見がインターネット上の様々なデータベースに点在しています。 しかしながら、データベース毎に形式が異なる、 また格納されているデータの種類も異なっているためデータ探索が極めて困難です。 各データベースを統合する試みもされてきましたが、 シームレスに一つのデータベースを統合したものは無いと思います。 また、論文には記載されているが、 データベースには登録されていない情報が多数存在しており新しい酵素の機能探索を更に困難にしています。
Q2:実際に導入してどのように改善・解決しましたか?
ほしい情報を先入観なく短期間で入手できるようになりました。
大量の論文を読まなくとも、論文をコグニティブシステムに入れると、 論文情報がナレッジグラフ(KG)に格納され、 欲しい情報がすぐに探索できるようになりました(図 1)。 1) ユーザーが専門でない分野、経験の浅い分野でも、KG が対応してくれます。
ユーザーが調査出来ていない大量の情報が KG 上に登録されているため、 ユーザーの思い込みや先入観を越えた出力結果が出てきます。 即ち、専門分野においても、意外な発見があります。
図 1 KG の一例。酵素の情報が格納されている。
Q3:コグニティブシステムを使用した実感、印象をそれぞれお聞かせください。
自由に作りこめるシステムは今までありませんでした。
KG をユーザー側で自由度高く作りこめるシステムは他にないと思います。 ユーザーにより「入力するデータの選択」、 「自然言語処理の内容確認」、「ユーザーによるオントロジー」、 及び「KG の形状(エンティティの繋ぎ方)の設定」が可能で、 科学分野での活用に非常に有効なシステムです。 前述の KG を作るプロセスをユーザーが実際に行うことで、 各段階の精度についてバリデーションを行うことが出来、 出来上がった KG が信頼のおけるものであると判断することが出来ます。
性質の異なる情報が一つのシステムに集約されることの重要性を実感しています。 コグニティブシステムは拡張性が高いため、 あらゆる領域(生物化学、有機化学、無機化学、物理、 別の分野では社内報告書などのナレッジマネジメント等) に適用可能と思います。 KG に入 力される情報が、大量になるほど、多分野にわたるほど、 本システムは有用性が高くなっていくのではと感じています。
Q4:コグニティブシステムの課題があれば教えてください。
KG に登録されている既知の情報を用いて機械学習を行い、 これまで報告されていない新規な知見を得られるようになれば、 更にコグニティブシステムの可能性が広がると思いま す。
参考文献
- ^ Matteo Manica, Christoph Auer, Valery Weber,Federico Zipoli, Michele Dolfi, Peter Staar, Teodora Laino, Castas Bekas, Akihiro Fujita, Hiroki Toda, Shuichi Hirose, Yasumitsu Orii:”An Information Extraction and Knowledge Graph Platform for Accelerating Biochemical Discoveries”, Workshop on Applied Data Science for Healthcare at KDD, 2019 年 7 月