コグニティブアプローチとは?

コグニティブアプローチは、文献情報やデータベースを知識体系化し、新たな知見を得ることを可能としている。 このアプローチは、「文書情報の構造データ化」、「自然言語処理による事実抽出」、「事実相関を表現したナレッジグラフ(KG)作成」の3つの過程からなる(図1)。 コグニティブアプローチの利点は、複数の情報源を1つの知識群(KG)に集約出来る事、膨大な情報を高速で処理できる事があげられる。 これらの利点を活かし、過去見落とされていたり、気づかなかったりした知識の発見を短時間で実現する事が可能となる。

図 1 コグニティブアプローチの流れ

コグニティブアプローチのワークフロー

コグニティブアプローチの入力情報として必要なものは、科学論文、特許、社内文書などの 文書データやデータベースである。 出力情報は、KG に対して、ある質問(クエリー)を問いか けた場合の回答になる。 例えば、「ある物性 X を満たす材料はどんなものがありますか?」とい う質問に対して、考えられうる「材料」を回答する。

入力データは、図 1 に示された3つのステップにより、KG として知識体系化される。最初の ステップは、コンピュータが情報を取り扱えるように、pdf 等の非構造化データである情報を構 造化データに変換する過程である。例えば、科学論文や特許、社内文書の多くは pdf ファイルで 管理されており、データの取扱いが難しい場合が多い。コグニティブアプローチに搭載されてい るCorpus Conversion Service(CCS)は、pdf形式の科学論文等を構造データ化すると同時にタ イトルやアブストラクト等を自動的に分類しラベリングする事が出来る。図 2 は CCS による特許 情報をラベリングした例である。本文のサブタイトルやテキストを正しく読み取れている事がわ かる。CCS はテキストの読み込みのみならず、表を構造データ化する事も可能である。図 3 は科 学論文内の表を構造した一例である。

図 2 および図 3 で構造データ化された情報は HTML や JSON 形式のテキスト情報として保存さ れ、「自然言語処理による事実抽出」のステップへ移行する。

図 2 学習後のラベリング

図 3 表の変換結果

自然言語処理により、テキストから専門用語(エンティティ)と、それらの関連性 (リレーション)が抽出される。 最初に、テキストは形態素解析により品詞等に分類される。 次に、品詞分解された単語(特に名詞)に対して、専門用語の抽出が行われる。 材料系のデータを処理するためには、材料分野に関する物質名や物性値などの専門用語を記述した辞書を作成する必要がある。 最後に、専門用語同士の関連性の情報を抽出する。例えば、「エポキシ樹脂(製品)は A (原料)と B(原料)を混合した(プロセス)ものである。」や「ラクトース(糖質)に作用する (反応)酵素はラクターゼ(酵素名)である。」というものである。 図 4はエポキシ樹脂の自然言語処理の例である。 エポキシ樹脂のレシピや製造条件に関する専門用語が抽出されている事がわかる。

図 4 自然言語処理例

最後のステップ「事実相関を表現した KG 作成」では、事実相関の情報を1つの KG に集約させる。 ポリマーに関する特許情報を KG 化した事例を図 5 に示した。 1) KG 中の丸はエンティテ ィタイプ (Entity type)と呼ばれ、自然言語処理で抽出された専門用語が格納されている。 一方、エンティティタイプ間を繋ぐ線はエッジと呼ばれており、2つのエンティティタイプが関連 していることを表現している。 一旦 KG が完成されれば、KG に質問をして答えを得る。 これが、 コグニティブアプローチの一連の作業となる。

図 5 パテント情報が格納されている KG

新しい配合やプロセスの探索及び探索期間の短縮化

コグニティブアプローチは、特許や社内試験データから化学品の配合情報や反応条件のようなプロセス情報を抽出し、 KG を作成することも可能である。 図 4 で示したポリマーに適用した自然言語処理により、 製品、原料や反応条件に関する専門的な情報が読み取られ、それらの情報が 図 5 の KG に格納されている。 この KG には、782 件の特許情報から抽出された約 40 万個のデー タが蓄積されており、 パラグラフのノードを中心として、 構造情報、物性値、プロセス条件など が関連付けられている。 10CPU を用いた場合、782 件の特許文献の読み込みから KG 作成に要する 時間はおよそ 1 時間である。 この KG を用いポリマーに関する様々な探索が可能になる。 例えば、「ある物性 X を有するポリマー組成と製造条件はどの様なものがありますか?」という質問 に対して、 物性 X を有するポリマー組成と製造条件を KG から導き出す事が出来る。

参考文献

  1. ^ 廣瀬修一、戸田浩樹、折井靖光、MIにむけた自動知識抽出システムの開発、高分子69巻6 月号、2020 年 6 月