RESEARCH | TOP | 京都大学大学院医学研究科人間健康科学系専攻　ビッグデータ医科学分野｜Department of Clinical System Onco-Informatics, Graduate School of Medicine, Kyoto University

Drug discovery

長時間分子シミュレーションに基づく「創薬ビッグデータ統合システム」の開発

製薬業界では、薬効が高く副作用の少ない新薬を効率的に創出するために、コンピュータ予測に大きな期待が寄せられています。
私達は、スパコンを用いた長時間分子シミュレーションに基づいてタンパク質-薬剤の結合ポーズ・結合親和性・結合解離過程を精密に推定する方法論を開発し、膨大な医薬品候補化合物の中から特定のターゲット疾患に最適な医薬品候補化合物を推定する「創薬ビッグデータ統合システム」として統合化を進めています。
また、本システムを製薬会社や実験研究者でも利用できるように、GUI（グラフィックユーザーインターフェイス）により直感的に操作可能な創薬アプリケーションソフト「K4」を開発しています。

プレシジョンメディシンを加速する「創薬ビッグデータ統合システム」の推進

近年、患者個人に最適な治療を提供するプレシジョンメディスンが最先端医療の一つとして注目されています。
私達は、これまでに開発してきた「創薬ビッグデータ統合システム」を「富岳」上で稼働し、患者固有のゲノム（遺伝子多型・変異）がタンパク質の機能活性や結合した薬剤に与える影響を長時間分子シミュレーションによって明らかにします。これによって得られる分子レベルでの病態解明・薬剤の応答性・新薬の設計に関する知見を臨床現場、創薬現場に提供することで、プレシジョンメディシンの加速を目指します。

「富岳」で目指すシミュレーション・AI駆動型次世代医療・創薬

個々の患者に最適化された高精度な診断や治療法の選択に資する新時代の医療として期待されているプレシジョンメディスン、デジタルメディスンにおて、解決困難である新たな治療法や治療薬の創出を加速する革新的なシミュレーション×AI技術の開発を目指します。これによって得られる技術でがん・心疾患・難病を中心に、分子から臓器・個体に至る複数の階層をつなぐマルチスケール生体系ネットワークのAI推論とマルチスケールシミュレーションを実現し、複雑な病態メカニズムの解明、疾患原因・創薬標的分子・早期診断バイオマーカーの同定、それらを治療する薬剤デザインを実施することで社会実装を行います。

バイオ医薬品・タンパク質―タンパク質相互作用

抗体医薬品・核酸医薬品などのバイオ医薬品（バイオロジクス）の効率的な創出の実現を目指し、原子レベルの相互作用に注目したシミュレーションや機械学習を利用して研究を行っています。同時に、機械学習に必要なデータベースを構築しており、これに基づいて独自性の高い生体分子間の親和性予測などのモデル構築を行っています。

新薬開発を効率化・加速する製剤処方設計AIの開発

医薬品化合物の処方設計は、原薬（有効成分）の有効性、安全性、品質・生産効率を高次にバランスさせる作業であり、従来は研究者の知識、経験知に依存してきました。本研究では、医薬品の有効性、安全性、品質・生産効率などの多目的最適化を行い、最適な処方を予測するAIを開発するとともに、解釈可能なAIを開発することで経験知に依存してきた設計プロセスを形式知化することを目的としています。具体的には、効率的に学習データを生成・構築する技術、マルチモーダル・マルチタスク型の機械学習アルゴリズムと能動学習フレームの開発、解釈可能なAIモデルによる暗黙知の可視化技術の開発を行うことで、医薬品開発の加速に資する製剤処方設計AIを開発しています。

多様な構造アンサンブルを効率的に生成する新しい粗視化分子モデル&サンプリング技法の開発

今後の創薬においては蛋白質、クロマチン、リボソーム等の巨大な生体高分子系の大規模な構造変化ダイナミクスや、細胞全体の動態解明を視野に入れる事が重要になると考えられます。その際、従来の全原子分子動力学シミュレーションでは計算コストの観点から全容解明は困難と予想されます。そこで本研究においては系の自由度を落とし、多様な構造アンサンブルを効率よく生成・再現する事が出来る新しい粗視化分子サンプリング技法の開発を目指します。粗視化モデルの構築にあたっては、ベイズ最適化や能動学習といった機械学習手法も適用します。

AIを活用した生体高分子構造多形推定法の開発

創薬には生体高分子の静的構造のみならず動的で多様な構造状態を解明する事が重要です。個別化医療・創薬に重要な染色体に見られるクロマチンやウイルス由来のタンパク質の多様な高次構造状態の解明を目指し、テンプレートマッチング法による生体分子構造多形解析統合ワークフローの開発を実施しています。テンプレートマッチング法は、“構造サンプリング”と“波数空間マッチング”からなり、標的像に対する画像の類似性を指標に、構造探索を行い尤もらしい構造を推定します。リアルワールドとシミュレーションワールドのデータ同化を行うことで、通常は立体構造解析を行うことが難しい不完備な１枚の信号雑音比の悪い標的像から、“尤もらしい”立体構造を高い分解能で推定することができます。計算精度とコストをバランスした構造探索を実現するために、ニューラルネットワーク(CNN)を用いた超解像推定手法やベイズ最適化手法などを取り入れた、統合的なワークフローの構築を進めています。

多様な構造サンプリングを目指した粗視化AI力場の開発

多成分粒子系である生体高分子の分子動力学シミュレーションには、力場と呼ばれる粒子系に働く力を規定する一連のパラメータセッツが重要な役割を担います。高速に多様な構造群をサンプリング可能な次世代分子動力学シミュレーション基板を実現するために、機械学習を用いたHigh Dimensional Neural Network Potentials(HDNNPs)による粗視化分子AI力場の構築を推進しています。

化合物プロファイル予測AI

オン・オフターゲット、薬物動態、毒性について公共データ、製薬企業提供データをキュレーションし、AI開発用のデータベースの作成を行っています。AIの精度向上のためにデータを補完するために新規データの取得を検討します。作成したデータベースを用いてそれらの評価項目を予測するAIモデル群を構築し、化合物のプロファイルを総合的に予測できるAIシステムに統合を行います。また、製薬企業における秘密性の高いデータについては、企業外に持ち出すことが難しいため、社内で構築したAIのみを社外に持ち出して各社の学習成果を統合するFederated Learningのシステムも開発しています。

Medical

バイオ・ケモインフォマティクス

現状の医薬品開発は膨大な開発コストを要するため、開発コストを抑えて、効率的に新薬を開発することが重要課題です。近年、様々な医薬関連データの計測技術の発達によって膨大なゲノム、トランスクリプトーム、プロテオームなどのいわゆるオミクスデータが蓄積されています。薬効・安全性を総合的に加味した薬剤設計を実現するため、多種多様な医薬関連ビッグデータを用いたビッグデータ解析手法（Deep Learningやベイジアンネットワークなどの機械学習法）の研究開発を行っています。

健診・医療データを用いたAI技術応用

健康・医療ビッグデータの利活用による、より個人へ最適化された医療や、新規知見の創出が期待されています。私達は、京都大学医学部附属病院腎臓内科やがん薬物治療科をはじめとする各診療科の診療データや弘前大学COIの健診データ等の各種データへAI技術を適用することにより、疾患発症や各種有害事象等の高度な予測モデルの構築と、実際の現場応用へ向けた研究を行っています。また、これらの際に必要になるAIの予測結果の説明性や因果推論等の方法論についても、健康・医療の実データに即した開発と検証を進めています。

医用画像における深層学習の応用

昨今医用画像に対する人工知能、深層学習の応用が進んでいます。画像データはその特徴を数式で表現するのが困難ですが、深層学習はこれら複雑な特徴を表現することが可能です。我々はTCGAやOpen TG-GATEsなどの公共データベース、及び、京都大学医学部附属病院の診療現場で蓄積された病理画像などの医用画像データに対しこれら技術を適用し、新たな診断基準の提案や、画像評価の定量化や標準化に役立つ技術の開発に取り組んでいます。例えば腎臓内科領域では糸球体画像と検査データを統合することによる新たな診断基準の提案、産婦人科領域では卵巣癌病理画像を用いたがんサブタイプや予後予測モデル作成などを行なっております。また画像データとオミクスデータや診療データといった複数のデータ形式を統合して解析する手法の開発や、その応用研究を進めています。

医療・創薬のための知識基盤の構築

医療・創薬におけるAI・分子計算の応用には、ゲノムレベルの情報から、化合物・タンパク質立体構造レベル、分子ネットワークレベルの情報を包含し、集約する必要があります。これらの情報に関して、これまでに膨大な数のデータベースが開発されていますが、未だ個々のデータベース間のIDの紐付けを行う必要があるなど、活用には多くの課題が存在します。そこで、公共のバイオメディカルデータベースの紐付けと、それを行うためのオントロジー整備を進めています。また、ライフサイエンス領域においては、医薬品添付文書・インタビューフォームをはじめとし、文献などにのみ蓄積されている非構造化データも多く存在します。それらデータの構造化および公共データベースとの統合を行い、AI開発・創薬計算をスムーズに実施するためのプラットフォーム構築を行っています。