ConBio2017 [1AW01-2] FANTOMプロジェクトおよび一細胞データベースSCPortalenにおけるデータリソース維持管理の取り組み

2017-12-08T02:04:29Z (GMT) by Takeya Kasukawa
<p>ゲノム科学などの生命科学系研究では、シーケンスデータなどの大規模なデータを生産し利用する大型プロジェクトが数多く進行しており、大量の有用なデータが生産されている。このような研究プロジェクトでは生産フェーズには予算や人員が十分配分される一方、プロジェクト完了後の維持フェーズでは十分に配分されず、有用なデータが埋もれてしまうことが多々見られる。例えばシーケンスデータはリファレンスゲノムの更新に合わせてデータを再処理しなければ引き続き利用できなくなるが、このような「データの賞味期限」を延ばすための予算や人員が十分に与えられずデータが埋没してしまうような例も少なくない。また、最近は大型プロジェクト以外でも多種多様なデータが得られており、データの再利用による新たな知見獲得の可能性が秘められているが、データ処理やメタデータの不足などハードルも大きい。</p> <p> そこで本発表では、我々が進めているFANTOM (Functional Annotation of Mammalian Genome)国際共同研究プロジェクトでのデータ維持の取り組みや、一細胞データ再利用のためのデータベース(SCPortalen)構築の取り組みを紹介したい。さまざまな細胞のプロモーター活性やエンハンサー活性を測定や解析を行ったFANTOMプロジェクトの第5期(FANTOM5)では、一例としてData Descriptor論文を発表することで、プロジェクトで生産したデータの利用性を上げる取り組みや、NBDC LSDBアーカイブにFANTOM5のデータを寄贈することで永続性を上げる取り組みを行っている。またSCPortalenデータベースでは公共リソースで公開された一細胞RNA-Seqデータなどのオミックスデータを再処理して他のユーザが再利用できるようにしている。</p> FANTOMプロジェクトでのデータ維持のための取り組みやSCPotalenの構築で得られた知見が他のプロジェクトや研究に生かせられ、生産されたデータが最大限活用されるようになることを強く期待する。<br>