このオープンソースのデータセットには、CAS COVID-19抗ウイルス薬候補化合物データセットに含まれている9千件以上の物質について、文献や特許そしてその他の公的情報源で報告されているCOVID-19のタンパク質やウイルスそして疾患ターゲットに焦点を当てた、29万件以上の構造活性相関(SAR)データが格納されています。
科学情報ソリューションの専門家であるCASは、世界中の研究組織と協力して、急速に拡大しているCOVID-19の複雑かつ困難を極める課題の解決に取り組んでいます。 米国化学会(ACS)の一部門としての使命に沿って、この疾患と戦うために、CASは広範囲の情報資産、専門知識、リソースを提供します。
この取り組みの一環として、CASは文献、特許、その他の公的情報源で報告されているCOVID-19のタンパク質、ウイルス、疾患のターゲットに焦点を当てた、29万件以上の構造活性相関(SAR)データに関するオープンソースのデータセットを構築しました。 このデータセットは、CAS COVID-19抗ウイルス薬候補化合物データセットと共にご利用ください。 データセットのライセンス契約では、研究、データマイニング、機械学習、アナリティクスを含む用途でのアプリケーションの無償利用を支援しています。
このデータセット(とreadmeファイル)は以下のフォームにご記入いただくとダウンロードできます
データセットについて
このデータセットは.csv(コンマ区切り値)ファイル形式となっており、IC50、EC50、その他の有用なメトリクスを含む29万件以上の構造生物活性データポイントが格納されています。 CSVファイル形式はMicrosoft Excelなどの表計算ツールにすぐデータとしてインポートできます。 データは列ヘッダー(cas_rn、protein、therapeutic use、activity type、activity value、activity unit、source)順になっています。 Pythonプログラミング言語を使う無料ソフトウェアのSciKit-Learnなどのデータサイエンスツールの場合に機械学習用として本データセットを展開する際は、Pandasライブラリデータフレームが活用できます。
COVID-19関連の研究や分析を支援する追加データやサービスの申請が必要な場合やご質問がある場合は、CAS カスタマーセンターまでご連絡ください。
その他のCAS COVID-19関連リソース
- CAS COVID-19関連リソースハブ
- CAS COVID-19抗ウイルス薬候補化合物データセット
- Research and Development on Therapeutic Agents and Vaccines for COVID-19 and Related Human Coronavirus Diseases(ACS Central Scienceで公開されたレビュー記事)