Pink on purple header graphic

Conjunto de datos de SAR de candidatos antivirales para la COVID-19 de CAS

Banner del conjunto de datos SAR de los compuestos antivirales COVID-19

Este conjunto de datos de código abierto contiene más de 290 000 datos de relación estructura-actividad (SAR) dirigidos a las dianas de la proteína, el virus y la enfermedad de la COVID-19 descritas en la bibliografía, las patentes y otras fuentes públicas para más de 9000 de las sustancias incluidas en el conjunto de datos de compuestos candidatos antivirales para la COVID-19 de CAS.

Como especialista en soluciones de información científica, CAS se asocia con organizaciones de investigación de todo el mundo para afrontar el complejo reto de la COVID-19, que evoluciona rápidamente. En consonancia con nuestra misión como división de la American Chemical Society, CAS pone a disposición una amplia gama de activos, conocimientos y recursos para apoyar esta lucha.

Como parte de este esfuerzo, CAS ha construido un conjunto de datos de código abierto de la relación estructura-actividad (SAR) dirigida a la proteína COVID-19, a los virus y a los objetivos de enfermedades reportados en la literatura, las patentes y otras fuentes públicas. Este conjunto de datos es un complemento del conjunto de datos de compuestos candidatos antivirales para la COVID-19 de CAS. Las condiciones de la licencia del conjunto de datos permiten el uso sin cargo en aplicaciones como la investigación, la minería de datos, el aprendizaje automático y el análisis.

Este conjunto de datos (y el archivo readme) se pueden descargar rellenando el siguiente formulario


Acerca del conjunto de datos

El conjunto de datos está en formato de archivo de valores separados por comas (.csv) y contiene más de 290 000 puntos de datos de estructura-bioactividad, incluyendo IC50, EC50 y métricas de potencia adicionales. Los formatos de archivo CSV se pueden importar fácilmente como datos a herramientas de hoja de cálculo, como Microsoft Excel. Los datos están organizados por títulos de columna: cas_rn; proteína; uso terapéutico; tipo de actividad; valor de la actividad; unidad de actividad; fuente. Para las herramientas de ciencia de datos, como el software libre SciKit-Learn, con el lenguaje de programación Python, se pueden considerar los dataframes de la biblioteca pandas para desplegar el conjunto de datos al aprendizaje automático.


Contacte con el Centro de atención al cliente de CAS si tiene alguna pregunta o si desea solicitar servicios o datos adicionales para impulsar la investigación o los análisis relacionados con la COVID-19.


Recursos adicionales de CAS para la COVID-19


 

Descargar el conjunto de datos



Your privacy is important to CAS. More detail about how we use your information is in our privacy policy.