Organizar los datos esenciales para impulsar la innovación basada en la biodiversidad de Brasil

Steven P. Watkins , Scientific Data Engineer

Brazil Biodiversity

Piense en esa colección de fotos familiares que se inició hace mucho tiempo y en la que se han ido acumulando imágenes durante años. Reunir todas las fotos en el mismo lugar, por ejemplo, guardándolas en una caja de zapatos, como hace mucha gente, no añade valor ni utilidad a la colección. Buscar una imagen concreta requiere mucho tiempo y es difícil compartirla con otras personas. Así, la colección de la caja de zapatos casi nunca se mira y acaba olvidada en un armario.

Con las herramientas digitales actuales, buscar, compartir y organizar fotos es más sencillo que nunca. Ahora puede cargar imágenes fácilmente en colecciones organizadas que se pueden ver en todo el mundo. Gracias a estos recursos, la gente está olvidando las cajas de zapatos repletas de fotos y ahora tiene estupendas colecciones organizadas digitalmente.

Los científicos se enfrentan a retos parecidos con los valiosos datos de sus investigaciones. Recopilar y reunir contenido no basta: sin una estructura y una organización adecuadas, los innovadores no pueden sacar todo el partido deseable de esta información. Unos cimientos de datos sólidos son cruciales para casi todas las actividades de I+D, desde la investigación cotidiana a la implementación de tecnologías digitales como la IA, el análisis predictivo y el aprendizaje automático.

Preservar la biodiversidad de Brasil

A pesar de que alberga entre el 15 y el 20 % de la diversidad biológica de la Tierra, una parte importante de esta abundante biodiversidad sigue estando infraexplorada. La falta de información organizada ha hecho enormemente difícil para los investigadores buscar, seleccionar e incluso comparar las sustancias químicas de interés. Esto ha lastrado hasta ahora su capacidad de identificar nuevas dianas, ampliar los descubrimientos anteriores e impulsar la innovación.

Por ello, varios investigadores de la Universidad Estatal de São Paulo (IQ-UNESP) se propusieron encontrar un sistema mejor para lograr que la información relevante sobre la extraordinaria biodiversidad brasileña estuviese accesible. El aumento de la deforestación y la urbanización, que amenazan a las especies raras, hacía aún más urgente la necesidad de organizar los datos de una forma sistemática. Si no se conseguía procesar y clasificar las muestras con rapidez, se corría el riesgo de que la información sobre las sustancias se perdiera para siempre.

La necesidad de preservar esta información tan valiosa se hizo aún más evidente en 2018, cuando un incendio destruyó el Museo Nacional de Río de Janeiro y la investigación se vio interrumpida por la pérdida irreversible de muestras raras. Tras este suceso, los expertos de CAS ofrecieron su ayuda a la comunidad científica de Brasil y colaboraron con IQ-UNESP para gestionar y organizar la información sobre los compuestos bioactivos naturales con el fin de garantizar su disponibilidad para las investigaciones futuras.

La colaboración entre los especialistas en información científica de CAS y los investigadores de productos naturales de Brasil dio como resultado una recopilación organizada y depurada de productos naturales. Los datos se están sistematizando en la base de datos pública Nucleus for Bioassays, Biosynthesis and Ecophysiology of Natural Products (NuBBE), un proyecto iniciado por la Dra. Vanderlan Bolzani (Instituto de Química de la Universidad Estatal de São Paulo – IQ-UNESP) y el Dr. Adriano Andricopulo (Instituto de Física São Carlos de la Universidad of São Paulo – IFSC-USP).

El equipo de CAS usó sus profundos conocimientos científicos y su experiencia para gestionar los datos con el fin de extraer y procesar la información de más de 30 000 publicaciones científicas relacionadas con este campo. La recopilación de contenido resultante maximiza el acceso a los compuestos bioactivos naturales de Brasil y mejora su utilidad para impulsar la innovación.

logotipo de nubbedbDescargue el caso práctico para obtener más información sobre la colaboración entre CAS e IQ-UNESP y sobre la recopilación de datos con más de 54 000 sustancias de la rica biodiversidad de Brasil resultante.

Los datos organizados y accesibles favorecen el conocimiento

La eficiencia es esencial para la rapidez de la innovación. Los descubrimientos se ven obstaculizados cuando la información científica no está disponible, no permite realizar búsquedas o no es fiable. De hecho, los problemas de integridad y accesibilidad de los datos causan la repetición de entre el 10 y el 20 % de todo el trabajo de desarrollo. Por tanto, los equipos de investigación necesitan acceder sin trabas a una amplia gama de información científica y de negocio coherente y precisa. De lo contrario, se exponen a retrasos y errores costosos.

El volumen y la complejidad de la información científica se ha disparado en las últimas décadas y ha generado un panorama caótico de datos desconectados y desorganizados. Incluso los sistemas internos tienen varias fuentes de datos con distintos formatos y niveles de calidad. Por ello, crear y mantener un repositorio de datos bien organizado en el que se puedan realizar búsquedas es una tarea compleja, pero más importante que nunca.

Según los Principios FAIR para la gestión y la gobernanza de datos, es esencial que los datos se puedan encontrar, estén accesibles, sean compatibles y se puedan reutilizar. Depurar y normalizar los datos con las conexiones y el significado semántico adecuados es difícil y requiere capacidades especializadas y una inversión de recursos considerable. Como resultado, muchas organizaciones contratan a expertos externos, como CAS, para poder aprovechar todo el potencial de sus datos de una forma rápida y rentable.

El conocimiento científico maximiza el valor de los datos

Unos cimientos sólidos de datos validados y coherentes garantizan que los equipos y la tecnología pueden progresar de un modo eficiente. Veamos un ejemplo: una empresa que tenía problemas con la accesibilidad y la precisión de sus datos internos se asoció con CAS para armonizar y estandarizar su sistema de gestión del conocimiento, lo que ahorró a sus investigadores más de 3300 horas anuales.

Crear y mantener un conjunto de datos de alta calidad requiere experiencia y conocimientos. CAS cuenta con cientos de científicos de una amplia selección de disciplinas que hablan más de 50 idiomas entre todos. Aunque los algoritmos pueden facilitar el procesamiento de datos, ningún algoritmo puede reemplazar la capacidad de los científicos con experiencia para interpretar los hallazgos y establecer conexiones entre datos aparentemente dispares.

Los expertos de CAS seleccionan recopilaciones de contenido adaptadas al alcance de cada proyecto. Al basar la selección en las necesidades de cada cliente, podemos agilizar los flujos de trabajo, aumentar la capacidad de descubrimiento y mejorar el impacto de las inversiones en recursos internos y externos para acelerar una amplia gama de iniciativas.

Los servicios personalizados de CAS ayudan a las organizaciones a hacer frente a sus principales desafíos de selección e integración de datos. Contacte con nosotros para aprovechar todo el potencial de sus datos con la ayuda de nuestros conocimientos.