Si la IA o los algoritmos de aprendizaje automático no están a la altura de sus expectativas, ¿podrían ser los datos los culpables?
La adopción de la IA crece rápidamente
La promesa de la inteligencia artificial siempre se ha sentido más como un estado futuro, pero la realidad es que muchas empresas ya están adoptando iniciativas de IA. Esto es especialmente cierto en el ámbito de la I+D científica. En los últimos años, se ha producido un enorme aumento de las iniciativas de aprendizaje automático e IA en todo tipo de ámbitos, desde los modelos QSAR hasta la genómica. Según una encuesta de 2018, la adopción de la IA aumentó drásticamente del 38 % en 2017 al 61 % en 2018. Esto ocurrió en una variedad de industrias, incluyendo la de la salud, la manufactura y los servicios financieros. Sin embargo, la mayoría de los pioneros señalaron que uno de los mayores retos para el éxito de la implantación era el de los datos, concretamente el acceso, la protección, la integración y la preparación de los datos para las iniciativas de IA.
Peligro: Los desafíos de los datos en el futuro
Aunque las empresas están invirtiendo mucho en el talento necesario para diseñar e implementar algoritmos de IA, el éxito de las iniciativas depende en gran medida de los datos de entrenamiento para los que se construyen y prueban. Muchas empresas tienen dificultades para gestionar las enormes cantidades de datos no estructurados que se necesitan para respaldar los proyectos y convertirlos en conjuntos de formación utilizables y categorizados, necesarios para alimentar los algoritmos. Algunas empresas se ahogan en datos, pero otras buscan datos científicos especializados que no son de dominio público. A menudo, los conjuntos de datos disponibles tardan mucho tiempo en adquirirse y transformarse para los fines previstos. Desde las taxonomías y clasificaciones hasta la conexión de conjuntos de datos dispares, las iniciativas de IA requieren la preparación de cantidades masivas de datos para desbloquear la promesa del aprendizaje automático.
Descargue nuestro informe técnico sobre una transformación digital rentable en I+D científica y técnica para obtener más información o contacte con nosotros para que podamos analizar sus necesidades.
Pagar ahora o pagar después
Un científico de datos dedica hasta el 80 % de su tiempo a la preparación y el análisis de datos. Hay una gran variedad de repositorios públicos de datos científicos, pero todos tienen problemas inherentes, como errores de transcripción, unidades mal etiquetadas y un lenguaje de patentes demasiado complejo. Otro reto importante es la traducción de contenidos en lenguas extranjeras. Las patentes, por ejemplo, se publican en más de 60 idiomas, en todo el mundo. La capacidad de traducir, extraer, conectar y normalizar rápidamente los datos pertinentes tiene un valor incalculable para el éxito de los proyectos de IA. Si las afinidades están desviadas en 3 o 6 órdenes de magnitud, los algoritmos nunca podrán dar una predicción precisa. Cuando los científicos de datos utilizan datos completos normalizados, de calidad comprobada y con la confianza de que tienen una vinculación semántica correcta, pueden centrar su tiempo y energía en optimizar los algoritmos en lugar de preparar los datos.
Desgraciadamente, los equipos que buscan datos suelen recurrir a fuentes públicas o gastar lo menos posible para etiquetar y preparar los datos. Cuando los equipos se enfrentan a datos científicos no estructurados, patentes de 60 idiomas diferentes o complejos esquemas de reacción, descubren que no es fácil clasificar y conectar este tipo de datos de forma significativa. Los costes de oportunidad de la preparación de los datos, así como la precisión y la exhaustividad de los mismos, deben tenerse en cuenta en la ecuación a la hora de evaluar las oportunidades de mejora del aprendizaje automático. Si las predicciones derivadas de la IA no cumplen las expectativas, es muy probable que los propios datos estén desbaratando los resultados.
¿Qué son los datos de alta calidad?
Como dice el refrán, la calidad es importante, tanto si se trata de mariscos como de datos sanitarios o de formación. No coma sushi de oferta y tampoco alimente con datos de baja calidad a sus algoritmos. Para que los datos de alta calidad se aprovechen al máximo, deben estar limpios y normalizados con un significado y unas conexiones semánticas correctas. Este nivel de calidad no se consigue fácilmente. Los científicos expertos de CAS tienen un profundo conocimiento sobre el lenguaje de las patentes y las tendencias emergentes de las publicaciones, además de conocimientos de idiomas extranjeros para filtrar la información relevante. Su experiencia en taxonomías, enlaces semánticos y categorización de datos son capacidades críticas esenciales para construir y mantener un conjunto de datos de alta calidad.
La rentabilidad de invertir en datos de alta calidad
Nuestro equipo en el CAS tiene una serie de proyectos activos que aplican nuestra colección de contenidos a diversas aplicaciones de IA y aprendizaje automático. De hecho, recientemente hemos presentado una solicitud de patente basada en el trabajo de uno de nuestros talentosos científicos de datos, Jaron Maxson. Le interesaba aprovechar el aprendizaje automático y la colección de contenidos de CAS para ayudar a resolver los retos en el espacio de los materiales. En concreto, quería ver si un algoritmo podía predecir con precisión los usos funcionales de los polímeros recién desarrollados. Los investigadores están creando nuevos polímeros con propiedades únicas, pero luchan por encontrar las mejores aplicaciones para estos compuestos. Si tiene éxito, el algoritmo de Jaron podría aumentar la rentabilidad de la investigación en polímeros al maximizar las aplicaciones comerciales de los nuevos desarrollos.
Debido a las leyes de la combinatoria, los polímeros son intrínsecamente uno de los grupos más difíciles para cualquier sistema de clasificación. El otro gran reto de los polímeros es establecer una definición medible de la función del polímero. No existe una metodología reconocida para asignar funciones a los polímeros. Aquí es donde el sistema de clasificación de CAS, de larga data, pudo proporcionar un nuevo tipo de definición para un rasgo bastante desorganizado. La representación de las funciones de los polímeros mediante el uso de campos químicos predeterminados permitió una aplicación novedosa de nuestros datos indexados de forma clásica.
Hay millones de polímeros ya existentes y teóricos con cientos de propiedades potenciales, pero Jaron pudo tomar un pequeño conjunto de datos de propiedades de alta calidad que habían sido indexados por los científicos de CAS a partir de la bibliografía y logró crear un modelo de predicción para las aplicaciones. Los resultados son prometedores. El algoritmo demostró una precisión de predicción estadísticamente significativa del 66% cuando utilizó al menos tres propiedades pobladas para estos polímeros.
Aunque se trata de una primera prueba de concepto, ilustra tres puntos importantes:
- La calidad, las clasificaciones únicas y el alcance histórico de los datos de CAS son valiosos para ofrecer a los científicos una nueva forma de definir valores previamente desorganizados.
- Si se utiliza un conjunto de entrenamiento diverso y completo para los modelos, se obtendrán mejores predicciones con menos preparación de datos.
- La exhaustiva colección de datos de CAS se puede personalizar fácilmente para satisfacer las necesidades de algoritmos específicos. Desde datos de propiedades, polímeros, reacciones a través de revistas, patentes, hasta disertaciones; las posibilidades son infinitas.
Si sus esfuerzos de IA o aprendizaje automático no están cumpliendo con las expectativas y sus equipos están luchando con los desafíos de datos, nos encantaría hablar para ver cómo podemos aprovechar nuestra experiencia en datos y aprendizaje automático para permitir avances más rápidos, mayor eficiencia y mejores decisiones. Póngase en contacto con nosotros hoy mismo.