Si les algorithmes d'IA ou d'apprentissage machine ne répondent pas pleinement à vos attentes, cela pourrait-il être dû aux données ?
L'adoption de l'IA se développe rapidement
La promesse de l'intelligence artificielle a toujours semblé une perspective pour le futur, mais en réalité, de nombreuses entreprises adoptent déjà des initiatives dans ce domaine. C'est le cas en particulier dans les secteurs de la R&D scientifique. Ces dernières années, on a assisté une multiplication phénoménale des initiatives d'apprentissage machine et d'intelligence artificielle dans tous les secteurs, des modèles QSAR à la génomique. Selon une enquête de 2018, l'adoption de l'intelligence artificielle a bondi, passant de 38 % en 2017 à 61 % en 2018. On constate cette tendance dans différents secteurs, notamment la santé, l'industrie et les services financiers. Toutefois, la plupart des pionniers ont constaté que l'un des principaux défis à sa mise en œuvre efficace réside dans la donnée, à savoir l'accès, la protection, l'intégration et la préparation des données pour les programmes d'intelligence artificielle.
Danger : des difficultés se profilent au niveau des données
Alors que les entreprises investissent lourdement dans les talents nécessaires à la conception et à la mise en œuvre d'algorithmes d'IA, le succès de ces initiatives dépend en grande partie des données d'entraînement pour lesquelles ils sont construits et testés. De nombreuses entreprises ont du mal à gérer les grandes quantités de données non structurées nécessaires pour soutenir les projets et à les convertir en jeux d'entraînement utilisables et classés indispensables pour alimenter les algorithmes. Certaines entreprises se noient dans les données, mais d'autres recherchent des données scientifiques spécialisées qui ne sont pas facilement disponibles dans le domaine public. Les jeux de données disponibles sont souvent longs à obtenir et à transformer dans le but choisi. Des taxonomies et des classements à la connexion de jeux de données disparates, les initiatives d'IA ont besoin d'un très important travail de préparation des données pour bénéficier pleinement de la promesse de l'apprentissage machine.
Téléchargez notre livre blanc au sujet de la transformation numérique rentable dans la R&D scientifique et technologique pour en savoir plus ou contactez-nous pour discuter de vos besoins spécifiques.
Payez maintenant ou plus tard
Un scientifique passe jusqu'à 80 % de son temps à extraire et à préparer les données. Il existe un certain nombre de référentiels publics de données scientifiques, mais tous présentent des défis inhérents, notamment des erreurs de transcription, des unités mal étiquetées et un langage de brevet exagérément complexe. Un autre défi majeur consiste à traduire le contenu en langue étrangère. Les brevets, par exemple, sont publiés dans plus de 60 langues dans le monde entier. L'aptitude à traduire, extraire, connecter et normaliser rapidement les données pertinentes est très précieuse pour le succès des projets d'IA. Si les affinités sont décalées ne serait-ce que de 3 ou 6 ordres de magnitude, les algorithmes risquent de ne jamais produire une prédiction précise. Lorsque les scientifiques des données utilisent des données complètes qui sont normalisées, dont la qualité a été vérifiée et qui sont considérées comme présentant des liaisons sémantiques correctes, ils peuvent consacrer leur temps et leur énergie à l'optimisation des algorithmes et non à la préparation des données.
Malheureusement, les équipes qui cherchent des données utilisent souvent des sources publiques ou dépensent aussi peu d'argent que possible pour étiqueter et préparer les données. Lorsque les équipes gèrent des données scientifiques non structurées, des brevets écrits en 60 langues différentes ou des schémas de réactions complexes, ils constatent qu'il n'est pas facile de classer et de connecter ce type de données de manière significative. Les coûts d'opportunité de la préparation des données, ainsi que la précision et l'exhaustivité des données, doivent être pris en compte dans l'équation lorsque l'on évalue les opportunités d'amélioration de l'apprentissage machine. Si les prédictions dérivées de l'IA ne répondent pas aux attentes, il est probable que les données elles-mêmes risquent d'entraîner des résultats incorrects.
Qu'est-ce qu'une donnée de haute qualité ?
Selon l'adage, la qualité est importante, qu'il s'agisse de fruits de mer, de soins de santé ou de données d'entraînement. Ne mangez pas de sushi bon marché et n'alimentez pas non plus vos algorithmes en données de qualité médiocre. Pour être exploitées à leur pleine capacité, les données doivent être propres et normalisées avec des significations et des connexions correctes. Ce niveau de qualité n'est pas facile à obtenir. Les experts scientifiques de CAS possèdent une compréhension approfondie du langage des brevets et des tendances émergentes dans les publications, mais aussi l'expertise des langues étrangères qui leur permet d'identifier le signal au milieu du bruit. Leur expertise des taxonomies, des liaisons sémantiques et du classement des données sont des capacités essentielles pour construire et gérer un jeu de données de haute qualité.
La rentabilisation de l'investissement dans des données de haute qualité
Notre équipe possède un certain nombre de projets actifs qui appliquent notre collection de contenus à différentes applications d'IA et d'apprentissage machine. En fait, nous avons récemment déposé une demande de brevet basée sur le travail d'un de nos talentueux scientifiques des données, Jaron Maxson. Il souhaitait exploiter l'apprentissage machine et la collection de contenus de CAS pour relever les défis de l'espace des matériaux. Plus précisément, il voulait voir si un algorithme pourrait prédire avec précision les utilisations fonctionnelles des polymères nouvellement développés. Les chercheurs créent de nouveaux polymères aux propriétés uniques, mais ont du mal à trouver les meilleures utilisations pour ces composés. S'il réussit, l'algorithme de Jaron pourrait éventuellement augmenter le retour sur investissement dans la recherche de polymères en optimisant les applications commerciales des nouveaux développements.
En raison des lois de la combinatoire, les polymères sont, par nature, l'un des groupes les plus difficiles pour tout système de classification. L'autre grande difficulté avec les polymères consiste à trouver une définition mesurable de leur fonction.Il n'existe pas de méthodologie reconnue pour attribuer des fonctions aux polymères. C'est là que le système de CAS, établi de longue date, a pu apporter un nouveau type de définition pour un trait plutôt désorganisé. La représentation des fonctions des polymères en utilisant des champs de chimie prédéterminés a permis une nouvelle application de nos données indexées de façon classique.
Il existe des millions de polymères existants et théoriques avec des centaines de propriétés potentielles, mais Jaron a pu extraire un petit ensemble de données de propriétés de haute qualité qui avaient été intellectuellement indexées à partir de la littérature par des scientifiques de CAS et créer un modèle de prédiction pour les applications. Les résultats sont prometteurs. L'algorithme a démontré une précision de 66 % des prédictions statistiquement significatives lorsqu'on utilise au moins trois propriétés alimentées pour ces polymères.
Bien qu'il s'agisse d'une validation précoce de concept, il illustre trois points importants :
- La qualité, les classifications uniques et la portée historique des données de CAS offrent aux scientifiques un nouveau moyen précieux de définir des valeurs jusqu'alors désorganisées.
- L'utilisation d'un jeu d'entraînement divers et complet pour ces modèles produira de meilleures prédictions avec moins de préparation des données.
- La collection complète de données de CAS peut facilement être personnalisée en fonction des besoins d'algorithmes spécifiques. Des données de propriétés aux polymères, en passant par les réactions entre différentes revues, les brevets et les thèses, les possibilités sont infinies.
Si vos projets d'IA ou d'apprentissage machine ne répondent pas aux attentes et que vos équipes ont du mal à relever les défis des données, prenez contact avec nous pour découvrir comment tirer parti de notre expertise dans les données et l'apprentissage machine afin de favoriser des découvertes plus rapides, une plus grande efficacité et de meilleures décisions. Contactez-nous dès aujourd'hui !