Se os algoritmos de IA e aprendizado de máquina não são tudo aquilo que você esperava, será que a culpa é dos dados?
A adoção de IA cresce rapidamente
A promessa da inteligência artificial sempre pareceu um futuro distante, mas a realidade é que muitas empresas já estão adotando iniciativas de IA. No ramo da P&D científica, esse futuro já chegou. Nos últimos anos, houve um aumento enorme de iniciativas com aprendizagem de máquina e IA em tudo, de modelos QSAR a genômica. De acordo com uma pesquisa de 2018, a adoção de IA cresceu drasticamente de 38% em 2017 para 61% em 2018. Isso ocorreu em uma série de setores, incluindo saúde, manufatura e serviços financeiros. No entanto, a maioria dos que adotaram a tecnologia logo no início perceberam que um dos maiores desafios da implementação estava relacionado a dados, em especial acessar, proteger, integrar e preparar dados para iniciativas de IA.
Perigo: desafios de dados adiante
Embora as empresas estejam investindo pesado no talento necessário para projetar e implementar algoritmos de IA, o sucesso das iniciativas depende muito dos dados de treinamento para os quais estão sendo criados e testados. Muitas empresas não conseguem gerenciar o grande volume de dados não estruturados necessários para dar suporte a projetos e traduzi-los em conjuntos de treinamento úteis e categorizados, necessários para alimentar algoritmos. Algumas empresas estão com dados até o pescoço, enquanto outras estão buscando dados científicos especializados que não estão prontamente disponíveis no domínio público. Muitas vezes, leva muito tempo para adquirir e transformar os conjuntos de dados disponíveis segundo nosso propósito. De taxonomias a classificações para conectar conjuntos de dados díspares, as iniciativas de IA exigem quantidades enormes de preparo para possibilitar o potencial do aprendizado de máquina.
Baixe nosso relatório técnico sobre a transformação digital rentável em P&D científica e tecnológica para saber mais ou fale conosco para conversar sobre suas necessidades específicas.
Pague agora ou mais tarde
Até 80% do tempo de um cientista de dados é gasto na estruturação e preparo. Há muitos repositórios públicos de dados científicos, mas todos possuem desafios inerentes, incluindo erros de transcrição, unidades com nomes errados e linguagem de patentes muito complexa. Outro grande desafio é traduzir conteúdo em idioma estrangeiro. As patentes, por exemplo, são publicadas em mais de 60 idiomas no mundo todo. A capacidade de traduzir, extrair, conectar e normalizar com rapidez todos os dados relevantes é fundamental para o sucesso de projetos de IA. Se as afinidades tiverem 3 ou 6 graus de magnitude, os algoritmos talvez nunca ofereçam uma previsão exata. Quando cientistas de dados usam dados abrangentes que foram normalizados, e passaram por controle de qualidade para que tivessem a vinculação semântica correta, eles podem dedicar mais tempo e energia na otimização de algoritmos, e não na preparação de dados.
Infelizmente, as equipes que pesquisam dados muitas vezes utilizam fontes públicas ou dedicam muito pouco tempo em nomear e preparar dados. Quando as equipes lidam com dados científicos não estruturados, patentes de 60 idiomas diferentes ou esquemas de reações complexos, eles acabam tendo dificuldade para classificar e conectar esse tipo de dados de uma maneira que faça sentido. Os custos de oportunidade da preparação, precisão e abrangência de dados devem ser levados em conta ao avaliar as oportunidades de melhorias de aprendizado de máquina. Se as previsões derivadas de IA não atenderem às expectativas, há boas chances de que os dados estraguem os resultados.
O que são dados de alta qualidade?
A qualidade é o que importa, seja com frutos do mar, saúde ou dados de treinamento. Não coma sushi que custou uma pechincha nem alimente seus algoritmos com dados de baixa qualidade. Para potencializar ao máximo os dados de alta qualidade, eles devem estar limpos e normalizados com significados e conexões semânticos corretos. Esse nível de qualidade não é obtido com facilidade. Os especialistas científicos do CAS entendem muito bem a linguagem de patentes e as novas tendências em publicações, assim como o conhecimento de idiomas estrangeiros para identificar o que é sinal e o que é ruído. O conhecimento deles em taxonomias, ligação semântica e categorização é fundamental para criar e manter um conjunto de dados de alta qualidade.
O retorno positivo de investir em dados de alta qualidade
Nossa equipe no CAS trabalha em vários projetos que aplicam nossa coleção de conteúdo a diversas aplicações de IA e de aprendizado de máquina. Na verdade, recentemente entramos com um pedido de patente com base no trabalho feito por um de nossos cientistas de dados talentosos, Jaron Maxson. Ele queria aproveitar o aprendizado de máquina e a coleção de conteúdo do CAS para ajudar a resolver desafios no espaço de materiais. Ele queria, principalmente, ver se um algoritmo conseguiria prever com exatidão os usos funcionais de polímeros desenvolvidos recentemente. Pesquisadores estão criando novos polímeros com propriedades únicas, mas ainda não encontraram as melhores aplicações para esses compostos. Se der certo, o algoritmo de Jaron pode aumentar potencialmente o ROI da pesquisa de polímeros, maximizando as aplicações comerciais do novo desenvolvimento.
Devido às leis de combinatória, os polímeros, por natureza, são um dos grupos mais desafiadores para qualquer sistema de classificação. O outro grande desafio com polímeros é encontrar uma definição mensurável da função deles.Não há uma metodologia reconhecida para atribuir funções a polímeros. É aqui que entra em cena o sistema de classificação de longa data do CAS, que conseguiu oferecer um novo tipo de definição para um traço bem desorganizado. Representar as funções de polímeros usando campos predeterminados da química permitiu uma aplicação nova do nosso modelo clássico de indexação de dados.
Há milhões de polímeros existentes e teóricos com centenas de propriedades em potencial, mas Jaron conseguiu usar um conjunto pequeno de dados de propriedade de alta qualidade que foram indexados racionalmente por cientistas do CAS a partir da literatura e desenvolveu um modelo de previsão para aplicações. Os resultados são promissores. O algoritmo apresentou uma previsão com 66% de exatidão ao utilizar pelo menos três propriedades preenchidas desses polímeros.
Embora ainda seja uma validação inicial do conceito, isso ilustra três pontos importantes:
- A qualidade, as classificações exclusivas e o alcance histórico dos dados do CAS são essenciais para proporcionar aos cientistas uma nova forma de definir valores que antes eram desorganizados.
- Usar um conjunto de treinamento diversificado e abrangente para modelos fornecerá melhores previsões com menos preparação de dados.
- A coleção abrangente de dados do CAS pode ser personalizada com facilidade para atender a necessidades de algoritmos específicos. De dados de propriedade, polímeros, reações em periódicos, patentes, dissertações: as possibilidades não têm fim.
Se suas iniciativas de IA ou aprendizado de máquina não estão atendendo às expectativas e suas equipes não conseguem superar os desafios com dados, será um prazer conversar com você para vermos como podemos potencializar nosso conhecimento em dados e aprendizado de máquina para ajudá-lo a avançar com mais rapidez, além de ter maior eficiência e tomar melhores decisões. Entre em contato conosco hoje!