如果人工智能或机器学习算法没有达到您的期望,数据是否就是罪魁祸首?
人工智能的采纳率在快速增长
人工智能的前景一直感觉更像是一种未来状态,但事实上很多公司都已经采纳人工智能计划。 科学研发领域尤其如此。 在过去几年中,从 QSAR 模型到基因组学,机器学习和人工智能在各个领域都有了巨大的增长。 一项 2018 年的研究显示,人工智能的采纳率急剧增加,从 2017 年的 38% 增至 2018 年的 61%。 医疗保健业、制造业和金融服务业等各个行业都是如此。 然而,大部分早期采纳者都指出,成功实施人工智能最大的挑战之一在于牵涉数据,特别是与人工智能计划有关的获取、保护、集成和数据准备。
危险重重:近在眼前的数据挑战
虽然各公司都在对人工智能算法设计和实施所需的人才进行大力投入,但项目的成功很大程度上取决于用于建立和测试这些算法的训练数据。 很多公司都在努力管理大量结构不良的数据,并将它们转换为可用的分类培训集,以满足算法的需要。 有些公司为数据所累,而其他的却在寻找公共领域中尚不可用的专业科学数据。 可用的数据集通常需要很长时间才能获取,然后针对拟定用途进行转换。 从分类到不相干数据集的关联,人工智能计划需要准备大量的数据才能实现机器学习的前景。
下载我们的科技研发数字化盈利转型白皮书以了解更多信息,或联系我们以讨论您的具体需求。
迟早都要投入
一个数据科学家 80% 的时间都在整理和准备数据。 目前存在一系列不同的公共科学数据库,但这些数据都存在各种内在挑战,包括转录错误、标记错误的单元和极其复杂的专利语言。 另一个关键挑战则在于外语内容的翻译。 例如,专利通过 60 种语言在全球发布。 迅速翻译、提取、连接和规范化相关数据的能力对于人工智能项目的成功具有非常大的价值。 如果亲和性下降 3 或 6 个数量级,算法可能就无法进行准确的预测。 如果数据科学家使用全面、规范数据,并且这些数据已经进行质量检查,具有确定的语义链接,他们就可以将时间和能源集中于优化算法而不是准备数据。
不幸的是,寻求数据的团队通常会使用公共资源或者在数据标记和准备上的花费少之又少。 如果团队要处理结构不良的科学数据、60 种不同语言的专利或复杂的反应机理,他们会发现难以通过有意义的方式对这类数据进行分类和关联。 在评估机器学习的改进机会时,数据准备的机会成本以及数据的准确性和全面性都应该作为影响因素予以考虑。 如果由人工智能驱动的预测没有达到预期,干扰结果的就很有可能是数据本身。
什么是高质量数据?
常言道,质量至关重要,无论是海产、医疗保健,还是训练数据。 不要用便宜货,也不要用低质量数据训练你的算法。 能够充分使用的高质量数据应当整洁、标准化,拥有正确的语义和关联。 这种质量水平并不容易达到。 美国化学文摘社 (CAS) 的科学家对专利语言和出版物的新兴趋势具有深入的理解,同时具备外语专业知识,能够从噪音中找到真正的信号。 他们的分类、语义链接和数据分类专业知识是建立和维持高质量数据集的关键能力。
高质量数据投入的回报
CAS 的团队开展了一系列积极的项目,将我们的内容合集应用于不同的人工智能和机器学习应用中。 事实上,我们最近基于天才数据科学家 Jaron Maxson 的工作提出了一项专利申请。 他对利用机器学习和 CAS 内容合集帮助解决材料领域的挑战很有兴趣。 特别是他想要看看算法是否能准确预测新开发聚合物的功能性用途。 研究人员在创造具有独特性质的新聚合物,但却苦苦挣扎于为这些化合物找到最好的应用方式。 如果成功,Jaron 的算法就可能能够加强新开发产品的商业应用,从而提高聚合物研究的投资回报率。
受组合数学的规律限制,聚合物本身就是任何分类系统中最具挑战性的类型之一。 聚合物的其他巨大挑战在于针对聚合物的功能确定可测量的定义。目前还没有公认的方法来为聚合物分配功能。 而 CAS 拥有长期建立的分类系统,能够针对杂乱的特性提供新的定义类型。 通过使用预先确定的化学场来表示聚合物函数,使我们的经典索引数据得到新的应用。
现在理论上有数百万聚合物,数百种可能的性质,但 Jaron 能够利用由 CAS 科学家从文献中人工编制索引的高质量性质数据,建立应用预测模型。 结果非常乐观。 使用这些聚合物至少三种所填充的性质时,该算法显示出 66% 的预测准确率,具有非常大的统计学意义。
虽然是早期概念验证,但表明了以下三个重要方面:
- CAS数据的质量、独特的分类以及时间覆盖范围是非常有价值的,为科学家提供了一种新的方法来定义以前无组织的内容。
- 对模型使用多样和全面的训练集,可以在较少数据准备的情况下做出更好的预测。
- CAS 全面的数据合集能够轻松进行自定义,支持特定算法的需求。 从性质数据、聚合物、反应到期刊、专利和论文,拥有无限可能。
如果您的人工智能或机器学习没有达到预期,而您的团队正在努力应对数据挑战,我们很愿意您向我们了解如何利用我们的数据和机器学习专业知识加速创新突破,提高效率,帮助您作出更好的决定。 立即联系我们吧 !