Gain new perspectives for faster progress directly to your inbox.
与 NullSet Informatics Solutions 创始人 Jefferson Parker 博士的对话
随着计算生物学在药物发现领域的持续推进,这一过程中不断涌现出新的挑战和机遇。 序列分析一直是生物信息学的一大重要方面。 在本篇文章中,我们与 NullSet Informatics Solutions 创始人兼生命科学数据分析专家 Jefferson Parker 博士探讨了药物发现领域中序列分析技术的最新前沿。
CAS:作为计算生物学家,您在药物发现的过程中担任过哪些职位?
Jefferson:我从事过各种工作,从支持药物发现实验室到转化研究小组。 最近,我与临床团队开展合作,负责运营和开发事宜。 我支持药物警戒团队进行安全数据分析,从事业务拓展和竞争性情报工作。 我还曾作为生物信息学分析师加入过软件工程团队,在实验室科学家和软件开发人员之间担任翻译。
CAS:您能谈谈序列分析在药物发现中的作用吗? 为什么该技术具有重要意义?
Jefferson:在(药物)发现领域,可以使用序列分析技术来筛选靶标发现。 通过观察转录组水平上发生的变化,可以将其映射到所掌握的任何通路知识上,并提出“最有可能的上游原因是什么?”这一问题,这些信息有可能成为药物靶标,或在信号层面上接近药物靶标的内容。 如果药物旨在针对特定靶标,则该技术有望帮助确认是否达到了目标。
此外,你也可以开始寻找患者选择的生物标志物。 在表达水平或 DNA 序列水平上,是否存在具有各种突变的特定基因图谱? 患者体内是否存在某些特定突变,会使患者更容易或更不容易受到药物影响? 在制药行业中,这一领域非常令人振奋且欣欣向荣。 如果能够在治疗前事先知道,这种药物应该有效,或者可能无效,这将真正决定治疗的成败。 此外,也不会浪费患者的宝贵时间。 特别是像肿瘤学这样的领域,患者并没有太多时间,不能浪费患者时间反复试错,使用药物进行多线治疗但却不起作用。
所有这些都涉及到序列分析。 这一技术涉及药物开发流程的各方各面。
CAS:您认为序列分析的最大挑战是什么?
Jefferson:我想说的是,实际上这些挑战下降得非常快,因为技术每年都在不断进步。 过去,读数非常短小,组装也是一大挑战。 如今,我们的读数越来越长,尽管组装操作仍是一项挑战,但难度已经有所降低。
想象一下,把《战争与和平》丢进碎纸机。 得到的是一些几毫米乘几厘米的页面碎片,因此很难把它们重新组装成一本书。 但如果页面的碎片更大更长,并且还有一大块段落而不是某个单词的碎片,那么以正确的顺序重新组合故事便会更加容易。 随着读数变得越来越长,现在的情况便是如此。
存储仍是一项难题。 即使在最近的工作中,我们也必须移动序列数据,而最快的方法是将其载入硬盘驱动器,然后再放进 FedEx 快递盒。 与通过互联网移动数百 GB 或 TB 的数据相比,将数据装在盒子里运输要快得多。 问题不在于本地存储,而是将大量数据从一个地方传输到另一个地方。 如今,一旦得到了所需数据,即可获取足够的计算能力来运行测序项目,但将数据传输到机器仍是一大瓶颈。
此外,人源性样本也是一项挑战。 这类采样很痛苦,往往需要进行侵入性活检,因此患者不愿提供多个样本。 完成采样后,样本通常会采用福尔马林固定和石蜡包埋的方式进行保存,因此任何核酸物质都会在一定程度上被降解。 有很多方法可以尝试提取并使用这种已制备好的样本组织进行测序,但序列质量总会受到影响。
对于小公司而言,该技术的成本也非常高昂——这类机器需要投入大量资金。 同样,计算生物学家也变得越来越普遍,但他们并非无处不在,而且人人都想就职于最大、最好的公司,赚最多的钱。 劳动力储备在增长,但仍然相对有限。
在某种程度上,希望从事序列分析工作的人没以前那么多了。 大家都想创造下一个伟大的学习模式。 重点不再是数字运算和数据分析,而是先进的人工智能和机器学习。 人人都想从事新兴、热门且前途光明的技术——而序列分析不在此列。 因此,这种情况很快将会成为一项挑战。
CAS:现在,是否的确需要计算生物学家来负责序列分析?
Jefferson:如果采用模板化的完善方法论,经过充分的开发、验证和文档记录,则无需计算生物学家。 不需要聘用特定人员来制定新方案。 有很多现成的软件解决方案,适用于从所有不同的测序仪中采集数据输入。 仅需载入数据,将其拖放到所需处理的管线图标,然后按下按钮。 接下来就可以去喝杯咖啡、吃顿午饭,或者根据正在使用的仪器大小,可以先回家,等到早上回来时便可完成操作。 无需聘请我这样的人来负责这类工作。 任何精通技术的助理研究员都能操作。
但另一方面,如果使用的是尖端测序仪,并试图推导出一种未曾尝试的新型分析方法,那么便无法采用现成的解决方案。 为此,需要了解生物学的有关人员,此人应了解数据输入、数据输出、数学和任何其他相关知识。 为了结合所有这些内容,并将其融入某个非现成的新型解决方案中,便需要像“我”这样,或了解上述所有环节的专业人士。
CAS:您之前曾提到,现在人们希望在工作中运用人工智能和机器学习技术。 这些技术能否对序列分析提供帮助?
Jefferson:有了精心策划的数据集,人工智能和机器学习技术无疑将大有帮助。 可以肯定的是,某些组织正在应用机器学习技术来使用文献并构建知识图谱,肯定会发挥作用。 人工智能和机器学习是否能帮助完成序列组装? 可能吧,但我不确定这是否操之过急了。
CAS:说到人工智能,您对 AlphaFold 有何看法?它可以对蛋白质结构进行人工智能预测。
Jefferson:我认为 AlphaFold 绝对会改变游戏规则。 它带来了通往结构的更快路径,可以比之前更快用于计算机辅助药物设计。 不再需要 NMR 或晶体结构来设置起点。 那它是否会和晶体结构一样好? 可能不会。 测量得出的真实信息始终优于模拟结果。 但在时间层面,可以立即获得某些信息。 它将带来一种前所未见的影响。 我觉得,AlphaFold 的出现像是将石头扔进池塘,它产生了影响,但这只是正在形成的最初涟漪。
CAS:您认为药物发现领域的人工智能和机器学习技术有何发展前沿?
Jefferson:它具有空间性质,即下一代的单细胞。 多组学。 其中引入了 DNA、RNA、蛋白质和代谢组学,并整合了上述所有领域。 甚至将其与细胞途径和细胞间通讯相结合。 不再局限于单细胞层面。 该领域放眼于单个细胞及其旁边的细胞,再延伸到这类细胞周围的细胞;它们之间如何相互作用? 这便是已经存在的发展方向。
CAS:您认为我们是否可以创造生物系统的模型?
Jefferson:如果在我读研究生的时候问这个问题,我会说人类没有能够描述生物系统的数学理论。 生物学是复杂的化学,化学是复杂的物理,而物理是复杂的数学。 这是一切的基础。 物理学是可以通过数学解决的问题,只需要大量数据即可,而化学在某种程度上也是如此。 但生物学… 我曾经相信,无论是在过去还是将来,人们都没有能力对某个生物系统进行数学建模。
但现在,这可能是该学科必须要走的发展方向。 为此是否需要量子计算机? 或许吧? 尽管可能发生在有生之年后,但我现在很确信:在某一时刻,人类将能够对生命系统进行精确、可靠的计算模拟。 这番话让我略感焦虑。 我知道在数字孪生领域仍有很多工作要做。 尽管第一步应用场景受到限制,但数字孪生技术现在已经上线并用于临床试验。 这就是它的开端。
CAS:那么,您认为推动这些新前沿向前发展需要什么? 我们是否需要采用新的算法或框架? 或者真的只是尝试把所有领域都结合在一起?
Jefferson:兼而有之——我们需要用新的方式来思考这一问题。 可以在应用旧算法的同时,采用新方法设计或实现新算法。 对于表观基因组学、DNA 动力学或非编码 RNA 空间、外显子组与其他所有方面,这都不同于单纯的序列分析。 这是一种不同的思考方式。 它仍然是序列,但并不仅限于序列层面。 不同的思考方式需要不同的工具。
CAS:如果可以挥动魔杖解决序列分析和药物发现方面的某个难题,您会解决什么问题? 这将有何影响?
Jefferson:我会让所有数据都经过充分标注,并面向所有人公开。 所有来自公司、机构和大学的专有数据…涵盖方方面面。 通过经过充分标注和文档化的统一存储平台,人人均可免费使用。 这样便足够帮助我们解决大难题了。
Now, Jefferson is forging a new path with his own bioinformatics consulting company, NullSet Informatics Solutions providing data and analytics, data modeling, and technology project management services.