复杂系统及其各种影响一直是环境化学研究的热点。随着研究维度的不断增加,传统的基于方法还原论的研究范式已经不能帮助我们准确地确定化学污染物在多媒体环境中的影响或行为。人工智能(AI)作为一种处理复杂对象的技术手段,得到各种机器学习(ML)算法的支持,是解决这一问题的最佳方法之一。从这个角度出发,我们试图解释环境化学中复杂事物与人工智能网络之间的一些相似之处,并为环境化学数据挖掘中两个网络的结合提供一些建议。
导言
2019年5月,在芬兰赫尔辛基举行的环境毒理学与化学学会(SETAC)第29届年会上,专家们就环境科学的现状、挑战和发展进行了深入的讨论。针对环境中复杂的相互作用、污染物的风险评价与控制、多尺度化学系统等重要问题,我们发现环境化学中复杂系统的研究已逐渐进入科学家的视野。过去,通过控制变量和简化系统结构,可以准确地预测和分析复杂物质的某些局部效应。1–4然而,随着研究维度的增加,统计上获得有意义结果所需的数据量将随着每个维度的增加而呈指数增长,这是一个被称为“维度诅咒”的问题。5显然,这个问题很难用传统的还原论来解决。6
这个问题在EC中尤为突出,它通常涉及许多复杂的系统,包括各种组件和其他环境媒体(G.、土壤、水和空气)。例如,在被污染的表土中(图1A),污染物与天然液体、固体和气体物质之间存在着大量复杂的相互作用(图1B)。计算表明,当将化学物种划分为100种时,相互作用的数量将达到10种。30 (图1c)。这些相互交织的非线性关系将发展成为一个多尺度的信息网络。图1d)具有多种动态平衡反应,包括酸碱中和、氧化还原、离子交换、络合和沉淀.7该网络的综合性能将主导生物降解性、环境风险和可降解性。现有的研究方法不能促使研究者考虑各种因素,这必然会导致现实环境中污染活动的不确定性。
图1 (a和b)现实环境中存在的复杂系统。(C)受污染土壤中化学种类和相互作用的程度。(D)具有各种动态反应的物质网络。(E)将ML方法引入环境科学中复杂系统的研究中。
幸运的是,作为新一轮技术革命的代表,今天的机器学习(ML)技术在处理各种各样复杂的问题上表现出了明显的优势。8它在商业应用和社会管理方面带来了巨大的创新,包括自然语言处理,9生物特征识别,10策略博弈设计11以及个性化推荐系统,12智能工业系统13等。同时,还报道了ML在自然科学中的一些应用,如疾病检测,14,15药物设计,16,17材料筛选,18天体物理模拟,19以及生物效应预测。20显然,面对日益智能化、信息丰富、超维的物质世界,越来越多的科学家已经意识到,人工智能的浪潮将在未来几十年对自然科学的研究路线和实验方法产生根本性的影响。
虽然为基于ML的模型提供物理解释仍然具有挑战性,但复杂物质网络之间仍有一些相似之处(图1d)和ML网络(图1E)。从直觉上看,它们都有许多功能节点,具有一定的相互作用、层次性和不可分解性。另外,这两个网络涉及大量的信息流,主要来自化学节点或参数节点之间的功能关系。因此,这两个网络在结构和功能上的相似意味着它们之间有一定的相互表达和推断的潜力。例如,阿比盖尔·G·道尔(Abigail G.Doyle)的团队报告说,经过训练的ML网络在广阔的多维化学空间中继承了大量Buchwald-Hartwig催化信息。5经过训练的网络由数以百万计的数据节点组成,掌握了由多个原子、分子和振动描述符组成的化学交叉偶联反应的所有潜在结果。这表明,ML方法的引入将从根本上改变对实际污染系统中难以理解的交互作用的研究。那么,这个过程的关键问题是什么呢?
与摩尔定律支持的新学习算法和低成本计算相比,摩尔定律(这是英特尔公司(Intel Corp.)的戈登摩尔(GordonMoore)在1965年提出的一种理论:他说,芯片上的晶体管数量将以不变的价格每18到24个月翻一番。)21最近机器学习方面的进展是由大数据的持续爆炸所推动的。8生物学的研究人员,22,23化学,5,24宇宙学25和医学26试图通过各种方法挖掘有效的数据,并将机器学习方法联系起来,以解决它们的科学问题。与其他学科一样,数据对环境化学科学家的重要性也越来越大,而对数据的需求也越来越多样化。27因此,上述问题的明显答案是,缺乏有效的数据已成为将环境化学分析与机器学习联系起来的最大瓶颈。
然而,我们在研究中发现了一个有趣的现象,数据采集的方法主要集中在两个方面。一是利用传统的批量实验在受控条件下采集数据;5另一种是从过去几十年甚至几个世纪积累起来的现成数据库中筛选相关数据。28,29显然,面对复杂的环境样本,这些方法需要大量的设备条件和人力资源,具有很大的局限性。一方面,昂贵的测试成本和繁琐的实验操作不可避免地导致低吞吐量的数据采集.这意味着我们只能通过稀少的局部观测来描述一个巨大的化学空间。另外,对于一些环境样品,基于分离操作的预处理过程,为了减少变量,往往破坏了元件间的耦合行为,使科学家忽略了混合体系的整体效应。
环境化学中的复杂系统似乎复杂无序,现有的标准化数据极为有限。然而,正是由于环境样本的丰富或复杂的特点,数据驱动的ML方法才能充分发挥其有效性。30可以预见,对于许多环境科学家来说,为这些复杂的环境化学问题找到一些有效的数据将是一项重要的工作。在此,我们尝试提供一些潜在的数据采集策略。
混合物毒性分析
混合毒性分析一直是污染物风险评估的研究热点之一,大多数研究人员通常采用多因素正交试验收集各种剂量-反应数据。2受繁琐的实验操作和昂贵的检测成本的限制,目前的剂量添加实验通常是针对少量的污染物种类和剂量梯度而设计的,以获得很少的毒性数据。1,31基于极小数据集的外推模型具有较好的泛化能力(用于测量样本空间外模型的精度)。32由于污染物与复杂环境之间存在着大量的相互作用,通过控制变量和简化模型难以准确地评价污染样品的毒理学效应。33
虽然许多研究人员已经尽力收集数据以满足统计意义,但在有限的抽样空间内使许多ML显示其功能仍然是困难的。5这是因为,对于许多ML算法来说,对原始数据没有维度限制来保证足够和有效的数据。换句话说,我们真的不需要像传统毒理学实验那样,限制样品的组成,人为地设定复杂污染物之间的回归公式。34相反,我们只需要把我们关心的各种因素作为输入,经过良好训练和适当的ML模型就可以预测相应的复杂效应(例如生物降解、慢性或急性毒性,以及污染的迁移和转化规律,等。)。在这里,污染物与其潜在的环境或健康风险之间的关系可以很容易地转化为无限维最优拟合的回归预测问题。35显然,随着交互次数的增加,这一过程的实现应该通过高效、廉价的数据获取方法得到促进和保证。
对于如何获得足够大的ML建模数据,在化学、生命科学和医学等领域广泛应用的高通量实验(HTE),为毒理学数据的产生提供了良好的参考和启示。36,37在这些高温超导材料中,在微板上进行了大量的组合反应,并在一次实验中收集和分析了数以千计的检测结果。38参考这些策略,一个正确的hte布局排列大量的生化反应将有助于研究人员有效地建立一些标准化的毒理学数据库。(图2A和b).35同时,通过统计分析、无监督或监督学习等ML任务,很容易发现污染物的毒性行为。(图2C).35这个想法可能很好地回答了毒理学在解决全球问题时如何被边缘化的问题,正如Anderson Abel de Souza Machado所提出的那样。
图2 建立混合毒性分析与ML之间数据通路的HTE策略。(a和b)基于喷墨打印(IJP)技术的高通量曝光实验。传统的发光细菌毒性试验是由IJP集成到硬件平台上的。四种化合物(汞)2+、铅2+将四环素和磺胺二甲氧基钠(磺胺二甲氧基钠)混和到1600份混合样品中,印在制备的生物发光传感器上。该传感器的发光变化由光敏成像装置记录,并记录了数千个剂量依赖的响应数据(G.利用数字图像分析方法采集发光抑制率(LIR)。(C)经过良好训练的样本毒性评估ML模型。训练集中的数据用于有监督的学习(指的是ML任务,表示来自一些带有特征信息的数据集的函数)。39)。训练后的ML模型可以直接预测新样品的联合毒性。
筛选环境材料
为了增强某些功能纳米复合材料的去污能力,研究人员通常在极窄的范围内采用反复试验的方法来寻找材料的最佳组合和合成方案。5在这些传统的筛选过程中,面对具有非线性倾向的多变量因素的材料改性任务,研究者通常采用简化、经验甚至依靠运气的研究思路。40然而,正如我们强调的那样,从传统的试管实验中收集到的数据非常有限.
在化学、生物和医学领域也出现了类似的问题,许多科学家已经开始扩大HTE的应用范围,以建立一个具有特定研究目的的标准数据库。据报道,在化学合成方面取得了一些进展,5,41复合材料评估,40,42生物学测量,43–45药物筛选和分析。26是否使用多批成像,46微阵列打印,45或多井板反应5,47技术是具有强大数据生产能力的技术,是在这些研究中建立数据集的关键工具。如前所述,基于IJP技术的组合化学48对于反应物的传输是一种超级有效的操作,使用二维平面上的试剂的精确组合可以很容易地构造出数百万个独立的微反应。42,48受此启发,如图3A利用IJP在特定底物上打印各种化学或生物前驱体,可以制备出含有不同类型催化或吸附材料组合的HTE反应芯片。结合目标污染物作为检测指标,所制备的组合芯片可同时用于评价数千种复合纳米材料的性能。这种在微芯片上建立反应数据库的方法将迅速简化和加速环境材料的数据生产过程。
图3 两种在短时间内构造功能纳米复合材料数据集的方法的表示。(A)一种方法是HTE路线。利用组合化学技术,一次可以在基体上合成数千个纳米复合材料。通过具体的检测方法,所制备的HTE反应芯片可用于评价环境材料的性能。(B)另一种方法是文献提取。这是一种经典的数据挖掘方法,将有助于从科学文献中获取一些潜在的价值信息。
除此之外,计算化学所采用的文献数据挖掘也为我们快速筛选环境功能材料提供了一条有效的途径。49–53在过去的几年里,有关功能材料的文献已经积累了数十万篇文章,其中文本或特征图像是Web爬虫项目中流行的数据形式(一种方法是通过算法专家访问与互联网相关的信息资源)。显然,很少有环境科学家充分利用这个知识宝库。这在很大程度上是因为研究对象的复杂性使得传统的分析方法很难提取出具有统计意义的大数据。
与过去不同的是,今天的流行人工智能技术提供了一种新的方式来给这些“尘土飞扬的数据”注入新的活力。作为积极的参考(见图3B),Paul Raccglia等人重复利用了从过去存档的实验室笔记本中收集的那些失败的水热合成数据,并证明了一个经过训练的ML模型能够成功地从不成功的数据中预测模板化钒亚硒酸盐结晶的反应结果。50
环境样本特征提取
复杂组分样本分析是环境化学研究人员的重要任务之一。相对成熟的分析技术,包括传感器、毛细管电泳、气体、液体和离子交换色谱等,极大地促进了环境科学的发展,但它们通常需要较长的测试时间、繁琐的操作、专业的知识和昂贵的成本。一般来说,这些传统方法只能同时完成少数几个目标的检测,即使它们具有检测多个目标的能力,也不能得到各个独立指标之间的关系。54,55因此,开发高灵敏度、宽检测范围、附加多元分析、低时间、低人工成本以及良好的指标连通性的分析方法一直是非常重要的。当然,这一需求广泛存在于医疗卫生、生物、化学、农业、食品和环境监测领域。
人工智能辅助系统是非常有趣的替代方案,但主要问题是如何提供算法能够理解的一些有效的数据形式,以及如何将不同样本之间的特征信息连接起来。近年来,图像模式识别技术在提取特征光谱信息方面表现出了良好的性能,56并报道了图像识别在自然科学中的一些应用,如基于生物医学图像的疾病检测,14,57病原体图片识别,58卫星图像分析。59在这些应用中,采集到的视觉图像记录了样本的特征信息,可以通过图像感知算法进行提取。特别是在大数据领域,这些独立的、看似无关的或不可分辨的图像通常能够在一些无监督、半监督或监督的学习任务中显示出一些特定的规则。60
过去,人类的大脑很难在短时间内从海量而复杂的图像信息中获得联系规则。然而,基于人的视觉思维理论,高性能的算法和计算能力很容易确定各种特征图像之间高度微妙的关系。61与人类的感知知识相比,提供给算法的许多数字图像可以根据图像像素特征量化为二维数字矩阵,并分布在由RGB值组成的颜色空间中。61RGB指的是三种原色,即红色、绿色和蓝色,它们的值在0到255之间随机变化(0对应于黑色,255到白色)。62神经网络通过分析每个像素的RGB-变异信息,可以快速识别特征图像所表示的样本信息。60,63
现有的许多具有各种特征信息的科学图像将成为将ML引入复杂成分样本分析的重要数据载体。有趣的是,不像从在线数据集收集的图像,包括街道视图、动物和人类的图片,这些图片通常包含有限的信息,从实验研究中收集的图像更加有效、信息丰富和针对性强,可以为网络提供足够的功能。如图所示图4A包括三维荧光光谱、X射线光电子能谱(XPS)、X射线衍射(XRD)、吸收光谱、藻类图像和色谱指纹图谱等。等。,可在环境分析中得到。将这些特征图像作为连接不同样本属性的标准化数据库是很容易的。再加上适当的神经网络,这些图像数据可以通过特征提取和聚类分析应用于某些特定的目的。有些病例已被报告,如有害藻类分类。64和样品测试。54
图4 (A)确定样品特征的科学图像集。实验图像是机器学习的重要数据载体。(B)在监督学习过程中CNN的计算原则。
值得一提的是,随着知识、图形和信息可视化的发展,图像分析的网络算法越来越多。卷积神经网络(Cnn)作为图像感知的一种常用的深度学习框架,能够通过捕获RGB差异直接提取图像上的细粒度信息,并能很好地解决许多非线性辨识问题。65CNN的关键功能块由一些卷积层、集合层和非线性激活函数组成,涉及突触权重和偏倚两个主要参数。传统网络的训练原则是通过调整两个参数来不断优化网络。在有监督的学习过程中(见图4B)采用基于误差反向传播算法(BP)的梯度下降法进行参数整定,直至预测值与实际标号的平方误差之和最小。60经过多次迭代BP学习,当输入一个测试样本的特征图像时,该模型可用于实现多个预测任务,包括定量分析和定性分析。
结论
总之,ML网络的一些特点与环境化学中最复杂的系统非常相似,可能是理解未来环境过程最有效的方法。然而,目前,为了适应人工智能,环境研究人员还需要做出更大的努力来创造新的实验,以有效地产生数据。目前,自然科学的大多数领域都在考虑同样的问题,或者在不久的将来也会考虑这个问题。本文结合其他领域的应用,从数据挖掘的角度提出了将ML技术引入环境化学的一些潜在策略。本文所述的研究路线和关键点为环境化学研究人员提供了很好的启示,并期望他们能够在复杂系统研究和人工智能之间建立更多的数据桥梁。
结参考文献 (略)