植物辨认技能彷佛已经很成熟,从微信「扫一扫」到植物辨认APP、小步伐等等。随着物联网、人工智能(AI)等技能的前进,纵然是一般人可成为花卉辨认的「专家」。那真正的植物学家是怎样使用AI来加快植物辨认及分类的呢?
奥地利的一组科学家创建了一个新的、用户友爱的人工智能步伐,通过主动阐发大量植物图像来加快他们的研究。他们于 2020 年 4 月公然了源代码的初始版本。
植物研究包罗辨认它们的基因型(基因构成)和表型(可观看的物理特性)。猎取生物体的基因组序列是生物学研究的根本部门。时任奥地利科学院格雷戈尔孟德尔分子植物生物学研究所 (Gregor Mendel Institute of Molecular Plant Biology,GMI) 的科学家 Patrick Hüther 说,「它许可研究职员在特定的表型(比方身高或颜色)与相干基因之间创建联络(该团队如今在慕尼黑的路德维希-马克西米利安大学)。」 Hüther 是一篇关于开辟名为「ARADEEPOPSIS」新人工智能步伐的研究文章的配合重要作者。
植物表型研究是农业、情况和药物研究的紧张构成部门。随着天下生齿的增添和睦候改变的迫不及待的挑衅,美满莳植食品的科学比以往任何时间都越发紧张。农场谋划者非常熟习怎样通过联合遗传阐发和田间表型阐发来影响植物性状,从而在作物中孕育发生所需的特性。只管表型阐发在农业中越来越受到存眷,但有研究指出对大量表型数据的快速处置惩罚的需求也在增进——且以研究职员可以很简单解说的情势。
同样,相识植物与其栖息地的干系也有助于科学家相识情况。研究发觉,在沿海和要地本地地域生长的植物的表型和基因型差别纷歧定与植物的位置相干。生物学家还利用植物来研究人类疾病。研究职员开辟了植物模子,通过将植物表型与人类和其他物种的表型举行比力,从而辨认出不惹眼的相似性,可以猜测与人类天赋性疾病有关的基因。
在正确性和服从方面,解码植物DNA的技能远远凌驾了对植物图像举行编目标技能
依据研究范畴,网络基因型和表型数据大概会孕育发生大量信息,格外是由于植物发育通常要颠末数周或数月的研究。但是,在正确性和服从方面,解码植物 DNA 的技能远远凌驾了对植物图像举行编目标技能。不屈衡的数据网络要领大概会导致「表型瓶颈」——大量等候阐发的图像积存。反过来,这个瓶颈会耽搁研究职员阐发数据和得出结论。
2018 年,GMI 的科学家们开始开辟他们本身的办理方案来办理这个题目——一个易于利用的软件步伐,可以快速处置惩罚大量植物图像,并解说植物标本之间的颜色改变和其他差别。
「ARADEEPOPSIS」这个名字来自于拟南芥基于深度进修的最优语义图像支解。拟南芥(Arabidopsis thaliana)是一种快速生长的植物,每每被研究职员用作模子生物。深度进修是指一种可教的、多条理的人工智能,其灵感来自于人脑发觉模式息争释数据的功效。
这种推动力最初来自 GMI 研究员 Niklas Schandry 本身的表型瓶颈,其时他发觉本身面对着 150,000 张植物图像举行阐发,作为研究的一部门,以相识差别范例的泥土怎样影响植物的生长方法。现有的图像阐发步伐可以快速处置惩罚图像,但只能辨认植物的绿色地区。他解说说,自从Schandry的研究发觉某些泥土范例会导致植物酿成黄色和棕色以来,这种限定就成了一个题目。
通过成千上万的图像来辨认哪怕是一小组植物特性,也很简单让植物学家耗费数周或数月的时间。「这是一项非常枯燥的使命,很难可靠地完成。」 Schandry 指出。
然后 Hüther,Schandry 在 GMI 的同事,可巧读了一篇Google AI关于图像语义支解的博客文章,它为图像中的每个像素安排了一个形貌性标签。荣幸的是,谷歌公然了语义图像支解模子,是以 Hüther 开始玩弄代码。终极,他通过传授软件怎样辨认拟南芥标本,转变了植物表型编码的目标。「一开始有许多实验和错误,但终极我想出了怎样把它酿成一个端到真个管道,其他研究职员也可以用来阐发他们的图像。」Hüther 说。
那么,ARADEEPOPSIS 能为研究职员节约几多时间和精神呢?
利用深度进修要领,ARADEEPOPSIS 可以正确阐发拟南芥的玫瑰花结——重新顶观看时植物的圆形叶子分列——无论植物的颜色怎样改变。对付很多植物学家的事情来说,紧张的是ARADEEPOPSIS 可以可靠地域分康健和不康健的叶子。该步伐还思量了植物表面、图像质量和配景身分的改变。
那么,ARADEEPOPSIS能为研究职员节约几多时间和精神呢?相称多。
Hüther 估量,依据托管它的盘算机,ARADEEPOPSIS 可以在一天内阐发 100,000 张图像,此中包罗从每张图像中提取统共 78 个与表型相干的参数。他说,「假如一小我私家必要 10 分钟来辨认一张图像的 78 个表型参数,那么这小我私家将必要每周事情 40 小时连续约莫八年才气完成对 100, 000 张图像的阐发。」
Hüther 指出:「并不是说任何头脑正常的研究职员都市负担如许的事情量。已经存在对大量植物图像举行主动表型阐发的步伐,包罗由圣路易斯的 Donald Danforth 植物科学中间开辟的开源软件 PlantCV。然而,PlantCV 要求用户具有必然的盘算机编程专业知识。」
「我们的重要目的之一是构建便利且易于利用的工具,是以我们专注于完全主动化,这是呆板进修要领使我们可以或许实现的目的,」 他说。ARADEEPOPSIS 「只必要输入植物图像,并返回一个相称大的表格,此中包罗丈量值以及效果的视觉演示,从而可以快速轻松地举行质量操纵。」
Hüther、Schandry 和 GMI 的两位同事以及德国马克斯-普朗克发育生物学研究所(Tübingen)的一位同事于 2020 年 12 月在《The Plant Cell》上颁发了一篇关于开辟 ARADEEPOPSIS 的文章。2020 年头,他们在Github上公然了源代码的第一个版本。
ARADEEPOPSIS 是一种软件东西,植物研究职员可以或许以高度并行化、高吞吐量且易于利用的方法从图像数据中对植物生长、生物量积存和朽迈举行非侵入性评分。
它创建在已公布的卷积神经网络 (CNN) DeepLabv3+之上,该网络办事于语义图像支解使命。该模子的预练习查抄点已利用手动解释的差别年事拟南芥植物的顶视图图像举行练习。
宽阔应用远景
Schandry 说,「现在,ARADEEPOPSIS 被设置装备摆设为阐发拟南芥植物和统一植物家属的其他成员,但可以练习呆板进修步伐来阐发其他范例的植物并顺应其他研究职员的需求。他说,练习 ARADEEPOPSIS 是一项非常耗时的使命,此中包罗传授呆板进修步伐区分『绿色』、『非绿色』和『部门绿色』。」
《The Plant Cell》的助理专题编辑 Anne C. Rea 在为该杂志撰写的《ARADEEPOPSIS 概述》 中写道:「ARADEEPOPSIS 将来的潜伏应用大概是遍及的。ARADEEPOPSIS是可定制的,比现有东西更正确。它还具有高度的通用性,由于它可以处置惩罚大量差别质量和配景构图的差别图像,并实行种种差别范例的丈量。」
Schandry 和 Hüther 也在思量将来的大概性。Schandry 说:「盼望开辟 ARADEEPOPSIS 的移动版本,这对植物学家在该范畴非常有效。」
「我非常盼望看到这将导致什么,盼望逾越模子植物拟南芥,纵然这意味着我们一定为该软件找到一个新名称。」Hüther 增补道。