[摘要] 中药品种及药材中活性成分繁多,采用传统方法进行中药质量检测的任务繁重。该研究提出基于(近红外)光谱技术与互联网平台实现中药(材)质量快速检测的思路。通过开发成本低、便携的多源复合光谱仪实现中药样品光谱的现场快速检测,利用互联网建立企业间共享中药样品光谱与质量检测数据的数据库,采用笔者团队提出的KNN保形映射方法(KNNKSR)预测样品中有效成分含量。以58个银杏叶样品的4台近红外光谱与2台多源光谱信息、以及第三方公开数据库的80个玉米样品的3台近红外光谱信息和样品中主要成分含量信息构成的数据库对上述思路进行验证,并与偏最小二乘(PLS)及模型转移结果进行比较,发现KNNKSR可以在不进行光谱校正的情况下,获得优于传统PLS回归建模的模型移植结果,而PLS方法如果不进行光谱校正,模型移植通常会产生很大误差;多源复合光谱仪对银杏叶总黄酮、总内酯的分析结果与近红外光谱相当,且KNNKSR结果优于PLS。该研究提出的方法和思路有待积累更多类型样品及测试信息进行验证。
[关键词] (近红外)光谱技术; 中药(材)质量; 模型移植; 互联网共享模式
作为一种便捷、无需复杂前处理的绿色快速检测技术,近红外光谱结合化学计量学方法进行样品的定量与定性分析技术在农产品、饲料、石油、烟草、食品、药物的快速质量分析中得到了广泛关注和应用[1],近20年来发展十分迅速。这一原理同样适用于紫外、红外、拉曼等光谱[26]。建立一个稳定、可靠的(近红外)光谱模型通常需要上百个有代表性的样品,定量分析模型还需要采用传统方法测定建模集样品的对应性质,建模工作量很大。模型使用一定时间后还要根据样品及仪器变化情况对建模样品进行评估和调整。多台仪器共享1个模型一直是光谱快检技术追求的目标。但迄今为止,多台仪器共享模型多为研究性报道,实际中主要是某些特定机型在谷类、饲料等一些特定行业和样品可实现模型共享。
随着人民生活水平的提高及经济的发展,国家对药品质量管理和监督要求的日益提高。中药材(饮片)及中成药品种繁多,按照传统的方法进行其质量分析,工作量浩大,成本很高。探索新型中药快检技术十分必要。迄今采用近红外等光谱技术进行中药质量分析的报道,主要是在单台光谱仪器上建立某一药材(成药)中有效成分分析模型[79]或在线检测模型[1011]。笔者认为,不同来源的光谱可提供比单一类型光谱更多更全面的样品信息,采用多源、复合的光谱信息建立模型有助于增强光谱模型的适应性和性能。鉴于代表性中药(材)样品的收集、光谱测试及含量分析需要进行长期的样品及测试数据积累,模型建立和维护的工作量很大,由单个企业来完成建模,难度较大。虽然不同的中药企业的原料品种不同,但存在交集。尤其是一些大类中药原料,如银杏叶、丹参、黄芩、金银花、黄芪等,是很多中成药及相关中药饮片的原料。由各个应用单位分别建立这些中药材、饮片及相关中成药的光谱快速分析模型,是一种资源和信息的浪费。互联网平台和云技术为不同用户间进行数据共享、联合建模或通过第三方平台进行数据服务及模型维护等工作提供了有力的技术支撑,使很多传统行业发生了翻天覆地的变化。利用这一平台进行中药资源、光谱分析模型的共享,实现对中药(材)质量快速检测是一个很有希望的突破口。本研究对本团队在这方面的思考和探索进行简要介绍。
1 研究思路
基于“众筹”模式+“云技术”实现中药数据共享与中药质量快速检测的技术方案见图1。“众筹”的含义是从各企业(可以是药材公司、中成药生产企业、饮片生产企业等)筹集中药样品并获取各样品的质量检测数据与光谱信息:企业按照统一方式对样品进行抽样、前处理(粉碎、干燥、过筛)后采用与服务平台同类型的光谱仪器测试其光谱信息(X),该光谱信息可以是近红外、紫外、红外、拉曼或者其他可以反映样品化学性质的光谱信息,对所抽检、留样的样品按照药典规定方法测试其有效成分含量(Y)并将光谱信息与样品含量信息发送给主机(源机)所在的服务平台建立中药样品数据库,该数据库包含样品光谱信息与有效成分含量信息。每个中药品种应包含50个以上有代表性的样品。平台根据数据库和子机(目标机)发送来的待测样品的光谱信息给出其有效成分含量信息反馈给用户。
实现这一思路的关键在于实现光谱模型的共享(移植),并且有适合中药材现场采购需求的便携、低成本光谱分析仪器。现实中即使是相同型号同一厂家生产的仪器,也难以保证同一样品在2台仪器的光谱信号完全一致,这给不同光谱仪之间共享模型带来了很大困难。传统的做法是以标准样品的源机光谱为基准,对标准样品在目标机上的光谱进行校正(标准化)后,再采用源机所建光谱模型进行待测样品性质的预测。各种光谱校正方法的效果因具体问题而异,当源机光谱和目标机光谱间是非系统性差异时,光谱的标准化效果通常不甚理想。这些X信息(光谱)的差异经回归模型放大后有时会导致目标机的预测误差很大。笔者认为一是可以通过寻找新的数学方法实现不同仪器间的模型共享,二是通过开发低成本、不同仪器间信号高度一致的光谱仪实现模型共享。下面就本团队在这2个关键技术方面开展的工作进行介绍。
1.1 无需进行仪器间光谱校正的模型共享算法
近红外光谱模型移植的研究报道很多[1216],主要是以主机光谱为基准,采用各种数学算法进行子机光谱的校正与标准化。由于不同仪器之间光谱差异千变万化,某个算法可能对某些特定的光谱集校正结果较为理想但未必对其他光谱集适合;传统光谱定量模型以光谱信息为自变量(X),待测性质为因变量(Y),采用各种统计回归方法建立Y与X之间的数学关系后,根据待测样品的光谱信息实现对样品性质的快速预测[1719]。基于这种原理建立模型时,模型输入信息X的微小波动可能对模型的输出性质Y带来较大影响,而模型移植算法很难实现子机与主机光谱信息百分之百的重合,难以完全避免光谱模型移植时误差的传递与放大,可能会出现对子机光谱校正后,模型对某些指标移植结果较为理想但对另一些指标移植结果不佳的情况。如能突破根据已知样本的X与Y之间统计回归关系去预测未知样本性质的思路,有望避免传统建模方法所建模型在不同仪器间共享时误差的传递与放大。本团队提出一种新的根据样品X(光谱)信息预测性质Y的方法并用于近红外光谱模型移植,取得了不错的结果。该方法无需根据已知样本的X,Y信息建立Y与X之间的统计回归关系去预测未知样本的Y值,而是基于如下假设:①具有相似性质的样品在自变量(本研究指光谱信息)空间与因变量(本研究指中药样品的有效成分含量信息)空间都是邻近的。②如果因变量与自变量之间相关性很强,则样本在因变量空间Yn×q,自变量空间Xn×p的分布是相同的。其中n是样本数, p与q分别是自变量与因变量个数。基于该假设,待测样本在X空间与其K个最近邻样本间的关系与其在Y空间K个最近邻样本的关系一样。将基于该假设所提出的根据待测样本在自变量X空间的K个最近邻样本间的关系去预测因变量Y值的方法称为KNNKSR方法(KSR为keep the same relationship both in X and Y space的缩写)[20]。
这一理念不致力于找到Xn×p与Yn×q之间线性或非线性的统计关系、然后根据Y与X之间的关系与待测样本的自变量x→u去预测其因变量y→u,而是尝试构建一个虚拟的自变量向量x→v,x→v是待测样本的K个最近邻样本自变量向量x→的线性组合。该线性组合系数应使x→v与x→u尽可能逼近,采用最优化方法可求得这些系数。根据该线性组合系数得到的待测样本K个最近邻样本y值的线性组合,即为待测样本的y值(y→u)。
设w→=(w1,w2,w3…,wk)T是以x→u为目标在X空间找到的K个最近邻样本自变量向量的线性组合系数,则x→v=x→·w→,w→应满足:minw12‖x→·w→-x→u‖,采用最小二乘最优化方法可以求得w→中的系数w1,w2,w3…,wk。根据保形映射假设,目标样本的因变量值y^1×q=w→T·Yk×q。
本团队采用KNNKSR方法进行不同近红外光谱仪之间模型共享,无需对目标机光谱进行校正,可获得与传统模型移植方法将目标机光谱校正后再共享模型相当或更优的结果,并且该方法在各种情况下的结果都很稳健。
1.2 低成本便携式多源复合光谱分析仪的开发
目前商用滤光片型、光栅扫描型、傅里叶变换型近红外光谱仪含有移动部件,不利于波长的稳定与重现,仪器的使用环境要求较高;发光二极管(LED)型、声光可调滤光器型(AOFT)及阵列检测器型近红外光谱仪无可移动部件,但存在覆盖波长范围有限、分辨率低、仪器间一致性较难保证,对环境温度要求很高等不足[1]。无论何种类型的(近红外)光谱分析仪器,其共同特点是价格昂贵:即使是价格较低的便携式仪器,一般也要10万元左右1台。传统的分子光谱仪光学系统复杂、采用固定参比、线性范围窄、信号损失大,仪器间信号的一致性较难保障,导致大量的数据难以共享和产生更高价值。本团队的研究发现,同类样品采用红外或紫外光谱信息可获得与近红外光谱分析相当的结果[21]。如果能综合不同类型光谱信息开发低成本、仪器间信号一致性好的便携式光谱分析仪,获得与现有光谱仪器相当的分析结果,将有助于应用光谱技术在中药等领域的快速质量检测。本团队根据不同中药样品对不同类型光谱的吸收特点,选取300~1 000 nm的紫外、可见及近红外等7个波长,以LED为光源获得对应的反射光强度,开发了一种基于蓝牙芯片的便携式多源复合光谱分析仪[22],该仪器每1个光源对应1个接收器,无移动部件,可保障仪器信号的稳定性及仪器间信号的一致性;单波长(多波长)分光光度计只能提供固定波长下某一试剂为参比的吸收值,多源复合光谱分析仪不以单一固定的试剂作为参比,而是以样品本身作为参比,通过改变参比波长形成一系列参比信号,可提供多于波长通道的复合光谱信息,具有多波长分光光度计和单一类型光谱仪所没有的优势和特点。其制造成本低、使用方便。
2 案例验证
2.1 样品与前处理
收集了产自湖北、四川、江苏等地的58个银杏叶样品。根据《中国药典》2015年版所示方法测定银杏叶黄酮、内酯。样品中有效成分含量信息见表1。每个样品粉碎机粉碎后过80目筛,放入烘箱中40 ℃下烘2 h后置于干燥皿中待测。另外,以网上数据库[23]下载的80个玉米样品中营养成分(水分、油脂、淀粉及蛋白质)含量预测为背景,根据该数据库提供的3台近红外仪的光谱信息考察1.1项所介绍KNNKSR方法模型移植效果并与PLS结果进行比较。
2.2 仪器与光谱采集
选取3台近红外仪作为模拟“众筹”模式的样品提供方所采用的子机(目标光谱仪,Slaves),以华东理工大学所属的近红外仪为主机(源机,Master),考察仪器自身建模及模型共享(移植)效果。仪器信息见表2。取粉末样品约2 g,置于石英样品杯中,以空气做为参比,采用积分球漫反射部件测试样品在4 000~1万 cm-1(波长1 000~2 500 nm)的近红外光谱,分辨率8 cm-1,重复扫描32次后取平均光谱值,增益值2,温度室温。
分别采用本实验室开发的两台多源复合光谱仪,测试各银杏叶样品的多源复合光谱信息,考察该仪器自身模型预测及共享模型(移植)效果。将样品置于样品槽中后用盖压实,采用手机APP实现对仪器的操作和光谱信息采集。所采集的光谱数据上传到服务器,用户可从服务器下载数据进行建模和处理。
2.3 光谱定量分析模型的建立与模型移植评价
2.3.1 校正集样本的筛选 选择数目较少但有代表性、覆盖面宽的样本建立模型,比采用所有样本建立模型往往具有更好的效果。KennardStone(KS)算法[24]是一种应用广泛的样本选取方法:以光谱间的欧氏距离为基础,将光谱差异大的样本选入校正集,其余样本归入验证集。该方法能保证校正集样本按照空间距离均匀分布,但对于含量(浓度)低的样本,光谱变化很小,KS方法选出的样本往往不具有代表性。由Galvo 等提出的SPXY方法[25], 在计算样品间距离时同时考虑x变量和y变量的影响,改善了模型的预测能力[26]。实践亦表明采用SPXY方法挑选校正集时模型结果优于KS方法挑选校正集的结果。故本研究采用SPXY方法筛选校正集。
2.3.2 光谱模型的建立与移植 以近红外仪A为源机,其余3台为目标机,考察不对目标机光谱进行校正以及采用PDS方法[22]对目标机光谱进行校正的情况下,PLS回归模型及KNNKSR方法预测检验集样本的银杏叶总黄酮、总内酯的均方根残差RMSEP及相对平均误差MRE;以多源复合光谱分析仪a为源机,b为目标机,比较不对目标机的复合光谱信号进行校正与标准化时,PLS回归模型及KNNKSR方法预测检验集样品的银杏叶总黄酮、总内酯的均方根残差RMSEP及相对平均误差MRE。进一步采用网上公布的第三方玉米测试数据[23],采用上述思路比较KNNKSR方法与PLS回归模型在不同近红外仪之间共享模型的结果,并与文献[14]分析结果进行比较。光谱信息采用SNV方法预处理,本研究所有算法基于MATLAB平台实现。
2.4 结果与讨论
2.4.1 银杏叶总黄酮和总内酯光谱模型及模型传递结果比较 采用SPXY方法从58个银杏叶样品中选取42个作为建模集,剩余16个作为检验集,以近红外仪A为源机,近红外仪B,C,D为目标机,对银杏叶总黄酮及内酯预测,结果见表3;以多源复合光谱仪a为源机,b为目标机,对银杏叶总黄酮及内酯预测,结果见表4。由表3可知,根据近红外光谱采用PLS方法预测银杏叶总黄酮、内酯含量时,源机检验集均方根残差RMSEP及相对平均误差MRE均很理想,如果不对目标机近红外光谱进行校正,PLS模型传递时误差很大;采用PDS方法对目标机光谱校正后,PLS模型传递后误差降低到与源机模型相当的水平;采用KNNKSR方法时,光谱校正后RMSEP,MRE反而大都高于校正前之值。无论是否进行目标机光谱校正,该方法得到的RMSEP,MRE大都低于采用PDS进行光谱校正后PLS的结果。表4表明,采用多源复合光谱信号时,PLS模型预测银杏叶总黄酮的RMSEP,MRE及总内酯的RMSEP均不及KNNKSP小,但其预测总内酯的MRE低于KNNKSR;对目标机b的光谱信号进行校正可改进PLS的结果但使KNNKSR结果变差。
2.4.2 玉米中油脂、蛋白、淀粉、水分近红外光谱模型及模型传递结果的比较 文献[23]提供了3台近红外仪m5/mp5/mp6上测定的80个玉米样品的光谱及样品中水分、油脂、蛋白质、淀粉含量数据。本研究采用SPXY方法选取54个样品作为建模集,剩余26个为预测集,以近红外仪mp6为源机,其余2台为目标机,考察不对目标机光谱进行校正以及采用PDS方法[22]对目标机光谱进行校正的情况下,偏最小二乘(PLS)回归模型及KNNKSR方法预测检验集样本中油脂、蛋白、淀粉及水分的均方根残差RMSEP及相对平均误差MRE,结果见表5。根据该表可知,源机所建模型以自身光谱为检验集时,PLS的结果略优于KNNKSR但二者的均方根残差及平均相对误差差异不大。以目标机光谱为检验集时,如果不对检验集光谱进行校正,根据mp6建模集光谱所建PLS模型转移至m5光谱仪时油脂、蛋白、水分及淀粉的平均相对误差MRE分别高达15.0%,13.0%,11.5%,5.1%;而KNNKSR方法所得检验集样品中油脂、蛋白、水分及淀粉的平均相对误差MRE仅为4.00%,2.18%,1.91%,0.73%,大大优于PLS模型结果。m5检验集光谱采用PDS方法校正后,PLS模型和KNNKSR结果差异不大。
3 结论与展望
本研究提出采用互联网+“众筹”模式构建中药样品光谱与质量检测数据库,利用无需光谱校正的KNNKSR算法实现不同仪器间光谱模型的共享、进行中药质量快速分析的思路。受实际条件的限制,以及为排除不同单位色谱分析仪器型号、测试条件不同以及用于光谱检测和色谱分析时样品不完全对应所造成的误差,本研究采用模拟方式再现互联网+“众筹”模式来形成中药样品光谱与质量检测数据库,银杏叶样品中的光谱及含量检测数据均由本实验室完成。不同用户众筹实现中药样品库共建需要规范采样、留样、光谱及成分分析的方法和条件,保证光谱测试与成分分析样品的一致性,并且要求用户拥有的光谱仪信号有良好的一致性。本研究的初步尝试表明采用所考察的几种近红外机型以及本团队所开发的多源复合光谱仪,基于KNNKSR方法利用光谱信息进行银杏叶、玉米中主要成分的检测,可在不进行光谱信号校正的情况下实现不同仪器间模型的移植(共享)。由于中药样品收集、成分测试需要较多时间积累相关数据,本研究所提出方案对于其他类型样品的适应性有待后续工作就更多品种样品进行验证。
此外,多源复合光谱仪还处于试制阶段,本研究未能就多个多源复合光谱仪间模型共享进行考察,该仪器的硬件及软件还需进一步改进,以满足实际应用的要求。
[致谢] 银杏叶样品由康恩贝中药有限公司,上海华宇药业有限公司,邳州中大银杏公司提供;近红外仪由上海烟草集团,上海市动物疫病预防控制中心兽药检测所,华东理工大学上海市先进材料重点实验室提供。
[参考文献]
[1] 褚小立,刘慧颖,燕泽程. 近红外光谱分析技术实用手册[M]. 北京:机械工业出版社,2016:15,163.
[2] 申云霞,赵艳丽,张霁,等. 红外光谱在中药质量研究中的应用[J]. 世界科学技术——中医药现代化,2015,17(3):664.
[3] 金鹏程,张霁,沈涛,等. 传统中药灵芝及其伪品的紫外光谱特征分析[J]. 分析测试学报,2015,34(10):1113.
[4] 苏松柏,张永萍,张丽丽,等. 拉曼光谱在中药质量控制中的应用[J]. 中国实验方剂学杂志,2011,17(8):284.
[5] 韩斯琴高娃,哈斯乌力吉,林翔,等. 利用拉曼光谱技术检测中蒙药中朱砂的研究[J]. 光谱学与光谱分析,2015,35(10):2773.
[6] 邹小波,黄晓玮,石吉勇,等. 银杏叶总黄酮含量近红外光谱检测的特征谱区筛选[J]. 农业机械学报,2012,43(9):155.
[7] 白雁,刘乐,王东,等. 近红外光谱技术对黄芩浸膏中黄芩苷含量的快速检测[J]. 中成药,2009,31(9):1375.
[8] 周旻,王天志,叶利明,等.近红外漫反射光谱法测定川产黄柏中小檗碱含量[J]. 光谱学与光谱分析,2007,27(8):1527.
[9] 黄倩倩,潘瑞乐,魏建和,等. 近红外漫反射光谱法测定黄芩中总黄酮及黄芩苷的含量[J]. 光谱学与光谱分析,2009,29(9):2425.
[10] 米慧娟,王秀海,杨绪芳,等. 天舒胶囊乙醇提取过程的近红外光谱快速测定方法研究[J]. 中国中药杂志,2016,41(4):677.
[11] 杨辉华,郭拓,马晋芳,等. 一种近红外光谱在线监测新方法及其在中药柱层析过程中的应用[J]. 光谱学与光谱分析,2012,32(5):1247.
[12] Zheng K Y,Du Y P,Liang Y Z,et al. Application of canonical correlation analysis (CCA) to correct NIR spectra measured on different instruments and in different measurement dates[J]. Compt Appl Chem,2013,30(3):246.
[13] Chen W R,Zhan Z M,Liang Y Z,et al. Calibration transfer via an extreme learning machine autoencoder[J]. Analyst,2016,141:1973.
[14] Liu Y,Cai W S,Shao X G,et al.Standardization of near infrared spectra measured on multiinstrument[J]. Anal Chim Acta,2014,836: 18.
[15] 王家俊,者为,邵学广,等. 基于拓展光谱的近红外光谱模型转移方法[J].中国烟草学报,2014,20(6):1.
[16] Feudale Robert N,Nathaniel A Woody,Huwei Tan,et al. Transfer of multivariate calibration models:a review [J]. Chemom Intell Lab Syst,2002,64:181.
[17] Richard A Jonson, Dean W Wichern.实用多元统计分析[M]. 陆璇,葛余博,赵衡秀,等译.北京:清华大学出版社,2003:284.
[18] 梁逸增,俞汝勤. 分析化学手册.第10分册——化学计量学 [M]. 2版.北京:化学工业出版社,2000:49,209,343.
[19] Wold S,Sjostrom M,Eriksson L.PLSregression:a basic tool of chemometrics[J]. Chemom Intell Lab Syst,2001,58:109.
[20] 倪力军,曾晓虹,张立国. KNNKSR建模方法及其在卷烟主流烟气预测中的应用[J]. 华东理工大学学报:自然科学版,2008,34(4):547.
[21] 张鑫,郭佳,倪力军,等. 基于红外与近红外光谱的烟叶部位识别[J]. 光谱学与光谱分析,2007,27(12):2437.
[22] 倪力军,赵群,张立国,一种多源光谱仪:中国,201610214067.4[P]. 20160408.
[23] NIR of Corn Samples [EB/OL]. (20050601). http://software.eigenvector.com/Data/Corn/index.html.
[24] Kennard R W,Stone L A. Computer aided design of experiments[J]. Technometric,1969,11(1):137.
[25] Galvo Roberto Kawakami Harrop,Araujo Mário César Ugulino,José Gledson Emidio,et al. A method for calibration and validation subset partitioning[J]. Talanta,2005,67:736.
[26] 刘伟, 赵众, 袁洪福,等. 光谱多元分析校正集和验证集样本分布优选方法研究[J]. 光谱学与光谱分析, 2014,34(4):947.
[责任编辑 孔晶晶]