颜色与物质浓度辨识模型研究
0 引言
比色法是一种比较常用的检测物质浓度的方法[1-3].测试过程是把待测物质先制备成溶液,然后滴在特定的白色试纸表面,让其反应充分之后便可得到一张有颜色的试纸,之后再用标准比色卡和其进行对比,便可测得待测物质的浓度档位了.如果用肉眼进行色卡辨识,由于人眼对颜色的敏感差异和辨识误差,使得这种测试方法的测试精度受到较大影响.考虑能否通过使用照相技术,提取试纸照片中的颜色,来建立颜色读数和物质浓度之间的关系.本文基于2017年全国大学生数学建模C题[4]中给出的颜色读数和物质浓度数据,来解决以下3个问题:(1)根据给出的组胺、溴酸钾等5种物质在不同浓度下的颜色读数,希望通过这些数据来建立颜色读数和物质浓度之间的模型关系,通过模型对这些数据进行分析,评价这5组数据的优劣,并给出相应的评价准则;(2)根据给出的一组二氧化硫的测试数据,建立其颜色读数和物质浓度的数学模型,并讨论模型的误差分析;(3)通过对问题(1)和问题(2)在解决过程中遇到的问题,来探讨数据量和颜色维度对模型的影响.
1 问题分析
1.1 问题1分析
通过对采样的5种物质在不同浓度下的颜色读数数据分析发现,随着物质浓度的增加,各颜色读数的值要么趋于递增,要么递减,说明浓度和颜色读数之间肯定存在某种对应关系,可通过建立多元线性回归模型[5-8]来进行求解.
要评价这5组数据的优劣,重点考虑的因素有两个:一个是同一浓度下的观测样本值的个数,测试的次数越多,就能越接近真实值.另一个是考虑颜色读数的平均标准差,它能够准确地反映各数据与均值间的偏离程度,其计算过程是根据已知数据先计算同一浓度下各颜色读数的标准差,再根据这些标准差数据计算出该物质所有颜色读数的平均标准差,如果这个值越小,说明各数据离均值的整体偏离程度较小,数据就越优.
1.2 问题2分析
对问题2中给出的数据进行分析可以发现,每个不同的浓度下都进行了多次试验,因而同一浓度下的颜色读数对应了多组值.根据样本测试的原理可知,测试次数越多,得到的总体数据就更能准确地反映真实数据.要根据这些数据建立回归模型,有两种思路,一种思路是对同一浓度下的数据,通过最小二乘法或平均值法,求得接近真实数据的值,再用求得的值作为拟合数据进行模型的回归;另一种思路是将所有数据作为拟合数据进行模型的回归,对回归结果进行分析,找出影响模型的异常数据对其进行剔除,然后对剩余数据再次进行回归,反复此过程,直到模型达到一个理想的状态.由于通过剔除异常数据的方法能够获得更加准确的模型进行数据的检验和预测,因此文中拟采用第二种思路进行求解.对于误差的分析,可通过残差图[9]、拟合优度R2、和方差、均方根误差来进行检验和评价.
1.3 问题3分析
问题3涉及到两方面的因素:一个是颜色维度对于模型的影响;一个是数据量对于模型的影响.根据文中给出的5组数据确定颜色读数与物质浓度的关系.可考虑以颜色读数为自变量,物质浓度为因变量,进行多元线性拟合或多元非线性拟合[10-12]的方式来建立颜色读数与物质浓度之间的模型关系.5个颜色读数由变量蓝色B、绿色G、红色R、色调H、饱和度S构成,我们知道由于RGB颜色模型的R、G、B值和HSV颜色模型中的H、R值之间存在对应关系,所以可直接用R、G、B作为自变量,浓度C作为因变量建立3元线性模型,也可通过5个颜色读数建立5元线性模型,还可以建立5元非线性模型.对建立的不同颜色维度的模型进行分析比较,分析颜色维度对模型的影响.
将采样的组胺数据代入模型求解,得到的结果如下:
一般来说,当数据量较小时,异常数据对于模型会产生较大影响,模型的偏差可能会比较大;而当数据量较大时,少量的异常值对模型的影响比较小[13],而且在大量的有效数据中,能够比较容易地发现异常数据并对其进行剔除,进而对模型进行优化.在对问题1和问题2分析解决的基础上,针对其存在的问题,选用数据量较大的数据来进行模型的检验并优化,从而得到能准确反映真实数据的模型.
2 模型的建立与求解
2.1 问题1解决方案
本节主要完成物质浓度与颜色读数关系的分析,并对给出的数据进行优劣性分析.
2.1.1 物质浓度与颜色读数间的关系 物质浓度和颜色读数之间是否存在关系,可以先通过Matlab绘制浓度与各颜色读数间的二维图来进行观察,5种不同物质的物质浓度与各颜色读数关系图如图1所示.
MSE=5.984.
2.1.2 数据优劣的评价 对于给出的5组数据,要评价其优劣,重点从两个方面来进行评价:其一是某一特定浓度下观测数据的多少,观测数据个数的多少直接决定了观测数据的准确程度,某一特定浓度下的一条观测数据很难准确反映真实数据,但一组观测数据能够比较准确地反映真实数据,特别是当数据太少时,一条异常数据会对信息准确度的判断产生很大的影响, 而当数据量较大时,即使其中包含异常数据,也可通过一些方法检测出异常数据并对其剔除,用剩余数据建立拟合度更好的模型;其二是根据平均标准差来进行判断,平均标准差指的是所有样本数据标准差的平均值,它能够从总体上反映整体数据与均值数据之间的偏离程度.
(a)组胺
(b)溴酸钾
(c)工业碱
(d)硫酸铝钾
(e)奶中尿素
图1 5种物质的浓度与各颜色读数之间的关系图
标准差可通过Matlab的统计函数grpstats()进行统计,其计算公式如下:
[meansi,semi,counts,name]=grpstats(Xi,group).
(1)
其中,group为分组向量,Xi为分组求平均值的向量,而在输出项中,meansi为群组平均值向量,semi为组内标准偏差向量,counts为各组项数向量,name为各组的名称向量.
在文中统计给出的数据时,Xi为第i个颜色读数向量,group为浓度向量,meansi为按浓度Y分组后Xi的平均值向量,semi为各组的标准差向量.其平均标准差的值为:
(2)
各物质的平均标准差的值和各浓度下的平均测试次数如表2所列.
在Matlab中编写程序对各组数据的各颜色读数在同一浓度下的颜色读数的标准差以及测试次数进行统计,对组胺数据的求解结果如表1所列.
组胺颜色读数的平均标准差的值为:
Msem=3.3000.
其各浓度下的平均测试次数为:
Mcounts=2.
表1 组胺标准差及测试次数
浓度BGRHS测试次数01.500.50.52212.510.5001.522510002250000.5012100110.50.51.52
其中,sum(counts)表示向量counts各分量的和.
表2 平均标准差与平均测试次数统计
物质名称平均标准差平均测试次数组胺3.30002溴酸钾2.60002工业碱01硫酸铝钾9.06466.16667奶中尿素7.14782.5
对表2中的数据分析可以得出,如果按照平均标准差对数据的优劣进行衡量,若平均标准差越小,则表示整体数据与平均值之间的偏差较小,说明数据整体较优,反之亦然.根据统计结果得数据从优到劣的次序为:工业碱>溴酸钾>组胺>奶中尿素>硫酸铝钾,然而由于工业碱数据在各浓度下的测量值只有一个,所以其无法反应真正数据的优劣,可通过增加测试次数的方式加以解决;如果从测量次数的角度来衡量,应该说同一浓度下的测量次数越多,则获得接近真实数据的可能性就越大,并且能够较容易发现异常数据并对其进行剔除.
2.2 问题2解决方案
2.2.1 多元线性模型的建立与求解 对二氧化硫数据进行分析,可以看到每个浓度下都进行了多次颜色读数的测试.以5个不同的颜色维度为自变量,以物质浓度C为因变量建立5元线性回归模型,即:
在对问题1分析的基础上,本节利用题目给出的数据,建立颜色读数和物质浓度的数学模型,并给出模型的误差分析.下面通过建立多元线性回归模型来解决这个问题.
C=b0+b1*R+b2*G+b3*B+b4*S+b5*H.
(3)
编写程序并将数据导入模型进行求解,得到的回归系数为:
ECMO转机期间,为观察患者氧供与氧耗是否平衡,预防呼吸系统受累,需密切动态监测动静脉血的氧分压、二氧化碳分压[7]。
b=1.0e+003* (2.8463 0.0006 -0.0199 0.0053 -0.0049 -0.0104).
残差r为:
C二氧化硫=2846.3+0.6*R-19.9*G+5.3*B-4.9*S-10.4*H;
(4)
求解得到其他几个参数分别为:
R2=0.8996,SSE=6534.5,MSE=261.3797.
可以看出和方差和均方差都很大,说明拟合效果不理想.其对应的残差图如图2所示.
从图2中可以明显看到第15条数据的残差置信区间不包含0点,表明回归模型还不能很好地拟合原始数据,需要进一步优化模型.
山东省招远市主要种植葡萄、苹果等。金玲镇以种苹果、葡萄为主,为了提出在金玲镇的环境、气候和土壤条件下,提高葡萄产量和品质的科学施肥方案,结合农户的施肥习惯,与农户共同探讨制定了本次试验示范。为云天化“双机源”、“四全”系列复合肥在当地的推广和销售提供相关的数据与依据。
6上105-2工作面顶板结构复杂多变,理论计算参数多且难以获得。从实测矿压数据出发,确定支架合理工作阻力是有效的方法。
2.2.1 模型的优化 由于回归模型不能很好地拟合原始数据,因此需要对模型进行进一步优化.从上图中可以看到第15条数据的残差置信区间不包含0点,可将其视为异常点,对其进行剔除,然后重新进行模型回归,反复迭代,直到所有数据的残差置信区间都包含0点为止.求解过程中残差图的变化过程如图3所示.
图2 二氧化硫原始数据拟合模型残差图
经过6次迭代,得到图3(f)所示的残差图.此时每个数据残差的置信区间都包含0点,说明回归模型能较好地拟合原始数据.
求解得到的回归系数为:
b=1.0e+003* (-3.5946 -0.0003 -0.0010 0.0006 0.0267 0.0009).
从而可得回归模型:
C二氧化硫=-3594.6-0.3*R-G+0.6*B+26.7*S+0.9*H.
(5)
求解得到的其它几个参数分别为:
R2=1,SSE=28.1673,MSE=1.6569.
可以看出拟合效果很好.对六次迭代的参数进行分析比较,结果如表3所列.
(a)原始数据
(b)剔除第15条数据后
(c)剔除第13、14条数据后
(d)剔除第5、7条数据后
(e)剔除第17条数据后
(f)剔除第2、3条数据后
图3 二氧化硫数据拟合模型优化残差图
表3 二氧化硫数据6次迭代拟合参数分析
迭代次数拟合优度R2和方差SSE均方差MSE10.89966.5345e+003261.379720.92504.8717e+003202.988730.97001.9468e+00388.491740.9894627.829331.391550.9916431.595422.715561.0e+003*0.001028.16731.6569
从表中可以看到,在不断迭代的过程中,拟合优度R2的值从0.8996逐渐趋近于1,和方差和均方差的值也在不断减小,这表明拟合的效果越来越好.
2.3 问题3解决方案
本节主要完成颜色读数与物质浓度间关系的数学模型的建立.通过数据拟合的方式分别建立三原色多元线性模型、五色多元线性模型、五色多元非线性模型对题目给出的5组数进行检验,并根据残差、拟合优度R2、平方和误差等评价法则分析模型的优劣.
2.3.1 颜色空间分析 在建立三原色多元线性模型之前,应先对RGB颜色空间和HSV颜色空间进行讨论.RGB颜色空间(见图4)是根据人眼锥状体细胞对不同波长的红色、绿色、蓝色光做出敏感度描述的一种基础彩色模式,R、G、B分别代表图像红色、绿色、蓝色的亮度值, 每一个的取值范围限定在0~255之间.而HSV颜色空间(见图5)是通过颜色的色调H、亮度V和饱和度S来描述颜色的一种方式.色调H(Hue)用来描述颜色的属性,比如红、黄、绿,用角度0~360表示,也可以量化成0~1或0~255;饱和度S(Saturation)用来反映色彩的浓度,如深绿、浅绿,一般取值在0~1之间,也可以量化为0~255;亮度V(Value)表示颜色的亮度,一般取值在0~1之间.
图4 RGB颜色模型
图5 HSV颜色模型
RGB模型与HSV模型之间存在如下转换关系,取R、G、B的最大值max=max(R,G,B),最小值min=min(R,G,B),则:
S=(max-min)/max;
(6)
(7)
V=max(R,G,B).
(8)
使用上述式(7)和式(8)对采样数据进行计算,发现通过R、G、B读数计算的S值和H值与实际测试值误差很小(见表4),由此可考虑之间通过R、G、B三原色读数建立与物质浓度之间的三元线性模型.
1023 静脉溶栓治疗后不明原因早期神经功能恶化相关因素和临床特征分析 黄石仁,沈红健,邢鹏飞,沈 芳,张永巍,吴 涛,邓本强
表4 组胺饱和度读数与计算值对比
浓度(ppm)0100502512.50100502512.5S读数111169155122112115172153126115S计算值111.694169.227154.744123.250112.373116.875173.119155.593127.500116.695残差-0.694-0.2270.256-1.250-0.373-1.875-1.119-2.593-1.500-1.695
2.3.3 三原色多元线性模型及求解 由于R、G、B值与H、S值之间存在对应关系,因此可考虑忽略H、S数据,通过R、G、B读数建立与物质浓度间的三元线性模型.即为
C=b0+b1*B+b2*G+b3*R.
(9)
通过Matlab中的线性回归函数regress()进行多元线性回归拟合,设X1、X2、X3分别为表示B、G、R的三个向量,则构造的拟合表达式为:
因此,在与人工智能创作相关的版权法问题之中,首要问题并不是完全由人工智能独立创作的作品能否受到版权保护的问题,而是如何判断人工智能创作有无自然人参与,以及自然人的参与能否构成版权法承认的创作。只有在解决了这个问题的基础上,才能对人工智能创作中最典型的情形,即创作过程完全没有自然人参与的纯粹“人工智能创作”,进行特殊对待,而把那些实际上由自然人和人工智能共同参与创作原本就能得到版权法保护的作品排除在外。
X=[ones(size(X1))X1X2X3].
为保障淄博市森林防火指挥系统正常运转,确保全市森林防火指挥系统畅通、高效,市森林防火指挥部办公室于11月1日对森林防火通讯指挥系统进行调试,与各区县及市直林场逐一进行信号测试,反复查测通信盲区,重点调试了火情监测、无线通讯等项目,强化各单位之间的连通共享,为实现“纵向贯通、横向互连、实时感知、精确指挥”的一体化指挥体系夯实基础。调试结束后,市森林公安局局长王尊庆对调试情况进行了讲评,对做好下一步防火值班、督导检查、宣传教育、培训演练等工作进行安排部署,并提出了具体要求。
b=182.3872 -0.1718-2.2888 0.6512
从而得到回归模型为:
r=2.2647 3.3955 -1.5524 1.7084-1.9355 2.4004 -0.8745-2.2036 1.3648 -4.5679
stats=0.9952 415.7519 0.0000 9.9740
SSE=59.8441,
从图1可以看到,随着物质浓度的增大,图中各物质所对应的颜色读数整体呈单调变化的趋势,要么递增,要么递减,表明颜色读数与浓度之间是存在对应关系的,通过建立多元线性回归模型来找出这种对应关系.
原材料要求:水泥使用合格袋装水泥;砂含泥量小于5%;砌石的材质坚实、新鲜,无风化剥落层或裂纹,表面无污垢、水锈等杂质。
其中,b为拟合函数的系数向量,r为残差,stats中的第一个参数为拟合优度R2,其值为R2=0.9952,和方差SSE=59.8441,均方差MSE为5.9844.
从而可得拟合函数:
C=182.2872-0.171*B-2.2888*G+0.6512*R.
(10)
绘制的残差图如图6所示.可以看到,残差的置信区间均包含0点,这说明该线性回归模型能较好地拟合原始数据.
在这件文书的右侧下方还有两行汉字,第二行虽然可以辨认出几个字,但无法连缀成文。据额济纳旗博物馆的展览说明,这件文书是个人捐赠的,该馆定名为《“李文奎到任”文书》。“奎”字系“夆”字之误。
将其余4组数据代入模型进行求解,可得到不同物质的浓度函数:
C溴酸钾=152.2913-1.3663*B+7.4619*G-7.1870*R;C工业碱=15.5381+0.0600*B-0.0404*G-0.1013*R;C硫酸铝钾=7.7733+0.0366*B-0.1022*G+0.0049*R;C奶中尿素=1.0e+004*(1.3891-0.0112*B-0.0000*G+-0.0002*R).
图6 组胺数据拟合模型残差图
从图7可以看出,除了奶中尿素的残差的置信区间均包含零点,其余三种拟合的残差置信区间均出现异常值,说明模型需剔除异常数据,对模型进一步进行优化,参照问题2的解决方法完成.
例2.Maybe she is born with it,maybe its Maybelline.(Maybelline)
分析运算结果,各物质浓度拟合函数对应的拟合优度R2、和方差SSE、均方差MSE等评价指标数据如表5所列.
从表5中可以看到,各物质的拟合优度R2、和方差SSE、均方差MSE都呈下降趋势,组胺的拟合优度较高,和方差和均方差的值都较小,说明拟合模型效果较好,溴酸钾的拟合优度值较好,但和方差、均方差的值较大,说明模型存在一定误差.
溴酸钾拟合模型残差图
工业碱拟合模型残差图
硫酸铝钾拟合模型残差图
奶中尿素拟合模型残差图
图7 各组数据拟合三原色线性模型残差图
剩余三组数据的拟合效果都不理想,特别是最后一组数据,误差较大.
由于三原色多元线性模型对于部分数据的求解误差较大,可考虑建立五色5元线性模型或五色5元非线性模型进行求解,基于篇幅限制,本文不再赘述.
冬季采暖模式:冬季采用 35℃左右低温热水采暖,保证室温恒定在18℃~23℃,湿度保持在40%~60%。运行时,地暖循环热水给室内采暖,地暖温足凉顶,舒适度高;风机盘管可以快速制热,满足间歇式采暖需求,也可以与地暖同时开启制热,提高房间温度;具有气候补偿技术,可以保障系统舒适、环保,满足个性化使用习惯。
近年来,临床医生多用多巴胺、左旋多巴、美多巴等治疗帕金森病[6],调节患者的多巴胺到正常水平。美多巴作为治疗帕金森病的有效药物,尽管疗效明确,但不能有效阻止帕金森病发病的自然进程,且具明显的药物不良反应,致使不少患者不能耐受,由于长期治疗药效降低,毒副作用严重而被迫停药;患者体质各异,同时还有其他严重的神经系统疾病或高血压,心脏病等心脑血管疾病等妨碍用药,影响治疗疗效。
“凡事预则立,不预则废”。这句话揭示了前期准备工作的重要性。对于公路工程来说,加强施工管理必须做好施工前的准备工作,为后期的施工现场管理打好基础。首先,在施工前选择科学合理的施工设计方案,一般公路工程施工前会有多种设计方案以供选择,施工单位需要权衡利弊,综合考虑施工环境的复杂性,施工技术要求,工期长短、施工人员配备以及成本预算等因素,从多套设计方案中选择最为科学合理的一套[2]。
3 模型的评价与改进
问题1分析讨论了浓度与颜色读数之间存在关系,通过各颜色读数的平均标准差和测试次数进行数据优劣的评价,评价准则相对单一,可考虑使用其它的评价指标进行数据的评价, 如无偏估计、显著性差异等方法进行评价.
表5 各物质采用三原色线性回归模型后的评价参数
拟合函数拟合优度R2和方差SSE均方差MSE组胺0.995259.84415.9844溴酸钾0.9408740.269274.0269工业碱0.482244.30176.3288硫酸铝钾0.409156.91761.5383奶中尿素1.0e+005*0.00001.7239e+0061.1492e+005
问题2建立了多元线性回归模型来拟合数据,通过不断剔除异常数据的方法重新进行模型的回归,反复迭代,从而使得模型越来越精确,最后得到了一个较好的模型.可考虑用另外一种思路,先对给出的大量数据进行处理,通过剔除异常值以及平均值修正的方法简化数据,再用这些数据直接拟合出较为精确的模型.
问题3采用分别建立了3元线性回归模型、5元线性回归模型和5元非线性回归模型.5元线性回归模型的拟合效果优于3线性回归模型,而5元非线性回归模型的拟合效果又优于5元线性回归模型.但从5组不同数据的检验来看,前3组数据的整体拟合效果都比较好,但第4、5组的拟合效果都不太理想.这是因为前三组数据量较少,而且数据趋于稳定,无大的异常数据,所以能够较好拟合,而第4组数据量较大,拟合效果不好,是因为第4组数据存在较大的异常数据,第五组数据虽然数据量不大,但拟合效果更差,说明异常数据对模型产生了较大影响,可通过剔除异常数据,重新回归模型的方法对模型加以改进.
VCI已被广泛接受且越来越受到重视,其严重影响了人们的生活且加重社会负担。因此,VCI的诊断、治疗显得尤为重要。VCI与脂代谢紊乱尤其是LDL及apoB之间有密不可分的联系,明确这一点具有重要的临床意义。目前,对VCI危险因素的研究较多,但对LDL与apoB及它们之间关系的研究相对较少,仍需大量研究进行探索。未来,早期管理和发现高脂蛋白血症(尤其是LDL)对认知障碍的预防和治疗具有重要作用。
参考文献:
[1]沈继忱,胡晓非.图像比色法检测锅炉水磷酸根浓度的实验研究[J].数字技术与应用,2013(11):64.
[2]李春艳,申贵隽,李建华.数码比色法测定环境及生物样品中的氰化物浓度[J].中国无机分析化学,2012,(2):24-26,51.
[3]沈继忱,王雪晴,刘邦利,等.基于图像比色法的有色溶液浓度检测方法的研究[J].光学仪器,2008(2):9-12.
[4]全国大学生数学建模竞赛网.2017年高教社杯全国大学生数学建模竞赛赛题[EB/OL].(2017-09-14)[2018-01-10].http://www.mcm.edu.cn/html_cn/node/460baf68ab0ed0e1e557a0c79b1c4648.html.
[5]姜启源.UMAP数学建模案例精选[M].北京:高等教育出版社,2015.
[6]张宇山.多元线性回归分析的实例研究[J].科技信息,2009(9):54-56.
[7]王华丽.多元线性回归分析实例分析[J].科技资讯,2014,12(29):22,24.
[8]李艳娇,李瑞敏,陈经伟.多元线性回归的MATLAB实现[J].常熟理工学院学报,2014,28(2):49-52.
[9]朱新岩,史忠科.基于残差特性分析的野值检测与剔除方法[J].飞行力学,2008,26(6):79-83.
[10]代亮,许宏科,陈婷,等.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866.
[11]龚江,石培春,李春燕.巧用Excel解决多元非线性回归分析[J].农业网络信息,2011(1):46-48.
[12]董大校.基于MATLAB的多元非线性回归模型[J].云南师范大学学报:自然科学版,2009,29(2):45-48.
[13]张良均,杨坦,肖刚,等.Matlab数据分析与挖掘实战[M].北京:机械工业出版社,2016.