快捷分类

基于深度学习的食物卡路里估算方法

更新时间：2009-03-28

摄入过多的卡路里会导致肥胖，进而会诱发各种疾病，如心脏疾病、Ⅱ型糖尿病、阻塞性睡眠呼吸暂停以及骨关节炎等[1]。目前，全球的肥胖形势日益严峻，到2025年，将会有18%的肥胖男性和超过21%的肥胖女性[2]。这就要求肥胖人群减少卡路里的摄入，控制自身体重，对每个食物进行称重并查找该食物的营养成分信息，然后计算并记录该食物的卡路里。该过程非常繁琐，但随着现代智能设备以及可穿戴设备的迅速发展，研究人员已经开始研究采用计算机视觉从食物照片估算卡路里，从而简化该过程。食物卡路里估算既可以为肥胖症病人提供便利，也可以为健康人群控制卡路里摄入提供参考。

从食物照片估算卡路里一般有以下步骤：获取照片、食物与标定物的检测、以及体积与卡路里估算。照片的获取设备一般为相机、手机等智能移动设备，亦可通过可穿戴设备[3]获取。拍摄的照片中必须包含标定物，如校准卡[4]、盘子[5]、餐桌背景纸[6]、手指[7]等。标定物用于计算图像中一个像素对应的真实大小。通过算法检测出图像中的食物和标定物后，可以估算食物的体积，再根据食物的类别查找对应的食物密度表和营养成分表来估算卡路里。在此过程中，卡路里估算的准确性主要由两个因素决定：目标检测算法和体积估算方法。

对于食物的检测，一般先采用图像分割算法，再利用分类算法完成，但现有方法对食物的检测结果精度不高。目前，深度学习已经在图像识别、语音识别等各个领域广泛应用，近期深度学习算法已用于诊断皮肤癌[8]。因而，利用高效的深度学习算法代替现有的目标检测算法可以有效地提高检测准确性。

对于体积估算，一般利用标定物和估算公式完成。标定物用于计算像素真实大小，可根据自身特性进行检测。目前，食物的体积估算公式分为两种：(1)将所有食物利用单一体积公式(如长方体计算公式)进行计算[9]，这种方式实际上无法准确估算其他形状物体；(2)由用户手动选定模型公式进行计算[10]，这种方法需要用户手动选择，使用极其不便。

针对食物卡路里估算方法在目标检测和体积估算两个方面存在的问题，本文提出了一种基于深度学习的食物卡路里估算方法。该方法以食物的俯视图和侧视图作为输入，用深度学习算法Faster R-CNN[11]进行目标检测，以提高食物识别准确率，并通过对不同食物采用不同的体积估算方法以提高体积估算准确性。

狠抓落实以优异成绩向新时代献礼 ..................................................................................................................1-1

1 食物卡路里估算系统框架

其他形状采用式(8)进行体积估算。

图1 卡路里估算系统框架图Fig.1 Architecture of calorie estimation system

为了估算食物的卡路里，本文方法需要用户提供用照相设备拍摄的待估算卡路里食物的俯视图和侧视图各一张，而且这两张图中需要有标定物。尽管采用单张食物照片[10]亦能估算卡路里，但是对于某些拍摄角度，很难获得食物的形状、厚度(高度)等关键信息，因而体积估算误差会较大，如拍摄俯视图时会丢失食物的厚度信息。

在获得俯视图和侧视图后，需要检测图中的食物和标定物。本文采用Faster R-CNN目标检测算法，它能标记目标的位置和类别。

经过Faster R-CNN处理后，食物和标定物的位置已经获得，虽然也能直接进行体积估算，但考虑到获取更精确的食物边缘有助于体积估算结果的准确性，用图像分割方法获得食物的准确轮廓是有必要的，本文采用GrabCut 图像分割方法[12]。GrabCut是基于图论的图像分割算法，它需要用户画矩形框标记前景区域和背景区域，但由于Faster R-CNN已经获得了食物、标定物的所在区域，因此并不需要用户参与就可以直接进行图像分割。在完成分割后，可以得到准确轮廓。

根据食物的俯视图和侧视图，通过查询食物形状表(该表用于定义食物的形状)选择对应的计算公式进而估算得到食物体积V，通过查询对应食物的密度表获得密度ρ，根据式(1)获得食物质量m。

m=ρ×V

(1)

通过查询对应食物的营养成分表获得该食物单位质量的卡路里c，由式(2)可估算出该食物的卡路里C。

C=c×m

(2)

2 基于深度学习的目标检测算法

由于照片中食物和标定物的数目、位置不定，若采用分类算法[13]，不仅无法应对照片中有多个食物的状况，也不能确定食物在照片中的位置，因此需要采用目标检测算法。

传统的目标检测算法包含以下3个步骤：区域提取、特征提取、分类。输入图像中，候选窗的生成采用滑动窗口的方式，将一张图像分解成若干个候选区域(即可能为前景的区域)，对每个子窗口提取特征，使用分类器进行判别。传统的目标检测算法速度慢、检测精度低。近年来，基于深度学习的目标检测算法不断被提出并取得了很好的检测效果。

试点期间，永康建成并运行日处理垃圾800 t的垃圾焚烧电厂，总投资为2.47亿元。为满足日最大处理能力要求，不仅将日产城乡垃圾，还将填埋场的部分陈年垃圾用于焚烧处理。同时，对城区的建筑垃圾进行回收再利用，通过粉碎后用于预制品材料和场地、道路平整填料等。

Faster R-CNN是一种基于深度学习的目标检测算法。如图2所示，它包含一个区域生成网络(Regional Proposal Network，RPN)和一个Fast R-CNN[14]。其中RPN用于生成候选框(即标记出图像中可能是目标的区域)，它的输入是RGB图像，输出为一系列候选框以及每个候选框属于前景和背景的概率。利用非极大化抑制(Non-Maximum Suppression, NMS)[15]方法，只提取300个候选框作为检测的对象。而Fast R-CNN用于检测。

图2 Faster R-CNNFig.2 Faster R-CNN

Faster R-CNN的训练过程如下：

(1) 用ImageNet模型初始化，独立训练一个RPN网络。

(3)压溃力效率CFE(Crush force efficiency)，即平均压溃载荷Pm与初始峰值载荷Pmax的比值。对于理想吸能结构，CFE=1。

People come to the OASIS for all the things they can do. But they stay because of all the things they can be. Tall, beautiful, scary and different sex, and different 17)species, live actions, cartoon. It’s all your call.

(3) 对于RPN与Fast R-CNN共享的网络层，使用步骤(2)生成的Fast-R-CNN网络参数替换；对于两个网络不共有的网络层，则采用默认的方法初始化，然后再次训练RPN，但只更新RPN特有的那些网络层。

(4) 固定Fast R-CNN与RPN共享的网络层，利用步骤(3)训练得到的RPN的输出继续训练Fast R-CNN，训练过程中也只更新Fast R-CNN特有的网络层参数。

Faster R-CNN对于图片的大小没有限制，相较于目前大多数目标检测算法，其平均精度也较高。对于一幅RGB图像，Faster R-CNN的检测步骤如下：

除去初始化所需时间，对于一组食物图片(仅包含一个食物和一个标定物，每张图片大小为816×612)，用本文方法估算卡路里平均耗时 0.52 s，其中对两张图片的目标检测所花费的时间为 0.17 s。

输入包含食物和标定物的RGB图像

(1) 输入经过RPN后，获得若干候选框；对于每个候选框，RPN亦输出该候选框属于前景(即可能的目标)的概率。

通过采用适配器模式对采集模块进行封装设计之后，首先，避免了该测控系统的高层模块直接依赖于采集卡厂商提供的库函数，当需要更换采集卡或增加新的采集卡时，不需要对代码进行大范围的修改，从而增强了此试验台测控系统软件的灵活性和维护性；其次，可以同时对上层软件和底层适配器进行编写，极大提高了软件的开发效率。

(2) 将RPN输出的候选框按照输出的前景概率进行排列，仅保留大于阈值(0.8)的候选框。

(3) 用非极大化抑制方法对步骤(2)获得的候选框进行处理，以减少重叠面积过大的那些候选框。

(4) 将经过步骤(3)保留下来的候选框作为Fast R-CNN的输入，判定每个候选框内图像的类别，并对那些判定为目标(即非背景)的候选框进行位置调整。

输出 Fast R-CNN判定为目标的候选框序列以及每个候选框对应的类别

俯视图和侧视图分别经过Faster R-CNN处理后，可以得到照片中食物、标定物的类别和位置，以便于进行后续的操作。

3 体积估算方法

3.1 体积估算流程

本组108例（130处）女性乳腺肿块患者均为我院2014年1月—2015年3月的收治对象，均接受临床活检或手术病理确诊，且可触及乳腺肿块。年龄21～73岁，平均（52.8±6.5）岁；病变性质：良性58例，恶性50例。所有患者资料均完整，对本研究均知情同意，既往无乳腺整形史及胸部放化疗史。

算法2 基于形状的食物体积估算

输入食物俯视图、食物侧视图、标定物俯视图、标定物侧视图

(1) 依据标定物侧视图计算侧视图比例系数PB。

(2) 依据标定物俯视图和PB计算俯视图比例系数PA。

(3) 根据食物类别判定食物形状。

(4) 根据食物形状选取体积计算公式，结合PA、PB、食物俯视图和侧视图计算食物体积。

输出食物的体积

3.2 比例系数的计算

为了估算体积，必须获得照片中一个像素对应的真实大小。标定物的检测可利用目标检测算法检测，亦可根据标定物的特性进行检测，例如对于圆形的标定物可以利用霍夫变换检测图像中的椭圆获取。

下面先简要介绍MPRM逻辑，然后介绍信号概率计算方法.本文信号概率的计算基于零延迟模型以及信号时间不相关假设.

2)γMg/γCa系数。由表3的γMg/γCa系数结果可知，几乎所有的水样的γMg/γCa都小于1,远小于海水中的γMg/γCa=5。说明榆林市矿区地下水主要受大陆溶滤水演化的影响。

图3所示为侧视图示意图。其中，O′为镜头所处位置。MN为食物长度，M′N′为食物长度在照片中对应的长度；MP为食物高度，M′P′为食物高度在照片中对应的长度；C′D′为标定物中已知的某段长度，A′B′为C′D′在照片中对应的长度。记侧视图中一个像素对应的实际大小为PB，通过构造相似三角形，采用式(4)计算PB。

(3)

图3 侧视图拍摄示意图Fig.3 Schematic diagram of shooting side view

图4 俯视图拍摄示意图Fig.4 Schematic diagram of shooting top view

图4所示为俯视图示意图。其中O为镜头所处的位置；CD为标定物中某段已知长度；AB为该标定物这段长度在照片中对应的长度(即像素的个数)；MN为待测食物的(最大)宽度；MP为待测食物的高度；GH为食物的宽度在照片中的长度。记俯视图中一个像素对应的实际大小为PA，通过构造相似三角形，采用式(5)计算PA，式(4)计算得到的PB用于校正PA。

(4)

3.3 体积估算方法

用手机拍下部分食物的俯视图和侧视图，并用一元人民币作为标定物，同时记录了每个食物的体积，食物的体积通过排水法测得。

假设经过检测和分割后，得到了某个食物的俯视图A(如图5(b)所示，图中深色的方块代表食物所占用的像素，白色的方块代表背景像素)和侧视图B(如图5(c)所示)。设在俯视图A中，该食物占m行，其中第i(i=1,2,…,m)行该食物占个像素。记食物所占的像素个数

图5 体积估算示意图Fig.5 Schematic diagram of volume estimation

设在侧视图B中，该食物占n行，第j(j=1,2,…,n)行该食物占个像素。记最大长度食物所占的像素个数

对于图像分割后的子图像，根据算法判定的食物类别，分别采用以下公式进行体积估算：

食物形状为椭球体

(5)

食物形状为柱体

(6)

图6 甜甜圈体积估算示意图Fig.6 Schemati diagrams of volume estimation of doughnut

食物形状为圆环体(亦称胎体)时，记圆环体食物俯视图中的中空部分(参见图6(b)中黄色的区域，该图中红色部分表示食物占用的像素，而蓝色部分和黄色部分均为背景)所占用像素数量为sAE，用式(7)估算体积。

(7)

卡路里估算系统框架如图1所示，其流程包含以下步骤：照片获取、检测、分割、体积估算、卡路里估算。首先对获取的照片进行目标检测，从而检测出食物以及参照物，再利用图像分割算法获取准确的食物轮廓；然后根据参照物以及食物轮廓计算食物体积；最后通过查找食物相关信息估算食物的卡路里。

(8)

4 实验

将食物形状分为4种类型：椭球体、柱体、圆环体、其他形状。根据食物的形状，利用该食物的俯视图和侧视图构建三维模型，从而进行体积估算。

实验所用机器型号为中科曙光A650。实验平台为Windows 7(64位)，显卡型号为英伟达GTX1070。Faster R-CNN代码基于Matlab以及 C++，GrabCut图像分割以及体积估算代码基于 C++。Matlab版本号为R2014b，Visual Studio版本号为2013，opencv版本号为3.0，CUDA版本号为 8.0。

20世纪末以来，基于全球价值链的国际分工已经成为全球化的主要承载形式，它的突出特点之一是贸易一体化。目前，国内中小企业在国际分工和全球价值链中长期处于从属地位，面临较为严重的“低端锁定”效应、核心技术受制于人、缺乏渠道话语权等问题。而跨境电商作为国际贸易的一种新业态、新模式，促进中小企业融入全球价值链。与传统的国际贸易方式相比，跨境电商依托跨境网络交易平台将国内生产者和国外消费者直接对接，拓宽了国际市场营销渠道，借助高端信息技术增强了企业参与全球资源配置的能力，通过减少中间环节、缩短贸易距离、降低中间成本等提升了国际贸易流程效率，以提高中小企业在全球价值链中的参与程度和收益水平。

以俯视图和侧视图作为输入，输出卡路里估算值，并计算与真实值的误差。限于实验条件，无法获取卡路里真实值，因此仅验证到体积估算这一步，即比较估算的体积与参考体积之间的误差。

经过检测和分割后，食物和标定物的精确轮廓已经获得，利用标定物计算比例系数，然后可以进行体积估算。通过对不同食物按照形状进行体积估算可以减少误差，提高卡路里估算准确性，该算法的流程如下：

对19种常见食物进行了估算实验。目标检测对象包含：苹果、香蕉、面包片、馒头、甜甜圈、鸡蛋、麻花、葡萄、柠檬、荔枝、芒果、月饼、橙子、油桃、梨、黑布林、猕猴桃、沙琪玛、番茄，样本总数合计为2 978张，其中训练样本数目为1 245张，测试样本数目为1 733张。

在用训练集对Faster R-CNN进行训练后，对测试集的样本进行了体积估算实验。在体积估算实验中，只采用Faster R-CNN在测试集中正确检测的图片对(一对图片包含一张俯视图和一张侧视图)，所用到的各类图片样本数目参见图7。剔除Faster R-CNN误识别或者未识别的样本后，体积估算实验所用的各类样本数参见图7。体积估算的评价标准为平均误差ME。

(9)

其中，i表示食物类别，用于体积估算实验的图片总数为2ni。由于本文方法需要俯视图和侧视图才能估算体积，所以体积估算的结果总数为ni。对于第j次体积估算，vj表示本文方法得到的体积，Vj表示真实体积。

大型机械压力机为曲柄滑块机构，在滑块运行到上死点的瞬间，齿轮副啮合位置换向，须补偿一个间隙量（在没有平衡装置的机构中特别明显），间隙值太大容易造成打齿，啮合时有冲击，噪声明显增高。由于齿轮标准GB/T10095-2008中，齿轮的加工误差和安装误差、齿厚公差、中心距公差等随机变量对齿侧间隙的影响成概率分布，大量生产中符合正态分布规律，但在实际装配中可能出现最大法向间隙，所以合理地控制齿侧间隙尤为重要。

体积估算的结果如图 8所示。从图8中可以看出，除了香蕉、葡萄、月饼这3类食物外，本文方法的估算结果与真实值之间的误差不超过±20%，而且部分食物(如猕猴桃)的估算结果与真实值非常接近，这表明本文提出的体积估算方法是有效的。对于那些误差较大的食物，则可以通过对原来的体积计算公式附加补偿系数等方式降低体积估算误差。

算法1 基于Faster R-CNN的食物及标定物检测

图7 各类别训练样本数同、测试样本数目以及卡路里估算所用样本数目Fig.7 Training image numbers, testing image numbers and image numbers involved in food calorie estimation experiment for each type

图8 体积估算结果Fig.8 Volume estimation results

5 结束语

本文提出了一种基于深度学习的食物卡路里估算方法。该方法需要包含食物和标定物的俯视图、侧视图各一张。深度学习算法Faster R-CNN的应用可以提高检测的准确性，而通过对不同食物采用不同的体积估算方法可以使体积估算结果更接近真实值。实验结果表明本文的体积估算方法能为患者控制卡路里摄入提供正确的参考。

接下来的工作主要集中在以下几个方面：

(1) 尝试对其他种类的食物进行实验，并改进本文的体积估算方法；

(2) 进行移动应用开发，为用户提供卡路里估算服务。

参考文献：

[1] ZHENG W, MCLERRAN D F, ROLLAND B, et al. Association between body-mass index and risk of death in more than 1 million Asians[J]. New England Journal of Medicine, 2011, 364(8): 719-29.

[2] DI C M, BENTHAM J, STEVENS G A, et al. Trends in adult body-mass index in 200 countries from 1975 to 2014: A pooled analysis of 1698 population-based measurement studies with 19.2 million participants[J]. Lancet, 2016, 387(10026): 1377-1396.

(2) 用ImageNet模型初始化Fast R-CNN，并用RPN网络的输出作为Fast R-CNN的输入，训练一个Fast-R-CNN网络。此时，两个网络每一层的参数完全不共享。

[3] ANTHIMOPOULOS M M,GIANOLA L,SCARNATO L, et al. A food recognition system for diabetic patients based on an optimized bag-of-features model[J]. IEEE Journal of Biomedical and Health Informatics, 2014, 18(4): 1261-1271.

[4] PURI M, ZHU Z, YU Q, et al. Recognition and volume estimation of food intake using a mobile device[C]//2009 Workshop on Applications of Computer Vision (WACV). USA: IEEE, 2009: 1-8.

[5] SUN M, LIU Q, SCHMIDT K, et al. Determination of food portion size by image processing[C]//Engineering in Medicine and Biology Society, 2008.EMBS 2008.30th Annual International Conference of the IEEE. USA: IEEE, 2008: 871-874.

[6] 宋成琳, 王文媛, 刘箫, 等. 即时性图像法膳食调查技术应用于学龄前儿童膳食调查的效果评价[J]. 中国儿童保健杂志, 2015, 23(7): 684-688.

[7] VILLALOBOS G, ALMAGHRABI R, POULADZADEH P, et al. An image processing approach for calorie intake measurement[C]//IEEE International Symposium on Medical Measurements and Applications Proceedings. USA: IEEE, 2012: 1-5.

[8] ESTEVA A, KUPREL B, NOVOA R A, et al. Dermatologist-level classification of skin cancer with deep neural networks[J]. Nature, 2017, 542(7639): 115-118.

[9] POULADZADEH P, SHIRMOHAMMADI S, AL-MAGHRABI R. Measuring calorie and nutrition from food image[J]. IEEE Transactions on Instrumentation & Measurement, 2014, 63(8): 1947-1956.

2.1 疼痛质检人员组成疼痛质量控制小组成员共5名，其中组长1名(副主任护师)，负责组织协调和资料的统计分析；组员4名(主管护师3名，护师1名)，负责具体实施和资料的收集。

[10] JIA W, CHEN H C, YUE Y, et al. Accuracy of food portion size estimation from digital pictures acquired by a chest-worn camera[J]. Public Health Nutrition, 2014, 17(8): 1671-1681.

根据中国移动的预判，到2020年5G规模商用阶段，商用终端品类有望达到60款以上，5G手机的门槛可能降至1000元以上级别。而随着5G手机价格降至1000元，其普及率也将大幅提升。

[11] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. Canada: ACM, 2015: 91-99.

[12] ROTHER C, KOLMOGOROV V, BLAKE A. GrabCut: Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics, 2010, 8(1): 170-173.

[13] KAGAYA H, AIZAWA K. Highly accurate food/non-food image classification based on a deep convolutional neural network[C]//International Conference on Image Analysis and Processing. Switzerland: Springer, 2015: 350-357.

[14] GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. USA: IEEE, 2015: 1440-1448.

[15] NEUBECK A, VAN GOOL L. Efficient non-maximum suppression[C]//International Conference on Pattern Recognition. USA: IEEE, 2006: 850-855.

2.加强乡村兽医管理，根据农业部有关乡村兽医管理办法的规定，从各乡镇具有乡村兽医资格的人员中聘请村级动物防疫员，原则上年龄不超过50岁，取消没有专业技能的村组干部动物防疫员资格。

作者

梁炎超，李建华

出处

《华东理工大学学报(自然科学版)》 2018年第02期

上一篇：基于卷积神经网络的手势识别算法

下一篇：基于CRF的症状构成分析与标注

《华东理工大学学报(自然科学版)》2018年第02期文献

环糊精原位还原法制备银纳米粒子及其催化性能作者：邱志强，王杰，袁镇豫，史玉琳，郭旭虹

活性炭基疏水性固体酸催化剂的制备及其在乙醇酯化中的性能作者：李洁文，凌丹，张维义，张希宝，程振民

德士古气化炉气化反应过程的数值模拟与特性分析作者：郭威，钟伟民

阳离子Gemini表面活性剂/水杨酸钠溶液的黏度特性作者：王青会，刘冬洁，魏进家

一种高稳定性钆类核磁共振成像造影剂的合成作者：程丽坤，钱伟桥，丁云，胡爱国

CNT/Fe-Ni-TiO2/ZnO多孔复合膜的组装及其制氢性能作者：宋晓丽，何田田，林启志，姬婷婷，陈爱平，李春忠

mSiO2-IDA对Cu2+、Cd2+金属离子的吸附作者：史学伟，昌慧，赵双良，徐首红

两亲性嵌段共聚物合成及亲疏水链段质量比对自组装形貌的影响作者：刘柱，杲云，曹红亮

D-A型三苯胺-苯并噁唑聚合物的合成与性能作者：张恒达，孙宾贺，李欣欣

氧化海藻酸钠/天然乳胶复合材料的制备与性能作者：张坤涛，田晓慧，孙金煜，元以中，赵伟如

环氧树脂/聚醚砜/纳米氧化铝复合材料的力学性能及介电性能作者：吴唯，陈诗英，宗孟静子

充填蓝宝石用系列玻璃的性能作者：朱嘉婉，王以群，黄月霞，邹培玲，吴晓玉

SiO2-Bi2O3-BaF2-AlPO4玻璃掺杂Ho3+、Tm3+、Yb3+的发光性能作者：厉宇翔，邓声玉，范亚蕾，王德强

Cu2+对微生物燃料电池产电性能的影响及其迁移转化过程作者：盖瑞哲，李锡龙，沈立业，晏驰，蔡兰坤，张乐华

基于灰狼算法和案例推理的工控系统入侵检测作者：於帮兵，王华忠，颜秉勇

基于动态混合约束框架的改进差分进化及其应用作者：唐旗平，叶贞成，王志鹏，赵亮，袁欣

一种基于混合区域分割的特征词袋模型识别算法作者：常青，邵臣，胡越

基于卷积神经网络的手势识别算法作者：朱雯文，叶西宁

基于深度学习的食物卡路里估算方法作者：梁炎超，李建华

基于CRF的症状构成分析与标注作者：曾露，高大启，阮彤，王祺，高炬，何萍

杂志信息网