《Automatic Image-Based WasteClassification》论文笔记
Classification of Trash for Recyclability Status
- 论文翻译
-
-
Abstract
-
1 Introduction
-
2 Previous Work
-
3 Deep Architectures for Supervised Waste Classification
-
4 Classification Experiments Using TrashNet
-
- 4.1 The TrashNet Dataset
- 4.2 Data Pre-processing
- 4.3 Classification Experiments and Results
-
5 Conclusion
-
References
-
论文翻译
Abstract
由于城市居民及企业每天产生的废弃物数量持续增加,在现代城市环境中进行固体废物处理已成为一项复杂挑战。借助当前先进的计算机视觉技术和深度学习算法,在垃圾自动识别与分类方面取得了显著进展。本研究采用TrashNet数据集作为基准,在多个深度学习架构之间进行了系统性比较:包括VGG网络(达到84.2%的准确度)、Inception模型(获得了86.7%的准确度)以及ResNet结构(表现最为突出)。特别地,在综合应用Inception-ResNet模型时实现了最佳分类效果:其准确率较其他模型高出约2.5个百分点,并最终达到了88.6%的理想水平
1 Introduction
~~~~~~垃圾收集和回收是现代城市(尤其是大城市)的基本服务。由于可利用的自然资源的减少以及由于产生的垃圾量增加而产生的环境问题,因此需要再循环以减少公民的污染和健康问题。欧洲平均每年产生517公斤垃圾,其中只有一小部分被回收1。根据环境保护署的数据,美国人产生的废物中有75%可回收,但实际上只有30%可回收。当前,大多数垃圾分类过程都是手工完成的,这给工人带来了许多健康问题,既费时又需要向公民征收财务税2。此外,必须尽快进行废物分离,以减少废物被其他材料污染3。
~~~~~~废物的分离和回收对于可持续发展的社会是必不可少的。当前,在自动垃圾分类任务中将ICT(例如,使用诸如智能传感器,云平台或物联网之类的技术和设备)应用于智能城市可以显着提高这些过程的效率[1]。可以通过垃圾的类型4,废物的可生物降解性2或其他方面5进行分类。另一方面,世界各地的反垃圾组织和城市政府正在通过人工审核来评估城市清洁度6。废物的定位和量化是提高城市清洁度的重要步骤,在印度等人口过剩的国家,这可能成为健康问题5。
~~~~~~这些自动垃圾回收系统还可以利用计算机视觉来分析回收工厂捕获的图像或视频,以确定混合垃圾中存在哪种物体。这一阶段的良好效果将带动整个回收过程的良好效果。此外,随着机器学习技术的发展,特别是深度学习,已经取得了很好的基于图像的垃圾分类结果3。
~~~~~~在本文中,我们采用一种有监督的方法对图像中存在的几种类型的废物(例如玻璃,纸张,纸板,塑料等)进行有效分类。为此,我们训练并比较了几种深度分类模型,以识别图像中存在的不同废物类别。 TrashNet数据集的图片4)。
~~~~~~论文组织如下。第二部分回顾了基于图像的废物分类系统。第3部分概述了不同的深度神经架构使用或监督分类的废物。第四部分描述了数据集和废物分类实验。第五部分是本研究的结论。
2 Previous Work
~~~~~~当前用于废物分离的计算机视觉系统的目标是使用图像分析技术对物体进行检测和分类。此过程可以分为以下步骤:
~~~~~~ 1. 细分:涉及分离每种类型的废物。首先,需要对图像进行一些预处理,以去除噪声(例如高斯模糊),增强对比度(例如直方图均衡)或将其二值化(例如Otsualgorithm)。之后,可以应用多种边缘检测方法(例如Canny或分水岭算法)将图像分割为均匀区域1。
~~~~~~ 2. 特征提取:在深度学习技术发展之前,需要特征提取方法(即基于形状,纹理或颜色描述符)从分段区域中提取有用信息,并从这些特征中构建自动分类模型。例如,统计矩,基于傅立叶,基于Gabor的描述符,直方图东方梯度(HOG)是其中一些使用的方法15。另外,在分类阶段之前,使用主成分分析(PCA)来降低数据维数5。
~~~~~~3,学习和分类:提取特征后,将训练分类模型以识别废物中的对象。例如,相关算法7,K最近邻(KNN)1或SVM 34。 从深度学习的出现开始,各种类型的深度神经体系结构(如AlexNet 4,Faster R-CNN 8或GoogleNet 6)也被应用到所考虑的问题中。 最近已经为此应用构建了特殊的神经体系结构,例如GarbNet 5或OscarNet 9,它们基于预先训练的卷积神经网络体系结构,例如AlexNet或VGG-19。
~~~~~~分类时要考虑的一个方面是图像分辨率。如果图像很大,可以使用一个滑动窗口6。此外,当数据集大小很小时,可以像在4中那样应用数据扩充技术。参考文献中提出的系统主要集中在废物类型的本地化和分类上。其中一些系统还被实现为Android应用程序,就像由Mittal等人开发的SpotGarbage一样。
~~~~~~然而,由于许多方法都使用自己的数据集,因此很难对所提方法之间的准确性进行公平比较。因此,可以使用不同的废物类别来训练每个提出的模型。表1比较了一些当前基于图像的深度学习系统,用于垃圾分类。可以理解的是,近年来已经取得了一些良好的结果。我们在这项工作中的目标是评估其他深度模型,这些模型可以改善TrashNet数据集的当前最新垃圾分类。

3 Deep Architectures for Supervised Waste Classification
~~~~~~基于卷积神经网络(CNN)模型的当前许多用于监督分类的图像的神经体系结构。CNN由卷积层组成,在这些卷积层中,神经元通过卷积函数而不是通过一般的矩阵乘法连接,因此权重是共享的,而不是全部相连。结果,获得了对于平移,旋转和其他变换而言不变的空间图案。
~~~~~~在我们的实验中,我们使用了几种基于卷积层的神经结构。特别是:
~~~~~~ 1. VGG:VGG体系结构是为高分辨率图像上的定位和分类任务开发的10。 VGG网络由深度不断增加的卷积层和所有卷积层中的小内核(即3×3)组成。 在这项工作中,我们专注于两个VGG模型:
~~~~~~~~~ (a)VGG-16:在VGG-16 11中,由13个卷积层和3个完全连接的层组成的体系结构如下。 一块具有最大池的两个64深度卷积层的块,一个具有最大池的两个128深度卷积层的块,具有最大池的三个256深度卷积层的一个块,两个具有512深度卷积的块 具有最大池化的层,具有4096个神经元的两个全连接层,具有与数据集的类一样多的神经元和作为激活函数的SoftMax的一个全连接层。图1(a)展示了这种体系结构。
~~~~~~~~~(b)VGG-19:VGG 19 11是先前模型的变体。唯一的区别是最后三个卷积块是由4个卷积层而不是3个卷积层形成的。图1(b)显示了此体系结构。
~~~~~~ 2. ResNet:从诸如AlexNet或VGG之类的深度卷积网络中,研究一直集中在增加体系结构的深度上,但是消失的梯度问题阻止了它的实现。ResNet引入了跳过连接,以避免降低网络性能12。结果,从卷积层获得的特征映射与前一层获得的特征映射相结合。在我们的案例中,我们使用了ResNet-18,它由三个32深度卷积层的一个块和两个卷积层的四个块组成,其深度分别增加了64、128、256和512。除前两层具有5×5维滤镜外,所有卷积层均具有3×3维滤镜。最后,在网络的底部,有两个完全连接或密集的层,分别具有512和6个神经元。图1(c)显示了ResNet-18架构。
~~~~~~ 3. Inception:Inception赢得了ImageNet大规模视觉识别挑战赛2014(ILSVRC14)。它的主要贡献是在保持计算预算不变的同时增加了网络的深度和宽度13。该版本的第一个版本是众所周知的GoogLeNet。在Inception模块中,卷积层块是并行的,而不是VGG中的序列。这意味着,在VGG架构中,卷积层的输出是块中随后的卷积层的输入,而在Inception架构中,块中的所有或部分卷积层都具有相同的输入,并且它们在末尾串联 图1(d)显示了Inception架构。
~~~~~~ 4. Inception-ResNet:Szegedy等14结合了Inception和ResNet概念:避免梯度消失的残差连接和通过保持计算成本来增加网络的Inception模块。图1(e)显示了最终的Inception-ResNet体系结构。

4 Classification Experiments Using TrashNet
4.1 The TrashNet Dataset
~~~~~~TrashNet数据集4由斯坦福大学的Mindy Yang和Gary Thung创建。该数据集包含六类废物的RGB图像,其中每个图像仅出现一种类型的垃圾。特别是:玻璃,纸张,纸板,塑料,金属和普通垃圾。当前,该数据集由2,527张图像组成,每类包含以下图像分布:玻璃501张,纸张594张,纸板403张,塑料482张,金属410张和一般垃圾137张。通过将物体放置在白色海报板上并使用阳光和/或室内照明来捕获图像。所有图片均已调整为512×384的空间分辨率。图2说明了TrashNet数据集中存在的六个类。
~~~~~~由于深度神经网络需要更大的数据集,因此通常的做法是通过在每个原始图像上应用一组变形(即旋转,缩放或亮度校正等)来增强原始图像的原始集合。

4.2 Data Pre-processing
~~~~~~我们的主要目标是研发一个深度学习模型,并基于TrashNet的数据集实现不同种类的单独垃圾物品进行分类识别。为此, 我们系统性地考察了所有之前介绍过的深度卷积架构, 发现由于计算限制, 所有模型都需要先对输入图像进行尺寸调整, 并将归一化处理后的亮度值范围限定在[0,1]区间内。
~~~~~~此外, 在训练数据量有限的情况下, 我们采用数据增强技术通过伪无限数量样本模拟大量训练样本资源. 在同时优化模型性能的过程中, 对原始数据集进行了多维度变换组合以生成新的图片样本. 所采用的具体变换参数如下:旋转角度范围在[0°-40°], 宽度缩放比例在[0%-20%), 高度缩放比例在[0%-20%), 剪切强度在[None-2px), 焦距变化幅度在[None-1.5x), 水平翻转概率设置为50%.
4.3 Classification Experiments and Results
我们首先将原始图像集合随机划分为三个互斥子集:训练集、验证集和测试集,并确保各子集中各类别样本的比例相同。鉴于图像数量有限,在实验过程中将其中80%的数据用于训练阶段,剩余10%的数据用于验证过程,并将其余10%的数据作为测试用例。为了提高结果的可靠性,我们采用了五折交叉验证方法,并生成五个独立的训练-验证-测试划分方案(如前所述)。通过数据增强技术增加了训练样本的数量,并在本节中所述的结果基于对测试用例进行五次独立运行后的平均评估。

~~~~~~第二阶段是配置每个网络的参数。在所有情况下,网络的权重都是随机初始化的。对于我们在实验中考虑的所有网络,我们使用16个样本的批次大小,随机梯度下降(SGD)作为优化算法,学习率为0.0002。训练期间采用了早期停止策略。如果此结果在25epoch时间内没有改善,我们将模型保留为没有验证损失的情况,并停止训练。此外,在所有模型的每个卷积层块的末尾都引入了批处理归一化层。图像被调整为197×283像素以训练模型。
~~~~~~表2给出了使用五个经过测试的深层网络获得的均值和标准偏差准确性结果的对比研究。此外,该表还显示了训练模型所需的历时的对比研究。一方面,ResNet模型以88.66%的准确度实现了最佳结果。此外,由于标准偏差最小,因此ResNet模型是最稳定的模型。但是,Inception-ResNet模型产生了相似的结果。另一方面,ResNet模型是不需要培训的时代。我们可以得出结论,ResNet模型是精度和速度最好的。
~~~~~~表3将我们使用ResNet模型得到的最佳结果与其他应用于废物分类的深度学习模型进行了比较。结果表明,虽然我们的模型与Kennedy等人的[9]模型比较接近,但与其他模型相比,我们的模型更接近。然而,Kennedy混合了TrashNet和PASCAL数据集,class 7 (non waste)是第二个数据集。另一方面,他的结果显示,他们对模型进行了过度拟合,在non-wasteclass (PASCAL数据集)中获得了良好的结果,而在TrashNet数据集中获得了较低的结果。

结果显示,在图3中展示了针对每个测试的不同深度架构所获得的具体混淆矩阵。当为每种架构分别训练了五个模型时,我们展示的这些模型均达到了接近平均准确度的表现。尽管如此,在难以实现对各类别之间的精确区分方面仍存在一定的挑战性,并且这一结果的表现受到特定模型性能的影响
5 Conclusion
本文探讨了多种基于卷积神经网络(CNN)的垃圾自动分类方案。通过实验测试,在TrashNet数据集上采用ResNet架构实现平均准确率高达88.66%的最佳分类效果。相较于现有技术,在相同的实验数据集上我们的性能表现最优。展望未来的研究方向,在生成多类型垃圾的真实合成图像方面将开展深入工作,并将其作为提升模型性能的重要手段。
References
Rodríguez, I., Pérez, J., Salmador, A.: Intelligent waste sorter: A novel approach for efficient waste management. International Journal of Interactive Multimedia and Artificial Intelligence 1(1), 31–36 (2008)
Sudha, S., Vidhyalakshmi, M., Pavithra, K.: An automatic classification approach to the ecological domain (2016) ↩︎ ↩︎
The authors analyze the comparative effectiveness of deep learning and support vector machines in the context of autonomous waste sorting during the IEEE International Multidisciplinary Conference on Engineering Technology (IMCET).
-
Yang, M., Thung, G.: Categorization of garbage for recycling potential. CS229 ProjectReport 2016 (2016)
-
Mittal et al.: A Smartphone Application named SpotGarbage was developed to identify discarded garbage using deep learning techniques in the context of pervasive computing environments. Appearing in: Proceedings of the 2016 ACM International Joint Conference on Pervasive Computing, pp. 940–945.ACM (2016)
Rad et al.: A computer vision system was developed to localize and classify waste materials on the streets in this study. The research was presented as part of the proceedings of the ICVS 2017 conference held in Cham by Springer in the year 2017. The LNCS proceedings volume number 10528 contained pages from page number 195 through page number 204 which detailed the findings of this investigation. Further information regarding this research can be accessed via the DOI link https://doi.org/10.1007/978-3-319-68345-4_..."
Briñez et al., L.J.C., Rengifo, A., Escobar, M. presented their research on automatic waste classification applied computer vision as an application within the context of Colombian high schools at the proceedings of the 6th Latin-American Conference on Networked and Electronic Media (LACNEM) held in 2015, which included pages 1 through 5.
Awe, O., Mengistu, R., Sreedhar, V.: Intelligent trash net: waste detection and recognition (2017) ↩︎
- Kennedy, T.: OscarNet: applying transfer learning techniques for categorizing disposable waste materials (2016) ↩︎
Significantly deep convolutional networks in the domain of large-scale image recognition. arXIV preprintarXIV:1409.1556(2014) ↩︎
Deng et al. introduced ImageNet as an extensive hierarchical structure for storing and organizing vast quantities of high-quality images in the field of computer vision and pattern recognition. This study was presented at the 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009), where it was published as part of the proceedings covering pages 248–255 by IEEE.
该等基于残差的深度学习方法用于图像识别,在《IEEE Conference on Computer Vision and Pattern Recognition》论文集中发表于2016年
Szegedy et al.: Expanding on convolution operations in their research. In the proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1–9 are included (2015).
Szegedy et al.: Inception-v4 and Inception-ResNet and their influence on learning outcomes. Paper presented at the AAAI Conference in volume 4, pages 12 (2017) ↩︎
