书名:数字图像处理技术——基于Python的实现
ISBN:978-7-115-64754-2
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 梁义涛 李永锋 巩立新 张庆辉 傅洪亮
责任编辑 韩 松
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书全面介绍数字图像处理的基本理论、基本算法,以及基于Python语言的实现,不仅关注理论与实践的结合,还关注基本理论和基本算法的研究发展及延伸。
本书共8章。第1章简要介绍数字图像的基本概念、基本的图像处理系统,以及数字图像处理技术的应用与发展等。第2章针对Python语言在图像处理算法开发中的应用,概述Python开发环境配置、Python基本语法等。在前两章的基础上,第3~8章逐一介绍图像的像素运算与几何变换、图像的空间域处理、图像的频率域处理、图像复原、图像分割及形态学图像处理等理论内容和主要算法的Python代码实现。此外,在代码实现部分,本书还附加了相关Python图像处理函数的详细使用说明。同时,考虑初学者的接受程度,部分章节安排了综合应用案例或经典算法改进的相关内容,旨在帮助读者丰富认知、拓宽视野。
本书内容系统,重点突出,工程实现介绍详尽,可以作为高等学校工科电子信息相关专业的本科生和研究生的数字图像处理课程教材,也可以作为从事数字图像处理相关工作的开发人员的参考书。
数字图像处理是20世纪60年代发展起来的一门新兴学科,也是集光学、数学、计算机科学、电子学、信息论、控制论、物理学、心理学和生理学等学科于一体的一门综合性学科。随着大规模集成电路技术和计算机科学技术的快速发展,数字图像处理的理论和方法获得了长足的进步。目前,数字图像处理已在人工智能、卫星遥感、医疗卫生、智能交通、生产生活、军事公安、教育办公等众多领域广泛应用,并产生了巨大的经济效益和社会效益,展现出了广阔的应用前景,成为信息科学领域的研究热点之一,对推动社会信息化、数字化发展,提高人们的生活水平都起到了重要的作用。
面对快速发展的数字图像处理技术,相关领域的学生或从业者有必要学习和掌握数字图像处理的基本理论、图像处理系统的开发和应用、图像处理算法的实现和优化等,并及时、准确地进行归纳、总结、更新和推广。基于此,编者主持编写了本书。与以往的数字图像处理著作相比较,本书力求突出以下特色。
(1)内容合理、新颖。本书系统讲述数字图像处理的基本理论和方法,尽可能反映数字图像处理新技术,使读者能了解和掌握数字图像处理学科的前沿知识。读者可以根据自身的具体情况灵活选学或自学较深入的内容。
(2)理论系统,具备可实践性。本书从工程的角度,注重算法原理的阐述和分析,并结合近年来电子信息领域新出现的工具语言——Python语言讲述算法实现,拓展新的应用场景。
(3)逻辑性强。本书内容由浅入深,按照原理—算法—改进—实现的流程进行分层次阐述和讲解,在篇幅和阐述上突出重点内容,侧重数字图像处理的思想方法和算法实现。
(4)代码丰富。本书从理论算法到代码实现给出相对完整的介绍,代码实现侧重于应用开发,通过对实例的分析和实现,帮助读者深刻理解数字图像处理的基本理论和方法,突出其实用性。
(5)以Python为编程工具。本书详细介绍将Python用于数字图像处理的相关知识,提供书中所涉及的数字图像处理算法的完整的程序代码和编译后的运行结果,对读者学习和掌握数字图像处理的程序实现,以及用Python开发实用数字图像处理系统均有一定的参考价值。
(6)案例分析注重理论与实践的结合。本书给出了工程领域的热门应用综合案例的分析与实现。
本书内容安排如下。
第1章简要介绍数字图像的基本概念、基本的图像处理系统、数字图像处理技术的应用与发展、数字图像及其表示、图像文件格式等。
第2章介绍Python开发环境配置、Python基本语法等。
第3章介绍如何用Python实现图像点运算、图像代数运算、图像逻辑运算、图像的缩放、图像的旋转、图像的平移、图像的裁剪、图像的转置、图像的镜像。
第4章针对空间域中的图像增强,介绍空间滤波的机理、基本概念,以及使用的基本技术。该章内容包括空间滤波基本概念、灰度增强、图像平滑、图像锐化及彩色图像增强。
第5章从频率域入手对图像处理及增强方法展开介绍,因为频率域滤波涉及的数学知识较多,所以该章采用由浅入深的方式,首先介绍傅里叶变换基础知识;然后介绍频率域滤波基础;最后介绍图像频率域滤波中出现的各种技术,其大体可分为低通滤波器和高通滤波器两大类。
第6章从图像降质的原因入手对图像复原和增强方法进行介绍。该章首先介绍图像降质原因与复原技术基础;然后重点介绍无约束的图像复原和有约束的图像复原。在无约束的图像复原中重点讲解逆滤波复原的原理、实现、病态性、改进;在有约束的图像复原中重点讲解维纳滤波复原。
第7章首先介绍图像分割的定义、分类;然后分别讲解基于阈值的图像分割方法、基于区域的图像分割方法、基于边缘的图像分割方法。在基于阈值的图像分割方法中重点讲解峰-谷阈值选取法、微分阈值选取法、迭代阈值选取法、最优阈值法、最大类间方差法;在基于区域的图像分割方法中重点讲解区域生长算法、区域分裂与合并,以及四叉树数据结构;在基于边缘的图像分割方法中重点讲解Roberts算子、Sobel算子、Prewitt算子、LoG算子、Canny算子及分水岭算法。
第8章首先从图像位置关系、结构元素和集合的基本运算入手介绍形态学及其运算过程;然后详细讲解腐蚀、膨胀、开启、闭合、击中、击不中等基本的形态学运算;最后介绍如何将数学形态学应用到图像处理领域中,主要介绍细化、厚化、形态滤波、平滑、边缘提取、区域填充等。
本书可作为高等院校电子信息工程、通信工程、信号与信息处理、电子科学与技术、信息工程、计算机科学与技术、软件工程、自动化、电气工程、生物医学工程、物联网工程和遥感科学与技术等相关专业的本科生和研究生的教材,也可作为工程技术人员或其他相关人员的参考书。
本书由梁义涛任主编、李永锋、巩立新任副主编,张庆辉、傅洪亮参与编写。其中,第1章和第2章由梁义涛编写;第3章由傅洪亮编写;第4章和第5章由李永锋编写,第6章由张庆辉编写;第7章和第8章由巩立新编写。
在本书的编写过程中,编者竭尽所能地将较好的讲解呈现给读者,但书中也难免有疏漏和不妥之处,敬请广大读者不吝指正。若读者在阅读本书时遇到困难或疑问,或有任何建议,可发送邮件至hansong@ptpress.com.cn。
编 者
2023年8月
人们常说:“眼见为实。”经过统计证实,人们获取的信息约有80%来自图像。图像信息的直观性是文字信息和语音信息所无法比拟的。因此,图像对于人类而言,是一种重要的信息来源,是人们从自然界获得有效信息的主要途径。数字图像是基于计算机、电子技术等信息技术对自然界进行量化采样而获取的,或者通过计算机技术自动生成的可供人通过视觉感受的二维数据信息,也是计算机视觉和人工智能的数据基础。为了满足实际需求,人们会对数字图像进一步加工和处理,从而形成了数字图像处理技术。
作为本书的开端,本章主要涉及数字图像及其处理的一些基本概念和知识,其中包括数字图像的基本概念、基本的图像处理系统、数字图像处理技术的应用与发展、数字图像及其表示、图像文件格式、图像质量的评价方法等。这些基本概念和知识将为后续章节的学习与实践提供必要的支持和指导。
图像本身是客观景物的主观反映,即在人脑中的反映,它是人类认识外界和自身的重要数据信息来源。因此,图像既有客观属性,也有主观属性。
数字图像可以用数学方式描述与之对应的场景。一幅三维动态图像可以定义为
(1-1)
式(1-1)中,x、y、z是三维空间变量,是时间变量。在实际中,有很多种图像获取方式,目前最常见的是电磁波成像。电磁波成像的频段范围很广,可从可见光扩展到其他频段,在低频段有红外线、微波等;在高频段有紫外线、X射线、
射线等。例如,红外成像是利用物体自然发射的红外辐射或运用不同物体对红外辐射的不同反射率进行成像的。此时图像可以用式(1-2)表示:
(1-2)
式(1-2)中,是波长。
不同则物体的反射、发射或吸收特性不同,所得到的图像也不同。图像记录的是物体辐射能量的空间分布,一般使用灰度图像记录,辐射度对应灰度值。当对可见光成像时,灰度值对应客观景物被观察到的亮度。
在一般情况下,由于I表示的是与景物相关的某种形式的能量信号,因此它是正的、有界的,即
(1-3)
其中,表示
的最大值,
表示黑色。
对于彩色图像,根据“三基色原理”可知,I可以表示为3个基色分量之和,即
(1-4)
其中,、
、
分别是三基色的波长。
在日常生活中,我们经常接触到的信息主要分为3种类型:语音信息、文本信息和图像信息。相较于语音信息和文本信息,图像信息有其独特之处。首先,图像信息是直观的,它直接反映了人们用肉眼所看到的实际场景,即“眼见即所得”,无须进行特别的训练或学习,人们便能理解图像的含义。然而,每个人对图像的解读可能会有所不同,因此图像的含义并不能绝对确定,具有一定的不确切性。其次,人眼接收图像信息的方式是一种“并行”的方式,即人的目光所及之处,所有景象都会被同时收入眼底,而不是逐行、逐点地接收。这种接收方式使得图像信息具有一些特性。
图像信息具有如下特性。
(1)直观形象。图像能够真实地呈现客观事物的原形,为具有不同目的、不同能力和不同水平的人提供观察、理解和认知的直接途径。它能够让人们直观地感知事物的形象和特征,具有很强的视觉冲击力和表现力。
(2)容易理解。人类的视觉系统具有瞬间获取、分析和识别图像的能力,只要将一幅图像呈现在人的眼前,人的视觉系统就会立即获取这幅图像所描述的内容,进而指导后续的行为;相比之下,对于文字信息和语音信息则需要更多的注意力和理解力才能获取和理解。
(3)信息量大。图像信息量大有两层含义。首先,就图像本身所携带的信息而言,图像信息比文字信息和语音信息更丰富,能够提供更多的视觉细节和场景信息。其次,对于图像设备或系统而言,图像数据量大,需要占据较大的存储空间和花费较长的传输时间。
(4)表意存在不确切性。图像尤其是自然场景图像的表意往往存在一定的不确切性,这使得不同的观察者对同一幅图像会有不同的理解和感受。这种不确切性可能受到观察者主观因素(如文化背景、经验阅历等)的影响。因此,对于图像信息的解读需要考虑这种主观性和不确切性。
数字图像处理技术的飞速发展和广泛应用,推动了数字图像处理系统硬件的研发进程。不同行业的应用环境不同,对数字图像处理系统的性能要求也会有所不同。尽管对各种图像处理系统的具体要求各异,但常见的数字图像处理系统的基本架构却是大体一致的。下面我们将分别从数字图像处理的硬件系统和软件系统两个核心方面进行详细介绍。
一个经典的数字图像处理硬件系统架构如图1-1所示,主要包括图像输入设备、算法系统、输出与存储设备等。
图1-1 图像处理硬件系统架构
图像输入设备包括图像采集设备与图像合成设备,以及输入图像存储设备等。随着相关技术的发展,图像输入设备的性能越来越高,但价格却越来越低。常用的图像输入设备主要包括图像采集卡、工业摄像机、光电扫描仪、数字相机、遥感仪等设备。
算法系统一般由台式计算机、笔记本计算机、服务器以及其他各种高性能主机系统组成,包括硬件和软件两大部分。
输出与存储设备主要有如下3种类型。
(1)显示设备。早期的图像处理系统中最常用的输出设备是由光栅扫描阴极射线管(Cathode Ray Tube,CRT)构成的CRT监视器。然而,随着技术的进步,液晶显示器(Liquid Crystal Display,LCD)和有机发光二极管(Organic Light Emitting Diode,OLED)显示器等先进显示设备逐渐成为主流。这些设备具有高清晰度、高分辨率和高对比度等特点,能够提供出色的图像质量和视觉效果。
(2)打印设备。显示设备通常用于图像的暂时显示,而打印设备则可以将图像永久地记录在纸质媒介上。目前,常用的图像打印设备主要包括彩色喷墨打印机和激光彩色打印机等。这些打印设备具有高打印质量、高速度和低成本等优点,能够满足不同场景和用途的打印需求。
(3)其他设备。根据应用场景和目的的不同,数字图像可以通过一些专门的记录设备存储到移动存储设备(如U盘、存储卡、移动硬盘等)或大容量硬盘等存储器以及云端数据中心等专用数据存储系统中。这些设备和系统能够提供大容量、高速度和安全可靠的存储解决方案,以满足不同用户的需求。
数字图像处理系统不仅需要具有硬件设备,而且需要一定的软件环境支持。从现阶段的情况看,图像处理软件系统一般在Windows下开发,可使用的图像软件工具多种多样,主要包括Python、MATLAB、OpenCV等。
直至今日,图像处理技术已经融入人们工作和生活的方方面面,成了人们的“朋友”。当前,数字图像处理的研究领域快速拓展,新技术日新月异,应用场景越来越广。
数字图像处理研究的内容包括图像获取、图像变换、图像增强、图像复原、图像分割、彩色图像处理、形态学图像处理、图像编码和图像识别等。
图像获取是指通过包括光电传感器件[CCD(Charge Coupled Device,电荷耦合器件)、CMOS(Complementary Metal Oxide Semiconductor,互补金属氧化物半导体)器件等]的成像设备,将物体表面的反射光或折射光转换成电信号,成像过程有时需要经过模数转换(CCD系统)来实现数字图像的获取。
图像变换是指对图像进行某种正交变换,将空间域的图像转换到频率域,并进行相应的处理和分析。经变换后,图像信息的表现形式发生了变化,某些特征会凸显出来,方便进行后续操作,比如低通滤波、高通滤波、编码、压缩等。图像变换常用的正交变换有离散傅里叶变换、离散余弦变换、沃尔什变换、阿达马变换等。
图像增强的作用是将一幅图像中的有用信息(即我们感兴趣的信息)进行增强,同时压制无用信息(即干扰信息或噪声),提高图像的可观察性和使用效率。图像增强的主要方法有灰度变换、直方图增强、图像平滑、边缘检测等。
图像复原是图像降质的逆过程,是基于我们的认知先验,先对图像降质的过程加以估计,然后建立降质过程的数学模型,进而补偿降质过程造成的失真的过程。图像复原的作用是尽可能地恢复自然场景图像的原有信息,使图像清晰化。
图像分割是指按照图像的灰度、颜色、空间纹理、几何形状等特征,把一幅图像分成一些互不相交的区域,以便进一步分析或处理图像的图像处理方式。图像分割是从图像处理过渡到图像分析的关键步骤,也是一种基本的计算机视觉技术。由于图像内容的复杂性较高,利用计算机实现图像自动分割是图像处理中很有挑战性的问题之一,没有一种分割方法适用于解决所有问题。经验表明,实际应用中需要结合众多图像分割方法,根据具体的领域知识确定图像分割方案。
一般来说,彩色图像包含的信息量较大,人眼对于颜色信息也较为敏感,因而,尽管彩色图像处理和灰度图像处理有很多的共同之处,但是其也有个性化的需求。在灰度图像处理的基础上,针对图像的彩色特性进行处理就形成了独具特色的彩色图像处理,如颜色空间转换、饱和度提升、假/伪彩色处理等。
数学形态学应用于图像处理领域形成了一种新的图像处理技术,它主要用于描述和处理图像中的形状和结构。在形态学图像处理中,用集合来描述图像目标及图像各部分之间的关系,说明目标的结构特点。其基本思想是利用一种特殊的结构元来测量或提取输入图像中相应的形状或特征,以便进一步进行图像分析和目标识别。在形态学图像处理中,特别设置了一种“结构元素”来度量和提取图像中的对应形状,以达到对图像进行分析和识别的目的。形态学图像处理可以用于提取特征、降噪声、改变图像的形态和特征等。
图像编码研究属于信息论中的信源编码范畴,其主要作用是利用图像信号的统计特性以及人类视觉的生理学及心理学特性对图像信号进行高效压缩,从而减少数据存储量、降低传输带宽、压缩信息量以便于图像分析与识别。图像编码的主要方法有去冗余编码、变换编码、神经网络编码和模型基编码等。
图像识别是数字图像处理的重要研究分支,其方法大致可分为统计识别、句法(结构)识别和模糊识别等。统计识别侧重于图像的统计特征,可以用贝叶斯分类器、卷积神经网络(Convolutional Neural Networks,CNN)、支持向量机(Support Vector Machine, SVM)来实现。句法识别聚焦于图像模式的结构,可以通过句法分析或对应的自动机来实现。而模糊识别则是将模糊数学理论引入图像识别领域,从而简化识别系统的结构,提高系统的实用性和可靠性,可更为广泛和深入地模拟人脑认识事物的模糊性。
数字图像处理技术通常分为3个层次,分别是狭义图像处理、图像分析和图像理解,如图1-2所示。狭义图像处理是指对输入图像进行变换,以改善其视觉效果或增强某些特定信息,是从图像到图像的处理过程。例如,图像平滑、图像锐化、彩色图像处理、图像复原、图像和重建等处理技术都属于狭义图像处理。
图1-2 数字图像处理技术的3个层次
图像分析是指通过对图像中感兴趣的目标进行检测和计算,获取目标的特征信息,从而建立对图像及相关目标的描述。这个过程旨在识别、分类和理解图像内容,是从图像到非图像(数据或符号)的处理过程。图像分割、图像描述和分析等处理技术都属于图像分析。
图像理解则是指在图像分析的基础上,依据从图像中提取出的数据,利用模式识别的方法和理论,进一步研究图像中各目标的性质及其相互关系。这个过程旨在达到理解图像内容的目的,从而指导和规划后续的系统行为。
这3个层次相互关联,构成了数字图像处理技术的完整框架。通过这样的层次划分,我们可以更好地理解和应用数字图像处理技术,提高对图像的处理能力和效率。
狭义图像处理、图像分析和图像理解相互联系又有一定的区别。狭义图像处理是低层操作,它主要进行的是图像像素级的处理,处理的数据量非常庞大。图像分析是中层操作,它经分割和特征提取,把原来以像素构成的图像转换成较简洁的、非图像的形式。图像分析和狭义图像处理两者有一定程度的交叉,但是又有所不同。狭义图像处理侧重于对图像数据的修正,使得修正后的图像能够更适合应用,其中包括对图像对比度的调节、图像编码、降噪等技术的研究。但是图像分析更侧重于研究图像的内容及其描述,包括但不局限于使用狭义图像处理的各种技术,它更倾向于对图像内容的分析和表达。图像理解是高层操作,它是对描述中抽象出来的符号进行推理,处理过程和方法与人类的思维有类似之处。
最早的数字图像处理可以追溯到20世纪20年代:一是人们借助于打印设备进行数字图像处理,即让电报打印机采用特殊字符在编码纸带上打出了图像;二是人们通过海底电缆从英国伦敦向美国纽约传输了一张照片,采用了数字压缩技术。这些表明当时就有了数字图像的概念。现代意义的数字图像处理技术建立在计算机技术快速发展的基础之上,始于20世纪60年代初期。第3代计算机的研制成功、快速傅里叶变换(Fast Fourier Transform,FFT)的出现等使得某些图像处理算法可以在计算机上实现。
在图像处理技术的研究和应用方面,经典的、开拓性的工作始自美国喷气推进实验室(Jet Propulsion Laboratory,JPL)。1964年,JPL使用计算机以及其他设备,考虑了太阳位置和月球环境的影响,采用几何校正、灰度变换、去噪、傅里叶变换以及二维线性滤波等方法对航天探测器“徘徊者7号”发回的月球表面照片进行处理,最终利用计算机成功绘制了月球表面地图。1965年,JPL又对“徘徊者8号”发回地球的几万张照片进行了复杂的处理。20世纪70年代以来,JPL及各国有关部门已把数字图像处理技术从空间技术推广到生物学、X射线图像增强、光学显微图像的分析、陆地卫星、多波段遥感图像的分析、粒子物理、地质勘探、人工智能、工业检测等应用领域。其中,X射线计算机断层成像(X-ray Computed Tomography,X-CT)技术的发明,使得CT(Computed Tomography,计算机断层成像)技术在临床诊断中广泛应用,继而使医学数字图像处理技术备受关注。这些成功的应用又促使图像处理这门技术得到了更加深入和广泛的发展。1979年,CT技术的先行者美国物理学家艾伦·M.科马克(Allan M. Cormack)和英国电子工程师戈弗雷·纽博尔德·豪恩斯费尔德(Godfrey Newbold Hounsfield),因分别独立研发出CT原型机而获得了诺贝尔生理学或医学奖。
从20世纪80年代到21世纪,越来越多的数学、物理、计算机科学等领域的研究人员关注到图像处理这一领域。各种与图像处理有关的新理论与新技术不断涌现,如小波分析、机器学习、形态学、模糊集合、计算机视觉、人工神经网络等,已经成为图像处理理论与技术的研究热点,并取得了丰硕的研究成果。与此同时,计算机运算速度的提高、硬件处理器能力的增强,使得人们由仅能够处理单幅图像,到开始能够处理多频段彩色图像、三维图像以及视频等。另外,卫星遥感、军事、气象等学科的发展也促进了数字图像处理技术的发展。数字图像处理技术一般都使用计算机对图像进行处理,因此也被称作计算机图像处理技术。
图像处理可分为模拟图像处理和数字图像处理。模拟图像处理主要有光学处理和电子处理两种方法,其特点是处理速度快(理论上可以达到光速),可实现实时处理和并行处理。光学处理建立在傅里叶光学基础上,对图像进行光学滤波、相关运算、频谱分析等,可以实现图像质量改善、图像识别、图像的几何畸变和光度校正、光信息的编码和存储、图像的伪彩色化、三维图像的显示、对非光学信号进行光学信号处理等。电子处理把光强度信号转换成电信号,用电子学的方法,对信号进行加减乘除运算,以及强度分割、反差放大、彩色合成、光谱对比等操作,在电视视频信号处理中常采用这种方法。
数字图像处理技术的迅速发展为人类带来了巨大的社会效益和经济效益,从应用遥感卫星的全球环境气候监测,到应用指纹识别技术的安全领域,数字图像处理技术已经融入科学研究的各个领域。可以预见,数字图像处理技术对自然科学,甚至人类社会的发展,必将具有深远的意义。
首先,数字图像处理技术可以帮助人们更加客观、准确地认识世界。人的视觉系统可以帮助人类从外界获得3/4以上的信息,而图像、图形是所有视觉信息的载体。尽管人眼的分辨率很高,可以识别上千种颜色,但在许多情况下,图像对于人眼来说是模糊的,甚至是不可见的,通过图像增强技术,可以使模糊甚至不可见的图像(如一幅模糊褪色的图像)变得清晰明亮。
其次,数字图像处理技术可以拓宽人类获取信息的视野。人眼只能看到电磁波谱中的可见光部分(波长范围为0.38μm~0.78μm),其余的紫外波段、红外波段和微波波段等对于人眼来说都是不可见的。然而,通过数字图像处理技术却可以利用红外、微波等波段的信息进行数字成像,将不可见信息变为可见信息——图像。比如,美国国家航空航天局(National Aeronautics and Space Administration,NASA)和美国地质调查局(U.S. Geological Survey,USGS)联合发射的太空遥感卫星Landsat 7的多光谱图像在利用可见光波段的同时,也充分利用了近红外波段(0.78μm~3μm)和热红外波段(3μm~15μm)等的不可见波谱信息。近红外波段可用来探测植被的生长情况,热红外波段可用来监测地表大气层的热源污染情况。此外,相对模拟图像处理来说,数字图像处理有精度高、复现性好、通用性高、灵活性高的优点。数字图像处理技术已经渗透到人类社会的各个领域。下面列举数字图像处理技术的一些典型应用实例。
图像处理技术在生物医学领域中的应用非常广泛,无论是临床诊断还是病理研究都大量采用了图像处理技术,如图1-3所示。以医用超声成像、X光照影成像、X光断影成像、核磁共振断层成像技术为基础的生物医学图像处理技术已经在疾病诊断中发挥着重要的作用。以生物医学图像处理技术为基础的医疗“微观手术”是指使用微型外科手术器械进行血管内、脏器内的微观手术。其中特制的图像内窥镜、体外X光监视和测量技术及仪器设备保证了手术的安全性和准确性。图像处理技术在生物医学领域的主要应用包括:显微图像处理,DNA 显示分析,红/白细胞分析计数,虫卵及组织切片的分析,癌细胞识别,染色体分析,心血管数字减影及其他减影技术,内脏大小、形状及异常检测,微循环的分析判断,心脏活动的动态分析,X光照片增强、冻结及伪彩色增强,生物进化的图像分析,等等。
图1-3 图像处理技术在生物医学领域中的应用
航空遥感和卫星遥感图像需要用数字图像处理技术进行加工和处理,并从中提取有用的信息。以多光谱图像综合处理和像素模式分类为基础的遥感图像处理是对地球的整体环境进行监测的强有力手段。空间探测和卫星图像侦察技术也已经成为军事领域的常规技术。图像处理技术在遥感航天领域的主要应用包括:军事侦察、定位、导航、指挥等,多光谱卫星图像分析用于地形、地图、国土普查,地质、矿藏勘探,森林资源探查、分类、防火,水利资源探查、洪水泛滥监测,海洋、渔业方面如温度、鱼群的监测、预报,农业方面如谷物估产、病虫害调查,自然灾害、环境污染的监测,气象、天气预报图的合成分析预报,天文研究中太空天体的探测及分析,空中交通管理、铁路选线,等等。
在工业生产线上对产品及部件进行无损检测是图像处理技术的重要应用。图像处理技术在工业中的主要应用(见图1-4)包括:零件、产品无损检测,焊缝及内部缺陷检查,流水线零件自动检测识别(供装配流水线用);生产过程的自动控制;CAD (Computer Aided Design,计算辅助设计)和 CAM(Computer Aided Manufacturing,计算机辅助制造)技术用于模具、零件制造、服装、印染业;邮件自动分拣、包分拣识别;印制电路板质量、缺陷的检出;生产过程的监控,交通管制、机场监控;纺织物花型、图案设计;金相分析;光弹性场分析;标识、符号识别(如超级市场算账、火车车皮识别);支票、签名、文件识别及辨伪;运动车、船的视觉反馈控制;密封元器件内部质量检查;等等。
图1-4 图像处理技术在工业中的应用
图像处理技术在军事和公安领域的主要应用有:巡航导弹地形识别;指纹自动识别;罪犯脸型的合成;侧视雷达的地形侦察;遥控飞行器(Remotely Piloted Vehicle, RPV) 的引导,目标的识别与制导;警戒系统及自动火炮控制;反伪装侦查,手迹、人像、印章的鉴定识别;过期档案文字的复原;集装箱的不开箱检查;等等。
图像处理技术的其他应用包括:图像的远距离通信;多媒体计算机系统及应用,电视电话;服装试穿显示,理发发型预测显示;电视会议;办公自动化、现场视频管理;等等。
当前,数字图像处理技术需进一步深入研究的挑战性问题主要涉及以下几个方面:
(1)在提高精度的同时,着重解决处理速度的问题;
(2)加强软件研究,开发新的处理方法,借鉴其他学科的研究成果;
(3)加强边缘学科的研究工作,促进图像处理技术的发展;
(4)加强理论研究,逐步形成图像处理科学自身的理论体系;
(5)将图像处理领域标准化。
另外,深度学习(Deep Learning)的引入成为数字图像处理技术最新的发展趋势。2012年,欣顿(Hinton)课题组为了证明深度学习的潜力,首次参加ImageNet大规模视觉识别挑战赛,并通过构建的卷积神经网络AlexNet一举夺得冠军,且该网络在分类性能上碾压第二名(采用SVM方法)。也正是由于该比赛,卷积神经网络受到了众多研究者的关注。2012年深度学习技术在物体分类领域取得的突破性进展,极大地推动了计算机视觉从理论走向应用。当前,随着深度学习在各个领域不断取得突破性的进展,许多计算机视觉公司纷纷成立,有力地推动科研与应用的深度结合。
图像是三维场景映射到二维平面上的影像。根据图像的存储方式和表现形式, 可以将图像分为模拟图像和数字图像两大类。传统意义上的图像是连续的,如式(1-2)所示,表示的是物体辐射能量在空间上的连续分布,连续图像也称为模拟图像。为了便于利用计算机对图像进一步加工和处理,需要把模拟图像在空间位置、幅度上进行离散化,将其量化为对应的数字形式,经过离散化处理的图像称为数字图像。
图像的离散化过程包括两种处理:采样和量化。一幅模拟图像的坐标及幅度都是连续的,为了将它量化为对应的数字形式,必须对它的坐标和幅度都进行离散化操作。数字化坐标值称为采样,它确定了图像的空间分辨率;数字化幅度值称为量化,它确定了图像的幅度分辨率(也称灰度分辨率)。以空间的均匀采样为例,模拟图像的数字化过程示意如图1-5所示。
图1-5 模拟图像的数字化过程示意
一般来说,采样间隔越大,所得图像像素数越少,图像空间分辨率(大小,Size)越低,质量越差,严重时会出现像素呈块状的棋盘效应(马赛克,Mosaic);采样间隔越小,所得图像像素数越多,图像空间分辨率越高,质量越好,但数据量越大。不同空间分辨率的数字图像效果如图1-6所示。图1-6(a)被命名为原图(256×256),256×256表示图像的空间分辨率,即横向有256像素,纵向也有256像素;其他图像以类似方式命名。
(a)原图(256×256) (b)采样图像1(128×128)
(c)采样图像2(64×64) (d)采样图像3(32×32)
(e)采样图像4(16×16) (f)采样图像5(8×8)
图1-6 不同空间分辨率的数字图像效果
对于图像的灰度分辨率而言,量化等级越多,所得图像层次越丰富,灰度分辨率越高,质量越好,数据量越大;而量化等级越少,所得图像层次越欠丰富,灰度分辨率越低,质量越差,甚至可能出现假轮廓现象,数据量越小。不同灰度分辨率的数字图像效果如图1-7所示。图1-7(a)被命名为原图(256色),256色表示图像的灰度分辨率为256,即图像由8位二进制值表示,最多可以包含256个灰度等级;其他图像以类似方式命名。
(a)原图(256色) (b)量化图像1(64色)
(c)量化图像2(32色) (d)量化图像3(16色)
(e)量化图像4(4色) (f)量化图像5(2色)
图1-7 不同灰度分辨率的数字图像效果
为后续说明方便起见,我们假设沿轴方向的采样间隔为等间距
,沿
轴方向的采样间隔为等间距
,则均采样过程可被看作将图像平面划分为规则、均匀的网格,每个网格的位置由
表示,
的取值范围为
,
为沿
方向的采样点数;
的取值范围为
,
为沿
方向的采样点数。需要特别强调的是,对于一维信号的采样过程来说,为了准确恢复出实际信号,必须满足香农采样定理。同样,从采样图像中恢复出原始图像需要满足二维采样定理,即
(1-5)
式(1-5)中,、
分别为x、y方向上的最高空间频率。
对于灰度图像,量化是对采样所得的离散样本点上的灰度值进行离散化,将原图像的连续灰度用(k为整数)个等间距的灰度级进行表示。连续图像被采样与量化后可以用一个
矩阵来表示,如式(1-6)所示。
(1-6)
称为数字图像,矩阵中的每一个元素称为像素(Pixel),有时也称为像元或图像元素。
也可代表像素点
的灰度值,即亮度值。这里需要说明的是,当
代表
点的光强度时,由于光是能量的一种形式,故
必须大于0,且为有限值,即
。存储每一像素所需的二进制位数称为比特数或颜色深度。通常灰度图像的比特数为8。对于一幅数字图像,存储该数字图像需要的比特数为
。
随着计算机图形学及相关技术的发展,人们可以应用一定的数学模型生成图像,如卡通图像、游戏中的场景等。为了表示区别,有时我们会将依据数学模型人为生成的图像称为图形(Graphics);将从自然场景获取的图像称为图片(Picture)。
在数字图像处理中,图像一般分为以下4类。
当一幅图像有2k灰度级时,通常称该图像是k位图像。例如,当一幅图像有256(=28)个可能的灰度级时,称该图像是8位图像。灰度图像矩阵元素的取值范围通常为[0, 255],因此其数据类型一般为8位无符号整型,这就是人们经常提到的256级灰度图像(见图1-8(a))。在该取值范围中,“0”表示黑色,“255”表示白色,中间的数字从小到大表示由黑到白的过渡色。
(a)灰度图像 (b)二值图像
图1-8 图像分类
一幅二值图像的二维矩阵仅由0、1两个逻辑值构成,“0”代表黑色,“1”代表白色,如图1-8(b)所示。由于二值图像中的每一像素的取值仅有 0、1两种可能,所以计算机中二值图像的数据类型通常为一个二进制位。二值图像通常用于文字、线条图的扫描与识别,以及掩模图像的存储。二值图像可被看成灰度图像的一个特例。为了显示二值图像,逻辑值“0”对应于灰度值“0”,逻辑值“1”则对应于灰度值“255”。
RGB色彩模式常用来表示彩色图像。它分别用红(R)、绿(G)、蓝(B)三基色来表示每一像素的颜色。图像中每一像素的颜色值直接存放在图像矩阵中,由于每一像素的颜色需由R、G、B这3个分量来表示,因此RGB色彩模式的图像矩阵与其他色彩模式的图像矩阵不同,是一个三维矩阵,可用表示,其中,M、N分别表示图像的行、列数;3个
的二维矩阵分别表示各像素的R、G、B分量。RGB色彩模式的数据类型一般为8位无符号整型,通常用于表示和存放真彩色图像,当然也可以用于存放灰度图像。
综上所述,可以看出在图像的这3种基本类型中,随着图像所表示的颜色类型的增加,图像所需的存储空间也增加。二值图像仅能表示黑、白两种颜色,所需的存储空间最小;灰度图像所需存储空间与图像的灰度级有关,灰度级越高,所需的存储空间越大;RGB图像的存储空间是对应8位灰度图像所需存储空间的3倍。
索引图像是一种把像素值直接作为RGB调色板索引的图像,可把像素值“直接映射”为调色板数值。调色板是一个矩阵形式描述,它可以预先定义好每种颜色,且可供选用的一组颜色数最多为256种。调色板通常与索引图像存储在一起,装载图像时,调色板将和图像一同自动装载。
数字图像文件在计算机中存储的格式多种多样,每一种格式的图像文件都包含头文件和数据文件。头文件的内容由制作图像的公司规定,包括文件类型、制作时间、文件大小、制作人及版本号等信息。图像文件制作时还涉及图像的压缩和存储效率等。常用的图像文件格式有以下几种。
BMP(Bitmap,位图)是Windows系统中的一种标准图像文件格式。BMP文件采用位映射存储格式,除了图像深度可选以外,不采用其他任何方式的压缩,因此BMP文件所占用的空间很大。BMP文件的图像深度可选1位、4位、8位及24位。在使用BMP格式存储数据时,图像按从左到右、从下向上的顺序扫描。BMP文件不受Web浏览器支持。BMP文件默认的文件扩展名是.BMP或.bmp。
BMP文件的结构可以分为3部分:文件头[由位图文件头(Bitmapfileheader)和位图信息头(Bitmapinfoheader)两部分组成]、调色板(Palette)和位图数据(ImageData)。 BMP文件头的长度固定为54字节,其中,Bitmapfileheader结构占14字节,Bitmapinfoheader结构占40字节。详细的BMP文件的结构说明如表1-1所示。
表1-1 BMP文件的结构说明
文件部分 |
属性 |
说明 |
---|---|---|
位图文件头 (14 字节) |
bfType (2 字节) |
指定文件类型,必须是0x424D,即字符串“BM” |
bfSize(4 字节) |
指定文件大小 |
|
bfReserved1 (2 字节) |
保留字,通常设置为0 |
|
bfReserved2 (2 字节) |
保留字,通常设置为0 |
|
bfOffBits(4 字节) |
从文件头到实际位图数据的偏移字节数 |
|
位图信息头 (40 字节) |
biSize(4 字节) |
本部分的长度(字节数),通常为40 |
biWidth(4 字节) |
图像的宽度,单位是像素 |
|
biHeight(4 字节) |
图像的高度,单位是像素 |
|
biBlanes (2 字节) |
位平面数,必须是1 |
|
biBitCount (2 字节) |
指定颜色位数 |
|
biCompression (4 字节) |
指定是否压缩 |
|
biSizeImage (4 字节) |
实际的位图数据占用字节数 |
|
biXPelsPerMeter (4 字节) |
目标设备水平分辨率(像素点/米) |
|
biYPelsPerMeter (4 字节) |
目标设备垂直分辨率(像素点/米) |
|
biClrUsed(4 字节) |
图像中实际使用的颜色数 |
|
biClrImportant(4 字节) |
图像中重要的颜色数 |
|
调色板 (4 字节) |
rgbBlue(1 字节) |
蓝色分量 |
rgbGreen(1 字节) |
绿色分量 |
|
rgbRed(1 字节) |
红色分量 |
|
rgbReserved(1 字节) |
保留值 |
|
位图数据 |
图像数据 |
像素按行优先顺序排序,每一行是4的整数倍 |
GIF(Graphics Interchange Format,图像交互格式),顾名思义,是用来交换图片的。GIF的特点是压缩比高,磁盘空间占用较少,所以它迅速得到了广泛的应用。但GIF有个缺点,即不能存储超过256种色彩的图像,因此不能用于存储和传输真彩色图像文件。
GIF文件采用的是一种基于LZW(Lempel-Ziv-Welch,串表压缩)算法的连续色调的无损压缩模式,其存储效率高,支持多幅图像定序或覆盖、交错多屏幕及文本覆盖。GIF文件的图像深度从1位到8位,即GIF文件最多支持256种色彩的图像。GIF文件采用隔行存放的方式,在边解码边显示的时候可分成4遍扫描。在显示GIF文件时,隔行存放的图像会让人感觉到它的显示速度似乎要比其他图像快一些,这是隔行存放的优点。GIF文件支持透明背景、动画、图形渐进、无损压缩。GIF文件默认的文件扩展名是.GIF或.gif。
JPEG(Joint Photographic Experts Group,联合图像专家组)格式是目前所有格式中压缩率最高的图像文件格式,压缩比通常在10∶1到40∶1之间。大多数彩色图像和灰度图像都使用JPEG格式压缩图像,因为该格式压缩比大且支持多种压缩级别,当对图像的精度要求不高而存储空间有限时,JPEG格式是一种理想的压缩方式。
JPEG格式使用有损压缩算法,通过牺牲一部分图像数据来达到较高的压缩率,但是这种损失很小。可以说JPEG文件以其先进的有损压缩方式用非常少的磁盘空间得到较好的图像质量。JPEG格式压缩的主要是高频信息,对色彩信息的保留效果较好,适合应用于互联网传播,可减少图像的传输时间;JPEG格式支持24位真彩色,普遍应用于需要连续色调的图像应用场景。然而,编辑和重新保存JPEG文件会使原始图片数据的质量下降,而且这种下降是累积性的。JPEG格式不适用于所含颜色较少、具有大面积颜色相近的区域或亮度差异明显的简单图片。
JPEG格式分为标准JPEG、渐进式JPEG及JPEG 2000这3种格式,它们的主要区别体现在Internet图像显示方式上。
(1)标准JPEG格式在网页下载时只能由上而下依序显示图像,直到图像全部下载完毕,才能显示图像全貌。
(2)渐进式JPEG格式在网页下载时,会先呈现出图像的粗略外观,再慢慢呈现出图像的完整内容。
(3)与标准JPEG格式相比,JPEG 2000格式是具备更高压缩率和更多新功能的新一代静态影像压缩技术。作为标准JPEG格式的升级版,JPEG 2000格式的压缩率比标准JPEG格式的高约30%。与标准JPEG格式不同的是,JPEG 2000格式同时支持有损和无损压缩,而标准JPEG格式只能支持有损压缩。JPEG 2000格式的重要特征在于它能实现渐进传输,这一点与GIF的“渐显”相似,即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像显示从朦胧到清晰。此外,JPEG 2000格式还支持所谓的“感兴趣区域”特性,使用者可以任意指定图像上个人感兴趣区域的压缩质量。JPEG 2000格式和标准JPEG格式相比优势明显,且向下兼容。
JPEG文件默认的文件扩展名是.jpg或.jpeg。
TIFF(Tag Image File Format,标记图像文件格式)用于在应用程序之间和计算机平台之间交换文件。TIFF是一种灵活的图像格式,被所有绘画、图像编辑和页面排版应用程序支持。几乎所有的桌面扫描仪都可以生成TIFF图像。而且TIFF文件还可加入作者、版权、备注以及自定义信息,也可存放多幅图像。它的特点是图像格式复杂、存储信息多。正因为它存储的图像细微层次的信息非常多,图像的质量得以提高,故而非常有利于原稿的复制。TIFF是最复杂的一种位图文件格式,也是基于标记的文件格式,它广泛地应用于对图像质量要求较高的图像的存储与转换。由于TIFF的结构灵活和包容性强,它已成为图像文件格式的一种标准,绝大多数图像处理系统都支持这种格式。
TIFF文件默认的文件扩展名是.tif或.tiff。
PNG(Portable Network Graphic,可移植的网络图像)格式是一种位图文件格式,与平台无关,可以以任何颜色深度存储单幅光栅图像。PNG 格式支持高级别无损压缩、alpha通道透明度、伽马校正。PNG格式可以被最新的Web浏览器支持,但是可能不被较早版本的浏览器和程序支持。PNG格式作为Internet文件格式,与JPEG格式的有损压缩相比,它提供的压缩量较少,对多图像文件或动画文件不提供任何支持。
PNG格式具有以下优点。
(1)不失真。PNG格式是目前最不失真的格式,它汲取了GIF和JPEG格式的优点,存储形式丰富,兼有GIF和JPEG格式的色彩模式。
(2)利于网络传输。PNG格式能把图像文件压缩到极限以利于网络传输,同时能保留所有与图像品质有关的信息。PNG格式是采用无损压缩方式来减小文件的大小的,与牺牲图像品质以换取高压缩率的JPEG格式有所不同。
(3)显示速度快。PNG格式的显示速度很快,只需下载1/64的图像信息就可以显示出低分辨率的预览图像。
(4)支持透明图像的制作。PNG格式支持透明图像的制作。在制作网页图像的时候经常会用到透明图像。我们可以把图像背景设为透明,用网页本身的颜色信息来代替设为透明的颜色,这样可让图像和网页背景和谐地融合在一起。
图像是人们获取信息的重要途径,其所承载的信息非常丰富。图像在获取、处理、传输和存储的过程中,可能受到各种因素的影响,这可能导致图像质量下降,并给图像的后期处理带来一定的困难。因此,建立科学、合理的图像质量评价方法具有重要的理论研究和工程实践意义,图像质量评价方法也是图像处理工程的基础。
图像质量评价涉及图像处理的许多方面,如压缩、传输、存储、增强、水印处理等。一个有效的图像质量评价标准至少具有以下3种特征:
第一,可以在质量控制系统中检测图像质量,例如图像采集系统利用其来自动调整系统参数,从而获得更高质量的图像;
第二,可以用于衡量图像处理系统和算法的有效性;
第三,可以嵌入图像处理系统中用于优化系统和参数设置,例如在视频通信系统中,图像质量评价标准既能辅助编码端的预滤波和位分配算法的设计,又能辅助解码端的最优重构、误差消除和后滤波算法的设计。
图像质量也可以从空间域直观观察,评价指标主要包括两方面:一方面是图像的逼真度,即相对于某种度量,被评价图像与原标准图像的偏离程度;另一方面是图像的可懂度,即图像能向人或机器提供有效信息的能力。相比较而言,图像的可懂度属于更高层次的问题,涉及更多人的主观感知与判断,难以统一评价,所以当前的图像质量评价的重点主要在于图像的逼真度,即考察处理后图像和原图像的一致性程度。尽管最理想的情况是找出图像的逼真度和图像的可懂度的定量描述方法,以作为评价图像和设计图像处理系统的依据,但是,由于目前对人的视觉系统性质还没有充分理解,对人的心理因素尚无定量描述方法,理想的逼真度和可懂度的定量描述方面的研究还有很长的路要走。
图像质量评价方法可分为主观质量评价方法和客观质量评价方法两大类。主观质量评价方法主要凭借评价人员的主观感知来评价图像质量;客观质量评价方法主要依据用于评价的数学模型给出的量化指标,模拟人类视觉系统感知机制衡量图像质量。图像质量评价还有一些其他评价方法,如根据有无参考图像可以将图像质量评价方法分为有参考评价模型和无参考评价模型。有参考评价模型是指根据一幅参考图像对经过处理的图像进行评价,在进行图像复原、图像去模糊化等处理时常采用这种评价方法。无参考评价模型是指在没有参考图像的情况下,直接根据图像的统计特性或观察者对图像的主观打分进行质量评价。
图像的主观质量评价方法考虑了观察者对图像的理解效果,常用方法包括平均主观分值(Mean Opinion Score,MOS)法和差分平均主观分值(Differential Mean Opinion Score,DMOS)法。平均主观分值法是通过不同观察者对于图像质量评价得出的主观分值进行平均来得到归一化的分值,以该分值表示该图像质量。评价标准分为优、良、中、差、劣五等。对应这五等评价标准有两种类型的分值,即图像主观绝对分值和图像主观相对分值。图像主观绝对分值是观察者对于图像本身的主观分值,图像主观相对分值是观察者对于图像在一组图像中相对其他图像的分值。由于主观质量评价方法受到观察者知识背景、观察目的和所处的环境等影响,所以稳定性和可移植性差,且难以用数学模型进行表达。
图像主观质量评价试验可依据ITU-R(International Telecommunications Union Radiocommunication,国际电信联盟无线电通信部门)的BT.500-14“电视图像质量的主观评价方法”和ITU-R的BT.710-2“高清晰度电视图像质量的主观评价方法”进行。其中常用的方法就是双刺激连续质量标度(Double Stimulus Continuous Quality Scale,DSCQS)方法。试验中向观察者交替展示一系列的图片或两个视频序列A和B,其中,一个是未受损的“原始”序列,另一个是受损的测试序列,然后要求观察者给出A和B的质量评分(五等制,从“非常好”到“非常差”)。这两个序列的顺序,在测试的过程中被随机地给出,这样观察者就不知道哪个是原始序列,哪个是受损序列,从而防止了观察者带偏见地评价这两个序列。
客观质量评价方法包括均方误差、峰值信噪比、结构相似性等多种指标,可用于全面评价图像质量。
对于数字图像,设为原参考图像,
为其降质图像,它们的尺寸都是M×N,即M行、N列。它们之间的均方误差(Mean Square Error,MSE)定义如下:
(1-7)
其中,运算符表示在计算逼真度前,为使测量值与主观质量评价的结果一致而进行的某种预处理,如对数处理、幂处理等。为简单起见,常使
,即不进行任何预处理,这时两幅图像的
简化为
(1-8)
根据均方误差的定义,均方误差越大,说明图像像素值整体差异越大,图像质量越差;反之,均方误差越小,说明图像像素值整体差异越小,图像质量越好。如果均方误差为0,则被评价图像与原参考图像完全一致。
设为图像
的最大灰度值,如对8位精度的图像,
,则
可看成图像信号的峰值功率,若将
看成因图像降质而引起的噪声功率,则可以用峰值信噪比(Peak Signal to Noise Ratio,PSNR)来表示图像的逼真度,单位为dB:
(1-9)
上述均方误差和峰值信噪比是ITU-R视频质量专家组(Video Quality Experts Group,VQEG)规定的两个简单的图像客观质量评价指标,也是两个最为常用的指标。
虽然 PSNR(包括MSE)在研究和测试中经常被采用,但它还存在一定的局限性:一是为了获得 PSNR 数据,需要用原始的图像作为对比,这在不少情况下是难以实现的;二是PSNR往往不一定能够准确地反映主观的图像质量值,相同的PSNR并不一定表示主观感觉的质量一样,主观上感觉好的图像不一定 PSNR高。为了克服 PSNR指标的局限性,包括VQEG成员在内的很多研究人员致力于开发更加合理、客观的测试过程,也提出了多种客观测试方法,下面介绍的基于结构相似性的图像质量评价方法就是一种和主观质量评价方法比较接近的尝试。但是,目前还没有一个可以完全代替主观质量评价方法的方法。
在图像质量评价方法中,研究人员发现依据MSE、SNR(Signal to Noise Ration,信噪比)、PSNR等指标进行评价有时可能与人的视觉感受有较大的差异。为此,近年来研究人员开发了很多更接近人类视觉特性的客观质量评价方法。其中得到广泛应用和认可的是Wang等研究人员提出的基于结构相似性(Structural Similarity,SSIM)的评价方法。
基于结构相似性的评价方法考虑了两幅图像的亮度、对比度和结构等因素对相似性的影响。Wang等提出的结构相似性的计算模型为
(1-10)
一般取;
、
、
分别为亮度相似性、对比度相似性和结构相似性的度量值,为3个正数,用于调节不同因素的影响权重。亮度、对比度和结构相似性分别定义如下:
(1-11)
其中,、
、
、
和
分别为两幅图像的均值标准差和协方差;
、
和
为3个远小于最大灰度值二次方的常数,通常取值为
、
、
,其中,
、
取远小于1的数,L是指像素的最大值,通常取
、
、
。μx、μy、σx、σy、σxy的计算方法如下:
,
(1-12)
,
(1-13)
(1-14)
基于光照对于物体结构是独立的,而光照改变主要源于亮度和对比度的原理,该方法将亮度和对比度从图像的结构信息中分离出来,并结合结构信息对图像质量进行评价。基于这一类原理的方法在一定程度上避开了自然图像内容的复杂性及多通道的去相关问题,直接评价图像的结构相似性。
SSIM的值域范围为[0, 1],并且满足距离度量的3个性质:
(1)对称性:。
(2)有界性:。
(3)最大值唯一性:。
考虑图像的亮度和对比度与图像内容具有密不可分的关系,无论是亮度还是对比度,在图像的不同位置可能有不同的值,因此实际应用中通常可将图像分为多个子块,分别计算各个子块的结构相似性,然后由各个子块的结构相似性计算出平均结构的相似性(Mean Structure Similarity),并以该平均值作为两幅图像的结构相似性。
在图像质量评价中,绝对均值亮度误差(Absolute Mean Brightness Error,AMBE)是衡量两幅图像之间平均亮度差异的指标。通过计算AMBE,可以量化两幅图像之间的亮度差异,并评价图像质量的好坏。
(1-15)
其中,I1和I2是被比较的两幅图像,M和N分别是图像的高度和宽度。两幅图像的总亮度差除以图像中的像素总数以获得平均亮度误差。
在比较两幅图像时,可能会出现亮度不同的情况,如过度曝光、欠曝光或对比度不足等。这些亮度差异可能会导致图像的质量下降。AMBE指标可以帮助我们定量地度量这些亮度差异,因此该指标可以用于评价图像质量,以及比较不同的图像处理算法和技术。对于人眼来说,具有较高AMBE值的图像可能看起来更扭曲或更不自然,而具有较低 AMBE 值的图像可能看起来更自然和逼真。
在图像质量评价中,图像细节增强评价(Enhancement Measure Evaluation,EME)主要用于评价图像细节增强算法的效果,即衡量输出图像与参考图像之间的差距大小,较大的EME值表示增强效果较好,而较小的EME值则表示增强效果较差。一幅图像的局域灰度变化越强,图像表现出的细节越强,得到的EME值越大,图像增强的效果越明显。EME的原理为:先把图像分成M×N块小区域,然后计算出小区域中灰度最大的值与最小的值之比的对数均值,评价结果即对数均值。其定义式为
(1-16)
其中,为图像块(k,l)中的灰度最大值,
为灰度最小值。
分割图像质量评价指标(Maximum Correlation Criterion,MCC)的值越大表示图像的分割效果越好。从图像的边界信息对图像的影响来看,该指标可以利用离散二维相关数来确定:
(1-17)
设和
分别为前景和背景,
为灰度值为i、邻域均值为j的像素点的概率,
和 PB分别为前景和背景区域像素点的总概率。
(1-18)
(1-19)
将O、B两类中灰度级概率分布正规化处理:
(1-20)
(1-21)
和
分别为前景和背景的相关数:
(1-22)
(1-23)
相关数的准则函数为和
的和:
(1-24)
水下图像质量测量(Underwater Image Quality Measure,UIQM)是基于人类视觉系统提出的模型,其公式为
(1-25)
其中,c1、c2和c3为权重因子。式(1-25)中指出,权重因子的选择需根据具体应用而定。UIQM主要包括3方面的测量:UICM(Underwater Image Color Measure,水下图像颜色测量)用于衡量水下图像的颜色饱和度、颜色均匀性和颜色分布;UISM(Underwater Image Sharpness Measure,水下图像清晰度测量)用于衡量水下图像的清晰度、锐度和细节损失程度;UIConM(Underwater Image Contrast Measure,水下图像对比度测量)用于衡量水下图像的对比度、动态范围和背景噪声等因素。UIQM值越高,表示水下图像的质量越好,即其在颜色、清晰度和对比度等方面都表现出更好的特征。 UICM、UISM、UIConM计算如下:
(1-26)
(1-27)
(1-28)
(1-29)
其中,R、G、B分别表示水下图像中每像素的红、绿、蓝通道的值,通常情况下为像素总数,
,
(向上取整),
(向下取整),
为均值,
为方差,Intensity表示灰度值。
(1-30)
(1-31)
其中,图像分为个子块,
表示每个块内的相对对比度,
是利用sobel算子测到的边缘图与原图相乘得到的灰度边缘图。
为RGB三通道的关联系数,一般取
。
(1-32)
(1-33)
其中,是PLIP(Parameterized Logarithmic Image Processing,参数化对数图像处理)操作,它提供了与人类视觉感知一致的非线性表示。