视频信息处理与传输热点分析研究 摘要:当今是信息化的时代,人们每天要从各种不同的地方获取信息,甚至有人玩笑说这是个信息爆炸的时代,而人类通过视觉获取的信息量约占总信息量的70%,而且视频信息具有直观性、可信性等一系列优点。所以,视讯技术中的关键技术就是视频技术,他更是以其独特的传播信息的方法和快捷方便在人获取信息上发挥着不可替代的作用,占据着重要的地位。同时人们对其传递信息的质量与要求越来越高,数字电视的发展使人们不单只满足于了解信息更希望信息高效观看视频时更清晰更好。而视频网站的迅速崛起,人们越来越希望视频信息可以被在效果和压缩中取得双赢等。所以与此相关的视频信息处理与传输也渐渐被人重视,并且得到了许多的发展,而其中关于视频压缩,视频转码和视频检索更是其中的大热点,并且在这几年发展也很迅速,并且也获得了很大的成功在某些方面。
关键字:信息化;视频载体;视频信息与传输;热门;视频转码;视频检索;视频压缩 正文:视频检索视频信息处理与传输是一门包含十分广泛的课程,视频的采集到最后呈现都属于其研究的范畴。大致可以分为:采集,压缩编码,视频信息处理,视频信息检索,视频信息传输和应用系统。其中热点有视频压缩、视频转码和视频检索。
视频压缩 视频压缩技术是计算机处理视频的前提。视频信号数字化后数据带宽很高,通常在20MB/秒以上,因此计算机很难对之进行保存和处理。采用压缩技术通常数据带宽降到1-10MB/秒,这样就可以将视频信号保存在计算机中并作相应的处理。常用的算法是由ISO 制订的,即JPEG 和MPEG 算法。JPEG 是静态图像压缩标准,适用于连续色调彩色或灰度图像,它包括两部分:一是基于DPCM (空间线性预测)技术的无失真编码,一是基于DCT (离散余弦变换)和哈夫曼编码的有失真算法,前者压缩比很小,主要应用的是后一种算法。在非线性编辑中最常用的是MJPEG 算法,即Motion JPEG。它是将视频信号50帧/秒(PAL 制式)变为25帧/秒,然后按照25帧/秒的速度使用JPEG 算法对每一帧压缩。通常压缩倍数在3.5-5倍时可以达到Betacam 的图像质量。MPEG 算法是适用于动态视频的压缩算法,它除了对单幅图像进行编码外还利用图像序列中的相关原则,将冗余去掉,这样可以大大提高视频的压缩比。前MPEG-I 用于VCD 节目中,MPEG-II 用于VOD 、DVD 节目中。
AVS 音视频编码是中国支持制订的新一代编码标准,压缩效率比MPEG-2增加了一倍以上,能够使用更小的带宽传输同样的内容。AVS 已经成为国际上三大视频编码标准之一,AVS 标准在广电总局正式全面推广,率先在广电行业普及。中国第一颗AVS 编码芯片,由北京博雅华录公司设计,于2012年在北京诞生。
视频编码可谓百花齐放,有许多不同的系列。常见的有MPEG 系列和H.26X 系列。 MPEG 系列(由ISO[国际标准组织机构]下属的MPEG[运动图象专家组]开发 )
视频编码方面主要是Mpeg1(vcd 用的就是它)、Mpeg2(DVD 使用)、Mpeg4(的DVDRIP 使用的都是它的变种,如:divx ,xvid 等)、Mpeg4 AVC (正热门);音频编码方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(大名鼎鼎的mp3)、MPEG-2 AAC 、MPEG-4 AAC等等。注意:DVD 音频没有采用Mpeg 的。
H.26X 系列(由ITU[国际电传视讯联盟]主导,侧重网络传输,注意:只是视频编码)
包括H.261、H.262、H.263、H.263+、H.263++、H.264(就是MPEG4 AVC-合作的
结晶)[1]
构成原理
冗余信息:视频图像数据有极强的相关性,也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉(去除数据之间的相关性),压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。 去时域:使用帧间编码技术可去除时域冗余信息,它包括以下三部分:
- 运动补偿:运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
- 运动表示:不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。
-运动估计:运动估计是从视频序列中抽取运动信息的一整套技术。 注:通用的压缩标准都使用基于块的运动估计和运动补偿。
去空域:主要使用帧内编码技术和熵编码技术:
-变换编码:帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间,使其相关性下降,数据冗余度减小。
- 量化编码:经过变换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出达到一定的位率。这一过程导致精度的降低。
-熵编码:熵编码是无损编码。它对变换、量化后得到的系数和运动信息,进行进一步的压缩。
视频转码
互联网发展迅猛,而其中关于视频的网站快速发展,但出于用户的专享,许多下载下来的视频有许多格式,有时需转码视频以符合自己的播放器。所以许多关于转码的软件应运而生。更有许多视频网站为增加自己用户量,在自己的播放器中增加此功能,使对于用户更加方便与快捷。当今视频娱乐市场以内容为王,能够实时转换任意格式的视频内容是未来市场发展的一个核心趋势。即使不被众人所了解,但是视频转码技术必将得到广泛的使用。
视频转码(Video Transcoding)是指将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。转码本质上是一个先解码,再编码的过程,先将视频暂时解码,然后重新编码成需要的格式和数据编码速度。因此转换前后的码流可能遵循相同的视频编码标准,也可能不遵循相同的视频编码标准。
目前转码技术的主要应用领域是数字电视广播和数字媒体前端处理。而当前大量数字视频节目为MPEG-2格式,而许多新的播放设备为提高传输和存储效率而采用诸如MPEG-4\H.264 \Real\VC-1\AVS等高级数字编解码格式,使得源于MPEG-2的转码在最近几年更是主流,而人们对视频观赏的要求越来越高,使得视频转码在最近几年都应该会是一个热门。而关于转码,IDC 指出了三种主要的转码需求:不同视频格式间的转换,例如从MPEG-2或者MPEG-4转到H.264;内容传输,改变比特率满足不同网络带宽或者设备播放速度的需求;清晰度,将高清视频转为标清甚至更低的清晰度,后者反向处理。
视频检索
在社会公共安全领域,视频监控系统成为维护社会治安,加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大,存储时间长等特点,通过录像寻找线索,获取证据传统的做法是要耗费大量人力、物力以及时间,效率极其低下,以至于错过最佳破案时机。因此在视频监控系统中,录像智能检索已成为公安用户迫切需求,对于公安加快破案速度,提高大案、要案的破案效率具有重要指导意义。
视频检索简单的可以理解为从视频中搜索有用或者需要的资料。智能是当今社会大势所趋。智能视频源自计算机视觉技术,计算机视觉技术是人工智能研究的分支之一,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容。目前,智能视频技术实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能的主要算法分为以下五类:目标检测、目标跟踪、目标识别、行为分析、基于内容的视频检索和数据融合等。
目标检测
目标检测(Object Detection)是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分离出来。运动目标检测技术是智能化分析的基础。常用的目标检测技术可以分为背景减除法(Background Subtraction )、时间差分法(Temporal Difference)和光流法(Optic Flow)三类。
背景减除法利用当前图像与背景图像的差分检测运动区域。背景减除法假设视频场景中有一个背景,而背景和前景并未给出严格定义,背景在实际使用中是变化的,所以背景建模是背景减除法中非常关键的一步。常用的背景建模方法有时间平均法、自适应更新法、高斯模型等。背景减除法能够提供相对来说比较完全的运动目标特征数据,但对于动态场景的变化,如光线照射情况、摄像机抖动和外来无关事件的干扰特别敏感。
时间差分法充分利用了视频图像的时域特征,利用相邻帧图像的相减来提取出前景移动目标的信息。该方法对于动态环境具有较强的自适应性,不对场景做任何假设,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。当运动目标停止时,一般时间差分法便失效。 光流法通过比较连续帧为每个图像中的像素赋予一个运动矢量从而分割出运动物体。
光流法能够在摄像机运动的情况下检测出独立的运动目标,然而光流法运算复杂度高并且对噪声很敏感,所以在没有专门硬件支持下很难用于实时视频流检测中。
目标跟踪
目标跟踪(Object Tracking )算法根据不同的分类标准,有着以下两种分类方法:根据目标跟踪与目标检测的时间关系分类和根据目标跟踪的策略分类。 根据目标跟踪与目标检测的时间关系的分类有三种:
一是先检测后跟踪(Detect before Track),先检测每帧图像上的目标,然后将前后两帧图像上目标进行匹配,从而达到跟踪的目的。这种方法可以借助很多图像处理和数据处理的现有技术,但是检测过程没有充分利用跟踪过程提供的信息。
二是先跟踪后检测(Track before Detect),先对目标下一帧所在的位置及其状态进行预测或假设,然后根据检测结果来矫正预测值。这一思路面临的难点是事先要知道目标的运动特性和规律。三是边检测边跟踪(Track while Detect),图像序列中目标的检测和跟踪相结合,检测要利用跟踪来提供处理的对象区域,跟踪要利用检测来提供目标状态的观察数据。
根据目标跟踪的策略来分类,通常可分为3D 方法和2D 方法。相对3D 方法而言,2D 方法速度较快,但对于遮挡问题难以处理。基于运动估计的跟踪是最常用的方法之一。 目标识别
目标识别(Object Recognize)利用物体颜色、速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象。目标识别常用人脸识别和车辆识别。
视频人脸识别的通常分为四个步骤:人脸检测、人脸跟踪、特征提取和比对。人脸检测指在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像。人脸跟踪指对被检测到的面貌进行动态目标跟踪。常用方法有基于模型的方法、基于运动与模型相结合的方法、肤色模型法等。
人脸特征提取方法归纳起来分为三类:第一类是基于边缘、直线和曲线的基本方法;第二类是基于特征模板的方法;第三类是考虑各种特征之间几何关系的结构匹配法。单一基于局部特征的提取方法在处理闭眼、眼镜和张嘴等情景时遇到困难,相对而言,基于整体特征统计的方法对于图像亮度和特征形变的鲁棒性更强。人脸比对是将抽取出的人脸特征与面像库中的特征进行比对,并找出最佳的匹配对象。
车辆识别主要分为车牌照识别、车型识别和车辆颜色识别等,应用最广泛和技术较成熟的是车牌照识别。 车牌照识别的步骤分别为:车牌定位、车牌字符分割、车牌字符特征提取和车牌字符识别。
车牌定位是指从车牌图像中找到车牌区域并把其分离出来。字符分割是将汉字、英文字母和数字字符从牌照中提取出来。车牌特征提取的基本任务是从众多特征中找出最有效的特征,常用的方法有逐像素特征提取法、骨架特征提取法、垂直水平方向数据统计特征提取
法、特征点提取法和基于统计特征的提取法。车牌字符识别可以使用贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等算法。
行为分析
行为分析(Behavior Analysis)是指在目标检测、跟踪和识别的基础上,对其行为进行更高层次的语义分析。现有的行为分析技术根据分析的细节程度和对分析结果的判别要求可以分为三类:第一类使用了大量的细节,并往往使用已经建立好的数据进行分析而较少使用目标的时域信息。基于人脸、手势、步态的行为分析方法属于这一类;第二类是将目标作为一个整体,使用目标跟踪的算法来分析其运动轨迹以及该目标与其它目标的交互;第三类是在前两类的基础上做一个折中,它使用时域和空域的信息,分析目标各部分的运动。 图像检索
基于内容的图像检索技术是由用户提交检索样本,系统根据样本对象的底层物理特征生成特征集,然后在视频库中进行相似性匹配,得到检索结果的过程。现有基于内容的检索方法主要分为:基于颜色的检索方法、基于形状的检索方法和基于纹理的检索方法等。数据融合是将来自不同视频源的数据进行整合,以获得更丰富的数据分析结果。
其实除去上面三种热点之外,在视频信息处理与传输中还有许多值得人们去继续研究或者还有很大发展空间的东西。它所牵涉到的知识也很广泛,也许不单只是信息的处理问题,而将其他方面的重大研究运用到其中也可能产生新的热点。
参考文献:《视频信息处理与传输》
视频信息处理与传输热点分析研究 摘要:当今是信息化的时代,人们每天要从各种不同的地方获取信息,甚至有人玩笑说这是个信息爆炸的时代,而人类通过视觉获取的信息量约占总信息量的70%,而且视频信息具有直观性、可信性等一系列优点。所以,视讯技术中的关键技术就是视频技术,他更是以其独特的传播信息的方法和快捷方便在人获取信息上发挥着不可替代的作用,占据着重要的地位。同时人们对其传递信息的质量与要求越来越高,数字电视的发展使人们不单只满足于了解信息更希望信息高效观看视频时更清晰更好。而视频网站的迅速崛起,人们越来越希望视频信息可以被在效果和压缩中取得双赢等。所以与此相关的视频信息处理与传输也渐渐被人重视,并且得到了许多的发展,而其中关于视频压缩,视频转码和视频检索更是其中的大热点,并且在这几年发展也很迅速,并且也获得了很大的成功在某些方面。
关键字:信息化;视频载体;视频信息与传输;热门;视频转码;视频检索;视频压缩 正文:视频检索视频信息处理与传输是一门包含十分广泛的课程,视频的采集到最后呈现都属于其研究的范畴。大致可以分为:采集,压缩编码,视频信息处理,视频信息检索,视频信息传输和应用系统。其中热点有视频压缩、视频转码和视频检索。
视频压缩 视频压缩技术是计算机处理视频的前提。视频信号数字化后数据带宽很高,通常在20MB/秒以上,因此计算机很难对之进行保存和处理。采用压缩技术通常数据带宽降到1-10MB/秒,这样就可以将视频信号保存在计算机中并作相应的处理。常用的算法是由ISO 制订的,即JPEG 和MPEG 算法。JPEG 是静态图像压缩标准,适用于连续色调彩色或灰度图像,它包括两部分:一是基于DPCM (空间线性预测)技术的无失真编码,一是基于DCT (离散余弦变换)和哈夫曼编码的有失真算法,前者压缩比很小,主要应用的是后一种算法。在非线性编辑中最常用的是MJPEG 算法,即Motion JPEG。它是将视频信号50帧/秒(PAL 制式)变为25帧/秒,然后按照25帧/秒的速度使用JPEG 算法对每一帧压缩。通常压缩倍数在3.5-5倍时可以达到Betacam 的图像质量。MPEG 算法是适用于动态视频的压缩算法,它除了对单幅图像进行编码外还利用图像序列中的相关原则,将冗余去掉,这样可以大大提高视频的压缩比。前MPEG-I 用于VCD 节目中,MPEG-II 用于VOD 、DVD 节目中。
AVS 音视频编码是中国支持制订的新一代编码标准,压缩效率比MPEG-2增加了一倍以上,能够使用更小的带宽传输同样的内容。AVS 已经成为国际上三大视频编码标准之一,AVS 标准在广电总局正式全面推广,率先在广电行业普及。中国第一颗AVS 编码芯片,由北京博雅华录公司设计,于2012年在北京诞生。
视频编码可谓百花齐放,有许多不同的系列。常见的有MPEG 系列和H.26X 系列。 MPEG 系列(由ISO[国际标准组织机构]下属的MPEG[运动图象专家组]开发 )
视频编码方面主要是Mpeg1(vcd 用的就是它)、Mpeg2(DVD 使用)、Mpeg4(的DVDRIP 使用的都是它的变种,如:divx ,xvid 等)、Mpeg4 AVC (正热门);音频编码方面主要是MPEG Audio Layer 1/2、MPEG Audio Layer 3(大名鼎鼎的mp3)、MPEG-2 AAC 、MPEG-4 AAC等等。注意:DVD 音频没有采用Mpeg 的。
H.26X 系列(由ITU[国际电传视讯联盟]主导,侧重网络传输,注意:只是视频编码)
包括H.261、H.262、H.263、H.263+、H.263++、H.264(就是MPEG4 AVC-合作的
结晶)[1]
构成原理
冗余信息:视频图像数据有极强的相关性,也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉(去除数据之间的相关性),压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。 去时域:使用帧间编码技术可去除时域冗余信息,它包括以下三部分:
- 运动补偿:运动补偿是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。
- 运动表示:不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。
-运动估计:运动估计是从视频序列中抽取运动信息的一整套技术。 注:通用的压缩标准都使用基于块的运动估计和运动补偿。
去空域:主要使用帧内编码技术和熵编码技术:
-变换编码:帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间,使其相关性下降,数据冗余度减小。
- 量化编码:经过变换编码后,产生一批变换系数,对这些系数进行量化,使编码器的输出达到一定的位率。这一过程导致精度的降低。
-熵编码:熵编码是无损编码。它对变换、量化后得到的系数和运动信息,进行进一步的压缩。
视频转码
互联网发展迅猛,而其中关于视频的网站快速发展,但出于用户的专享,许多下载下来的视频有许多格式,有时需转码视频以符合自己的播放器。所以许多关于转码的软件应运而生。更有许多视频网站为增加自己用户量,在自己的播放器中增加此功能,使对于用户更加方便与快捷。当今视频娱乐市场以内容为王,能够实时转换任意格式的视频内容是未来市场发展的一个核心趋势。即使不被众人所了解,但是视频转码技术必将得到广泛的使用。
视频转码(Video Transcoding)是指将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。转码本质上是一个先解码,再编码的过程,先将视频暂时解码,然后重新编码成需要的格式和数据编码速度。因此转换前后的码流可能遵循相同的视频编码标准,也可能不遵循相同的视频编码标准。
目前转码技术的主要应用领域是数字电视广播和数字媒体前端处理。而当前大量数字视频节目为MPEG-2格式,而许多新的播放设备为提高传输和存储效率而采用诸如MPEG-4\H.264 \Real\VC-1\AVS等高级数字编解码格式,使得源于MPEG-2的转码在最近几年更是主流,而人们对视频观赏的要求越来越高,使得视频转码在最近几年都应该会是一个热门。而关于转码,IDC 指出了三种主要的转码需求:不同视频格式间的转换,例如从MPEG-2或者MPEG-4转到H.264;内容传输,改变比特率满足不同网络带宽或者设备播放速度的需求;清晰度,将高清视频转为标清甚至更低的清晰度,后者反向处理。
视频检索
在社会公共安全领域,视频监控系统成为维护社会治安,加强社会管理的一个重要组成部分。然而视频录像存在存储数据量大,存储时间长等特点,通过录像寻找线索,获取证据传统的做法是要耗费大量人力、物力以及时间,效率极其低下,以至于错过最佳破案时机。因此在视频监控系统中,录像智能检索已成为公安用户迫切需求,对于公安加快破案速度,提高大案、要案的破案效率具有重要指导意义。
视频检索简单的可以理解为从视频中搜索有用或者需要的资料。智能是当今社会大势所趋。智能视频源自计算机视觉技术,计算机视觉技术是人工智能研究的分支之一,它能够在图像及图像内容描述之间建立映射关系,从而使计算机能够通过数字图像处理和分析来有限理解视频画面中的内容。目前,智能视频技术实现对移动目标的实时检测、识别、分类以及多目标跟踪等功能的主要算法分为以下五类:目标检测、目标跟踪、目标识别、行为分析、基于内容的视频检索和数据融合等。
目标检测
目标检测(Object Detection)是按一定时间间隔从视频图像中抽取像素,采用软件技术来分析数字化的像素,将运动物体从视频序列中分离出来。运动目标检测技术是智能化分析的基础。常用的目标检测技术可以分为背景减除法(Background Subtraction )、时间差分法(Temporal Difference)和光流法(Optic Flow)三类。
背景减除法利用当前图像与背景图像的差分检测运动区域。背景减除法假设视频场景中有一个背景,而背景和前景并未给出严格定义,背景在实际使用中是变化的,所以背景建模是背景减除法中非常关键的一步。常用的背景建模方法有时间平均法、自适应更新法、高斯模型等。背景减除法能够提供相对来说比较完全的运动目标特征数据,但对于动态场景的变化,如光线照射情况、摄像机抖动和外来无关事件的干扰特别敏感。
时间差分法充分利用了视频图像的时域特征,利用相邻帧图像的相减来提取出前景移动目标的信息。该方法对于动态环境具有较强的自适应性,不对场景做任何假设,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产生空洞现象,只能够检测到目标的边缘。当运动目标停止时,一般时间差分法便失效。 光流法通过比较连续帧为每个图像中的像素赋予一个运动矢量从而分割出运动物体。
光流法能够在摄像机运动的情况下检测出独立的运动目标,然而光流法运算复杂度高并且对噪声很敏感,所以在没有专门硬件支持下很难用于实时视频流检测中。
目标跟踪
目标跟踪(Object Tracking )算法根据不同的分类标准,有着以下两种分类方法:根据目标跟踪与目标检测的时间关系分类和根据目标跟踪的策略分类。 根据目标跟踪与目标检测的时间关系的分类有三种:
一是先检测后跟踪(Detect before Track),先检测每帧图像上的目标,然后将前后两帧图像上目标进行匹配,从而达到跟踪的目的。这种方法可以借助很多图像处理和数据处理的现有技术,但是检测过程没有充分利用跟踪过程提供的信息。
二是先跟踪后检测(Track before Detect),先对目标下一帧所在的位置及其状态进行预测或假设,然后根据检测结果来矫正预测值。这一思路面临的难点是事先要知道目标的运动特性和规律。三是边检测边跟踪(Track while Detect),图像序列中目标的检测和跟踪相结合,检测要利用跟踪来提供处理的对象区域,跟踪要利用检测来提供目标状态的观察数据。
根据目标跟踪的策略来分类,通常可分为3D 方法和2D 方法。相对3D 方法而言,2D 方法速度较快,但对于遮挡问题难以处理。基于运动估计的跟踪是最常用的方法之一。 目标识别
目标识别(Object Recognize)利用物体颜色、速度、形状、尺寸等信息进行判别,区分人、交通工具和其他对象。目标识别常用人脸识别和车辆识别。
视频人脸识别的通常分为四个步骤:人脸检测、人脸跟踪、特征提取和比对。人脸检测指在动态的场景与复杂的背景中判断是否存在面像,并分离出这种面像。人脸跟踪指对被检测到的面貌进行动态目标跟踪。常用方法有基于模型的方法、基于运动与模型相结合的方法、肤色模型法等。
人脸特征提取方法归纳起来分为三类:第一类是基于边缘、直线和曲线的基本方法;第二类是基于特征模板的方法;第三类是考虑各种特征之间几何关系的结构匹配法。单一基于局部特征的提取方法在处理闭眼、眼镜和张嘴等情景时遇到困难,相对而言,基于整体特征统计的方法对于图像亮度和特征形变的鲁棒性更强。人脸比对是将抽取出的人脸特征与面像库中的特征进行比对,并找出最佳的匹配对象。
车辆识别主要分为车牌照识别、车型识别和车辆颜色识别等,应用最广泛和技术较成熟的是车牌照识别。 车牌照识别的步骤分别为:车牌定位、车牌字符分割、车牌字符特征提取和车牌字符识别。
车牌定位是指从车牌图像中找到车牌区域并把其分离出来。字符分割是将汉字、英文字母和数字字符从牌照中提取出来。车牌特征提取的基本任务是从众多特征中找出最有效的特征,常用的方法有逐像素特征提取法、骨架特征提取法、垂直水平方向数据统计特征提取
法、特征点提取法和基于统计特征的提取法。车牌字符识别可以使用贝叶斯分离器、支持向量机(SVM)和神经网络分类器(NNC)等算法。
行为分析
行为分析(Behavior Analysis)是指在目标检测、跟踪和识别的基础上,对其行为进行更高层次的语义分析。现有的行为分析技术根据分析的细节程度和对分析结果的判别要求可以分为三类:第一类使用了大量的细节,并往往使用已经建立好的数据进行分析而较少使用目标的时域信息。基于人脸、手势、步态的行为分析方法属于这一类;第二类是将目标作为一个整体,使用目标跟踪的算法来分析其运动轨迹以及该目标与其它目标的交互;第三类是在前两类的基础上做一个折中,它使用时域和空域的信息,分析目标各部分的运动。 图像检索
基于内容的图像检索技术是由用户提交检索样本,系统根据样本对象的底层物理特征生成特征集,然后在视频库中进行相似性匹配,得到检索结果的过程。现有基于内容的检索方法主要分为:基于颜色的检索方法、基于形状的检索方法和基于纹理的检索方法等。数据融合是将来自不同视频源的数据进行整合,以获得更丰富的数据分析结果。
其实除去上面三种热点之外,在视频信息处理与传输中还有许多值得人们去继续研究或者还有很大发展空间的东西。它所牵涉到的知识也很广泛,也许不单只是信息的处理问题,而将其他方面的重大研究运用到其中也可能产生新的热点。
参考文献:《视频信息处理与传输》