如今,“智能”一词已经频繁地出现在我们的工作、学习和生活中。电脑类的产品被冠以“智能”自不用多说,就连衣食住行也都“智能化”了——虚拟试衣镜、全时在线电饭锅、自动吸尘器、导航仪等等,比比皆是“智能”的影子。同样,摄像机也经历了模拟、数字、IP等三个阶段进入了智能时代。本文将就笔者在相关技术研究中的一些体会提出三点思考。
一、摄像机智能化的目的和内涵
“智能”的本意是在现实世界中赋予人造工具以最大程度的拟人能力,并使人能通过使用这样的工具获得自身相应能力的延伸。在技术实现上,“智能”一般都依赖于对应的软硬件计算能力。摄像机的拟人功能是视觉,模拟摄像机实现了“看得见”,高清摄像机实现了“看得清”,那么智能的摄像机要实现哪些特质呢?
首先,智能的摄像机要确保“看得清”
在实际应用场景中,这主要与摄像机的环境适应能力相关。为适应我国的大气环境条件,当前,“透雾”已成为摄像机实现智能化的迫切需求之一。尽管具备这样功能的摄像机早在十年前就已面世,但由于雾、雨、霾、烟等的光学特性不尽相同,具有普适性的光学处理与自动“雾”判断算法仍是一个研究热点。此外,如何保证在摄像机应用环境中高速运动物体的细节能被清晰地连续记录下来也成为一种智能化需求。由此,能够按普通摄像机的帧率输出连续图像的“快照”算法也成为实现摄像机智能化的一个方面。从“看得清”的立场来看,(超)低照度和宽动态因为都需要有相关的算法支持,也可以被看成是一种“智能化”的功能。从目前的实践结果来看,实现了上述功能的摄像机,其视频效果基本都能超越人眼的观察能力。
其次,智能的摄像机要实现“看得懂”、“看得牢”。
在当前大多数的应用场景下,摄像机主要承担了现实世界捕捉器的角色,它所提供的图像需要依靠人工来进行判断和处理。可以这么认为,目前大部分的监控系统应用还处于“半自动”状态,系统的效能没有得到充分发挥。要解决这样的问题,自然就会想到应该设法让摄像机“看懂”图像,并使监控图像的应用从“事后复现”扩展到“事中控制”,进而可以溯及“事前发现”,真正实现特定的防范功能。要看懂图像,就需要过滤掉一些一般的、不重要的信息,而将关键的、重要的信息分离出来,并进行应用处理。于是,防篡改、车牌识别、人脸识别、人群估计和斗殴行为分析等已成为因为摄像机“看懂”了图像而提供的、得以广泛应用的能力,其背后则是特定对象检测和识别算法的支撑。这里值得一提的是,目前已面市的摄像机“看图像”的范围大多为矩形区域,能处理非矩形(或任意形状)观测区域的较少见。
在能够“看懂”图像后,摄像机在机械装置的承载下就可以紧紧跟随目标对象的移动,实现类似于人头部转动来盯住目标对象的“看得牢”功能,即所谓的跟踪取证或跟踪拍摄。在现实应用中,具有“看得牢”功能的摄像机可以实现“拨浪鼓”式的运动,既其跟踪拍摄的角度可以达到全周(360度),而且半周(180度)转向和对焦的速度达到百毫秒级。
第三,智能的摄像机要“善思考”和“易交流”。
越来越多的摄像头所产生的视频数据形成了海量的数据;为节约和控制建设及运行成本,对这些数据的后续保存策略目前基本上是依据“时间”这样一个维度来进行的。如果能增加“内容”这样一个维度的话,图像数据的保存策略将更显科学。为了要让整个系统能根据“内容+时间”来进行所保存数据的取舍,就需要让摄像机会“思考”,既将图像所表达的意思用“语言”表达出来。这里有必要引用两个概念:
·视频内容描述数据:关于视频内容的数据。视频内容的描述分为场景或背景、目标或前景以及目标的动作或变化轨迹等,是对视频内容的客观描述。
·视频语义描述数据:关于视频语义的数据。视频语义具有领域本体属性,即按照领域本体知识,对视频内容的理解。视频语义又可分为三个层次:底层语义是关于视频底层特征的语义,如颜色、场景、前景、目标形状或纹理等的描述;中层语义是关于视频目标动作、行为、密度、流量统计特性等的描述;高层语义是关于具有领域本体知识的视频事件属性的描述。
语言是有结构和含义的,所以一旦能用语言数据来描述视频内容及语义,也就实现了视频的结构化和语义化。这将从根本上实现“反应快、效率高”的监控视频应用以及“成本适中、绿色节能”的监控系统运维。
人与人之间的交流需要用语言作为工具,同样将来自五湖四海的、具备“思考”能力的摄像机组合在一起为一个共同的目标而工作时,也需要有一套开放的、分层次定义的语义规范来使彼此能够交流和协同。作为摄像机智能化的高级别任务,视频语义规范的研究当前正处在起步阶段,但其有着较快的发展速度。业界应该对此给予足够的重视,并迅速联合起来,一起为国内蓬勃发展的视频监控行业未来的持续发展,抢占技术高地。
综合以上叙述,从技术角度来看,摄像机的智能化可以理解为:是利用信号处理技术、计算机视觉技术和集成电路技术,对视频图像进行清晰的复现,并对其中的感兴趣目标或异常事件进行自动的、实时的检测、跟踪、识别、分类、分析和语义提取等。同时,我们也不难得出这样的结论,智能化的摄像机绝不是相关的技术和产品供应商为纯粹的商业目的而增加的“噱头”,而是他们为摄像机能够更好地满足实际应用需求所进行各种技术创新的成果。
二、摄像机智能化所面临的技术挑战
摄像机智能化的实现依赖于各种图像处理算法的研究、设计和实现。近些年,国内研究在这方面所取得的成果是十分丰富的,但这些成果所形成的实际生产力却仍然有限。究其原因,除了市场需求的发展需要一个过程外,最主要的还是有一些技术挑战尚未完全克服。限于篇幅,这里仅摘取其中两点进行分析。
一是“智能”算法的前端化、固态化。尽管智能化是新一代摄像机的重要标志,但其进程却始于模拟时代。经过多年的发展,诸如移动侦测、人脸识别、自动跟踪等智能视频算法日趋成熟并在一些特定场合得到了广泛应用。随着分布式计算技术架构的发展,特别是云计算概念的提出,与摄像机智能化相关的算法实现也呈现出十分明显的前端化(即内置于摄像机)倾向。理论上,将前期大量经过实践检验、比较成熟的算法,从桌面以上的平台移植到嵌入式平台成为最可行的第一步。但这看似容易的第一步,真的走起来却并不轻松。最困难的,也是最能体现技术水平的就是算法实现的可移植性。由于不同嵌入式系统在系统结构、指令系统以及处理能力等多方面都存在差异,对本来就对计算效率极其敏感的图像处理算法来说,要实现高度的可移植性(无论是静态的还是动态的)是十分困难的。解决之道就是在产品开发中引入软件可移植性工程,将自主研制的算法以不同目标环境下的支持库形式提供给需求者。
此外,随着摄像机所能提供的图像分辨率的不断提升,智能视频算法需要处理的数据量也急剧增加。在很多场合下,算法实现需要固态化才能满足实时性要求。所谓固态化就是用专用芯片来实现相关的算法。这就需要有既懂算法软件、又懂硬件描述语言,具有长期实践经验的技术人员,来设计可靠、高效的算法芯片。
正是因为上述两项工作的技术门槛高,并要求产品研发机构保持持续、稳定的资源投入,真正实现前端智能的摄像机产品目前尚不丰富。
二是视频结构化描述技术。与视频结构化描述相关的技术大致包括机器视觉与模式识别、语义网与知识库、大数据或海量信息处理以及系统管理和应用技术等。现阶段,上述各项技术研究,就其本身来说,无论开展的时间是长是短,都或多或少取得了一定的成果,有的甚至已经得到了大量的应用(如车牌识别)。可是,如果从满足实现视频结构化目标所需的角度来看,“孤岛”现象仍十分明显。我们可以“从视频图像中区分出多个不同的感兴趣目标”这一最基础的工作为例来理解这方面的情况。作为一项高度拟人化功能,要完成它就需要依据已有经验对实时图像进行时空分割、特征提取、对象识别等处理。这里所说的“已有经验”在系统中就表现为“样本库”、“特征库”或“知识库”。鉴于这些库的形成需要经历一定的积累或“学习”过程,在没有一个有效规则的情况下,这些经验的共享和交流是十分困难的,形成“孤岛”也就是很自然的了。
三、摄像机智能化对产业发展的影响
从视频监控产业的发展来看,包括上述技术挑战在内的各种摄像机智能化所涉及技术难题的有效解决,都是行业本身、业内企业必须给予足够重视的。从个人理解的层面来看,要能更加有效地推进摄像机智能化,一个可行的做法就是学习国际上的成功经验,由对此感兴趣的“产、学、研、用”机构一起组成一个合作体,依照“规范标准统一、知识合理共享”的原则,以市场需求为导向,形成产业的、技术的规范,以此来引领整个行业朝着“技术领先、规模占优”的方向发展。
同时,在当前的国内外经济形势下,视频监控行业无疑是一个极其“吸引眼球”的产业,这样的产业应该具有一定的引领作用。从对其它产业的依赖度来看,摄像机智能化最合适、最可行的是进一步带动半导体行业的发展。国内半导体行业最近一次的兴起始于上世纪九十年代末期,也正是依靠国内有巨大产品需求的多个带“金”字工程的推进,其在十多年间取得了长足的进步。鉴于国内视频监控市场的巨大规模,特别是在摄像机智能化达到了“规范标准统一”的条件下,或许应该为国内的半导体行业所重视。视频监控行业凭借其自身的智能化发展成为推动国内半导体行业再次发展的源动力,这一点确实值得期待。