1. 计算机视觉的定义和终极目标
定义:
计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。
终极目标:
计算机视觉的终极目标是成为机器认知世界的基础,使计算机能够像人类一样“看懂世界”,理解并解释视觉信息。
2. 计算机视觉的三个优势
-
图像处理方面:
-
实现超人的准确性。
-
示例:在图片颜色和细节敏感度上表现优异。
-
-
细微变化识别方面:
-
性能远胜于人类。
-
示例:在医疗图像分析中,能够识别人类难以察觉的细微变化。
-
-
计算能力方面:
-
计算速度与精确性完胜人类。
-
示例:超级计算机能够在极短时间内完成复杂的视觉计算任务。
-
3. 计算机视觉在行业中的典型应用
-
视频审核:自动检测视频中的违规内容。
-
智能营销:通过分析用户行为图像数据,实现精准营销。
-
医疗影像分析:辅助医生进行疾病诊断。
-
自动驾驶:通过视觉感知实现环境理解和决策。
-
安防监控:实时检测异常行为或目标。
4. 数字图像的定义及数字图像处理的内容
数字图像的定义:
-
又称为数码图像或数位图像。
-
是用一个数字矩阵来表达客观物体的图像。
-
由模拟图像数字化得到,是一个离散采样点的集合,每个点具有其各自的属性。
-
以像素为基本元素,可以用数字计算机或数字电路存储和处理。
数字图像处理的内容:
-
图像变换:如傅里叶变换、小波变换等。
-
图像增强:改善图像的视觉效果。
-
图像恢复:去除噪声或失真,恢复原始图像。
-
图像压缩编码:减少图像数据的存储空间。
-
图像分割:将图像划分为多个区域或对象。
-
图像分析与描述:提取图像中的特征并描述。
-
图像的识别分类:根据特征对图像进行分类。
5. 图像数字化的两个过程
-
采样:
-
将空间上连续的图像变换成离散的点。
-
采样频率越高,还原的图像越真实。
-
-
量化:
-
将采样出来的像素点转换成离散的数量值。
-
一幅数字图像中不同灰度值的个数称为灰度等级,级数越大,图像越清晰。
-
6. 计算机视觉的基础工作原理
-
目标检测:
-
给定一张图像,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。
-
-
图像分类:
-
给定一组已标记类别的图像,对新的测试图像进行类别预测,并测量预测的准确性。
-
-
语义分割:
-
将整个图像分成像素组,对像素组进行标记和分类。
-
在语义上理解图像中每个像素的类别,并确定每个物体的边界。
-
示例:一张“人驾驶摩托车行驶在林间小道上”的图片。
-
-
实例分割:
-
在语义分割的基础上,对多个重叠物体和复杂背景进行分类。
-
确定对象的边界、差异和彼此之间的关系。
-
-
视频分类:
-
分类对象是由多帧图像构成的视频,包含语音数据、运动信息等。
-
需要理解每帧图像的内容,并结合上下文信息进行分析。
-
-
人体关键点检测:
-
通过检测和追踪人体关键节点来识别人的运动和行为。
-
对于描述人体姿态、预测人体行为至关重要。
-
-
目标跟踪:
-
在特定场景中跟踪某一个或多个特定感兴趣对象的过程。
-
-
场景文字识别:
-
在图像背景复杂、分辨率低、字体多样、分布随意的情况下,将图像信息转化为文字序列。
-
7. 计算机视觉与深度学习的结合
近年来,深度学习(尤其是卷积神经网络,CNN)在计算机视觉领域取得了显著进展,极大地提升了图像分类、目标检测、语义分割等任务的性能。深度学习通过多层神经网络自动提取图像特征,避免了传统方法中手工设计特征的局限性,使得计算机视觉系统的性能得到了质的飞跃。
8. 计算机视觉的挑战
尽管计算机视觉技术取得了巨大进步,但在实际应用中仍面临诸多挑战:
-
光照变化:同一物体在不同光照条件下的表现差异较大。
-
视角变化:物体从不同角度观察时形态可能完全不同。
-
遮挡问题:目标物体可能被其他物体部分或完全遮挡。
-
计算复杂度:高分辨率图像和视频的处理需要大量计算资源。
-
数据标注成本:高质量的标注数据是训练模型的基础,但标注过程耗时耗力。
-
泛化能力:模型在训练数据上表现良好,但在未见过的数据上可能表现不佳。