一、数据采集
定义
数据采集(Data Acquisition),又称数据获取,是指通过特定装置从系统外部收集数据并将其输入到系统内部的过程。该过程通常包括数据的抽取(Extract)、转换(Transform)和加载(Load,即ETL操作),旨在获得适用于进一步分析或处理的数据。
数据采集的方式
-
网络数据采集:通过爬虫或其他工具从互联网上抓取公开的数据。需要注意的是,在进行网络数据采集时,需遵守相关法律法规,避免侵犯隐私或违反网站的使用条款。
-
端侧数据采集:从用户设备(如手机、传感器等)直接收集数据。
-
系统日志采集:记录系统运行时产生的日志信息,以便后续分析。
-
数据库采集:直接从现有的数据库中提取数据。
二、数据预处理
定义
在将数据集用于模型训练之前,需要对其进行一系列处理,以确保数据适合机器学习模型的训练要求。预处理包括但不限于错误数据修正、重复数据去除、缺失值填补等。可以使用自动化工具(如Pandas、NumPy等库)来高效完成这些任务。
处理类型
-
数据错误:包含数据值错误、数据类型错误、数据编码错误、数据异常错误、依赖冲突、多指错误等。
-
数据重复:识别并删除重复的数据条目。
-
数据缺失:处理数据集中存在的缺失值。
-
数据集不均衡:调整不同类别样本的数量,使数据集更平衡。
三、错误数据处理方法
-
删除错误值:直接移除含有错误的数据项。
-
视为缺失值:将错误值标记为缺失值,并采用相应的处理策略。
-
平均值修正:使用属性的有效值的平均值来替换错误值。
四、重复数据处理方法
-
限制:设置筛选条件。
-
统计:计算数据出现频率。
-
过滤:根据设定规则过滤掉重复项。
-
删除:执行最终的数据清理。
五、缺失数据处理方法
-
直接使用含有缺失值的特征:简便但可能影响模型性能。
-
删除含有缺失值的特征:简单粗暴但可能导致信息丢失。
-
缺失值插补:如均值插补、中位数插补、最频繁值插补等,需开发代码实现。
-
重新采集数据:彻底解决问题但成本较高。
缺失值插补方法及适用场景
-
均值插补:适用于样本属性的距离可以度量的情况。
-
中位数插补:适用于样本属性的距离不可度量的情况。
-
最频繁值插补:适用于样本属性的取值为离散值的情况。
方法 | 优势 | 不足 |
---|---|---|
直接使用含有缺失值的特征 | 方便,无需额外处理 | 可能影响模型性能 |
删除含有缺失值的特征 | 处理简单 | 可能导致信息丢失 |
缺失值插补 | 补全缺失值,提升模型效果 | 需开发代码,工作量较大 |
重新采集数据 | 避免缺失值影响 | 成本高,新数据可能仍有缺失 |
六、数据标准化
定义
通过一定的变换方法,将样本属性值缩放到某个指定的范围。
常用标准化类型
-
Min-Max标准化:将数据统一到[0,1]范围内。
-
公式:x′=x−min(A)max(A)−min(A)x′=max(A)−min(A)x−min(A)
-
适用于数据分布范围已知的情况。
-
-
Z-Score标准化:将数据统一为均值为0,方差为1。
-
公式:x′=x−μσx′=σx−μ
-
其中,μμ为均值,σσ为标准差。
-
适用于数据分布未知或存在异常值的情况。
-
七、数据编码
定义
数据编码是指将数据从字符串类型转换为数值类型,以便于机器学习模型处理。
常见编码技术
-
Label编码:对于样本记录的取值,按照大小关系分别赋予一个数值ID。
-
独热编码(One-Hot Encoding):对于一个有N个取值结果的特征属性,使用N个bit位进行编码。
八、数据标注
定义
通过分类、画框、标注等对语音、图片、文本数据进行处理,以提高训练的准确度。常用的数据标注工具包括Labelme(用于语义分割)、LabelImg(用于图像分类和目标检测)等,这些工具可以显著提升标注效率。
标注分类
-
语音标注:对语音对应的文本信息进行关联,常用于语音识别、实时翻译等领域。
-
图片标注:包括2D和3D边框、图像分类、直线和曲线、多边形、语义分割等。
-
文本标注:包括分类标注、实体标注、词性标注、实体关系标注等。
图像标注方法
-
目标检测:定位图像中的具体目标,常用矩形框工具。
-
语义分割:识别并标注图像中存在的内容及位置,常用多边形描点工具、笔刷工具等。
-
图像分类:从分类标签集中找到与输入内容相匹配的分类标签。
-
光学字符识别(OCR):将图像中的文字转换为文本格式,常用于证件识别、票据识别等。
文本标注质量标准
-
删除不感兴趣的内容。
-
将文本分成词语并进行词性标注(如名词、动词等)。
-
去掉无用词语(如标点符号)。
-
确保情感标注符合真实句子情感,语义标注正确。
语音标注质量标准
-
音频中的语音是否有效。
-
标注说话人的方言、口音、性别及数量。
-
标注音频中是否有噪音。
-
标注内容需与发音完全一致。
九、常用文件格式
数据标注常用的文件格式包括:
-
JSON
-
XML
-
CSV