. 数据标注是什么?
这是IT互联网公司的一个职位。数据标记员使用自动工具从互联网上捕获和收集文本、图片、语音等数据,然后整理和标记所捕获的数据。相当于互联网上的“全职编辑”。 这个岗位的工作任务简单,没有技术含量。工资基本不高,大部分3000-4000,很少超过5000。而且这些IT公司大多是民营公司,待遇不会太高。
训练集和测试集都是标注的数据。
在标记数据之前,我们应该首先清理数据,以获得符合我们要求的数据。数据清理包括删除无效数据、整理成规则格式等。具体的数据要求可以与算法人员确认。
2. 举例说明
在聊天软件中,我们通常有一个语音到文本的功能。大多数人可能知道这个功能是由智能算法实现的,但很少有人会想,为什么算法能识别这些语音,算法是如何变得如此智能的?
其实智能算法就像人脑一样,需要学习,学习后才能处理和反馈特定数据。
就像语音识别一样,模型算法最初不能直接识别语音内容,而是手动转录语音内容,将算法无法理解的语音内容转化为易于识别的文本内容,然后通过转录的文本内容识别算法模型,并与相应的音频进行逻辑关联。
有人可能会问,如何区分不同的语速和音色模型算法。这就是为什么模型算法在学习过程中需要大量的数据。这些数据必须覆盖常用的语言场景、语速、音色等,以培养出优秀的模型算法。语音标记的过程如下图所示,便于理解。
3. 常见的数据标注类型
1. 分类标注: 分类标签是我们常见的标签。一般来说,数据对应的标签是从既定标签中选择的,这是一个封闭的集合。如下图所示,一张图可以有许多分类 / 标签:成人、女性、黄种人、长发等。对于文字,主语、谓语、宾语、名词动词等都可以标注。
适用:文本、图像、语音、视频
应用:面部年龄识别、情绪识别、性别识别
2. 标框标注: 很容易理解机器视觉中的标框标记,即选择要检测的对象。如果人脸识别,首先要确定人脸的位置。
适用:图像
应用:人脸识别、物品识别
3. 区域标注: 与标框标记相比,区域标记要求更准确。边缘可以是灵活的。例如,自动驾驶中的道路识别。
应用:自动驾驶
4. 描点标注: 在一些对特征要求细致的应用中,往往需要标注点。人脸识别、骨骼识别等。
应用:人脸识别、骨识别
5. 其他标注: 除上述常见类型外,还有许多个性化类型。根据不同的需要,需要不同的标记。例如,自动摘要需要标记文章的主要观点。此时,标记严格不属于上述任何一个。(或者你可以把它分类,但主要观点没有这样的客观标准。如果是苹果,估计大多数人的结果都是一样的。
————————————————
版权声明:本文是CSDN博主「麦地与诗人」的原创文章
原文链接:https://blog.csdn.net/YPP0229/article/details/97789995
声明:易商讯尊重创作版权。本文信息搜集、整理自互联网,若有来源标记错误或侵犯您的合法权益,请联系我们。我们将及时纠正并删除相关讯息,非常感谢!