易商讯
当前位置: 首页 » 资讯 » 科普 » 正文

为什么算法能识别这些语音,算法是如何变得如此智能的?

放大字体  缩小字体 发布日期:2023-01-24 00:46:59
导读

. 数据标注是什么?这是IT互联网公司的一个职位。数据标记员使用自动工具从互联网上捕获和收集文本、图片、语音等数据,然后整理和标记所捕获的数据。相当于互联网上的“全职编辑”。 这个岗位的工作任务简单,没有技术含量。工资基本不高,大部分3000-4000,很少超过5000。而且这些IT公司大多是民营公司,待遇不会太高。训

. 数据标注是什么?

这是IT互联网公司的一个职位。数据标记员使用自动工具从互联网上捕获和收集文本、图片、语音等数据,然后整理和标记所捕获的数据。相当于互联网上的“全职编辑”。 这个岗位的工作任务简单,没有技术含量。工资基本不高,大部分3000-4000,很少超过5000。而且这些IT公司大多是民营公司,待遇不会太高。

训练集和测试集都是标注的数据。

人工智能数据标注技巧(什么是数据标注)(1)

在标记数据之前,我们应该首先清理数据,以获得符合我们要求的数据。数据清理包括删除无效数据、整理成规则格式等。具体的数据要求可以与算法人员确认。

2. 举例说明

在聊天软件中,我们通常有一个语音到文本的功能。大多数人可能知道这个功能是由智能算法实现的,但很少有人会想,为什么算法能识别这些语音,算法是如何变得如此智能的?

其实智能算法就像人脑一样,需要学习,学习后才能处理和反馈特定数据。

就像语音识别一样,模型算法最初不能直接识别语音内容,而是手动转录语音内容,将算法无法理解的语音内容转化为易于识别的文本内容,然后通过转录的文本内容识别算法模型,并与相应的音频进行逻辑关联。

有人可能会问,如何区分不同的语速和音色模型算法。这就是为什么模型算法在学习过程中需要大量的数据。这些数据必须覆盖常用的语言场景、语速、音色等,以培养出优秀的模型算法。语音标记的过程如下图所示,便于理解。

人工智能数据标注技巧(什么是数据标注)(2)

3. 常见的数据标注类型

1. 分类标注: 分类标签是我们常见的标签。一般来说,数据对应的标签是从既定标签中选择的,这是一个封闭的集合。如下图所示,一张图可以有许多分类 / 标签:成人、女性、黄种人、长发等。对于文字,主语、谓语、宾语、名词动词等都可以标注。

适用:文本、图像、语音、视频

应用:面部年龄识别、情绪识别、性别识别

2. 标框标注: 很容易理解机器视觉中的标框标记,即选择要检测的对象。如果人脸识别,首先要确定人脸的位置。

适用:图像

应用:人脸识别、物品识别

人工智能数据标注技巧(什么是数据标注)(3)

3. 区域标注: 与标框标记相比,区域标记要求更准确。边缘可以是灵活的。例如,自动驾驶中的道路识别。

应用:自动驾驶

4. 描点标注: 在一些对特征要求细致的应用中,往往需要标注点。人脸识别、骨骼识别等。

应用:人脸识别、骨识别

5. 其他标注: 除上述常见类型外,还有许多个性化类型。根据不同的需要,需要不同的标记。例如,自动摘要需要标记文章的主要观点。此时,标记严格不属于上述任何一个。(或者你可以把它分类,但主要观点没有这样的客观标准。如果是苹果,估计大多数人的结果都是一样的。

人工智能数据标注技巧(什么是数据标注)(4)

————————————————

版权声明:本文是CSDN博主「麦地与诗人」的原创文章

原文链接:https://blog.csdn.net/YPP0229/article/details/97789995

声明:易商讯尊重创作版权。本文信息搜集、整理自互联网,若有来源标记错误或侵犯您的合法权益,请联系我们。我们将及时纠正并删除相关讯息,非常感谢!

 
(文/小编)
免责声明
• 
本文为什么算法能识别这些语音,算法是如何变得如此智能的?链接:http://www.esxun.cn/news/93130.html 。本文仅代表作者个人观点,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们,我们将在24小时内处理完毕。如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
 

Copyright © www.esxun.cn 易商讯ALL Right Reserved


冀ICP备2023038169号-3