解读AI手语翻译机的技术硬核“新京葡萄京”

发布时间：2023-11-27 人气：

本文摘要：(公众号：)按：据2019年3月份世界卫生组织发布的近期数据，多达全世界人口的5%(大约4.66亿人)患上残疾性听力障碍。据估计，到2050年这一数据将超过9亿。与此同时，手语作为听障者用于较多的语言，能正确理解手语的完善人士却寥寥无几。 5月16日，腾讯优图实验室牵头深圳市信息无障碍研究会公布“优图AI手语翻译机”。据官方资料表明，用户通过面临翻译机摄像头展开手语传达，翻译机屏幕界面之后能较慢把手语切换为文字。

新京葡萄京

(公众号：)按：据2019年3月份世界卫生组织发布的近期数据，多达全世界人口的5%(大约4.66亿人)患上残疾性听力障碍。据估计，到2050年这一数据将超过9亿。与此同时，手语作为听障者用于较多的语言，能正确理解手语的完善人士却寥寥无几。

5月16日，腾讯优图实验室牵头深圳市信息无障碍研究会公布“优图AI手语翻译机”。据官方资料表明，用户通过面临翻译机摄像头展开手语传达，翻译机屏幕界面之后能较慢把手语切换为文字。

据公开发表资料表明，腾讯优图实验室创办于2012年，是腾讯三大人工智能实验室之一。去年，腾讯优图实验室已升级为腾讯计算机视觉研发中心。

此外，更加与国际期刊《科学》达成协议战略合作，分享在计算机视觉领域的资源和信息。手语辨识技术，狙击多年任何技术的发展都不是一蹴而就的，特别是在是近些年来，优图AI手语翻译机也并不是第一款针对手语应用于的的产品，在此之前，手语辨识技术早已发展多年，还包括国内IT企业级科研院校都曾针对这一技术展开研究，并有此类成果和产品发售：2013年7月，微软公司团队和中国科学院计算技术研究所展开合作，通过Kinect For Windows创立手语辨识软件，可根据手语动作的跟踪辨识转换成正常人需要背诵的内容；2018年2月，中科大公布了一篇手语辨识的论文被人工智能顶级学术会议AAAI 2018收录于；该论文明确提出一种新型倒数手语辨识框架 LS-HAN，需要时间拆分；2018年3月，Magic Leap的头戴式设备辨识手语和文本“感官眼镜”，据3月新的专利申请，涉及信息阐述了用于头戴式设备检测和翻译成手语的方法，并讲解了如何辨识标牌和店面上的文字；2018年7月，软件开发者 Abhishek Singh展示了一款需要解读手语手势的 MOD，通过摄像头的捕猎和深度自学，让亚马逊 Alexa 输掉语手势做出对系统；2018年12月，爱人奇艺研发的AI手语主播在中国网络影音大会上首次亮相，可辨识用户语音并切换为文字，还能对健听人自然语言展开解读，并智能翻译成为手语传达。手语辨识技术的困境与突破传统的手语识别方法一般来说不会针对特定的数据集设计合理的特征，再行利用这些特征展开动作和手势的分类。受限于人工的特征设计和数据量大小，这些方法在适应性、一般化性和鲁棒性上都十分受限。

近年来，归功于大数据和深度自学技术大大的变革，人工智能算法的发展也水涨船高，特别是在在计算机视觉、音频处置和自然语言处置等方面，这助推了AI算法在许多应用于和场景中构建落地，研究人员开始尝试应用于深度自学和数据驱动的算法来解决问题手语辨识中的难题。然而，不同于大部分的计算机问题，手语特有的地域性、复杂性和多样性给AI算法带给了可玩性。不仅减少了数据采集和清除的成本，也使得这门技术的落地不存在相当大的挑战，无法被实际应用于。

目前，针对解决问题听障人群交流问题的研究，其研究方向多集中于在将文字转化成手语；反过来，将听障人群的手语转化成文字就较为无以了。据公开发表资料表明，了解到腾讯优图实验室手语辨识数据集覆盖面积了近千句日常传达，900个常用词汇。

新京葡萄京

此外，优图AI手语翻译机需要构建整句的辨识和翻译成，用户传达的时候可以将整个句子连贯传达完，不必须原作特定的完结或接续动作，也需要在句中蓄意中断或减慢速度。优图AI手语辨识技术的构建方法据官方资料表明，优图AI手语翻译机核心技术是与听障者手语传达高度合乎的数据集与手语辨识算法。

针对AI手语翻译机的手语辨识数据集、特征提取器等关键技术能力，根据官方资料整理如下：手语辨识数据集目前，AI手语翻译机的数据集覆盖面积将近千句日常传达，900个常用词汇。此外，收集数据集还考虑到了手语传达的地域性和多样性，包括了有所不同的传达习惯和速度。

新京葡萄京

特征提取器融合普通2D卷积网络和3D卷积网络的优势，通过2D卷积网络来萃取手语中的手势和身体姿势等静态信息，同时通过3D卷积网络来萃取手语中普遍存在的微小而较慢的转换动作的动态信息，最后将这两个信息结合，产生最后的特征传达。通过融合应用于视频中的动态、静态信息，从而构建利用全然的RGB视频图像展开手语辨识。句子传达中挖出词级信息该算法在视频帧与最后的输入之间重新加入了词级信息提取单元，词级信息提取单元利用长短时网络充分考虑特征提取器所萃取出有的信息，并融合视频中邻接的信息计算出来出有词级的特征传达。这个单元使得算法需要更佳地在句子中寻找词语传达的边界，并提高对各种地域性传达的总结能力。

单句重复并充分考虑句中上下文信息算法在萃取词级信息的基础上还不会充份将整句中的上下文信息展开综合考虑到，然后再行输入最后的辨识结果。同时，为了增加用户在用于过程中的容许，技术团队在手语辨识之前重新加入人脸检测和动作检测两个模块，用人脸检测确认手语传达者的方位，然后用动作检测辨别用户否在展开手语传达。优图AI手语翻译机的“剑走偏锋”目前来看，虽然AI手语辨识技术受限于计算机性能、语料库非常丰富程度等因素的影响，但是随着人工智能和图像识别技术大大受到注目，目前还包括旷世、商汤等国内独角兽企业，以及国内的BAT、国外的谷歌、微软公司、亚马逊，莫不针对这一技术扔重金立项研究。

在智能语音技术带给了智能音箱后，AI视觉技术否能带给类似于的爆款硬件产品，此前大家更加多注目的是受众人群更大的智能摄像机，腾讯优图此次公布的“优图AI手语翻译机”虽然不免有些“剑走偏锋”，却也称得上是一种更加场景简化的应用于和尝试。至于否能为特殊人群带给现实便捷，还有待现实应用于场景中的用户对系统数据来呈现出。原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：解读,手语,翻译机,的,技术,硬核,“,公众,号,新京葡萄京

本文来源：新京葡萄京-www.agentangkasnet303.com