一、项目背景
1.1商业背景
在现今科技信息快速发展的情况下,我国更加重视在这方面的创新发展并且投入大量的人力、财力、物力来推动此方面的发展。我国国务院在关于人工智能的发展规划中明确了战略部署、战略目标、指导思想,其中对于突破人工智能的科技前沿问题上指出突破人工智能现已有的基础理论,将长远的发展战略与各大需求相结合以此来促进人工智能的持续发展与为其他应用领域提供储备。然而,近几年研究人员将目光投向手势识别系统中,进而使手势识别系统成为全球关注的焦点问题。其中由韩国研究者通过熵的研究分析实现对复杂的视频可以提取手势区域并且识别六种手势的姿态;印度在这方面提出了一种基于结构特征的手势识别系统从而提高视觉上的手势识别。相比之下,我国对此方面研究出了基于运动分割的帧图像运动估计法(具有十二种手势姿态识别,识别率为10%)和对人手进行鲁棒性的跟踪,即当跟踪丢失后可自动恢复跟踪轨迹,继续跟踪。而全球在针对手势识别市场规模也是日益剧增,从2021年的70 亿美元预计到2028年的225亿美元且年复合增涨率为17.8%。由于当代计算机的普及,人们对其设备与操作都有了新的要求,而手势识别技术随着计算机大规模的应用而得以生存,然而计算机在现今不管是国防还是生活方面都已成为不可或缺的一部分,并且手势识别系统将代替计算机部分原件使计算机得到一个质的飞跃。手势识别系统在市场还是处于一个新型概念,当这一技术得到一定的成熟与普及,则其在市场的销售规模会变得无比庞大,需求量也会大幅度的提高,其所涉及的领域不仅仅可以代替计算机的部分原件,而且可以扩展到医疗、工业、智能家居等领域。由此可见,手势识别系统具有很大的发展空间与前景,能够运用到各种人际互动与虚拟现实的场景中。
1.2 技术背景
近几年,人工智能的水平在不断的被打破,人们已经不满足现下已有的技术,而是人们开始寻求更高端的技术来充实生活。而对于人机互动,人们的需求也是日益增加。在这种时机下不少研究人员把目光投放在手势识别交互上,然现今并未对手势识别进行普及,很大一部分原因是难于对手势检测精准分析且人手的形状变化多端、关节点多、在复杂的场景中难以识别手势的姿态和手势的位置。研究人员从初期进行二维图像的彩色识别后发展到对三维进行手势识别,其中传统的识别手势姿态估计有两种方法,一是基于传感器,它是要佩戴复杂的设备来进行检测,对于人手检测具有很大的局限性且由于装备本身精准度与穿戴位置的不同会造成不同程度上的误差;另一种则是图像,但是图像只适用于静态状态下的手势识别,且在复杂的场景中很难识别出人手的节点与手势动作等,在功能上过于单一,检测出的结果也会产生很大的误差。随着计算机视觉领域的深度学习,国内外不少人提出采用卷积神经网络与残差网络来解决这些问题,虽然这两种方法的巧妙结合解决了不少问题,但是精准的手势估计仍具有很大的挑战,而且国内使用手势动作进行工作和人机互动不是很成熟,人们仍然使用鼠标进行相关工作。
1.3 市场空缺
手势交互是人机交互的一个重要研究领域,具有广阔的发展前景和应用价值,但其由于复杂的背景物品、空间不足和噪声环境等问题直接影响了手势姿态识别的可靠性,这一问题直接限制了手势姿态识别系统在市场上的应用,并且不同的人有不同的手势姿态的习惯,这就导致手势姿态描述的能力受到约束,在手势姿态动作较多的时候,动作模型需要进一步的研究与探讨。其中,基于视觉手势识别技术具有较好的识别性能,但其需要进行图像获取,且算法复杂程度高,普遍存在硬件要求高,实时性能不足,因而实时性与小型化成为手势姿态识别的重要挑战。国内外使用手势动作进行工作与人机互动并不是很成熟,人们依旧常用鼠标进行相关工作。所以目前,基于卷积神经网络下的手势估计和操作系统在市场还属于空白行业,百度收录网站中几乎没有关于手势估计系统相关的信息。市场还没有出现此类相关的产品。
二、产品与服务
2.1 APP介绍
卷积神经网络下的手势估计及操纵系统是一款识别手势姿态进行人机互动的软件,用户不需借助鼠标与键盘便可隔空操控电脑。其原理是结合卷积神经网络与残差网络、CVZone等通过对深度数据超分辨、手部结点检测、手部区域快速检测、手势跟踪及手势估计等来实现鼠标模式、追剧模式、演讲模式等功能,具有识别速度快、抗干扰力强、精度高、应用广泛的能力。我们也致力打造专业、权威、可靠的软件为用户提供便利生活服务,使用户拥有更满意的使用体验。
2.2 APP设计
卷积神经网络下的手势估计及操纵系统软件首先将人手进行分割,再将特征提取,然后根据人手解析进行手势的不同姿态的估计。其中,人手分割是进行采用深度图像与手势表现的特征相结合来分解空间背景与人手;而对于手势的特征提取则选用不同于传统的提取方法进行参数估计、建模等复杂的过程而是采用深度学习中的卷积神经网络与残差网络相结合的方法:由卷积神经网络中卷积层的卷积单元提取一些特定的特征后,池化层进行缩小图像范围与保持动态下的不变性,但是随着使用的叠加会出现梯度消失、梯度爆炸和退化问题,为了解决这些问题,我们采用了残差网络来弥补卷积神经网络的缺陷,然后通过大量的参数来预测关节的位置来实现手势估计。同时使用Python作为开发语言设计且引入用于创建GUI应用程序的跨平台工具包的pyqt5,由于pyqt5允许使用Python语言调用Qt库,因而它可以将Python和Qt库融为一体,这样可以在保留Qt高运行的同时大大提高了开发的效率,同时在运用计算机视觉软件包CVZone,这可以使我们轻松运行人手检测、手部跟踪、姿态估计等。在此之下,我们进一步开发了手机软件。我们先在手机软件中建立TCP服务器让其模块对手机进行连接后手机又对模块进行连接从而实现手机与电脑连接 ,然后利用Python第三方库来模拟蓝牙键盘,通过操作软件设置的程序实现按键 ,并且在华为HMS core 机器学习服务中提供的技术 (人脸识别、语音识别、文字识别、文字翻译) 基础上开发出划词翻译、截屏翻译、人脸解锁、语音输入、语音命令等功能。其中划词翻译是电脑选中文字按三次复制快捷键将电脑剪贴板中的文字信息利用TCP协议传递到手机,手机经过HMS core 的机器学习服务转化为中文,最后输出到手机屏幕;截屏翻译是利用截屏快捷键将图片文字选中,再利用TCP协议上传给手机软件,手机app经过HMS core的文字识别和文字翻译转化为中文输出;人脸识别则是通过TCP协议随时监测电脑的状态,若电脑状态为锁定,就将此信息传递给手机app,手机会打开摄像头作为人脸解锁的设备,在调用HMS core的人脸识别和3D人脸对比服务,通过验证,手机app会模拟电脑蓝牙键盘发送设定好的密码,然后输入则解锁成功。
2.3APP提供的具体功能
1.鼠标模式:
单手指移动:映射鼠标指针移动;单手食指加中指:映射鼠标悬停;
单手食指加中指重合:映射鼠标单击左键。
2.追剧模式:
单手食指与大拇指缩放:映射增加与减小音量。
3.演讲模式:
将PPT拷贝至软件安装后,在PPT目录下启动软件。打开演讲模式,伸出中指、无名指和小拇指播放下一页;伸出食指和中指为指针;收回所有手指为擦除板书。
4.划词翻译:
电脑选中中文字按三次复制快捷键,可将电脑剪切板中的文字显示在手机屏幕上
5.截屏翻译:
利用截屏快捷键将图片与文字选中传送到手机软件可翻译中文输出
6.人脸解锁:
手机软件控制电脑打开摄像机进行人脸比对验证解锁。
2.4 APP的特性及竞争优势
2.4.1特性
1.手部检测:项目采用最新的数据集及插件,且解决手部与外界交互时的手势估计,手部检测速度更快。
2.完全开源:项目核心后续会在各类软件社区完全开源,为后续研究人员提供部分参考。
3.软件支持:现阶段3.0版本,只支持带有摄像头的电脑安装。
4.软件更新:锐减还在跌代更新中,目前只是单个模块的可执行程序,后续会集成平台。
5.操作简单:但手指移动可为鼠标移动;食指与中指同时伸出可为确定目标;双指合并为鼠标单击。
6.图像可视:为增强用户体验,会弹出检测摄像头画面的窗口实时检测与反馈软件数据。
2.4.2竞争优势
1.简洁性:人们喜欢更简单的操作,该产品可使用户不需鼠标便可隔空操作,这将是产品最大的优势。
2.持续性:用户一旦下载客户端或者查看,那么持续性使用成为必然。
3.先进性:卷积神经网络下的手势估计和操纵系统属于空白行业,目前市场还没有出现相关产品。
4.个性化用户体验:建站工具制作的网站表现方式单调重复,不能满足个性化服务需求,而软件开发可根据自身特征定制出最符合自身需求的客户端,从而展开相应的移动营销服务。
2.5 APP的完善
1.APP功能的完善:一个良好的APP应该具有持续更新的功能、与时俱进的能力。
2.APP的操作更简单化:由于人们的使用习惯更讲究操作简单便捷性,使用时能够快速找到所需要的内容,因而,我们应该在这方面加强完善。
3.APP的界面:专注功能的传递,赋予APP简明的结构,从而提高用户体验。 4.注重用户的使用体验:APP在开发设计过程中,因提前做好相应的测试完善 ,通过每次测试进行修改完善,从而使用户有更好的使用体验。