博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记《Hand Gesture Recognition with 3D Convolutional Neural Networks》
阅读量:4652 次
发布时间:2019-06-09

本文共 917 字,大约阅读时间需要 3 分钟。

一、概述

  Nvidia提出的一种基于3DCNN的动态手势识别的方法,主要亮点是提出了一个novel的data augmentation的方法,以及LRN和HRn两个CNN网络结合的方式。

  3D的CNN主要是使用了三维的卷积核去处理视频序列,是视频分析中常用的方法之一。

  这里是可以识别手语这种动态连续的手势的。

  

二、亮点

  首先..竟然没有state of art...

  1、预处理:因为输入是连续的视频序列,所以需要对他们进行规范化,这里用nearest neighbor interpolation的方法来删除或者重复一些frame,来做出一个32frames的视频序列,然后做了一系列的预处理工作,用sobel算子得到梯度图啊,downsampling之类的,最后CNN的inputs是 57*125*32大小的梯度图和深度图交错的视频序列。

  2、分类:用了两个CNN网络,hign-resolutin network 和low-resolution network,他们分别有一个参数W,两个的区别是,第一个就是正常的前面描述的网络,后面一个是28*62*32的一个input的网络,最后的结果是两个预测的成绩,这里运用了多空间尺度,所以泛化能力得到了提高。

  3、optimation:cost function用了负的log-likelihood,优化用的是Nesterov accelerated gradient,参数设置的方法也是比较新的..具体名字忘了,反正就是对于防止方差过大有很好的抑制作用。

  4、data augmentation:因为是视频序列,所以在时间和空间上做了很多操作,具体可以看论文,这个工作是他们的核心,但暂时不是我个人关注的重点,因为我觉得这个从学术上看,只能说是个不错的trick吧。

三、结论

  两个网络的fusion我觉得是个很好的想法,或许以后还有进一步的想象空间,data augmentation也确实是提高泛化能力的一个不错的方法。

转载于:https://www.cnblogs.com/daihengchen/p/5807684.html

你可能感兴趣的文章
你未必知道的12个JavaScript技巧
查看>>
mysql的基本操作命令
查看>>
微信小程序---数据缓存
查看>>
Python网页正文转换语音文件的操作方法
查看>>
shell入门-shell特性
查看>>
asp.net 与数据库操作
查看>>
常用SQL查询语句
查看>>
补充[BNDSOJ]小p的数列
查看>>
读APUE分析散列表的使用
查看>>
jquery选中checkbox多选项并添加到文本框中
查看>>
CI框架后台添加左侧导航栏出现的一系列问题
查看>>
cocos2d-js 运行动画
查看>>
1.基础知识
查看>>
[NOI2018]你的名字
查看>>
关于mysql中select * for update锁表与Deadlock found when trying to get lock; try restarting transaction...
查看>>
[uva 1350]数位dp+二分
查看>>
445port入侵具体解释
查看>>
事务并发、事务隔离级别
查看>>
求无序数组中第二大的数--快速选择
查看>>
ios文字描边
查看>>