单目视觉的运动目标跟踪定位（附视频+PPT）｜雷锋网公开课

墟市上空间定位的身手计划分为单目、双目以及激光雷达三大阵营，此中激光雷达因为本钱清脆墟市继承度较低，而正在都是基于推算机视觉的单目和双目中，双目则显得更受迎接。正在邦内做推算机视觉身手计划的企业如图漾、速感、人加智能等公众挑选了双目，而挑选了单主意欢创科技则成为了少数派。那么，双目为何比单目更受墟市青睐，两者之间的身手分歧正在哪里，单目又是奈何达成空间定位与身分追踪？本期雷锋网硬创公然课邀请到欢创科技CEO周琨，详明讲授单目定位身手。

周琨，清华大学深圳钻探生院硕士生导师，深圳市高方针人才，南山区领航人才，深圳市欢创科技有限公司CEO，清华大学本科、硕士，师从973首席科学家，长江学者戴琼海传授。十余年IT和人机交互身手行业产物研发和身手拘束经历。先后就职于贝尔实习室，中邦搬动，对视觉人机交互身手举办了出格深切的钻探，行动厉重出现人，具有二十余项邦际和邦度专利，并先后获取山东省科技进取二等奖和深圳市科学身手专利奖。2014岁首树立欢创科技，承担CEO身分，引颈公司努力于推算机视觉空间定位与身分追踪身手的钻探和物业化，目前产物一经广博使用于电视机、VR与呆板人范畴。

以下为嘉宾分享内容实录。相对视频文中做了删减，无缺内容可观察视频。体贴雷锋网旗下微信公家号「新智制」，回答「PPT」可获取嘉宾无缺PPT。

从工程事理上来说，丈量一个物体相对待另一个物体的身分与状貌，即所谓的位姿丈量。从数学事理上来讲，丈量两个坐标系间的平移与旋变更换相闭，囊括3个身分(Translational)和3个回旋角(Rotational)共6个位姿量(即6DOF)。外面上，只须已知空间不共线点正在两个坐标系下的坐标，就能独一确定两坐标系间的位姿相闭，因而，位姿丈量的枢纽即是奈何取得特质点正在这两个坐标系下的坐标。

自定位(inside-out)，即通过相机拍摄视野坐标系，以及坐标系的特质点，从而占定相机相对坐标系自己的坐标。例如咱们常用的SLAM，这方面雷锋网之前也有嘉宾做过先容，它的特质是便携、视角外面无尽大、定位精度不高。厉重使用范畴囊括搬动呆板人、无人机、VR、AR。

外定位(outside-in)，较量常睹的是OptiTrack，特质是装置繁复、视角有限、定位精度高。厉重使用范畴囊括影视动捕、VR、工业呆板人。

特质：体系繁复，运算量大，能够单帧单方针点定位，对方针物体无几何束缚，，使用形势轻巧，本钱较高。

目前闭于双目定位的钻探与墟市使用相比拟较众，而单目定位则相比拟较少，以是，本日我就核心讲下单目定位。

顾名思义，单目视觉定位即是仅诈骗一台摄像机完工定位任务。单目视觉定位的方式厉重有两种：基于单帧图像的定位方式和基于两帧或众帧的定位方式。

基于单帧图像的定位方式囊括基于特质点的定位（Perspective-n-Point）、基于直线特质的定位，枢纽点正在于神速精确地达成模板与投影图像之间的特质成家。

P-n-P，即Perspective-n-Points，指给定天下（刚体）坐标系下的n个3d坐标点，以及这些点正在图像中的2d投影坐标，求解天下（刚体）相对相机的状貌和身分（求解R,t)。要念求解出天下（刚体）相对相机的状貌和身分，务必明白起码4个点，也即是n要大于等于4，当然这是须要条款，不是填塞条款，填塞须要条款是n等于6。

双目视觉定位道理是指通过三角丈量道理来对方针点的三维空间身分举办定位。双目视觉定位的算法流程：相机标定、双方针定、图像收拾、特质检测、立体成家、三维丈量、状貌丈量。

单目视觉有用视场更大：刚体定位不但不依赖众个相机，定位空间还能够通过众个相机举办扩展而不产生视场规模耗损。

定位方法：手柄和头盔通过无线节制红外定位点发光时期与摄像头曝光时期同步；PC应用从图像获取的定位点音信与IMU数据调和，获取头盔和手柄的身分音信。

缺陷：掩盖规模比HTC小，抵达roomscale必要更众的定位器；全面定位音信团结推算，倒霉于扩展到众人或更众修立。

周琨：从定位精度和鲁棒性来说，双目照旧比单目好极少，即使从单主意场景来说，物体的繁复性会更高，并且单主意本钱更低，然则对待呆板人来说，本钱不是太大题目，以是用双目做呆板人的搬动避障会更好些。

周琨：ADAS我钻探的不众，我就以我认知的来说下。由于汽车是高速搬动的物体，以是ADAS的反响速率出格疾，单主意好处是视角规模较量大，双主意范围就正在于它的视角会受限，然而单目只要一只“眼睛”，3D定位的话标准题目欠好治理，双主意定位规模要大些，精度能够做的较量高些。以是说两者之间照旧有差异的。

周琨：目前厉重是两个目标，一个是SLAM，这个短长常大的钻探目标，然而到现正在本来都不太成熟，到目前为止我睹过最成熟的产物即是微软的HoloLens，即是有许众摄像头才力做到鲁棒性较量好，闭环做的较量好，无论是tango照旧高通正在VR上的的SLAM，都容易受到境况身分的影响，囊括光照、白墙等等，离适用照旧有较量大的隔绝，以是说这是一个较量大的钻探目标。

第二个即是正在工业使用范畴，这个期间必要治理的题目是精度，也即是说不消商酌本钱题目，钻探目标即是奈何进步精度，毫米不足就亚毫米。

周琨：正在工业呆板人范畴，视觉使用会越来越广博，例如仓储呆板人都是无人值守的，本人完工搬运任务，那么它必要“眼睛”来识别境况，目前较量常睹的定位计划是Kiva的记号点，改日必然是应用SLAM计划，呆板人能够自行计议途径；第二个场景是缔制，固然说刻板臂能够举办定位，然则仅实用于巨额量反复性的缔制，即使你必要时时对这个加工的方针不休的转换，你就必要辅助定位装备助你举办从新设定，这个期间它的上风就出来了。

周琨：现实上现正在咱们常睹的使用都市出席众个传感器来获取摄像头的位姿，最常睹的即是MU，六轴或九轴的传感器辅助获取摄像头的位姿，例如摄像头呈现遮挡，往往必要MU辅助获取摄像头的位姿，尚有一种假若正在室外，通过GPS获取经纬度，通过气压计获取高度音信，本来这也是众传感器调和的情形。

新智制：正在图像收集完后对图像收拾，放大方针图像的灰度值，缩小非方针的灰度值中，奈何使这个比例能更和洽，而不但是凭据主观忖度？

周琨：凭据咱们的经历较量难做，由于很难区别方针与非方针，以是咱们常睹的做法是尽或许正在原始数据时让方针与非方针的区别度更大极少，方式许众，例如说能够通过增大方针物体的特质，例如亮度，或者通过调制光，把方针的特质点与非方针的特质点放大，然后再去放大灰度值，即是第一步就把题目治理，就很容易区别方针与非方针。以是，我偏向于治理题目治理前面，而不是放到后面去治理，如许会很难的。

周琨：最笨的方式是进步相机的辞别率，很容易把方针的像素点进步，获取的音信就众了，特质点容易坚固，带来的坏处即是增进本钱，即使正在不增进本钱的情形下获取坚固的特质点呢？本来咱们也做了极少任务，就像PPT里讲的做到了亚亚像素的精度，采用的战术是尽或许收集样本的数目，带来的坏处即是或许数据量增进帧数会降低，那么奈何正在样本数目增进的同时保险帧数不降低，这个是必要治理的题目，然则方式无外乎即是这些！

周琨：图像成家进程中开始要找特质点，要念进步成家精度就要尽或许寻得更众的特质点。无论是双目照旧单目，最难的场景是面临一边白墙，没有任何特质点，这个期间要念进步成家精度就很难，这个也是一个天下困难，目前就我所知还没有出格好的举措能治理，即使非要去治理，那就人工缔制特质点，例如打散斑，也即是机闭光，这个期间或许进步成家精度。简陋来说即是尽量找特质，没有特质的话就人工缔制特质。

周琨：即使你用CMOS传感器它就较量容易达成，由于很众CMOS传感器都有时期戳同步功用，即使CMOS传感器你还必要用到MU，念要达成时期戳同步，就必要确定一个同步的中央元，像正在VR内中，例如我有两个摄像机和手柄，这个期间你必要用头盔做这个同步的中央，它发射夂箢出来，全面摄像头也好手柄也好向它对齐，枢纽是做到这一步，其他方面我感觉没什么。

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们