肇观电子冯歆鹏:五大技术让机器人看懂世界AI视觉芯片实现颠覆式创新丨GACS 2
- 2024-05-04 16:05:00
- aiadmin 原创
- 667
原题目:肇观电子冯歆鹏:五大身手让呆板人看懂全邦,AI视觉芯片达成推翻式更始丨GACS 2023
9月14日~15日,2023环球AI芯片峰会(GACS 2023)正在深圳南山美满举办。正在首日AI芯片架构更始专场上,肇观电子的CEO冯歆鹏分享了重心为《AI视觉芯片打制呆板人的焦点感知本事》的重心演讲。
冯歆鹏先先容了VPU的界说以及学科根源配景,以为VPU的墟市范围和GPU相当,活着界正正在从2D转向3D的身手改进中,是另日呆板人等智能修立必不成少的要紧构成个人。
肇观电子正在财产内积聚数年之久,也从此中接收了不少落地履历,并将其赋能与财产。冯歆鹏还提到肇观电子几个乐趣的落地场景案例。譬喻说,何如打制不妨正在冷库中任务的呆板人,又何如让汽车不妨奥妙的避开贫困物等等。另外,他还以为另日全邦,将会是呆板人和人类共存的状况。
群众好!我是肇观电子CEO冯歆鹏,很愿意即日有机缘不妨跟群众分享。肇观电子名字听起来比力奇异,肇是开启,观是视觉,开启视觉的有趣,英文是NextVPU,也便是Next Vision Processing Unit,下一代视觉处罚器的有趣。
咱们是一家做估量机视觉和人工智能端侧的芯片和模组焦点元器件的公司,咱们做的事变便是助助全部智能修立,让它看懂全邦,给予它看懂全邦本事的事变。咱们的下逛也比力渊博,正在呆板人、车载、工业、安防、消费都有诸众的使用。
即日我讲的重心聚焦正在呆板人方面,呆板人正在过去的很长一段时分,向来是热门的范畴,也履历了许众年的繁荣,到现正在呆板人范畴正在神速地繁荣,并且未来墟市卓殊雄壮。于是特斯拉马斯克说过特斯拉现正在仍旧不是一个车载公司,是呆板人公司。
群众念要办理的题目本来很肖似,当今全邦面对许众挑衅,办理这些挑衅的一个实际有用的方法,是进步分娩成果。何如不妨神速地进步分娩成果?就得使用创造或者成立加倍智能的修立,来主动助人办理许众题目。
咱们都生机未来的全邦也许率会是一个无人工场、无人农场、可穿着修立、无人驾驶汽车,是一个高度主动化的全邦,这些智能修立可能进步每个别的任务成果以及存在的质地。我们这个会场或许有很少的呆板人,不过过数年后,环球或许是300亿个呆板人和90亿人丁共存的一个全邦。
300亿个智能修立很要紧的便是具有视觉本事,呆板人要能自立地正在空间中搬动,去办理它的这些题目,告终它的职分。这些修立自立搬动、必要全天候地搬动,必要24小时正在百般阴毒前提下、百般处境下,不妨准确地办理它的题目,这必要它有相当水平的视觉本事。
视觉,群众都比力领悟,它看待每个智能生物和智能修立都卓殊要紧,人对新闻的收罗闭键是通过眼睛,同样对修立而言,视觉本事是它的焦点身手本事,于是咱们正在做云云一件事变。
咱们让修立看懂全邦的话,要办理几个子题目,便是修立要看懂全邦,最初得看得睹全邦,还得看得分明、看得懂。
看得睹和看得分明,正在现场云云的光照下是挑衅相比较较低的场景。不过假使必要一个智能修立正在全体无人化地去办理它的题目,正在全天候、全场景地去做,这个题目就变得卓殊庞大。
呆板人往往会被央求正在人眼都睁不开的强光下,还不妨平常地成像;正在很黯淡的区域,譬喻黑灯工场,它还要能平常成像;又有正在强逆光下,譬喻智能车很大的挑衅便是远光灯打过来的工夫,人都感应晃眼,车也是相似,于是这些修立要正在强光下、弱光下、逆光下都能平常成像,看得睹这些该被望睹的东西,这些好坏常要紧的根源。
这是咱们肇观电子从创设到现正在,向来正在孳孳不息办理的宗旨。成像这个宗旨可能做50年、100年,好坏常宏大和卓殊长的范畴。咱们得到了少少阶段性功劳,但如故正在锲而不舍地接连做。
此外一个很要紧的看待呆板人的根源本事便是3D感知,呆板人假使固定正在那里,不跟方圆处境交互,这个题目相对好少少,但一朝呆板人动起来,就涉及到跟处境中的物体何如互动的题目,那么呆板人不行撞到人、不行撞到宠物、不行撞到呆板人,于是碰到这些题目的工夫,呆板人要搬动。
像慢速的呆板人,也许每秒钟搬动0.2米到1米;假使像人的步速呆板人,也许每秒钟是1.5到2.5米的速率;假使是两轮车或者四轮车,速率越来越疾;又有像飞机云云加倍高速搬动的修立,这些修立但凡要搬动起来,就会跟方圆的空间处境带来少少相干。
看待方圆做准确的3D感知是每一个自立修立,每一个要正在空间中搬动的修立的焦点根源本事。3D感知是呆板人让它变得更智能的焦点本事,这也是肇观电子正在芯片上做了一系列的事变,使得这些呆板人的使用不妨更好地感知方圆的处境。
AI是呆板人的另一大方面,方才许众嘉宾分享了正在AI方面诸众的劳绩。AI看待呆板人,当它不妨准确识别什么是地板、什么是墙壁、什么是天花板,本来这都是很有挑衅的事变。大个人情形下,人一看就理解这是地板,但对呆板人而言,要厉苛意旨上让它99.99%的情形下理解是地面如故桌面,要加以分别,好坏常障碍的一件事变。
于是AI办理的便是云云的题目,桌子、椅子、茶杯是不相似的物体,何如做语义豆剖,何如正在高速搬动物体情形下还能准确识别,这好坏常要紧的事变。AI的处罚本事对呆板人也是一个根源本事。
VSLAM,也便是Visual Simultaneous Localization And Mapping,及时定位和构图身手对呆板人也卓殊要紧,看待空间的复刻,数字化通盘处境,显示定位本身,把方圆舆图都画出来,是智能修立、智能生物的根源本事。
SoC,当咱们办理了诸众的这些题目之后,咱们必要切磋到一个工程化体例层面可推行、可落地、可商用,不妨准确给咱们下逛带来好处,变成价钱链闭环的载体,便是SoC,片上体例。一个完好的芯片务必具有诸众的性能,云云使得咱们无须正在电途板上用众个芯片搭出来一个别例,而是直接正在一个板子上用一颗芯片,一颗芯片办理全部题目,云云材干做到高机能、低功耗、低本钱、低体例庞大度,有诸众好处。
可能看到,办理这些呆板人看懂全邦是咱们的方向,咱们要办理的事变,要正在成像、3D、AI、VSLAM、SoC办理这五个题目,这五个题目也是肇观电子从创设到现正在向来正在积聚的本事。
呆板人的繁荣正在这几年卓殊神速,咱们也准确地看到了正在少少比力疾苦的任务处境下,高温下、低温下,正在比力阴毒的处境下,以及乏味的、艰巨的这些劳动下,呆板人换人的比例正在卓殊神速地上升,呆板人的分泌率接续地走高。
呆板人有许众种呆板人,有工业呆板人、办事呆板人、人形呆板人、特种呆板人、无人机等百般搬动物体,假使速率再疾少少,或许四个轮子的汽车也是一种呆板人。这些修立正在不知不觉地神速繁荣,并且这些修立上面都必要越来越健旺的视觉本事,不妨看懂方圆。
许众呆板人它不像人,我们人只消往前看就可能了,许众呆板人比人更优秀,它必要四面八方都要看,于是它的身上要装许众眼睛,这也是咱们正在助助咱们的下逛做的事变。
视觉的前身是图像处罚,繁荣了许众年,正正在面对比力大的改变,便是从2D往3D正在繁荣。咱们理解苹果正在消费端宣告了Vision Pro,正在内容分娩上做了少少事变。全邦是3D的,无论现正在手机也好,百般影相修立也好,都是2D成像,它带来了一维新闻的失掉,这个失掉本来好坏常怅然的以及卓殊要紧的,由于那一维新闻很要紧,于是往前走,群众全部的收罗新闻摄影修立必然会形成3D。
咱们理解从量的角度来讲,现正在环球每年也许15亿只手机,也许9000万辆车,每个车上有十几个摄像头,有许众的家电,全部这些上面的传感器、摄像头未来都要从2D往3D跃迁,于是咱们现正在面对比力大的身手改变。
咱们做的VPU,跟GPU比力相通的名字界说,GPU群众仍旧卓殊熟识了,GPU的学科根源是估量机图形学,VPU的学科根源便是估量机视觉,估量机视觉跟估量机图形学这两个学科是全体相逆的,VPU干的事是更亲切人的智能的本色,它是让修立看懂全邦,看懂全邦之后这个修立就具有了相当水平的智能,咱们都说办理AI题目一半的题目正在于视觉,于是办理视觉题目也办理了相当水平的人工智能题目。于是VPU的墟市卓殊之辽阔,GPU墟市群众都理解很大,VPU本来不比GPU小。
这是咱们做的阶段性成像功劳,咱们正在暗光、逆光、强光下做少少事变,这些成像是永无终点的事变,咱们调动了许众传感器,和各样传感器厂商的相干也卓殊好,群众相互扶植,也助助前面的透镜、中央的光电转换以及SoC,这群众正在成像体例内部属于三个要紧的个人。咱们相互扶植助助互相办理对方的题目,变成一个卓殊好的成像体例。
成像体例可能说永无终点,区别的客户有区别的需求,并且区别客户央求也越来越高,于是正在这个范畴咱们做了卓殊众的事变。
正在本质落地中有百般各样奇稀奇怪的题目,透镜有透镜的题目,现场又有希罕稀奇的光照情形,正在这内部这些题目都必要加以办理,肇观电子正在过去一段时分助助百般客户办理他们本质的题目。
这是咱们正正在做的少少3D身手,无论是正在纯室外、室外里切换的场景如故纯室内场景,咱们做了系列3D的身手,这都是用芯片来去做少少估量。正在室外,譬喻像车,以及像百般室外任务的呆板人,都必要咱们云云的身手,来办理3D感知的题目,使得呆板人能避开贫困,理解我方正在哪里,能得回这些要紧的新闻。
这是咱们基于芯片做的一个VSLAM的案例,咱们的一位员工拿着智能3D深度相机正在空间中搬动,赤色的线是相机搬动的轨迹,通过这些扫旁边的一张桌子,把它扫描出来,这是及时扫描的结果,咱们正在芯片上做了许众特性点的加快,百般滤波的加快,正在上面做许众VSLAM硬件的底层硬件加快的事变,使得离线正在端侧及时做三维重修成为或许。
许众使用对及时性央求卓殊高,一个呆板人,咱们不生机它像恐龙相似,看到的东西等它响应过来仍旧是1秒之后了,这是不可的,许众呆板人生机0.1秒,也便是100毫秒就要响应过来;这就涉及到感知,从光子打到传感器到它整体处罚完然后作出响应,100毫秒内要办理题目。于是许众工夫,端侧的处罚本事卓殊要紧,由于有些工夫是来不足往云端传输数据,办理完再传回来。当然云端也卓殊要紧,于是云和端都是正在很蓬勃地往前繁荣。
AI群众比力熟识了,这些都是全部的落地使用,肇观办事了卓殊众的百般各样的客户,办理客户的题目。
咱们的芯片被用正在了汽车上,用正在车的三个镜子上,车内后视镜以及车的两个外后视镜上,以及被用正在车的摄像头内部,以及被用来做ADAS譬喻LDW(车道预警)、交通记号辅助识别、驾驶员劳累监测、旅客监测、DVR,做BSD盲区检测等等。正在车载范畴,咱们是车规、邦产、高画质、低延时,机能还不错。群众假使对车载芯片有需求,咱们是比力好的拣选之一。
一个全部的使用案例是一个电子后视镜,鄙人雨的工夫,画质卓殊明显。正在黯淡的场景,通过屏幕看,电子后视镜照旧很明显。
我普通随身也带着芯片,放正在一个小盒子里,给群众呈现一下;做芯片便是有这个好处,产物卓殊小,可能随身领导。
咱们基于我方芯片的电途板做了智能深度相机,这便是呆板人的眼睛,我随身带的一个呆板人的眼睛。工业呆板人、办事呆板人、人形呆板人、特种呆板人、无人呆板人等百般各样的呆板人,都必要云云的眼睛。这个眼睛办理的题目是助助呆板人3D感知,AI识别全正在内部做了,成像,以及输出码流。
咱们花了许众力气正在做这个产物,来办理客户的题目。举例来讲,许众很厉苛的客户,央求咱们把眼睛要做到全邦第一;正在没有咱们的工夫,是有一家海外的巨头来供给肖似的模组。有了咱们之后,咱们被客户央求取代掉海外巨头,被央求正在许众的身手点上要磨到全邦第一。
举一个很粗略的例子,像云云的模组,它的连合是USB3.0的连合,群众或许有些人比力熟识,便是一根线,拖出来插到电脑上充电也好,数据传输也好,都可能用。从身手角度而言,USB制定本来不是一个希罕安闲牢靠的制定。群众假使闭怀这一点,正在工业这种场景下,担心闲牢靠是致命的,假使通过USB连合,把这个数据安闲传出来,咱们的客户央求咱们10万小时的连合不行隔绝一次,这就央求卓殊高了。所认为了到达云云的方向,便是海外巨头都做不到这一点,由于它有少少天才的亏欠导致的题目。
为了到达这个10万小时一次连合都接续,咱们被迫要去正在芯片级、正在全部的底层驱动都从新写一遍,正在跟它连合的此外一端的软件也要从新写一遍,于是整体的硬件软件都要从新做,于是材干做到10万小时接续连合的场景,这只是客户的诸众卓殊细的央求之一。
正在这个流程中,咱们不妨供给给客户安闲的、牢靠的、智能的、3D的深度的相机,实用于百般极限场景,譬喻说咱们有冷库呆板人的客户,它的呆板人终年正在零下18度搬海鲜的客户,它的眼睛就必要正在零下18度每次都能平常启动,告终它的职分,然后再闭机。不过譬喻海外巨头的产物正在零下18度开机都开不出来,咱们被央求正在这样低温下能平常任务。咱们也被央求正在卓殊高温下要能平常任务,于是这内部有卓殊众的客户需求。
于是咱们正在跟诸众客户正在过去许众年向来正在打磨,咱们积聚了卓殊众办理计划,这些办理计划反过来助助了肇观何如不妨安排出更好的芯片和模组来准确办理客户的题目,这好坏常要紧的。
正在这个流程中,咱们也长远领悟了客户的应用场景,客户面临的百般题目。由于这些模组闭键卖给这些toB的客户。咱们举动一个焦点元器件厂商,何如助助他们办理题目,正在这内部肇观也成就了许众贵重的履历。
肇观也应一类客户央求,正在OCR的范畴做了许众事变。不客气地讲,正在自然光照前提下百般庞大文本的收罗解析方面,咱们正在这个范畴,正在环球界限内做得算是比力领先。
举例子来讲,譬喻弯曲的百般文字、区别的配景下,咱们文字的收罗、文字识别和处罚做得比力领先。譬喻说,右下角这是一个日本的报纸,日文报纸有竖排、横排混正在沿途,咱们就被客户央求把它全体准确处罚出来,并且把按序排好,要不妨语义不妨领悟出来。于是正在OCR范畴,咱们做了许众事变,现正在仍旧支撑十几种区别邦度的说话了,正在这个范畴算法做得比力领先。
这是咱们OCR的全部系子,咱们的识别精确率,咱们支撑中文、英文、日文、韩文、阿拉伯语、西班牙语、葡萄牙语、法文、德文、荷兰语等各邦说话,咱们支撑各邦说话的OCR,咱们正在这方面做得算是全邦领先之一,咱们不单做逐字的识别,正在外格的识别,还正在百般时尚杂志、绘本等庞大页面内部,能把该提取的东西提取出来,不该提取的不提取,正在这内部咱们做了卓殊众的事变。
群众假使谁对OCR的算法或者身手有需求,也接待联络我,联络肇观电子,咱们都很同意正在客户的产物中进献一点力气。
肇观向来竭力于用AI视觉芯片来助助全部的智能修立看懂全邦,来做云云一件事变,这个事变对咱们而言意旨卓殊巨大,对这些智能修立而言也卓殊要紧,于是正在这个范畴,咱们向来正在深耕咱们的芯片,深耕咱们的焦点本事,更好地助助到客户。即日我的分享就到这里,感激群众!
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255