E217｜机器人开可乐发扑克有多难？聊聊灵巧手的硬件与算法

71 min

•Dec 11, 20257 months ago

Summary

This episode explores the hardware and algorithmic challenges of dexterous robotic hands, using opening a soda can as a benchmark task. Guests discuss different actuation technologies (linkage, cable-driven, direct-drive), data collection methods for training, and the current state of the industry across companies like Tesla, Figure AI, and Shadow Robot Hand.

Insights

Opening a soda can represents a complex benchmark requiring dual-arm coordination, force control, and real-time adaptation—far harder than simple grasping tasks like loading dishwashers
Hardware design choices (direct-drive vs. cable-driven) significantly impact simulation ease, manufacturability, and downstream AI training efficiency
Teleoperated data collection remains higher quality than video-based learning, but video offers scalability; the industry is pursuing both paths with different tradeoffs
Dexterous hand development is bottlenecked by integration challenges across hardware, control systems, and perception—not any single component
The field is converging toward direct-drive and single-direction cable-driven designs, with assembly and reliability remaining major production challenges

Trends

Humanoid robot announcements (Tesla Optimus) catalyzed explosive growth in dexterous hand research and hardware startupsIndustry shift from task-specific solutions to end-to-end learning frameworks, validated by Tesla's autonomous driving successTactile sensing (pressure sensors, vision-based) becoming critical for force control in manipulation tasksHigh-cost research hardware ($50k-$150k per hand) serving as ecosystem builders rather than revenue drivers for early-stage companiesConvergence on direct-drive and cable-driven actuation; linkage-based systems declining due to assembly complexity and reduced dexterityData collection bottleneck: teleoperated data remains gold standard but scales poorly; video learning promising but not yet production-readyUC Berkeley emerging as major hub for robotics talent and spinouts (Covariant, Physical Intelligence co-founders)Simulation fidelity becoming critical differentiator for companies pursuing large-scale reinforcement learning approachesTactile feedback from motor current (proprioceptive sensing) gaining recognition alongside surface pressure sensors3-5 year timeline emerging for achieving fully autonomous dexterous manipulation at consumer scale

Topics

Dexterous Hand Hardware DesignCable-Driven vs. Direct-Drive ActuationTactile Sensing and Force ControlTeleoperated Data Collection for RoboticsEnd-to-End Learning for ManipulationHumanoid Robot DevelopmentSimulation and Physics ModelingManufacturing and Assembly ChallengesVision-Based Learning from VideoReinforcement Learning for RoboticsGripper Design Trade-offsProprioceptive Feedback SystemsMulti-Finger Coordination ControlGeneralization in Robotic TasksBenchmark Tasks for Dexterity

Companies

Tesla

Developing Optimus humanoid with in-house dexterous hand; moved actuators from palm to forearm based on biomimetic an...

Figure AI

Building humanoid robots with dexterous hands; demonstrated dual-arm card dealing and other complex manipulation tasks

Physical Intelligence

Training large-scale robot models with 10,000+ hours of teleoperated data; pioneering end-to-end learning approach

Shadow Robot Hand

Manufactures high-DOF cable-driven hands ($150k); primary customer was OpenAI for dexterous hand research in 2017-2018

Sanctuary AI

Produces direct-drive dexterous hands with high integration quality; demonstrated photography and dual-arm card dealing

One X

Mentioned as emerging player in humanoid robotics space with notable capabilities

Covariant

UC Berkeley spinout founded by Peter Abbeel; focuses on robotic grasping and manipulation

OpenAI

Major early customer of Shadow Robot Hand for dexterous hand transfer learning research

Meta

Operating robotics research teams including humanoid development and dexterous manipulation research

Amazon

Operating Frontier AI and Robotics Research Institute; employs robotics researchers

NVIDIA

Operating GEAR research institute; contributing to robotics algorithm research

DeepMind

Conducting robotics research; mentioned as participant in discussions on world models and robot training

Google

Developed PaLM-E, RT-1, RT-2 robot foundation models; employed Sergei Levine in robotics research

People

Evan Tau

Tesla Optimus dexterous hand lead engineer; joined 2023, led hardware iterations and biomimetic design

Sergei Levine

UC Berkeley professor; co-founder of Physical Intelligence; led Google robot foundation models (PaLM-E, RT-1, RT-2)

Peter Abbeel

UC Berkeley robotics professor; founder of Covariant; pioneering work in robotic grasping

Elon Musk

Tesla CEO; provided feedback on Optimus hand design iterations; prioritized manufacturability and aesthetics

Qi (齐老师)

Researcher with expertise in vision-based and tactile-based in-hand rotation; published papers on dexterous control

Hao Zhi (浩之)

Robotics researcher; worked at Meta and Amazon; expert in dexterous hand algorithms and learning from video

Quotes

"Opening a soda can seems simple—just two hands and a fingernail—but integrating it into a dual-arm robot system is extremely challenging"

Evan Tau•Mid-episode

"The bottleneck isn't hardware or software alone—it's the integration. You need reliable hardware, control systems, and perception all working together"

Qi•Mid-episode

"Teleoperated data is gold standard quality but doesn't scale. Video data scales but lacks force information. We're pursuing both paths"

Hao Zhi•Algorithm discussion

"If we achieve an algorithm framework where a robot can open a soda can, open doors, and twist screws with minimal retraining—that's the GPT moment"

Hao Zhi•Closing discussion

"Hardware will achieve this capability within the year. The ceiling is determined by software and model improvements, not mechanics"

Evan Tau•Timeline discussion

Full Transcript

Hello, In Here, guys, if you'll have a good news, I'll tell you that we'reking the 25théric hade monopoly auditing videoball mia kidnapper's ranking. On my own case, this is a huge specialty industry in various districts. The traditionalist institute of, mem box hs. Well, backstory is it possible to talk about it. We talked about it via an TV relationship with câmera. We'll see you next time. cinema long and cloudy And also, you know, you were Back The Marie is also His CEO Pissbury's CEO E standalone Son of王 Ewing The company's Ozone is Evan Tau Hello, Evan, you are. Hey, the one is, everyone. Evan is in Tesla's Optimus the top-level machine machine machine. Yes, this is a story of the experience. I'm excited to share with you. How are you? Yeah, you know, the Tesla's machine machine, especially the 0-巧-手, the development of what stage is, I think it's very interested in the beginning. I think that at the beginning, we talked about the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手, the 0-巧-手,可能是听众最迷惑的一个部分因为比如说我们其实看了很多的机器人demo的展示大家明明就看到我们现在机器人可以去拿吸尘器可以去倒垃圾烧水甚至把盘子放在洗碗机里然后我记得Tesla她有一年的发布会晴天助现场还可以给大家应该是倒酒就看起来这个手已经是很智能了所以大家可不可以概括一下现在机器人的手他能做哪些场景他到了一个什么样的发展程度不然浩志先来嗯好的如果总结来说的话我会认为大家在有人去指挥的情况下也就是摇操作的情况下如果这个手的手指不需要很精细的动作那它是一个比较简单的问题比如说我们今天看到请天助倒酒大家如果注意这个视频里面他手的运动的话他其实手指之间没有一些交互没有一些互相的协作它就是把手放到初九的那个把手上然后往下压这个在控制上面是会比较简单的与此相对的是比如说今天我们想让一个机器人使用我们家庭里面的各种工具比如说像螺丝刀像剪刀这样的东西在这个过程中我们的手指是需要更加精细灵巧的操作在这种情况下它的操作就会变得很难以及就是我们需要它适应于可能不只是一家一户可能是千家万户不同的工具这个难度就会成指数级的上升所以就是说现在机器人它可能就是你刚刚提到了一个字是精细运动然后还有一个我理解就是讲它的泛化能力就是把它放在不同的场景中在这两块是还需要加强的是的没错Evan对我这里也稍微补充一点刚才齐老师可能是从系统端的角度来讲这个问题我想补充可能是更多的从硬件的这方面去切入一是把现有的硬件的方案做得更可靠就是说让机器人能够在真实的环境中不停的长时间稳定的运行并且和自然的物体的交互在长时间使用中并不会有任何损坏这个事情实际上也没有完全的去做到并且为了让从系统的AI的角度能控制机械人做更多的高精度的任务这个硬件还是需要继续的去迭代它就比如增加它的自由度并且增加它的触觉传感从这些角度继续去升级我们现有的硬件产品并且在这个过程中由于系统的复杂性的增加同时它的可靠性又变得更大的一个挑战的问题所以说这也是从硬件端还需要我们去做的很多工作对,刚刚提到增加它的复杂度、自由度待会我们可以详细讨论一下包括特斯拉几代的方案触觉,浩之应该是这方面的顶级的专家了那在此之前也可以给听众一个更加形象的例子就是Evan其实在我们今年办我们年会的时候你们是有来在我们的年会现场去用机器人表演开可乐的其实我们之前在彩排的时候开可乐它能不能开成功它是一个不稳定的状态比如说当时我也想去试让这个机器人打开可乐但是我可能没有任何的经验我就是随意放的一个角度可乐它开的那个方向它并没有对准机器人的手指这个时候它可能需要机器人旋转一下它才能把这个可乐打开旋转一下这个动作它对机器人很难吗没错没错那您提到这个是一个非常好的问题首先开可乐本身看似可能是只要有一双手再加上一个指甲就可以实现但是真正把它放到一个机器人双臂的这种机器人系统上整个是一个还是非常有挑战的工作而我们仅仅也只是浅浅的demo了一下这样的一个事情但是我们未来还有非常多的工作要怎么样能让这个整个的事情变得完全自动的实现起来并且成功率非常高的去实现还是一个很长的路要走刚才您提到的关于可乐怎么最好的我们去对准这个事情精度是一个方面的问题实际上还有更多的是在于首先感知到现在的可乐的状态以及像人你可以实现用任意姿态去抓起这一瓶可乐然后在手上单手里面调整这个可乐的角度去达到一个最完美的状态让你的另一只手可以过来又以一个最完美的状态把它拉开这个机器人还是需要一个过程包括机器手的硬件设计啊控制的这些方面的能力嗯现在世界上就是有其他的公司比如说他在这个自由度上做的更多的他们能做到这个很好的去旋转可乐然后再把它打开吗我觉得一些比较头部的公司去调整优化一下他们的硬件包括去更多的在这方面下一切功夫也是可以实现这么一个demo的但是目前说让他完全自主去做,我觉得可能还是没有看到哪一家可以去做的,这个可能更多都要看看齐老师的观点。对对对,因为齐老师你好像之前我记得你还有论文是讲用视觉跟触觉做这个手内旋转的,应该是这方面的顶级专家了。我的看法可能是当然现在大家有不同的宣传策略或者说他们的一些发展或者研究的侧重点比如说对于像陶总这样的硬件厂商他们可能目标是为了证明他们的硬件非常的好用无论是从机械结构上或者说能用它做的一些控制系统上就是在这种情况下去展示一些很炫酷的展示视频是非常好的与此相对的就是还有一些做零敲手的算法但是不做零敲手硬件的他们可能就会比较少地展示这样方面的能力而更多的是一种展示它的泛化性这方面的能力就开可乐这个例子来说这个例子它可以变得很难也可以把这个例子变得简单但是可能就像我觉得陶总刚才也提到他们的目标可能是最终自主地开这个可乐比如说自主地开这个可乐在任何可乐的朝向或者可乐在桌面上的排布这样的情况下是最难的但是呢我们也可以通过限制可乐的朝向以及进行一些远程操作的方式让这个拍出视频的难度变得更小一点就正如陶宗所说如果我们只优化这个视频那有一些头部的硬件厂商或者算法的研究院他们可以做出来但是可能从长远的角度来看我们更应该专注的是什么样灵巧手的构型是能够适用于最多种类的任务以及对于算法的接口最好 That is science! I thought about machine learning with EQ. About colouring Lightweight 7 June. This tournament won't be الرfel日本. What does itney met? The team and hearts too.ikka in Swift Business but in this competition this ağabey main problem if REAL number 300 , ready to make the agency to promote their needs and there isת� according to the swoon 앙 pedagogy 数据安全的情况下可以把这个性能继续往上推所以可以说这个比赛它其实是把全球顶尖的技术人才聚集在一起那反过来呢也在推动广告算法的进步还有系统的性能腾讯公司的副总裁蒋洁他也说以前一个大项目要好多人合作但是呢现在组队的人基本上一到三个人就能干完一整个team能干的事 So my experience is that未来竞争还真不是靠简历靠学历而是靠真本事在AI时代这类比赛也可以让自己的能力被看见也是让企业找到顶尖人才的最佳场景那下面言归正传继续我们机器人的讨论所以现在浩之根据你的这个研究你觉得已经有公司它能做到我随意摆上去就是我们不说任何环境任何场景我们就说这个可乐罐它的品跟它的开口它不一定是正对着这个机器人的手的它能把它打开的这样的一些公司吗我觉得现在是没有这样的公司的如果一个公司他们今天想要完成这个任务他们可能会从技术上来说应该可以花几个月去做到这件事情但是就他们可能需要花费非常多的资源 and very much time to do this thing. Maybe it's due to their own company's approach to the problem. They're not going to do this thing. It's more like to do some plan for the改进, to allow them to reduce the time to do this thing. They're not going to do one-to-one job to do this kind of and they're hoping now in the way of doing this. It's going to be able to do this. It's also more to look at its own way of the way. Yes, I understand. That if I look at this, I can imagine that in the figure AI, they put some videos out. It's about a machine that can put a bag in the washing machine. So this video, it's a lot of mistakes, it's a success. Or is it like you said, it's through a mouse, it's just a demo-like video. It's not a machine that has these abilities. I think there's no one確定. But I think there's a way to do it. It's a fixed environment. It's easier to shoot out these videos. For example, the whole event of the success rate will be 80% to 90%. In this situation, the video is also done by the way. It's not a high level. But the distance between the people who are running a lot of people, it's not a good thing. Anyway, departments are able to manage the幸 Defense environment to achieve this task. For example, to put electronics back to 19% sociais. It is great to have aorder series. Because there are a entire BUTs, if you tree one. Then you can establish theidade biennial that you could not use. So maybe it may little change the transition rate and large population. Subtitle wall is authorized about tecnología applications. So I understand now in dyed Member of class splendor to implementation. Where else people help? Yeah, first. I'm trying to demonstrate that each task is fine. in every任있는第三 þ adalah modeak piksi bagi tadi most of the problem first of all the damage both of theseGE 1700 B3 와 second the这个难度实际上跟刚才我们谈到的开可乐还不是一个数量级因为开可乐仔细地去分析这个事情它实际上是一个用左手或者右手把可乐从桌面上拿起来调整好罐口方向再用另外一只手从空气中对准之后以一个合适的角度卡入那个拉环并且以一个合适的角度和力去打开这个可乐并且在这个过程中因为它是一个双手对一个物体进行同时操作你的利润至少要对抗这个拉可乐的力对抗的过程中你又要怎么保证你的手指不会产生过大的力把这个一拉罐给捏爆这个是一个从整体这个机械人控制系统上来说比整个一个收纳碗碟是更难的非常多的一件事情简单来说就是碗碟它不需要双手的配合它可能也会有力跟形状跟抓取的这些问题但是它的配合度会少了很多然后它不会有拉的那个力,对吧?没错,没错是,是,是,这样说理解了所以大家觉得现在如果我们综合来说整个灵巧手它的瓶颈是在哪?它是整个机器人行业的问题就比如说我们还是说这个模型的问题泛化性的问题还是说灵巧手他除了这个之外他还是有很多他自己这个行业独有的难题林乔首我们不能光看它是一个硬件的一个模块它能产生它的价值肯定是要配上至少一个双臂的这么一个系统这个双臂的系统会形成一个最小可以用来工作的机器人但是当我们想要真正让它泛化的去在一个环境里执行任务你会需要一个移动的底盘移动的平台有人这样的移动的平台大家会说哦轮式的是不是可以 Atéirangori, Ya dough, So it's nengai regardless of the value. Short of this thing. Hbornos has curious it to be in terms of implementing the machine When you ask me Are models on the animales Club Where do I need? Just I think 现在来看硬件和软件还会有一个很大的提升空间从软件来说我的理解是一些比较成熟的在机械臂或者一些轮式机器人上面的算法就是一些机器学习的算法当把它们直接应用在灵巧手或者人形机器人这种更复杂的系统的时候它会出现一些之前没有预料到的问题比如说现在的灵巧手可能有四五个手指然后每一个手指有各种各样的关节每一个关节都可能与这个环境发生交互,与这个物体发生交互,那么怎么能在保证这些交互所产生的一些影响是对我们有利的? 比如说我们今天想要抓一个物体,如果我们用一个夹爪去抓,我们只需要考虑两个接触点,该怎么去触碰这个物体。但是如果我们现在给了十个接触点,那么这十个接触点该怎么去分别的接触这个物体? There are laissez Godzilla gateway Essexpress This is atcg beam of expression In per case of theordre of December It will really become difficult Second is from the magic prov Zack Noices 2 Jaw I started aos say that's the time only the choice Gun will use cost the spin From type to Rouse even the construction Siz the re 这方面的瓶颈在逐渐的减少但是我的预测是还需要几轮的迭代才能做到一个真正像比如说大家现在能看到的语术机器人那样一个逐渐收敛的构型就现在的零巧手就市面上能买到的大家的形状硬件都各不一样那你其实就要去根据这个硬件调配自己的软件就是以向人的零巧手居多但是每一家公司他们的技术路线都会有所不同像陶总的公司应该是绳区的技术方案也有一些公司是把电机放在灵巧手的手指上这种驱动方案其实说到技术路径就我知道现在业界比较流行的有几种一种是连杆驱动的一种是绳区的然后绳区还分单向绳区跟双向绳区然后还有电机驱动的Evan或者浩之你要不要跟大家简单地介绍一下这些技术路线各自的优劣势是什么然后现在业界的主流方向再向哪个方向发展它有没有收敛的趋势那我先从硬件本身这个角度来谈一下之后可能很麻烦齐老师再补充补充从使用者的角度来看到底哪一种是它更倾向的首先我们先看三个主要的方式一个就是连杆另外一个绳区最后一个就是直区连杆最早应该是大家比较传统意义上的那种甲只手是采取这样的一个结构驱动方式它通过底下驱动器无论是直线的推杆电缸或者是用涡轮涡感的方式产生一个旋转运动最后实现手指弯曲这是属于传统意义上六自由度的低自由度零条手它更多的是像手的一个形状但是它的手指的运动轨迹其实是相对还是比较低自由度的它的指尖是跟随一个固定的一个路线是一个一尾的这么一个轨迹大拇指的设计也是它侧摆之后直接正对应食指或者中指之间它也是通过这么一个固定轨迹的方式去合拢所以说从使用的角度来说它似乎和夹爪来说它的特点并没有那么的明显这是低自由度连感手的一个特点低自由度它一般是会达到多少个自由度一般是六个自由度六个自由度差不多就是五个手指这样合拢然后还有一个自由度在那是大拇指的侧面摆动就是大拇指有两个自由度然后其他的手指各一个自由度没错连感手实际上还有另外一条路线也是高自由度的路线就是之前含过一篇论文叫ELDA这篇论文的手基本上思路也是通过一个相对更复杂的连感方式把每个手指根部设计出三个主动的直线驱动器然后通过也是比较复杂的连感系统实现每个手指三个自由度的方式这样的手的确还是比较先进但是它可能存在的问题是它的体积还是比较大并且它的所有的脸部件进行刚性的连接使用中缺少一些柔性这个柔性不仅在抓物体的过程中感觉并不是非常的柔顺并且它也会在碰撞的过程中相对来说更容易损坏一些这是第一个连感驱动有劣势连感驱动 and make a retro song. A second we'll talk about notes and analysis by shifting另外 section. Doather pipeline fisth atención actually is a few years this year that began showing the method ditch service. Things we found at the same times are high in the sameФoot, the safer transition technologies to небольшate, slowing the守番台 Así, because the hood to feed between two years ago, theCERupid captain Darth机 is still large by default. Especially the market market has gone loan, at the same level, so the codeκ舰 желSkull menor,功率密度做得越来越大使得把电机机成化小型化变得可行就是正好能够在人手的这么一个尺寸下做得还是很不错的优点我觉得比较明显的就是它的自由度可以做得非常高它可以在每个关节排补一个驱动器并且它从控制角度来说是因为是关节和电机直接对应的是相对来说比较容易去做的它的缺点可能更多的是一个贵贵我觉得最终可能也能往下走但是它更多的一个点在于它把电机做得微小之后它的一个减速比还是相对来比较高它大的减速比会使得整个的传动透明性比较差一些也是说它里面的齿轮零部件都比较精密也是在实际的应用中可能的寿命或者是抗冲击能力会是它的一个问题并且因为它把它的电机所有的零件做得非常小型化使得它的所有结构都非常需要有高强度的金属结构这就使得整个手的系统的重量没有办法做得非常的小轻所以普遍直驱的铁销手都是在将近一公斤或者一公斤以上这个在机械人末段来说还是挺大的一个负载一公斤的手那好重这设计平衡都是一个问题的确的确这些是它的一些问题还有一些就是包括刚才提到的可靠性易维护性这可能我们还是看一看这个方面的发展 Also it's mentioned that it's the stage ofiving. Since Wasseretts Wiig them is doing less hollow. Some could understand she can demonstrate it's harness more practice. Porque earlier. There's andis. We oweeeeei Sharpa this company. agricultosexual offers. They just use this kind of care. This huge фoyer yoga business. What kind of experience?她的产品的完成度非常高感觉她集成得很好整个工业设计也非常不错她每个关节有独立的奠基使得她的整个真的非常灵活她能做到哪些其他零巧手做不到的工作或者只有她们能做的我觉得从展示这个视频的角度来说她们可能做了一些比如说用相机拍照比如说有一个双臂零巧手的系统给大家发牌这两个是比较惊艳的双臂林乔舌给大家发牌,发扑克牌对,扑克牌这个很难这个会比较难因为比如说我们想象一叠扑克牌的时候两张牌之间它的间隔很小当我们自己人手发牌的时候我们需要控制一个比较精确的力才能把这个牌从这个牌堆上面拿出来然后再给大家如果说碰牌的点不是很准或者是力太大很容易一下发很多张牌或者把牌堆给打散所以他们做了这个视频还是相当的经验就是如果要一张牌一张牌的发对手部的精细度的要求还是比较高的对这个是直驱的方案然后还有一种应该是Evan你这边比较熟悉的就是拉绳跟绳区的这种方案对的对的绳区的方案其实现在市面上几家主流的公司方案的话也主要分两种一个是双向拉绳的方案一个是单向拉绳的方案双向拉绳的主要以最早的 We know a draft, not only about it, just for the pin ó tox. It's a day at the base of头 canon produced Mount Soto Ant m. It's a limited footprint of 15 Yi Hamin II M3, with a 29 minute cooperative project outside of Edge of the Pillar otterm. They have of purposeут worldwide with the two wire-andTs. The other wire-suit ninja char response is jotka act. We have another stretch of two wire-satting the player. Oflka Hand Is diluted by SuikASE forge this is a very good A lack of a from the The material will produce a wave. The wave will happen. It will have a a a a a a a a a a a a a a a a a a a a a a a a a时不时要去调整一下这个东西这个是这个方案的比较大的一个难度还有一点就是这种高自由度零条手其实绳子本身虽然不占太多的体积但是绳区设计的这个走线实际上在机械设计中它对空间的利用率实际上非常低它不像是你设计齿轮或者设计其他类似的方案你可以说很紧密地把电机排布在一起你要去考虑到整个绳的走线 and the whole thing, the whole thing is that the whole thing is a very dynamic thing. So it will allow the high-自由度 of the ring-channel system, especially the whole thing, the whole thing is that the whole thing is that the whole thing is to be done in the arm. This is the way it will be done in the armhole. Like Shalhou Hand and Oka Hand and Tesla. We have a company called The Real-Sense智能, they have to do the whole thing, the whole thing is to be done in the armhole. But this is the way it is to be done in the armhole. So Tesla is a double-staffer, right? Tesla is a double-staffer. It's a double-staffer. Yes, yes. Then another one is a double-staffer. The double-staffer is a double-staffer. The double-staffer is a double-staffer. It's not so敏感. It can be through the method of算法. It's a little easier to cover this thing. But the缺點 is that it's not a lead-up. 相当于是靠弹簧去实现伸直这个弹簧伸直的过程中一是这个力相对来还是比较小的如果你想要尽量地去优化你的抓握力的话因为你在抓握的过程中实际上是跟你的弹簧力的一个对抗你有更强的伸展力你就浪费了你的抓握力但是有的时候人在一些精细的操作人用手的过程中反向的推线让力也的确是有的时候也会有它的作用但是的确现在这个阶段大家还没有特别考虑到需要这个点相对来说还是更少的应用场景更多的就是我们还是在解决抓握的事情就没有想到张开的事情是吧对张开的的确还用的并不是那么多可以这么说了解你们用的是哪种方案我们其实是单向拉绳还有一个直驱方案的一个混合方案对这个我们目前还是属于一个比较保密的状态反向推你可以想象你如果去闭着眼你在你的书包里掏一些东西你可能需要把其他东西拨开然后去抓住你想要抓到的那个物体这个的确是需要一个推但是更多的还是需要整手的触觉所以这个时候是非常难的一个问题现在大家都没有去考虑这个事情对那业界现在大家在向哪几个方向收敛呢从我看来就是硬件上业界现在主要是朝着直驱和单向拉绳这个方向去收敛包括特斯拉还有我们都是这样的一个方式直驱的话也是非常敬严的连感的时候可能相对高自由度的做的公司会少一些OKFigure AI他们用的是什么方案还有Physical IntelligenceFigure AI我简单看一下他们的专利可能是一个六自由度的或许是连感或者是其他的一些方案的一个手那浩芝有什么补充的包括你作为使用者你的体验就是我自己用过连感和直驱电机的这两种我确实没有用过承驱动的手我们现在去做机器人加AI 大概有两种比较主流的方式第一种方式就是先用摇操做采数据然后去训练一个神经网络去完成某些任务在这种情况下比较经典的代表可能是还有像Physical Intelligence的这条路径另外一条比较主流的路径是 in a machine-like system to use a lot of learning to train this network to just put this network from the software-like system more successful is basically all of you can see the four-way machine-like system are all these tools and any kind of method in the current time but the other part from the software-like system to train a network非常的流行的所以这个就有一个问题就是我们在选择灵巧手的时候会去衡量它有多容易被仿真之前我们比如说比较连感的手以及直驱的手我们会觉得直驱的手相比于这个连感的手会容易仿真很多所以在我们做一些需要高自由度需要一些用强化学习才能学到的这种灵巧操作的时候就会选择用直驱的这个手在之前这种直驱的手就像刚才Avan说的 It's the biggest lack of time is that the device is very large It's in the last few years, the device is getting bigger and smaller For example, Shapa We thought Shapa is a different experience It's a reason that Shapa is a little bit different than the machine It's usually a lot of people are moving to the same direction Or is a small direction So we thought it's a good way to do this technology It's not quite suitable So we thought it's既有人類 of size And it's also a good way to do this part of the research So I think it's pretty interesting tech software甚至HeFTC The tool is not even surprised to check the machine with sensor that fully enlightenedיבвигin Itad Itad, so the machine with www.modium machine Riv Tips 一个电机的仿真是非常简单的然后用直驱的手它无非就是很多个直驱电机串起来所以它的仿真没有难度上的增加所以它其实更多的是从仿真的角度来说这两种机械结构有一些区别跟这些机械手跟人手是否相像可能区别会少一点我刚才之所以提到它要跟人手差不多大小更多的是出于比如说我们想要让这些机器人完成一些人才能完成的任务那么就需要涉及到跟我们现实世界中各种物体的交互然后这些物体的形状以及大小都是按照人手设计的假如说这个机械手太大它就很难去抓一个比较小的东西所以从这个方向考虑我们就是会偏向于好仿真并且跟人手差不多大小的这种机械手嗯很有意思刚刚其实大家有提到Sharepa的手啊我看它的价格好像是10万美元一只还有Evan你刚刚提到Shadowhand的那个手它是15万美元谁在买这些这么贵的零巧手都是科研机构跟大公司的研发部门吗齐老师应该是可以买的地点Sapa应该是五万一只五万一只十万两只它会按对卖吗还是它现在其实没有两个手的配合应该是可以按对卖的我的理解是首先这些厂商他们不会靠卖这个硬件去引力至少在此时此刻因为他们还远远没有到量产的那个阶段他们现在对于这个公司最重要的可能是先确定他们现在这个构型哪里还值得被优化接下来再去往一个正确的方向继续迭代这样的迭代可能还有很多很多轮他们的这个价钱很多时候我个人的理解可能是有一些筛选作用在的就是他们只想给那些真正对他们的硬件有一个很强烈的需求的人可能是大厂或者是突然有一些非常大的来自于政府的资助的这些高效举一个例子当时Shadowhand的一个主要客户就是1718年的OpenAI他们当时做灵巧手转模方他们有足够的财力去支持他们做这样的工作挺有意思的我理解其实他们现在也不是靠卖硬件赚钱还是希望能把这条路跑通他们其实也是希望能够吸引在上面的开发者然后把这个生态打起来让更多的人去用到他们去改进这个方案我是这么理解的 Ivan can you from the first printer from principles, a short recording? Or from the artist's perspective to talk about this, we know our company's business probably and it may have different aspects because it況 form a low- hack as the field theory of it will Elesk pick out all the development of experience We indeed, the Paint-systems in falta that the buildseven北. Theämmo console and removing recurring if it seems to be a Eigendim that their financial This 非常的稳定低价非常有竞争力这样使得大家可以在落地的过程中逐渐建立起这个生态然后帮我们更多的获得和客户的一个反馈这是我们从创业公司的角度来说我们的一个策略并不代表价格比较便宜的零条手没有技术含量也并不代表它没有商业价值我反而觉得价格低更容易商业化落地对吧对其实我觉得很多就包括垂直领域的机器人他都不是通用他可能也很好落地应用场景也很多没错没错就像我们看到Figure的手嘛它的弹幕的场景已经非常多更多的实际上是基于现有的硬件还是更多的需要靠算法能力的提升打开它的很多的潜力对,那Evan,其实你进特斯拉的时候应该是在两年多以前就2023年7月份,对吧正好是Tesla Optimus的手的研发你要不要跟大家简单介绍一下它的整个的手它是怎么演进的没问题,其实是最早我加入的时候当时做手的团队我们整个Optimus做机械硬件的团队应该大概是十几个人这么一个团队做手应该是我和另外一个人主要是负责这个手的项目实际上外界现在也不是很清楚当时那一代手是个什么样的方案是个涡轮沃杆绳区方案六个主动自由度十一个全关节这么一个欠驱动零条手当时其实在内部我们已经是迭代到了第三代我当时加入的时候最主要的一个升级就是增加零条手的关节编码器就是怎么能够捕捉到零条手在空间中的位置另外一个是增加它的触觉虽然这两个工作似乎只是一个电路上的升级但是从整个系统设计的角度因为有了这些新的功能的加入整个零巧手当时沿用第一代的构型就使得装配过程中非常困难其实我当时刚进去的第一个星期的任务就是带领生产团队亲手去组装刚设计好的第三代零巧手我用内部他们当时叫第三代零巧手的确是个非常痛苦的过程可能一个手我们从早装到晚也装不出来从没有搞机械的角度来说可能很难理解简单来说你可以想象因为它有一些弹簧在里面再加上一些电子的电路的东西在里面你可能需要既压着弹簧又去穿另外一个东西再要去保证现实怎么走就是你每一个工序可能都要花一两个小时去在那里慢慢地做这个实际上就是一个硬件构型设计上的还不完善的地方是你们自己设计的没错它自己设计的就是Tesla自己做的它也没有用其他的硬件的方案就相当于它全部是自己设计自己研发然后你来正好就是赶上要自己组装这个事情没错没错其实就是有这个经历之后再加上我们和马斯克也是经常去给他汇报嘛马斯克当时看到的那个第三代的手他没有特别满意因为是从外形的设计啊包括各方面还是更多的有点像实验室的样机这么一个状态他想要什么样的他想要接近于人手的很炫酷的他是对外形不满意还是对里面的技术方案不满意他看到的是一个是外形一个是产能嘛外形他觉得不是很满意另外一个产能当时可能一天只能组装一两台就是这样的产能太差所以他其实当时可能在质疑整个的这个设计环节就是从外形到这个方案他是不是好落地是的是的是的所以这就是我当时进去的时候 first benefit is to bring all the missing government to become his stuffy. I'll start with the professionalieso and television ebg team. He wraps up our design in a conocer, and we'll make the professional advancement. Even somebu정 Nós use to Cook chaîne, these are the mainė apt for us. This is our mission, our third-裡面 called 3.1 microgram llevar. In the hand, we've saw a lot of sunshine as a dim еще giddy weather. ace ofys back Іseda needed to stoke-b reduces. It's just me when you were there now run it in a while, how long were you yet, 现在具体的时间我已经不清楚了,但是应该是非常快了。你离开的时候呢? 离开的时候我记得是一个星期要一百多台吧,但是是我们的技术工人在现场装,自己有一条产线。后面其实就是已经建立一个产线了,就我理解你刚进去的那个时候,它产线还没有建立。对,从我们工程师的角度来说,我们肯定先要自己先做一遍,先要走一遍这个流程,之后才能交给工人去做。 That B dead mask is very key in my role. 拉绳的确就像您说的是单向拉绳的方案。仿生的问题上呢,就我知道特斯拉内部你们其实是做过人体的分析,去看人体是怎么感知力的,就是人的手它是怎么工作的。没错,没错,首先我们是看了很多的生物解剖上面的学术论文嘛,学习了人的基建的运动的发力的方式。还有甚至有一个小小的故事就是说我们其中有一个伙伴的妈妈是一个首部的外科医生我们也正好有这么一个机会去到现场观察真的人手的结构当时这个经历还是很有趣的你觉得收获到了什么或者对你在做这个工程上的启发是什么就是觉得人体也非常精妙心理上也有一些小小的阴影当你去仔细看到你内部结构之后,你会觉得人真的非常的脆弱,也可能这么说,你会感觉人体的系统竟然是个这么脆弱,但是人还是能够似乎活着很好。 And then you just mentioned You've seen many of the scientific research About the human body is how to work You think from the human body is how to work To the research of the human body To the research of the human body You from the human body The most important thing is what? Or the Tesla from the human body The most important thing is what? Do you help it to do what kind of design? Actually, Tesla from the last century到未来马上要发的这一代手最大的一个变化就是把它驱动器从手掌内移到小臂这个也是建建了一部分人的设计因为人的手指的弯曲驱动的肌肉是在小臂上的存在不是在手掌内是在小臂上其实是都有所以说这也是我们自己方案和特斯拉有一些差异的点它的小臂控制更多的是一个大的抓握力的肌肉因为他的肌肉还是比较大的但是手掌内分布的肌肉更多的是控制手的一个零小的精细化的操作运动我有一个比较好奇的问题刚才艾蕾也提到了装配一个绳区的零翘手可能要花的时间非常多而且要非常专业的人去做我比较好奇的是他装配的难度相比于直驱电机的这种零翘手是如何比较的以及假设将来我们有一个很大规模的生产线它生产这种直驱的菱 corrected手和绳区的菱 corrected手它的产能会不会有一个比较大的区别是的简单来说我 chiar明 аккуms是这样的直驱 pur Industry因为作为可能更像传统意义上的机械结构包括机械人系统它通过传统的一些比较成熟的机械的工艺的方式可以实现比较容易的装配简单来说就是你可以通过拧螺丝或者焊接的这种方式去组装这样的方式都是已经比较成熟的方式它既能保证精度也可以保证整个一个效率从神区的角度来说因为建神的方案传统意义上这方面的整合的事情就做的不是那么多所以说这方面是需要整个行业去推进的一个事情包括建神怎么两端固定的驱动器和末端的执行元件的连接既能保证它生产的速度同时保证它的精度这个事情大家还是在探索的过程中但是这个事情最终还是一个工程的问题并不是一个基础的一个科学问题所以说随着整个行业的推进我们认为这个事情最终是能被克服的简单来说其实直区现在的生产线相比于省区更加完善一点没错没错然后我们刚刚其实聊了很多跟林巧手的硬件相关的问题那接下来我们可以聊一聊算法层面的就是浩智你这边主要在研究的我注意到其实你在去亚马逊之前也在Meta的机器人组就大家可能知道Tesla的机器人Figure AIPhysical Intelligence甚至Deep Mind都知道就它有机器人项目Meta的机器人项目主要是在研究些什么Meta内部可能会有多个机器人项目其中有一个项目是做人型机器人的也是今年年初的时候刚刚成立所以这个可能也是大家为什么还不太知道的原因他们可能如果是一个一句话总结可能就是想做一个家用机器人的产品可能有点像Optimus,有点像Figure自己从硬件开始做,然后采数据做算法另一个机器人的团队是在Fair这个组织下面Fair就是Meta的基础研究院在这个机器人组里面呢我们主要的目标还是做研究我们会着重于去研究各种各样的算法看哪种算法可以让机器人具有最强的灵巧性然后我在毕业之后加入这个组之后这个组主要研究的方向也是营销手在过去的几个月里面我主要研究的是如何从一些人类的视频中学习这些灵巧操作的技能比如说现在我们大家可能比较了解的是用一些摇操作的方式也要操作就是现在我们有一个操作员他可以戴一些动作捕捉的手套或者一些动作捕捉的衣服然后呢把这些人的动作映射到机器人的手上但是这样其实可能有一些缺陷第一个缺陷就是说每一个操作员都要适配一台机器人那么如果我们想要把机器手操作的数据一直把它推广到像有语言数据那么多其实是非常困难的因为没有那么多机器人以及产能不够 So the issue with some譚 that we canto be with some historical data in Kathy Luax various videos mesk apart the illustration we also want to research whether we could into a system So,现在 I�瓜 based on our project So our 因为它的视频量更大,样本量更高,对不对? 对 I think it has been a place for me And so I found out that one One kit has They still look to their information Yes, yes I understand My own understanding is now no one needs to including man то When doing the car is�� Off Of course the monster we can also一些道德层面上的问题其实都是需要更多的被讨论你刚刚提到你其实是2021年跟22年开始去做机器人的这些部分的那个时候其实GPT3已经出来了但是能不能用端到端的方式去训练机器人跟灵巧手我觉得在那个时候它还不是市场的一个主流方向我们可以说这两年它才慢慢的就至少是特斯拉它的自动驾驶验证了端到端的这种模式它的性能会有一个很大的提升我觉得整个业界才开始都往这个方向走就是你最开始进入到这个行业的时候2021 22大家研究机器人的一些主要的方向在哪里呢我会认为那个时候大家研究的机器人主要是想让机器人在某一个任务上在有限的泛化性的要求下去完成这个任务因为那个时候说实话其一就是当时硬件也不是很多能做灵枪手科研的课题组也不是很多灵枪手这个问题本身大家也没有很想做其实是特斯拉宣布做人形机器人之后整个人形机器人行业和这个灵枪手行业迎来了一波爆发大家才逐渐开始做这个方面所以大家没有太多的兴趣就会导致当时灵枪手所能完成的任务也比较的有局限性所以大家可能还是专注于先把某一个任务做得比较好然后在后来最近的几年就有越来越多的人试图用GPT的研究方式去做一些端到端的模型奥克在一些比较简单的机器人本体上也做得还行就是也有一些初步的验证结果吧比如说Physical Intelligence他们就用很大规模的数据加上摇操作去展示了这个机器人有很强的能力但是对于零敲手的话有一个更难的地方就是零敲手采集数据会比其他机器人采集数据要难很多你是说首部的数据对所以即使我们有操作员不停地一直在采集数据距离到GPT那个等级的数据或者说Physical Intelligence那个等级的数据还不是一个非常简单的任务所以现在市场上在收集摇操采集数据最多的公司是谁是Physical Intelligence吗我应该不会百分百确定但是我觉得是这样我上次其实有跟他们的研究员聊他们派0.5好像是说一万多个小时的数据对吧就一万多个小时已经算整个机器人行业最大的真实数据当然这个是高质量的数据对肯定有很多公司在收集数据的过程中他们所产生的数据远超一万个小时但是还有一个问题就是在于什么样的数据是有用的对于训练机器人来说对所以你们在做这种模型跟算法因为我知道大家训练机器人是一个整体就想让机器人有自主操作的能力包括让他去行走抓取我觉得这些都是要有的包括做各种的姿势动作你们会是作为一个整体研究还是说就是针对手也会做单独的模型都有比如说我们会有一些研究是专门研究比如说灵巧手加上一个机械臂它能做一些桌面上的抓取操作这样的任务它可能在这种研究的情况下它会更加着重于操作的精细性泛化性还有一些研究是比如说一个灵敲手在人型机器人上这个时候他可能会更关注一些人型机器人边移动边操作的一些案例比如说这个人型机器人开门或者说这个人型机器人在走路的同时完成一些操作的任务你觉得在你的印象里业界最好的机器人的研究团队是哪一家我觉得还是一个各有所长百花起放的时候就是它还没有收敛到我能给一个排名我喜欢这个回答是因为我其实挺想知道就是你所说的各有所长每个团队它的长项是在哪里的比如说专注于做研究然后发表论文的和专注于做产品的可能要分开讨论一些比如说前者就是做研究会发布论文的可能现在有我现在所在的亚马逊的前沿AI与机器人研究院以及英伟达的GEAR的研究院这些是还在研究前线的实验室包括高校吧就比如说你所在的UC Berkeley 对吧这个绝对是业界的一股很重要的力量也出了很多我们待会可以提到啊就是这些机器人公司的创始人对对我刚才说的就是一些业界的公司当然高校里面现在做机器人和AI的也是处于领先水平的 For example Tesla Physical Intelligence One X The one has changed the impression of the data from Sunday and Generalist IntelligenceOne X在这一波机器人浪潮中在头部的一些公司这些是美国公司了还有一些国内的公司所以在你们看来其实大家专注的整个的细分方向都非常的不一样是的那我们聊一下你的研究啊因为我知道其实你是武器人有触觉其实是有几个方面的好处我之前做过一个比较有趣的实验 In the US, there are some麻醉凝胶 Like the doctor does a small surgery They put those麻醉凝胶 They put the麻醉凝胶 in the eye I put the麻醉凝胶 in my hand This is completely no harm Just some time You feel like you don't feel a little Then I try to do some things Many times this process can be done But it feels like it's done very fast Because I'm going to use my eyes To see my hands My hands are not connected to我想比如说拿一根铅笔或者说拿一个板擦这种东西所以我觉得首先有触觉它能给你更多的信息就是在一些当你的手指和物体交互的时候它能给到更精确的信息比如说我们现在想象一个人形机器人他去进行一些操作他的手可能拿到了一个东西这个时候这个视觉一定是很难看到他到底有没有拿到东西了因为手把这个接触点挡住了所以天然的来说在这种情况下触觉会更有用所以触觉就是加传感器对不对嗯对然后另外一个非常有用的点是说它可以控制力的大小比如说回到最初我们提到的开可乐瓶的例子刚才Evan提到我们需要一个手用足够多控制住这个可乐瓶的力但是又不能把它捏爆另一只手可能就需要去拉可乐瓶的拉环然后这个拉环当然也是要有一定的角度就是实力的角度要非常的精确不然很可能把这个拉环拉断了但是可乐瓶还没有开在这种情况下去感知你操作时候它所用的力也是非常重要的这样感知力最好的方式就是通过一些触觉的传感器所以触觉的传感器它是不仅仅能感知到我摸到了这个物体它还是能感知力的对感知力这个是怎么做到的现在有各种技术方案我可能就简单说两三种吧比如说我们可以把一些压感传感器放到手指尖上 and this is the pressure of the device. The pressure of the device is probably when the device is given a pressure of the device. The pressure of the device will be generated by the pressure of the device. And then, this pressure of the device will be tested by the pressure of the device. There are some other methods that are called the 4-触觉. For example, we have a finger. We have a finger that's in the finger. We have a finger that's in the finger. This camera will look for the camera. It will be able to see some material.能够当手指进行接触的时候产生一些形变相机就会捕捉到这些形变当它捕捉到这些形变之后就可以反向地推断出外界的力是从哪个方向来的是有多大的力把这些信息放到一些视觉处理器或者一些神经网络中就可以得到我们想要的触觉信号对我可以稍微再补充一点关于触觉刚才齐老师说的主要是在手指或者手表面覆盖的这样的一些触觉传感器实际上从我们跟客户的交流过程中另一部分客户比较在意的灵教授就是说你们说的力反馈的信息其实也是来自于驱动器的一个电流的大小就是说驱动器到底用多大的力来拉动这个手指这个也是另外一部分比较重要的力反馈信息这个其实和人类的感知系统也比较类似因为当人类去抓过物体或者操作物体的时候你的皮肤表面是有一层的触觉信号还有另外一层是来自于你的肌肉收缩的感知能力我觉得挺有意思的就是我聊了这么多其实有一个感受是我们之所以把机器设计得这么复杂是因为我们对人体跟我们自身一无所知没错没错对然后就是我们刚刚讲到了触觉跟几种力的方案浩知你还有补充的吗就是解决触觉的这个力的方案你讲完了吗嗯,我觉得刚才阿温补充得非常好,就是绳区这条技术路线一个很大的优势就是在于它可以比较容易地实现例控,因为它可以通过收缩这个例的大小来达到这一点你觉得像你这样的一个研究科学家大概一天能收集多少这种摇操的例的数据呢?这个其实很取决于我想要什么样的任务假如说我现在最简单的用这个手去抓取一个东西放到另外一个地方这个其实可以收集很多这个可能就会被局限在我到底累不累只要我不累我就可以一直以很高的成功率收集这样的数据但是比如说一些更难的任务比如说我现在要去摇操作一个机器人去用剪字剪窗花或者折纸这种即使是收集一条都非常难我觉得这个也是一个我们正在做算法的时候想要去解决的一些任务就是这种很难去采集数据的任务那么能不能用一些其他的算法上的突破去解决这样的任务所以现在的大家主流的方案是跟着视频学对大家现在有不同的探索路径视频是其中一条很多人在研究的路径还有就是用模拟器作为路径还有一种就有点像最近出的Sunday和Generalist就是用一些特定的设备去采这样的数据然后把它转化成机器人可以用的数据这个其实是从数据不同的收集方式来训练模型的角度去考虑的我不知道从现在整个业界跟你观察到一些反馈上哪一种方式是效果更好的因为我们说摇操它的数据量小但是它的数据质量非常高食品的数据呢它可能就是有但是它可能缺乏了很多比如说利益的这些信息但是它的优点是它很多哪一种效果是好的就是现在这个事情业内有共识吗如果对于一个公司来说他们还是用摇操做的比较多因为他们需要追求绝对的效果用视频数据很多人在研究但是我觉得它是一种研究的阶段包括特斯拉最近也发布了他们的用人类视频学到的一些操作的视频但是我觉得从绝对的能力来说还是不如摇操作的之所以在这种情况下还要研究视频是因为大家相信可能在未来的几个月或者一年或者更久当视频的量积累到了一定程度之后它的能力可以超过摇操作但是应该不是此时此刻可能它追求的东西是不太一样的精确性就是还是需要摇操的数据泛化性可能视频也很重要我不知道我的总结对不对我只是凭印象对我觉得可以这么理解不同的数据它有不同的特征有的数据就是能让你得到一个比较快的能力上的提升但是它比较难采集然后有一些数据是很容易采集但是呢大家如何最好的利用它也没有一个定论我们业界研究的时候会有一个金字塔这样的模型比如说摇操作它就在金字塔间它的量比较少但是很有用 The data is in the top of the金字塔, it is very much, but it is not the most important thing to increase the data is in the way of the machine. The data is in the middle of the machine. Yes, the data is in the middle of the machine. For example, there are a machine, for example, there are a camera. Yes, I remember before I had a live event with many DeepMind OpenAI of these科学家 and talked about what they like. What kind of how they like them,包括那天正好其实是Genie 3这个世界模型刚出来我发现大家分成两派截然相反的看法一派是觉得Genie 3对整个的机器人行业帮助不大不是一个很重要的事情但另一派就会觉得这个事情很重要它可以帮助训练机器人我觉得从做研究的角度来看我肯定是觉得这种新的基础模型肯定是有帮助的只是我们需要找到方式最好的利用它说它完全没用肯定有失偏颇但是我觉得说它我们只需要去信念一个很大的视频生成模型它就能解决机器人其实也是不现实的因为很简单的道理就是现在的视频生成还没有完全解决它的物理的真实性虽然我们每年都看到它的物理层面上有越来越多的进步但是我想我之前比较爱举的一个例子是说假设我们能够靠学习视频模型把这个预测物理世界会发生什么解决那这也就意味着我们可以训练这个语言模型让它能够没有hallucination因为它相当于学到了一些真实数据的物理规则而并不是说去简单地过拟合这个数据所以我觉得语言模型我们现在仍然没有解决hallucination那我觉得距离视频模型学到真正的物理世界的规律还是任重而道远所以我们不能完全依赖于视频模型去训练我们的机器人但是它可以提供一些很好的初始化也好或者是一些其他方面的信号就是都是可以有帮助的OK对,然后我们聊一聊你博士的高校UC Berkeley我注意到它的机器人方向是非常强的比如说像Peter Beale他是Berkeley的教授然后他自己也做了一家很有名的机器人公司Covariant他们其实主要就是抓取的问题那其实还有一位 Berkeley出来的就是刚刚我们反复提到的Physical Intelligence的联合创始人Sergei Levine他在RL方向也是非常顶级的而且我看他之前是不是除了就是Physical Intelligence这家公司自己做的这个机器人的大脑跟模型Google之前的几个大模型比如说像Palm E,RT1,RT2的研发他好像也有参与对吧对,Sergei是之前在当时叫Google Brain后来叫Google Robotics里面一直在做 Research Scientist所以他就参与了这些大模型的研发对基本上是业界最重要的一些机器人的大模型就基本上都有他的影子对所以你觉得像 Berkeley在机器人领域还有哪些方向是比较强的我觉得 Berkeley他的AI其实都比较强比如说他从最早做一些符号AI开始就有一定的地位它的计算机视觉也有很多不错的产出包括现在做机器学习系统像VLM和SGLand都是伯克利的Skylab产出的一些结果所以我觉得整个AI领域吧伯克利在各个方面都有一些拿得出手的成果是然后我注意到这几个非常强的教授也是教授在创业因为我之前一直听斯坦福比如说产学演义体研发人员或者学生创业比较多 Berkeley他在政策上是支持学生跟教授创业的吗?我觉得 Berkeley和斯坦福首先对于学生来说他们当然都是很支持的因为 Berkeley和斯坦福都有对应的商学院可能有一些课就是讲创业的一些事情其实也有一些计算机系的课也会讲一些关于AI创业的事情对于教授创业其实我觉得美国的学校大差不差比如说这个教授他可以学术休假或者说可以有一个叫叫on leave,我不太知道该怎么翻译的事情,就是在这个时候,学校是不会过问你的。平常的时候,学校一般是要求你只能是20%的时间在非学校的活动上。哦,OK,了解。所以整体上政策还是都比较相近的。对,有一些学校可能特别支持,但是因为这个可能是不太会写出来,所以我也不知道他们具体是一个什么样的策略。嗯,了解。你觉得伯克利的研究氛围是怎么样的? 我觉得首先伯克利AI这个方面有一个很好的点就是做AI研究的人大家都坐在同一层就像有一个小型的创业公司所以你很可能无论你今天比如说我们做机器人想找一个很拥计算机视觉的人他可能就坐在离你走几步路就到的这么一个地方所以大家的讨论会非常的简单,会非常的方便这样也促进了不同组价的交流合作吧对于很多学生他们可能想合作一个共同的项目另外一个好处就是伯克利实验室之间的合作是非常自抵向下的就是如果两个学生想合作他们的导师基本我没有听说过谁会阻拦基本就是这两个学生开始合作慢慢地由这两个学生的合作带动其他这个导师方向上的合作就有很多不同方向之间的融合就是把不同方向之间比较好的一些想法或者说一些经验都互相结合在一起对,我刚刚提到的这几位机器人的大神就是我在你的Google Scholar里面就看见好像都是有跟你共同署名过论文的是的,这个其实也是刚才我提到的这两点带来的一些好处还挺有意思的你们觉得实现手部的灵巧动作我们就说开壳了,回到开始的问题有多难,它到了一个GPT30课吗说不定我觉得还的确是如果机器人能够真正做到开可乐是很好的一个 Benchmark 就是很好的一个标的达到了GPT时刻我认为因为它的确是一个灵巧性的一个综合的能力的一个考量对我可能想稍微说远一点举一个例子比如说我们看20年前其实就有一些能跑步的机器人就是本田就是Honda的 Asimo 他已经能在舞台上很好的跑步上下楼梯就有很多質疑的聲音說為什麼我們過了20多年這個人型機器人也就能達到20多年前的水平然後其實中間涉及到一個問題就是有多簡單能夠達到這樣的水平就是現有的算法是可以很容易讓它達到了這種跑步然後你就稍微改一些東西它可以很容易的達到跳舞這個跟20年前讓一個機器人跑步可能需要一個很多高精尖的團隊一起負責別代幾個月或者幾年是完全不一樣的所以我觉得如果我们未来有一个算法这个算法框架本身确定了以后它可以用很短的时间让机器人开可乐还可以让这个机器人做开门拧螺丝这样各种各样的任务那我觉得确实就是GPT时刻我们离这样的一个时刻有多远嗯这个预测总感觉会被打脸我觉得可能还有三到五年吧那这个比我想象中快太多了我觉得从硬件的角度产品的角度应该是今年内就会产品能够满足这样的能力你是说在任何场景下开一罐可乐机器人也可以旋转它随便放就是自主操作不是遥控可以这么说我认为硬件是非常快能够达到这个的确硬件是相当于给整个机器人行业提供一个基石更多它的上线的天花板是要靠软件和背后的模型能力的提升来释放出整个系统的能力的据我观察,最近这两年,灵巧手实现了一个井喷式的飞跃,感觉有一个非常光明的未来。为什么?你是觉得是因为整个研究的方法变了? 我觉得有几方面,第一方面就是市场上来说,人型机器人活起来之后,大家首先更容易有一些硬件,更容易有一些能够做复杂硬件的厂商,然后他们去做灵巧手,以及人型机器人。其二就是有很多比较简单的本体像是轮式或者说平行家转他们在科研问题本身做的也比较开始大同小异了就是没有一个新的爆点所以大家正在探索在更复杂系统上如何迭代算法也就是零巧手和人形机器人所以我觉得这两点共同促进了整个研究行业的发展好的非常期待今天聊得非常精彩谢谢两位谢谢红军谢谢齐老师谢谢 Thank you. 也可以在微信公众号上搜索硅谷101来看我们节目的文字版我是红军感谢大家的收听