输入关键字进行搜索
搜索:
没有找到相关结果
Jian Li
赞同来自:
首先引用一下Feifei LI去年(2016)年底的一段话(http://36kr.com),表明一下自己的观点:
现在有很多的原型,不管是 Google Car 还是一些其他的,无人车还没有完全的达到 L4。一个重要的原因就是在感知方面还没有实现完全的突破。我自己是很乐观的,我认为通过这么多积累和努力,今后的 5 到 10 年 L4 这个问题会得到解决。
我个人在无人车这个领域瞎混了十几年,恰好我又侧重环境感知。我非常赞同李飞飞的观点。事实上我的观点更加悲观:如果未来10年能达到L4的水平,都将是人类巨大的飞跃。
感知真的很难,难点在于性能达到99%都不行,甚至99.99%都不行;
感知真的很难,难点在于目前我们只能让机器做些测量、分类、分割、跟踪等工作;但我们几乎无法让机器做推理、做因果分析、做场景语义理解、做意图判断,而这些对于人来说简直太简单了。一个司机训练个3万公里几乎都变成老司机了;
深度学习的出现,给了人们一道绚丽的曙光,感觉只要有足够的数据,让BP自动去优化寻找花花世界间的稀疏的对应关系就好了。事实看起来也确实如何,DL可以更加有效地利用大数据,做更好的检测、识别、跟踪、分割,甚至可以非常好地克服各种因素的影响;但深度学习说到底也只是函数逼近。深度学习会非常有用,但短时间内难以解决无人车L4所需的核心的理解、推理问题。
解决鲁棒的目标识别问题,可以先看一下人是怎么解决的:
1、传感器:眼睛(视网膜也叫外周脑)和大脑皮层组合在一起,可以具有注意功能、自动快速变焦功能(通过睫状肌)、头动、眼跳、以及自动内外参数的标定功能;这些对于机器来说并不容易,也不是靠DL可以完全解决的;当前,类似mobileye等公司确实通过multi-focus的技术来缓解这一问题;
2、对于物体碰撞的感知,其实人类不一定是通过MARR理论那一套机制来工作的,很有可能是类似所谓吉布斯理论。比如,一个篮球传给你,你可以在恰好的时机、将手放在恰好的位置接到篮球。这似乎不是靠我们的双目立体视觉和表观物体识别,然后判断速度,然后在判断到达时间,好像真的不是。这个过程跟目前计算机视觉领域主流的物体检测和障碍避免的思路是不同的。甚至人类不需要精确的距离感知;
3、对活的物体的特性、思维、意图有一定的理解和推理。比如我们可以在混乱的闹市区开车,车可以慢慢推开人群移动,机器可以吗?我们开车遇到前方有行人,我们甚至可以通过眼神交流,甚至通过微小动作来推理他的意图,到底是他让你,还是你让他。我们碰到动物也是如此。计算机开车可以吗?似乎不行。
提起深度学习,我们便想起了人工智能,而我认为“强人工智能”还非常遥远。需要研究的东西还很多;
就目前的思路,如何检测袋鼠,我没有做过,但估计会是一个比较难的问题。在行人检测中,我们几乎假定只检测直立的行人,我们大概知道人的运动模式和轨迹。如果有一个人突然肚子疼,搂着肚子在地上打滚我们还能很好滴检测出来不?
如果硬让我出一些主意,我只能瞎说一通:
1、表示学习,常规的方式建模,采集不同姿态、不同尺度等不同情况的数据,可见光的、红外的都要;静止图像和视频的都要;
2、对袋鼠的运动模式进行建模,可以手工也可以数据驱动;
3、有条件上多线雷达,越密越好;没条件就上立体视觉、光流,一个模块不够,就上两个、三个;总之测量的手段在近阶段比表示学习更粗暴有效;
4、考虑紧急避险,我不一定非要知道前面是一个袋鼠,但只要只要有东西,肯定不能撞。
BTW,无人驾驶即便达不到L4,但并不意味着无人驾驶没有用。
要回复问题请先登录或注册
2024 © Australia Property Report.
1 个回复
Jian Li
赞同来自:
首先引用一下Feifei LI去年(2016)年底的一段话(http://36kr.com),表明一下自己的观点:
我个人在无人车这个领域瞎混了十几年,恰好我又侧重环境感知。我非常赞同李飞飞的观点。事实上我的观点更加悲观:如果未来10年能达到L4的水平,都将是人类巨大的飞跃。
感知真的很难,难点在于性能达到99%都不行,甚至99.99%都不行;
感知真的很难,难点在于目前我们只能让机器做些测量、分类、分割、跟踪等工作;但我们几乎无法让机器做推理、做因果分析、做场景语义理解、做意图判断,而这些对于人来说简直太简单了。一个司机训练个3万公里几乎都变成老司机了;
深度学习的出现,给了人们一道绚丽的曙光,感觉只要有足够的数据,让BP自动去优化寻找花花世界间的稀疏的对应关系就好了。事实看起来也确实如何,DL可以更加有效地利用大数据,做更好的检测、识别、跟踪、分割,甚至可以非常好地克服各种因素的影响;但深度学习说到底也只是函数逼近。深度学习会非常有用,但短时间内难以解决无人车L4所需的核心的理解、推理问题。
解决鲁棒的目标识别问题,可以先看一下人是怎么解决的:
1、传感器:眼睛(视网膜也叫外周脑)和大脑皮层组合在一起,可以具有注意功能、自动快速变焦功能(通过睫状肌)、头动、眼跳、以及自动内外参数的标定功能;这些对于机器来说并不容易,也不是靠DL可以完全解决的;当前,类似mobileye等公司确实通过multi-focus的技术来缓解这一问题;
2、对于物体碰撞的感知,其实人类不一定是通过MARR理论那一套机制来工作的,很有可能是类似所谓吉布斯理论。比如,一个篮球传给你,你可以在恰好的时机、将手放在恰好的位置接到篮球。这似乎不是靠我们的双目立体视觉和表观物体识别,然后判断速度,然后在判断到达时间,好像真的不是。这个过程跟目前计算机视觉领域主流的物体检测和障碍避免的思路是不同的。甚至人类不需要精确的距离感知;
3、对活的物体的特性、思维、意图有一定的理解和推理。比如我们可以在混乱的闹市区开车,车可以慢慢推开人群移动,机器可以吗?我们开车遇到前方有行人,我们甚至可以通过眼神交流,甚至通过微小动作来推理他的意图,到底是他让你,还是你让他。我们碰到动物也是如此。计算机开车可以吗?似乎不行。
提起深度学习,我们便想起了人工智能,而我认为“强人工智能”还非常遥远。需要研究的东西还很多;
就目前的思路,如何检测袋鼠,我没有做过,但估计会是一个比较难的问题。在行人检测中,我们几乎假定只检测直立的行人,我们大概知道人的运动模式和轨迹。如果有一个人突然肚子疼,搂着肚子在地上打滚我们还能很好滴检测出来不?
如果硬让我出一些主意,我只能瞎说一通:
1、表示学习,常规的方式建模,采集不同姿态、不同尺度等不同情况的数据,可见光的、红外的都要;静止图像和视频的都要;
2、对袋鼠的运动模式进行建模,可以手工也可以数据驱动;
3、有条件上多线雷达,越密越好;没条件就上立体视觉、光流,一个模块不够,就上两个、三个;总之测量的手段在近阶段比表示学习更粗暴有效;
4、考虑紧急避险,我不一定非要知道前面是一个袋鼠,但只要只要有东西,肯定不能撞。
BTW,无人驾驶即便达不到L4,但并不意味着无人驾驶没有用。