成员自2021年以来

了解更多

一个技术革命的新时代正在进行:指数级技术。传统技术多年来直线发展,而人工智能、大数据和计算机视觉等创新技术则呈指数级发展。188金宝搏下载界面

下内容提交:

工业:
N/A

应用程序:
N/A

检测模式和泛化

发布09/10/2021

在现代深度学习出现之前,图像和声音是非结构化的数据文件,计算机无法解释它们的内容。计算机视觉领域由算法主导,这些算法专注于使用手工功能,试图解释构成图像的几何元素。这些算法的可靠性很低,而且应用局限于控制条件非常严格的环境。

一些研究机构推动了能够解释图像内容的新算法的发展面临的挑战,其中最著名的是始于2010年的ImageNet大规模视觉识别挑战(ILSVRC),就在深度学习算法出现和普及之前。

Imagenet是一个庞大的数据集,有超过1400万张图片和2万种分类,当然,数据的多样性非常大。在竞赛的早期,算法的错误率约为30%,但在2012年,随着深度学习和卷积神经网络(CNN)的出现,这一情况发生了巨大变化。

2012年9月30日,一个名为AlexNet的卷积神经网络(CNN)在ImageNet 2012挑战赛中获得了前五名的15.3%的错误,比亚军低了10.8个百分点。(维基百科)来源

分类结果

我们可以从几个方面讨论为什么深度学习算法在处理非结构化数据方面远远优于传统算法,但我想具体谈谈神经网络识别模式和泛化的能力。

概化是指神经网络在训练时间结束后,通过预定义的例子学习检测新情况下的数据模式的能力。

这种断言对于习惯了经典if-then-else结构的程序思维来说有点奇怪。然而,这种传统的过程式结构化编程非常适合处理结构化数据,但当我们得到非结构化数据时,图像中对象的数据永远不会与之前完全相同,这对过程式编程来说是一个不可能的问题。

如何用深度学习神经网络来实现这一点?

这是一个复杂的问题,而深度学习很难理解和掌握。有几篇文章可以介绍它,我将在下面提供一些参考。现在,我想用一个实际的例子来说明。

在上一篇文章中,我展示了如何用神经网络和很少的例子获得非常好的结果。现在,我们将这种检测扩展到一个新的场景,并观察神经网络将如何适应。

我儿子的玩具现在在地板上(另一个背板),我们有了不同的照明、角度和一些操作。让我们看看最后一个模型是如何检测的。

https://www.youtube.com/watch?v=Wtt65ZQQwl4

我们可以看到,检测在几帧失败,我们得到了大量的假检测低置信度。

但在Eyeflow测试过程自动发送随机帧到数据集,我们可以看到检测失败的帧。

新的例子

现在最好的策略是选择一些检测失败的随机示例,并将它们添加到我们的数据集。我们注意只添加出现检测错误的帧,因此我们在扩展数据集时得到了最好的结果。这就是我们的半监督学习。

数据集

在我们编辑这些新的例子后,修改注释,并把它们放在训练和测试之后。我们已经这样做了3次,每次20分钟,现在我们有67个例子在数据集,和以下结果。

https://youtu.be/4vu6uRQPOOE

正如我们所看到的,检测已经改善了很多,假阳性和假阴性已经消失了。由于我们集成了测试和改进数据集/模型的平台,这个结果只用了3次迭代和最小的注释工作就实现了。

这里的关键是,神经网络能够用很少的例子概括图像模式的检测,即使场景已经改变了很多。传统的计算机视觉算法永远不可能实现这种类型的泛化。

我们研究神经网络已经有五年了,我们总是对我们所取得的成果感到惊讶。我相信神经网络在我们构建算法的方式上是一场重大的革命,但这是另一篇文章的主题。

我们的平台正处于测试阶段。欢迎访问我们的网站https://eyeflow.ai