0%

AI

未来已来。

无处不在,要么掌握运用它,要么被它替代淘汰。

机器学习漫画

谷歌推出的机器学习漫画,解释基本知识。

人工智能的计算量越来越大,使得越来越少的人可以负担这样的计算能力。大型科技公司每年花费数十亿美元,建设自己的数据中心,垄断了计算资源。最终,只有它们才负担得起人工智能。
– 《纽约时报

国家网信办的最新规定:(1)人工智能生成的非真实视频音频,必须显著标识。(2)人工智能不得生成非真实新闻。

OpenAI 发布了一个歌曲生成器 Jukebox,可以自动生成某个歌手唱的歌曲。你听着有歌词,其实没有,只是模拟歌手的嗓音拼在一起。听听下面这首机器生成的 Tori Amos 的歌,效果很惊人,这个链接有更多歌曲。

波士顿市议会通过决议,不得在该市使用人脸识别技术。这是旧金山以后,美国第二个这样规定的城市。

Why

许多 AI 研究人员追求的目标是开发与人类智能原理相同的人工智能,但是这永远不可能实现,因为人的思维基本上没有算法。

–《为什么将无法实现通用人工智能

学习一个“深度学习”算法(1)

春节快到了,在这个辞旧迎新的日子里,适合学习一些比较新、比较猛的知识。我们来学习一个基于“深度学习”的图形识别算法。
我们的学习目标是一个叫做“卷积网络”的东西,这是一个风头正劲的算法。不要被技术名词吓到!我们去年讲《人工不智能》这本书的时候详细讲解过一个判断泰坦尼克号幸存者的机器学习算法,这一次更高级,但是这次不编程。我们是个思想性的专栏,就好像前面讲相对论那样,我们关注的是它的思想,不是细节问题。如果你能欣赏广义相对论,那么你没有理由不能欣赏“深度学习”。
为啥要了解深度学习呢?首先这个东西现在太热门了,图形识别、语音识别、汽车导航全都能用上,非常值钱。但更重要的是,我认为这个算法包含精妙的思想,能够代表这个时代的精神。这个思想并不难,但是一旦领会了,你就能窥探一点脑神经科学和现代工程学。
我将重点使用两份参考资料。一个是 Ars technica 网站上个月刚刚出来的一篇文章,叫做《计算机图形识别能力如何好到令人震惊》,作者是蒂莫西·李(Timothy Lee)。 一个是一本新书,叫《深度学习:智能时代的核心驱动力量》,作者是特伦斯·谢诺夫斯基(Terrence J. Sejnowski),英文版是2018年10月出来的,现在中信出版社刚刚出了中文版。
不知道你注意到没有,你的手机相册,现在知道你每一张照片里都有什么东西。不管你用的是 iPhone 还是安卓,打开相册,它有一个搜索功能,你输入“beach”,它能列举所有包含海滩的照片;输入“car”,它能列举画面中有汽车的照片,而且它还能识别照片中的每一个人。

每拍摄一张照片,手机都自动识别其中的典型物体。这是一个细思极恐的技术。怎么才能教会计算机识别物体呢?
1.没有规则的学习
就在不到十年之前,人们还总爱用模式识别作为人脑比计算机厉害的例子。我记得人们爱说的一个典故就是人很容易就能从一张照片里找到一只猫,可是Google动用了无比强大的计算力量、花了很多年研究都做不到这一点。
但现在可不是这样了。从2012年开始,“深度学习”让计算机识别图形的能力突然变得无比强大,目前已经超过了人类。
咱们先想想人是怎么识别猫的。观察一下下面这张图,看看你是怎么判断这张照片里有没有猫的呢?

你可能会说,这很简单,所有人都知道猫长什么样——好,那请问猫长什么样?你也许可以用科学语言描写“三角形”是什么样的——这是一种图形,它有三条直线的边,有三个顶点。可是你能用比较科学的语言描写猫吗?它有耳朵、有尾巴,但这么形容远远不够,最起码你得能把猫和狗区分开来才行。
或者咱们再想一个问题。我再给你看一个人脸的图片,你怎么判断 ta 是男还是女呢?

[图片来自 design.tutsplus.com]
你可能会说女性长得更秀气一些——那什么叫“秀气”?是说眉毛比较细吗?是轮廓比较小吗?
你体会一下,这是一个非常奇怪的感觉。你明明知道猫长什么样,你明明一眼就能区分男性和女性,可是你说不清你是怎么看出来的。
古老的计算机图形识别方法,就是非得说清楚一些明确的识别规则,让计算机根据规则判断,结果发现非常不可行。
根本原因就是连人自己都说不清。我们专栏讲过一个真事儿,一个法官说,什么叫色情作品?我没办法给你一个明文规定——但如果我看见了,我就能识别出来。
所以人脑并不是通过什么规则做的判断。那到底是怎么判断的呢?
2.神经网络
神经网络计算并不是一个很新的东西,好几十年前就已经出来了,但是一开始并不被看好。
《深度学习》这本书的作者谢诺夫斯基,上世纪80年代就在研究神经网络计算,那时候他是一个少数派。
1989年,谢诺夫斯基到麻省理工学院计算机实验室访问。气氛不算融洽,那里的人都质疑他的方法。午餐之前,谢诺夫斯基有五分钟的时间,给所有人介绍一下他讲座的主题。谢诺夫斯基临场发挥,以食物上的一只苍蝇为题,说了几句话。
谢诺夫斯基说,你看这只苍蝇的大脑只有10万个神经元,能耗那么低,但是它能看、能飞、能寻找食物,还能繁殖。MIT有台价值一亿美元的超级计算机,消耗极大的能量,有庞大的体积,可是它的功能为什么还不如一只苍蝇?
在场的教授都未能回答好这个问题,倒是一个研究生给出了正确答案。他说这是因为苍蝇的大脑是高度专业化的,进化使得苍蝇的大脑只具备这些特定的功能,而我们的计算机是通用的,你可以对它进行各种编程,它理论上可以干任何事情。
这个关键在于,大脑的识别能力,不是靠临时弄一些规则临时编程。大脑的每一个功能都是专门的神经网络长出来的,那计算机能不能效法大脑呢?
谢诺夫斯基说,大脑已经给计算机科学家提供了四个暗示。
第一个暗示:大脑是一个强大的模式识别器。人脑非常善于在一个混乱的场景之中识别出你想要的那个东西。比如你能从满大街的人中,一眼就认出你熟悉的人。
第二个暗示:大脑的识别功能可以通过训练提高。
第三个暗示:大脑不管是练习还是使用识别能力,都不是按照各种逻辑和规则进行的。我们识别一个人脸,并不是跟一些抽象的规则进行比对。我们不是通过测量这个人两眼之间的距离来识别这个人。我们一眼看过去,就知道他是谁了。
第四个暗示:大脑是由神经元组成的。我们大脑里有数百亿个神经元,大脑计算不是基于明确规则的计算,而是基于神经元的计算。
这就是神经网络计算要做的事情。
3.什么是“深度学习”
我们接着看图,下面这张图代表一个最简单的计算机神经网络。

[图片来自 hackernoon.com]
它从左到右分为三层。
第一层代表输入的数据,第二和第三层的每一个圆点代表一个神经元。
第二层叫“隐藏层”。
第三层是“输出层”。
数据输入进来,经过隐藏层各个神经元的一番处理,再把信号传递给输出层,输出层神经元再处理一番,最后作出判断。
从下面这张图,你可以看到它的运行过程。

[图片来自 Analytics India Magazine ]
那什么叫“深度学习”呢?最简单的理解,就是中间有不止一层隐藏层神经元的神经网络计算。“深度”的字面意思就是层次比较“深”。
接着看下面这张图,你可以看到,左边是简单神经网络,右边是深度学习神经网络。

[图片来自 Towards Data Science 网站]
整个结构就是这么简单。我们专栏讲《柏拉图和技术呆子》那本书的时候专门说过“分层”这个思想,分层可以让我们用简单的东西解决复杂的问题。计算机最底层的单元是晶体管,而神经网络最底层的单元就是神经元。
神经元是什么东西呢?我们看一个最简单的例子。
你看,下面这张图表现了一个根据交通信号灯判断要不要前进的神经元。它由三部分组成:输入、内部参数和输出。

这个神经元的输入就是红灯、黄灯和绿灯这三个灯哪个亮了。我们用1表示亮,0表示不亮,那么按照顺序,“1,0,0” 这一组输入数字,就代表红灯亮,黄灯和绿灯不亮。
神经元的内部参数包括“权重(weight)”,它对每个输入值都给一个权重,比如图中给红灯的权重是 -1,黄灯的权重是 0,给绿灯的权重是 1。另外,它还有一个参数叫“偏移(bias)”,图中偏移值是 -0.5。
神经元做的计算,就是把输入的三个数字分别乘以各自的权重,相加,然后再加上偏移值。比如现在是红灯,那么输入的三个数值就是1、0、0,权重是 -1、0、1,所以计算结果就是:
1×(-1) + 0×0 + 0×1 - 0.5 = -1.5。
输出是做判断,判断标准是如果计算结果大于 0 就输出“前进”命令,小于 0 就输出“停止”命令。现在计算结果小于0,所以神经元就输出“停止”。
这就是神经元的基本原理。真实应用中的神经元会在计算过程中加入非线性函数的处理,并且确保输出值都在 0 和 1 之间,但那些都是技术细节,我们这里不必在意。
本质上,神经元做的事情就是按照自己的权重参数把输入值相加,再加入偏移值,形成一个输出值。如果输出值大于某个阈值,我们就说这个神经元被“激发”了。当然,人脑的神经元不一定是这么工作的,但是这个模型在计算中很好用。
神经元的内部参数,包括权重和偏移值,都是可调的。用数据训练神经网络的过程,就是调整更新各个神经元的内部参数的过程。神经网络的结构在训练中不变,是其中神经元的参数决定了神经网络的功能。
接下来我们要用一个实战例子说明神经网络是怎样进行图形识别的。我们要用一个简单的神经网络识别手写的阿拉伯数字!咱们下一讲再说。

学习一个“深度学习”算法(2)

今天我们来做一个神经网络学习的实战。这是一套可以说是神奇的操作 —— 因为它简直是出乎意料地简单。你会感慨,为什么这么复杂的问题,居然能用这么一个简单粗暴的方法就解决了。
在我看来这绝对是一个工程上的幸运发现。很多发明创造都是工程师偶然鼓捣出来的。喷气式发动机到底是什么原理?到现在人们也没说清楚。阿司匹林为什么有这样和那样的疗效?医学研究还得继续做实验。神经网络计算就是这么一种发明,计算机科学家发现它很有用,可是要想用严格的数学说明它为什么这么有用,那很困难。
我们要用神经网络来识别手写的阿拉伯数字。这是一个非常成熟的项目,网上有现成的数据库和好几个教程。有个迈克尔·尼尔森(Michael Nielsen)做了个深度学习在线教程值得你深入了解,他只用了74行 Python 程序代码就做成了这件事。
给你几个手写阿拉伯数字,可能是信封上的邮政编码也可能是支票上的钱数,你怎么教会计算机识别这些数字呢?

  1. 简化
    想要让计算机处理,首先你得把问题“数学化”。写在纸上的字千变万化,我们首先从中简化出来一个数学问题。我们首先用几个正方形把各个数字分开,就像下面这张图一样 ——

现在问题变成给你一个包含一个手写数字的正方形区域,你能不能识别其中是个什么数字 ——

再进一步,我们忽略字的颜色,降低正方形的分辨率,就考虑一个 28×28 = 784 个像素的图像。我们规定每一个像素值都是0到1之间的一个小数,代表灰度的深浅,0表示纯白色,1表示纯黑。这样一来,手写的数字“1”就变成了下面这个样子 ——

[图片来自packtpub.com, The MNIST dataset。实际分辨率是28×28。]
你看这就完全是一个数学问题了。现在无非就是给你784个0-1之间的数,你能不能对这组数做一番操作,判断它们对应的是哪个阿拉伯数字。输入784个数,输出一个数。
这件事从常理来说并不是一点头绪都没有。比如任何人写数字“7”,左下角的区域应该是空白的,这就意味着784个像素点中对应正方形左下角区域那些点的数值应该是0。再比如说,写“0”的时候的中间是空的,那么对应正方形中间的那些像素点的数值应该是0。
但这个人为找规律的思路非常不可行。首先你很难想到所有的规则,更重要的是很多规则都是模糊的 —— 比如,7的左下角空白,那这个空白区域应该有多大呢?不同人的写法肯定不一样。
肯定有规律,可你说不清都是什么规律,这种问题特别适合神经网络学习。

  1. 设定
    我们要用的这个方法叫做“误差反向传播网络”,它最早起源于1986年发表在《自然》杂志上的一篇论文,这篇论文的被引用次数已经超过了4万次,是深度学习的里程碑。
    根据尼尔森的教程,我们建一个三层的神经网络,就是下面这张图 ——

第一层是输入数据,图中只画了8个点,但其实上有784个数据点。第二层是隐藏层,由15个神经元组成。第三层是输出层,有10个神经元,对应0-9这10个数字。
上一讲我们说了,每个神经元都由输入、权重和偏移值参数、输出三个部分组成。隐藏层15个神经元中的每一个都要接收全部784个像素的数据输入,总共有784×15=11760个权重和15个偏移值。第三层10个神经元的每一个都要跟第二层的所有15个神经元连接,总共有150个权重和10个偏移值。这样下来,整个神经网络一共有11935个可调参数。
理想状态下,784个输入值在经过隐藏层和输出层这两层神经元的处理后,输出层的哪个神经元的输出结果最接近于1,神经网络就判断这是哪一个手写数字。当然一开始肯定做不到,我们可以干脆随机选择这11935个参数的初始值。

  1. 训练
    网上有个公开的现成数据库叫“MNIST”,其中包括6万个手写的数字图像,都标记了它们代表的是哪些数字 ——

我们要做的是用这些图像训练神经网络,去调整好那11935个参数。我们可以用其中3万个图像训练,用剩下3万个图像检验训练效果。
这个训练调整参数的方法,就是“误差反向传播”。比如我们输入一个数字“7”的图像 ——

神经网络实际收到的是784个像素值。经过两层神经元的传播计算,理想情况下,输出层的7号神经元的输出值应该最接近于1,其他的都很接近于0。可是一开始肯定不是这样,我们要用一套特定的规则去调整各个神经元的参数。
关键思想在于,参数调整有个方向,叫做“误差梯度”。比如对输出层的7号神经元来说,调整方向就是要让它的输出值变大;对其他9个神经元,调整方向则是让输出值变小。这个调整策略是看哪个输入信息对结果的影响大,对它的权重的调整就要大一点。
隐藏层神经元的参数调整更麻烦。我们必须考虑到,调整一个隐藏层的神经元,会同时影响全部10个输出层神经元的输入值。这就涉及到误差反向传递了,也就是调整前面神经元的参数,必须考虑它对后面神经元总体误差的影响。
具体的调整算法都是技术细节,我们这里关键是要理解这个设计思想:每次新的训练数据进来,就根据正确答案对参数进行一次微调,使得神经网络输出数值更接近正确答案。
这有点像是体育训练中的刻意练习。反馈是即时的,你做的结果立即就能跟正确答案比较。不要求你马上就做对,但是每次总要进步一点点。而你每一次都明确知道,身体上每一个关节的动作应该往哪个方向调整。
几万个训练图像可能会被反复使用多次,神经网络参数改过来改过去,最终将会达到稳定。你会发现,慢慢地,新图像喂进来,这11935个参数的变化越来越小、最终几乎不动了。那就是说,这个识别手写数字的神经网络,已经练成了。
事实证明这个简单网络的识别准确率能达到95%!这个结果让我们有很多感慨和问题。

  1. 感慨
    如果是一个数学家听说这波操作,他问的第一个问题肯定是,为什么最后居然能得到一组稳定的参数?为什么不一直都是每输入一个数,所有参数都剧烈变动呢?用数学语言来说,就是为什么这些参数能“收敛”?
    这只能是因为手写数字是有规律的。所有人写数字差不多都是相似的写法,神经网络训练一段时间就见怪不怪了。如果你一会儿把这个写法叫7,一会儿把一个完全不同的写法叫7,神经网络就会无所适从。
    比如说,如果我们用历史上的股票价格走向去训练一个神经网络,看看它能不能预测未来的股价,我敢打赌你将不会得到一组稳定的参数。因为股价变动几乎是没有规律的。
    我们能这么做,是因为手写数字允许你这么做。
    第二,虽然有规律很重要,虽然我们的神经网络已经能做出出色的判断,但是我们仍然不知道到底有哪些规律。
    整个神经网络就像一个黑箱。你能看到那11935个参数的数值,但是你不知道,这些数值到底用到了哪些规律。
    当神经网络判断数字“7”的时候,它利用了“7的左下角都是空白”这个规律吗?我猜如果你仔细分析神经网络的信息传递,这个规律肯定已经体现在其中了。这就是神经网络的妙处!现在你还是不能一一列举所有的规律,但是所有的规律都已经被默默包含在11935个参数之中。
    会,但是说不清 —— 人脑的这个特点,就这样简单粗暴地被神经网络复制了。
    第三,神经网络必须得用专门的数据喂出来。训练好之后,它就相当于长成了一个专门判断阿拉伯数字的网络。它不能判断英文字母或者别的什么东西。
    当然,我们完全可以使用同样的网络设定,训练一个专门判断“零、壹、……玖”大写中文数字的神经网络 —— 但是对不起,你得先有几万个图像作为训练素材才行。深度学习的原理都是公开的,训练数据才是各家公司真正的稀缺资源,得慢慢积累。
    第四,深度学习非常消耗资源。我们只用了25个神经元和28×28的低分辨率的图像,就要每次训练都调整11935个参数。应用级别的深度学习将会是海量的计算。现在最新的芯片,比如苹果的A11和A12芯片上,已经有专门的神经网络计算引擎。
    为什么今天的例子只用了两层神经元,为什么不再多加一层、每层多用几个神经元呢?首先运算量会大大增加,其次更复杂的网络需要更多的训练,可能几万个图像就不够了。工程学不是从第一性原理出发的科学,只要能用就是对的 —— 到底怎么搭配是最优解,那是留给数学家的难题。
    还有一点,这个方法按现代标准就算是太简单了。我们的训练素材中,每个数字都不大不小,都写在正方形区域的正中间。那要是一张很大的图片里有个很小的数字,用这个神经网络就不能识别了。
    而新一代深度学习网络,哪怕是一张照片的角落里有一只猫,它都能识别出来。这就是“卷积网络”做的事,它除了一般的隐藏层,还会在中间再加入几个逻辑层……关于这个话题,咱们下一讲再说。

学习一个“深度学习”算法(3)

今天是深度学习算法的最后一讲,我们要学习“卷积网络”。上一讲我们说了如何使用一个最简单的神经网络识别手写阿拉伯数字。在理论上,这个方法可以用来学习识别一切图像。你只要把一张张的图片喂给神经网络,告诉它图上有什么,它终将自己发现各个东西的像素规律……但是在实践上,这个方法非常不可行。
计算机不怕“笨办法”,但是哪怕你能让它稍微变聪明一点,你的收获都是巨大的。
1.“笨办法”和人的办法
下面这张图(图1)是我随便在网上找的,图中有一只猫、一只狗、绿色的草地和蓝天白云。它的分辨率是350×263,总共92050个像素点。考虑到这是一张彩色照片,每个像素点必须用三个数来代表颜色,这张图要用27万个数来描写。

图1
要想用一个上一讲说的那种误差反向传播神经网络识别这样的图,它第二层每一个神经元都得有27万个权重参数才行。要想能够识别包括猫、狗、草地、蓝天白云这种水平的常见物体,它的输出层必须有上千个神经元才行。这样训练一次的计算量将是巨大的 —— 但这还不是最大的难点。
最大的难点是神经网络中的参数越多,它需要的训练素材就越多。并不是任何照片都能用作训练素材,你必须事先靠人工标记照片上都有什么东西作为标准答案,才能给神经网络提供有效反馈。这么多训练素材上哪找呢?
我听罗胖跨年演讲学到一个词叫“回到母体”,意思大约是从新技术后退一步,返回基本常识,也许能发现新的创新点。现在我们回到人脑,想想为什么简单神经网络是个笨办法。
人脑并不是每次都把一张图中所有的像素都放在一起考虑。我们有一个“看什么”,和一个“往哪看”的思路。
让你找猫,你会先大概想象一下猫是什么样子,然后从一张大图上一块一块地找。也许猫在一个角落里,那你只要一个角落一个角落找就行,你没必要同时考虑图片的左上角和右下角。这是“往哪看”。
还有,当你想象猫的时候,虽然不能完全说清,但你毕竟还是按照一定的规律去找。比如猫身上有毛,它有两个眼睛和一条尾巴,等等。你看的不是单个的像素点,你看的是一片一片的像素群的模式变化。这是“看什么”。
我理解“卷积网络”,就是这两个思路的产物。
2.竞赛
斯坦福大学有个华裔计算机科学家叫李飞飞,你想必听说过她的名字。李飞飞组织了一个叫做 ImageNet 的机器学习图形识别比赛,从2010年开始每年举行一次。这个比赛的厉害之处在于它每年都给参赛者提供一百万张图片作为训练素材!其中每一张图(图2,图3)都由人工标记了图中有什么物体 ——

图2

图3
总共有大约一千个物体分类。这就意味着,对每一种物体,人工智能都有大约一千次训练机会。
比赛规则是你用这一百万张训练图片练好自己的程序,然后让程序识别一些新的图片。每张新图片有一个事先设定的标准答案,而你的程序可以猜五个答案,只要其中有一个判断跟标准答案相符合,就算你把这张图判断正确。
下面(图4)是历届比赛冠军的成绩 ——

图4
我们看到2010和2011年,最好成绩的判断错误率都在26%以上,但是2012年,错误率一下子下降到了16%,从此之后就是直线下降。2017年的成绩是2.3%,这个水平已经超过人类 —— 等会儿你会看到,有些图像里的东西连你都不一定能认出来。
那2012年到底发生了什么呢?发生了“卷积网络”。
3.卷积网络
2012年的冠军是多伦多大学的一个研究组,他们使用的方法就是卷积网络。正是因为这个方法太成功了,“深度学习”才流行起来,现在搞图形识别几乎全都是用这个方法。获奖团队描述卷积网络的论文的第一作者叫艾利克斯·克里泽夫斯基(Alex Krizhevsky),当时只是一个研究生,这篇论文现在被人称为“AlexNet” 。
简单来说,AlexNet 的方法是在最基本的像素到最终识别的物体之间加入了几个逻辑层 —— 也就是“卷积层”。“卷积”是一种数学操作,可以理解成“过滤”,或者叫“滤波”,意思是从细致的信号中识别尺度更大一点的结构。每一个卷积层识别一种特定规模的图形模式,然后后面一层只要在前面一层的基础上进行识别,这就解决了“看什么”和“往哪看”的问题。
我先说一个最直观的例子 (图5,图6)。比如说我们要搞人脸识别,卷积网络方法把问题分解为三个卷积层。

图5,图片来自cdn.edureka.co

图6
第一层,是先从像素点中识别一些小尺度的线条结构。第二层,是根据第一层识别出来的小尺度结构识别像眼睛、耳朵、嘴之类的局部器官。第三层,才是根据这些局部器官识别人脸。其中每一层的神经网络从前面一层获得输入,经过深度学习之后再输出到后面一层。基本思想就是这样。
在细节上,咱们回到 AlexNet 的原始论文,其中足足分了五个卷积层,每一层都由很多个“特征探测器”组成。第一层有96个特征探测器,各自负责探测整个图形中哪些地方有下面这96种特征中的一种 (图7)——

图7
比如说,第一层的第一个特征探测器,专门负责判断图中哪里有像下面这样,从左下到右上的线条结构(图8) ——

图8
这个特征探测器本身也是一个神经网络,有自己的神经元 —— 而这里的妙处在于,它的每一个神经元只负责原始图像中一个 11×11 小区块 —— 考虑到三种颜色,输入值只有 11×11×3 = 363 个 —— 而且因为这个探测器只负责探测一种结构,每个神经元的参数都是一样的!这就大大降低了运算量。
第一层的其他探测器则负责判断像垂直条纹、斑点、颜色从亮到暗等等各种小结构,一共是96种。
也就是说,卷积网络的第一层先把整个图像分解成11×11的区块,看看每个区块里都是什么结构。为了避免结构被区块拆散,相邻的区块之间还要有相当大的重叠。经过第一层的过滤,我们看到的就不再是一个一个的像素点,而是一张小结构的逻辑图。
然后第二卷积层再从这些小结构上看出更大、更复杂也更多的结构来。以此类推,一直到第五层。下面这张图(图9)表现了从第一层到第三层识别的模块(灰色)和对应的实例(彩色) ——

图9
我们看到,第二个卷积层已经能识别圆形之类的结构,第三层已经能识别车轮和小的人脸。五个卷积层之外,AlexNet 还设置了三个全局层,用于识别更大的物体。整个分层的结构是下面这样 (图10)——

图10
具体的技术细节我们这里没法讨论,但是你能体会到这样分层的好处:第一,卷积层中的神经元只要处理一个小区域的数据,而且参数可以重复使用,这就大大减少了运算量。第二,因为可以一个区域一个区域地搜索,就可以发现小尺度的物体。
意识到图形识别有多难,你就能体会到 AlexNet 的识别水平有多神奇。咱们看看 AlexNet 的识别结果。下面这张图中有个红色的螨虫,它出现在图像的边缘,但是被正确识别出来了 (图11)—

图11
AlexNet 还猜测它可能是蜘蛛、蟑螂、虱子或者海星,但是认为它是螨虫的可能性最高。这个判断水平已经超过了我,我都不知道那是个螨虫。
再比如下面这张图 (图12)——

图12
标准答案是“蘑菇”,但 AlexNet 给的第一判断是更精确的“伞菌”,“蘑菇”是它的第二选项!
下面这张图是AlexNet判断错误的一个例子。图中(图13)有一只小狗和一堆樱桃,标准答案是“樱桃” ——

图13
AlexNet 首先注意到了那是一只达尔马提亚狗,它判断狗前面是某种水果,但是可能因为颜色太深,没有看出来是樱桃。这道题是不是有点故意难为人了?
而现在基于类似的卷积网络方法的深度学习程序,水平已经远远超过了 AlexNet。
4.深度学习(不)能干什么
AlexNet 那篇论文的几个作者成立了一家创业公司,然后这家公司马上就在2013年被 Google 收购了。半年之后,Google 相册就有了搜索能力。紧接着,Google 就可以从自家拍摄的街景图像中识别每家每户的门牌号码了。Google 还夺得了2014年的 ImageNet 竞赛冠军。
所以千万别低估工程师迭代新技术的能力。他们举一反三,一旦发现这个技术好,马上就能给用到极致。2012年之前深度学习还是机器学习中的“非主流”,现在是绝对主流。
深度学习能做一些令人赞叹的事情。比如说对于一个不太容易判断的物体,如果网络知道图中有草地,那么它就会自动判断这应该是一个经常放在户外的东西 —— 而不太可能是一件家具。这完全是基于经验的判断,你不需要告诉他家具一般不放户外。看的图多了,它仿佛获得了一些智慧!一个生活经验少的人可做不到这一点。
但是 arstechnica 那篇文章的作者蒂莫西·李也提醒了我们深度学习不能做什么。比如说,你把一个物体放大一点、或者旋转一个角度、或者调整一下光线,卷积网络就不知道那是同一个东西,它必须得重新判断。深度学习完全是基于经验的判断,它没有任何逻辑推理能力。
在我看来,这种学习方法,就如同在数学考试前夜背诵习题集。你能猜对答案是因为你背诵过类似的题,但是你并不真的理解数学。
这样的算法会有创造力吗?深度学习能发现图像中从来没有被人命名过的“怪异”物体吗?我们见识了光凭经验的操作能强大到什么程度,但是我们也能看出来,它距离真正的智能还非常遥远。

What


谷歌表示,它的 API 照片进行 AI 识别时,将不再返回人像的性别,理由是”无法通过外貌来推断一个人的性别”。

神经网络原理简介


一个分成三个部分的神经网络简介,主要介绍数学原理,使用最简单的例子。

看清机器学习的炒作(英文)

作者认为,机器学习这个词是一种炒作,已经被神化了。实际上,机器学习就是要解决四类问题,每一类问题都有对应的算法,并没有神奇之处。

《自然语言处理 NLP 的基本概念》

中文的59页 PDF 小册子,通过可视化图形,通俗地向非技术人员解释什么是自然语言处理。

莫拉维克悖论

莫拉维克悖论(Moravec’s paradox)是人工智能学者发现的一个与常识相反的现象。和传统的假设不同,人类所独有的逻辑和思考能力(即所谓的智慧)只需要非常少的计算能力,但是无意识的技能和感知能力却需要极大的运算能力。

原始表达是:”要让电脑如成人般下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难,甚至是不可能的。”

一位人工智能学者这样写道:

“人工智能研究的主要教训是,难题很容易解决,而我们认为理所当然的一个四岁孩子的能力—- 识别一张脸,举起一支铅笔,走过一个房间,回答一个问题 —- 实际上是有史以来最困难的问题。……新一代智能设备出现了,它会取代股票分析师、工程师和董事会成员,但是园丁、服务员和厨师在未来几十年中,工作都很安全。”

腾讯实验室:AI的局限及对策

这条音频的内容是,腾讯副总裁姚星如何解读人工智能的局限性。

人工智能是目前最热门的技术之一。不过,虽然人工智能发展迅速,也取得了很大的突破,但人工智能还是存在着一些局限性。前不久,腾讯副总裁、腾讯人工智能实验室的负责人姚星,在腾讯研究院的年会上进行了主题演讲。在演讲中,姚星分析了人工智能几个局限性,以及面对这些局限性的时候,我们应该采用什么对策。

姚星提到的第一个局限性是,机器在学习能力方面,和人相比还是有很大差距的。目前来说,再新颖的机器学习模型,其实都是从头开始学的,有了数据之后,要重新进行训练。但人有很多智能是与生俱来的,就像小孩刚出生,用不了多久就知道这个世界是三维的,当你把一个东西放在电视机的后面,他就知道在电视机后面有东西。这种天生学习的能力机器还没有。

人工智能的第二个局限是,无论多好的神经网络模型,本质上都是通过计算能力去解决大数据。姚星认为,机器学习目前的快速发展,是因为硬件的发展极快,但在未来,计算能力还能不能达到我们预期的效果,是个值得怀疑的问题。因为每次出现了新的模型,都是加入了更多的模型层数,得到的结果当然就是最好的,但我们并不知道,这样的方法能不能一直有效。

人工智能的第三个局限是,在解决认知方面的问题,和人的差距更大。比如,人类的语言由于太复杂了,就很难用计算来解决。姚星举个例子,两个人在聊天,聊中午去哪吃饭。突然其中一个人问了一句,那太阳呢?其实聊天的人知道,这个太阳指的是NBA的太阳队,因为在之前的对话里,他们聊到了NBA,所以突然出现了一个太阳,大家就知道说的是什么,但机器是没办法识别的。

所以姚星担心人们对人工智能的期待太高了。他觉得我们应该回归现实,去补齐这些差距。怎么补齐呢?首先要去创造数据。比如我们都知道的AlphaGo,就可以通过不断学习人类下出的棋局,去创造人类从没下过的棋局。在未来,机器可以用这种创造数据的能力产生更多的数据,而不只是由人来创造数据。

其次是要举一反三。AlphaGo可以下围棋,但如果下别的棋,它还能战胜世界冠军吗?不能,因为它不会通过围棋的模型去推导。姚星说,把一个已经被验证过,非常好的模型,迁移到一个没有那么多数据可供计算的问题上,这个过程将是以后很重要的研究方向,也就是我们所说的举一反三。

人工智能需要提升的第三点,是归纳总结,这件事人类很擅长,但目前来说,机器学习还做不到,也没办法提炼出公理和定律。

此外,姚星还提到,目前的深度机器学习还只是个框架,没有和数学理论紧密结合,如果想在未来继续向前发展,一定要有强大的数学支撑。如果再往远一点儿说,人工智能还需要引入更多的学科,比如生物学、脑神经学、甚至哲学,这样人工智能才能更完备地发展。

以上就是腾讯副总裁姚星对人工智能的担忧和解决对策,供你参考。

本文源自:公众号“腾讯研究院”(腾讯集团副总裁姚星:AI——真实的希望与隐忧)

关于人工智能真相的清单

很多人都声称人工智能是未来的大机会,但真实世界里的趋势却很少有人能看清。

「得到」邀请高科技投资人王煜全创作了这篇清单,11条关于人工智能的洞见,供你参考。

  1. 人工智能,就是用机器去完成人类智慧才能完成的任务。它有三个基础支撑:算法、计算能力和数据。算法和计算能力都越来越通用,数据是唯一的门槛。因为机器像孩子学习一样,需要海量数据的训练,才能具备智能。

  2. 巨大的用户数据,正是中国的优势。未来中国在人工智能领域大有可为。

  3. 这一轮“人工智能”的爆发,得益于“深度学习”算法的突破。所谓深度学习,就是用数学方法模拟人脑神经网络。机器会在海量训练后,具备自主判断的能力。

  4. 人工智能有很多条路,“深度学习”只是其中一条。它是已知算法里表现最好的,所以在当下最火。

  5. 人工智能有两种应用形态:一种是弱人工智能,即只擅长单个领域,比如只会下围棋的AlphaGo;另一种是强人工智能,即各方面都很强。现阶段,弱人工智能比人强,强人工智能比人弱,且非常不成熟。

  6. 虽然“人工智能”话题很热,但全球基础设施已经搭建完毕。投资的风口,已经结束。即将到来的,是各个领域应用爆发的时代。

  7. 无人驾驶,将会是人工智能领域第一个大规模应用。从今年开始,越来越多的汽车将会具备人工智能的辅助驾驶能力。

  8. 在不久的将来,智能家居将成为现实——你可以通过语音对话,操控互联的所有设备。行业+人工智能,会成为一大趋势。

  9. 凡是说人工智能马上要超越人类的,都是不懂认知科学。当前人工智能只是在某些方面比人强,想要全面超越人脑,还差得远。

  10. 人工智能会对现有秩序带来巨大冲击。但面对它的威胁,最好的方式不是排斥,而是培养“机器智商”,同机器协作。

  11. 在可见的未来,有三种能力人工智能并不具备:创新能力、连接能力和领导能力。应对正在到来的“智能时代”,你可以从这篇清单和培养这三种能力做起。

洞察:不需要让机器智能,要让系统智能

全世界最著名的迈克尔·乔丹当然是篮球巨星迈克尔·乔丹。不过,人工智能领域有一位大神级人物也叫这个名字。这位迈克尔·乔丹是加州大学伯克利分校教授,美国三院院士。2016年《科学》杂志的计算机科学影响力榜单中,这位乔丹名列第一。杂志称他是“计算机科学领域的迈克尔·乔丹”,

在接受澎湃新闻采访时,乔丹教授说,经典的人工智能定义是,“尝试让计算机成为像我们这样的人类”。但是,他认为人类距离这个目标其实非常遥远。现在大家谈论的很多热门的人工智能应用,比如图像识别、语音识别、自然语言翻译等,乔丹教授认为,“这些是能力”,而不是智能。人工智能这个词语被过度使用了,“过去被称为统计、数据分析或者机器学习的,现在这一切都变成了人工智能”。而且,人类其实还没弄明白“人类智慧”,“更不用说在计算机中真正创建它”。

至于创造出经典定义中的人工智能,一方面,乔丹教授认为它很遥远,“未来100年也很难说”;另一方面,他认为这也不重要,“毕竟世界上已经有这么多人了,为什么还要AI像人呢”;“理解人类智慧诚然是一件很有意思的事情,但是这对于我们要解决的问题来说,是一个既不充分也不必要的条件。”

乔丹教授的观点是:“我们不需要让机器智能,我们需要做的是建立一个市场机制。

举例而言,一个城市的食物流通过程就是“智能”。每天,“无论生产者有什么样的食物、餐馆需要什么食材、有多少消费者,这个市场总能带来适量的食物,不是太多也不会太少。”如果从火星看地球,就会发现这个系统非常智能。但是,其实这系统中的每个环节都并不是那么全知全能,是系统让大家开始协作,做到了整体的智能

他认为网约车的交通协调系统,就是这样一个例子。系统把需求和供给匹配起来。在乔丹教授看来,这是一个“基于数据的新型市场。除了运输,还可以应用在教育、商业、医学和许多其他事情上,这是一股正在崛起的力量。”

乔丹教授还给了人工智能学习者一些建议。他说,读博士的目的其实是“常识和知识修养”。因此,一个人工智能领域的学习者,要学好计算机科学和统计学,还要学一点经济学、同复杂性和不确定性相关的算法等,“没有人能够学完所有这一切,所以先打好相关基础,剩下的,有一辈子可以慢慢学。”

自动驾驶:人工智能的终极场景

今天这条音频跟你说说,为什么说自动驾驶是人工智能的终极场景。

高天垚,是联想之星投资副总裁,主要关注AI、无人驾驶、传感器和机器人等技术类投资方向。最近,他在一篇文章里面表示,自动驾驶是人工智能的终极场景,没有之一!同时,他在文章中还分享了,他对自动驾驶的更多观点。下面,我们听听他具体是怎么说的。

首先,高天垚说“自动驾驶”,或称“无人驾驶”,并不是什么新鲜词汇,真要追溯起来,其实1925年就有了,当然,那只是雏形。而现在,自动驾驶的发展,主要分为三条路线:第一条以谷歌和优步为代表,他们使用价格高昂的传感器,想要“一步到位”实现完全无人驾驶,也就是不需要驾驶员,这么做的,主要是互联网公司;第二条是以传统车企为代表,走“渐进式”路线,他们从“辅助驾驶”开始做,然后再过渡到真正的无人驾驶;第三条则是介于前两条路线之间,在传感器与应用场景上进行妥协,可以辅助驾驶,而在特定场景下实现无人驾驶,代表企业就是特斯拉,很多新兴创业公司都这么做。

高天垚认为,现在的这些自动驾驶技术,在发展上面临三个问题:

第一个是技术问题,现在的自动驾驶,还是初级的人工智能,也就是“弱人工智能”,不仅是感知与决策的算法不够可靠。面对完全开放的外部环境,比如天气、光线的变化,突发路况等等,尤其是和有人驾驶汽车共存的情况下,如何实现100%的安全,在技术上还不够成熟。

第二个是成本问题,比如以激光雷达为代表的核心传感器,现在的售价都非常高昂,在商业化量产上存在很大阻碍。

第三个是政策、法规,以及相应基础设施的建设问题,这些都超过了汽车行业本身的范畴,是相当复杂的系统工程。

回到“人工智能”本身,高天垚说,包括机器视觉、深度学习,增强学习,GPU,机器人,传感器技术等在内,目前的大部分仍在“弱人工智能”的范畴,而要实现真正的“无人驾驶”,就要在这些底层技术上获得突破,达到“强人工智能”。

他之所以表示“自动驾驶是人工智能的终极场景,没有之一”,主要是基于两点原因:一是人工智能的发展,需要依赖四个基本要素,分别是计算力、海量数据、算法和决策、以及传感器的数据采集,这些与实现“完全无人驾驶”的要素是高度重合的;二是想要发展“强人工智能”,就需要与应用场景相结合,考虑到汽车行业的庞大体量,使用环境的多样化,可以说,自动驾驶的平台,可以最大限度的转化人工智能的技术创新与突破。

最后,高天垚说,对于自动驾驶的理解,我们还应该回归汽车行业本身。自动驾驶,实际上还是汽车在自动化水平上的智能化提升,驱动力在于汽车产业,准确地说,是汽车电子产业的优化升级。因此,从汽车电子产业升级的角度,存在两个投资机会。第一个是传感器技术公司,目前还不存在“一步到位”的传感器解决方案,关键点在于,数据采集的质量,因此,如果能从硬件角度解决此问题,会有很大价值。另外就是低成本的解决方案,这对于量产及供应链层面很重要,也有很大价值。第二个是“限定场景下的自动驾驶技术公司”,因为这是目前,能最大限度发挥人工智能相关技术的领域,比如:封闭/半封闭区域、低速/高速状态、有轨交通、特种车辆等,这些都是可行的技术路线。

以上,就是高天垚对自动驾驶的一些观点,供你参考。

本文源自:公众号“CometLabs”(联想之星高天垚:为什么说自动驾驶是人工智能的终极场景?)

How

Gradio

该网站提供一系列可以在线使用的 AI 工具,比如识别物体、识别手写数字、老照片着色、绘画生成等等。

没有博士学位者的 TensorFlow 和深度学习教程

谷歌发布的英文教程,没有高深的数学,向初学者介绍 TensorFlow 和深度学习。

Dive into Deep Learning

深度学习的互动式在线教程。

发展AI不该直接模拟人类大脑

人们一直试图按照自身来创造人工智能,最典型的方法是以数字形式再造人类大脑,然而顶尖科学家们并不认同这种方式,在他们看来,试图完全模拟人类大脑纯属浪费时间,应当从别的地方寻找灵感,解锁智能的根本原理。麻省理工学院未来生命研究院的主任麦克斯·特格马克(Max Tegmark)和Facebook的人工智能研发主管雅恩·洛因(Yann LeCun)参加了一场关于人工智能技术和伦理前景的圆桌讨论,分享了他们对于人工智能模拟人类大脑的看法。微信公众号新智元编辑了这次讨论。

特格马克说:“我们太迷恋大脑的运行机制了,这是一种想象力的匮乏。”他以第一架飞行机器为例,其实早在1890年,就有一位名叫克莱门特·埃德尔的工程师从蝙蝠身上中获得灵感,建造了第一架飞行机器,他在无法掌控这个装置的情况下持续飞行了数百米。但为什么最后是美国发明家莱特兄弟声名远扬呢?在特格马克看来,这是因为莱特兄弟真正从科学角度研究了飞行原理,而那位工程师始终在模仿生物,“莱特兄弟通过建造风洞和测试来研发飞机,而非仅仅模仿生物。这个道理同样适用于人工智能。”

对于从生物身上获得灵感的做法,雅恩·洛因是认同的,不过他认为不该简单复制,因为从工程角度来看,溯源进化过程将会异常困难。而且人类大脑的运行机制异常复杂,你看,婴儿还在母体内的时候,大脑就能自行组装,在人的一生中大脑都具有自行修复功能,但机器并不需要这些机制,机器只需要接收并处理数据,进行学习。

观点:未来AI会越来越像人类大脑

特伦斯·谢诺夫斯基(Terrence Sejnowski)是人工智能领域的一位重要人物,他是世界十大人工智能科学家之一,深度学习的奠基人,还同时兼任NIPS(全球人工智能顶级会议)主席。他刚出版了一本新书,名叫《深度学习:智能时代的核心驱动力量》。特伦斯在这本书里展望人工智能未来的时候提出,人工智能受到了脑科学的启发,越来越像人的大脑。当人工智能得到发展后,脑科学也可以受益。因为在机器学习中开发的这些工具和技术,将可以用来解释大脑。所以,这两个领域之间有着很好的互动。

在接受澎湃新闻采访时,特伦斯被问到一个有意思的问题,那就是为什么人类只需要一两个杯子的样本,就能认出其他杯子,而AI可能需要上千个杯子的样本才能识别出杯子。

特伦斯用人脑作为例子回答了这个问题。他说,虽然我们大脑皮层有很多特殊区域,负责一些特殊的事情,但这些区域属于同一个操作系统,只不过是不同的部分在进行协作,信息在系统的不同部分之间流动。这就是涉及到“意识”的问题。换句话说,这些特殊的系统之上,肯定还有一个层级。特伦斯说:“你并不会意识到你的视觉,你也没有语言意识。但不知为什么,我就是可以看到你,可以听到你,可以触摸到你。当把你放到一个背景中,我就可以认出你脸上的表情。这些在我大脑的不同部位发生着,是一个协调的过程。”

而对于目前的深度学习网络来说,每个网络可能都解决了一个问题,比如,我们已经有一个视觉网络、一个语音网络,还有一个语言网络,以及一个运动系统网络。但我们真正要做的是,“想出一种全局的方法,来组织协调所有这些网络”。这是深度学习网络缺少的东西,也是未来的发展方向。

以上就是人工智能专家特伦斯对于人工智能未来的展望,他认为,脑科学的原理可以帮助人工智能发展,人工智能在未来会越来越像人类大脑。希望对你有启发。

Experience

你比机器人强在哪儿?

最近万维刚教授在他的博客中写了一篇文章,专门来讨论未来世界里,机器人和人会是什么样的工作关系,他的观点是,人类胜过机器人的地方恰恰是打破常规、表达好恶这些基本的人性

首先,知识再不能成为人赚钱的工具了。比如说新闻报道吧,从去年开始,美联社对上市公司的一些报道,已经完全不用人写了。机器人甚至还能给企业写内部报告,生成的报告里有判断、有结论、有建议,基本就是商业咨询的活儿。

另外,专业技能也很可能被机器人颠覆,现在IBM就有一个人工智能系统,它比任何医生懂得都多,它能帮你诊断疾病,提供治疗建议。以后,法律和金融咨询领域的技能也很快就会被机器人替代了。

那你说,靠知识不行、靠技能也不行,难道人类要被机器人主宰吗?当然不会,人有两个机器人没有的优点,第一是人可以打破常规,比如美国最热门的总统候选人川普,他是完全不按常理出牌,有人怀疑他的头发是假的,他就专门在演讲过程中请一个观众上来揪他的头发,这样的个性是机器做不到的。人比机器更强的第二点,是人可以判断好恶。很多人试图用数据分析,来预测什么样的电影剧情能大卖,结果都不成功,因为机器判断不了人的好恶。

所以未来,

机器人掌握所有的知识和技能,负责理性的部分,人只负责判断做事的方法和风格,负责感性的部分,这是人和机器新的合作关系。

李彦宏:PC、移动和AI时代

百度CEO李彦宏在7月5日的百度AI开发者大会上回顾了他所经历的PC时代、移动时代,以及正在进入的AI(人工智能)时代。李彦宏说,在PC互联网时代,开发者基本上都是从头到尾一个人做了所有事情,创造出一个伟大的互联网传奇。比如Facebook的前身Facemash是马克·扎克伯格一个人做出来的;Google的搜索引擎是拉里·佩奇和谢尔盖·布林两个人写出来的;百度的第一版搜索引擎是包括他在内五个工程师开发出来的。也就是说,PC互联网时代是一个技术孤胆英雄的时代。

在移动互联网时代,出现了一个新的生态是App应用。这个生态拓展了PC的边界,App内可以提供从信息获取到社交、购物、出行和金融服务的一站式服务。但是,过去五六年的移动互联网时代,在技术领域并没有太多创新。而且,很多App把用户封闭在自己的应用内,营造出一个带围墙的花园。李彦宏说,前几天百度内部讨论收购一家美国技术公司。当时有一位高管问,如果竞争对手出更高价格怎么办。李彦宏回答说,不用担心,竞争对手从来不收购技术公司,“他们会收购产品,他们会收购用户规模,他们会为收入付费,但是他们不为技术付费,只有百度愿意为技术付费”。李彦宏的言下之意是,移动互联网时代不是一个技术的时代。

人工智能时代,“让技术创新重新焕发生机”,包括语音识别、图像识别、自然语言理解、用户画像等基础技术,可以用到很多领域,开启很多可能性。但是,它也不同于PC互联网时代的个人英雄主义。一个原因是,有很多大平台已经出现,“可以站在巨人的肩膀上做事情”;另一个原因是,“今天的创新不仅仅是算法方面的创新,也需要在数据方面不停地去积累。今天的创新需要算法和数据双轮驱动,优秀的算法会不断产生有价值的数据,有价值的数据又会推进算法不断提升改进”。李彦宏用“聚宝盆”来比喻协同的作用,也就是,贡献越多,收获越多。李彦宏说:“我们没有必要重新发明一遍轮子,当AI这个大潮到来的时候,我们把我们积累的所有东西都可以放到这个聚宝盆里,无论是自然语言理解的能力、语音识别的能力、用户画像的能力,图像识别的能力,这些都可以拿出来共享,而只要你拿出来共享,只要你去参与,你就会获得更多。”

cherry

一个基于机器学习的简易中文文本分类器,可以给出输入的中文内容的类别。

algosuggest

一个在线工具,只需回答几个简单的问题,描述你遇到的机器学习场景,它就返回应该使用哪一种机器学习算法。


一个计算机辅助翻译软件,特点是将文章分解成句子,然后判断新的句子与原有语料的相似程度,自动生成翻译。

streamlit

一个机器学习工具,可以一边写脚本,一边自动生成模型的可视化运行结果。还可以生成网页控件,手动拖拉查看模型变化。

我的孩子喜欢抖音和 FaceApp

你8岁的女儿正在一个貌似梦幻般的游乐园里独自走来走去,这个游乐园远在中国或俄罗斯,一个你毫无了解的地方。

公园没有入场费,一切都是免费的,从糖果到数百个景点。公园充满了闪光和彩虹的所有颜色,有趣的音乐不断播放。

公园大得无穷无尽,她越深入公园,就会发现更多的乐趣。不需要排队,就可以参观各个景点。只要是能看到的东西,就立即可用。对她来说,这就像一个独立于外部世界的幻想宇宙。

你的女儿与数千名其他孩子一起在公园里游玩,大家都非常喜欢它,一样狂欢跳舞。她感觉好极了!

在此同时,拥有成千上万工人的巨型公司,通过高度机密的人工智能和机器学习、超级先进的摄像头、麦克风以及数百种其他传感器,监控你女儿在公园中的每一步。

该公司分析了数百万个数据,建立您女儿的完美模型。她穿什么衣服、她的音乐品味、她的动作、她的幸福感、伤心、着急、害怕。她在公园的每一步,公司都在分析她的面部表情。

进入公园仅几个小时,公司就知道了有关你女儿的一切,她的年龄、性别、兴趣爱好、确切的家庭位置、生日、眼睛的颜色、她的朋友、她喜欢什么衣服、她最喜欢的颜色,甚至无限期地保留了她的数据。

你的女儿毫无所知,仍然一切正常在公园玩耍。她感觉好极了!

游乐园不像监狱。她可以随时离开。有时她觉得有些不对劲,想离开公园。然而,每次她决定离开公园后不久,她都会想返回。她害怕错过了好东西,担心自己不会第一个发现有新景点可玩,不会认识新朋友。她最大的恐惧是,如果我的一位朋友发现了一项新活动,而我什么都不知道,这该怎么办。

人工智能监控系统收到了她想离开公园的信号,系统开始将她最喜欢的景点移向公园的入口区域,因此她无需走很长时间即可做到这个景点,一切对她来说都变得更加容易。更好的是,她在公园里喜欢的所有东西,从糖果到背景音乐,都针对她的口味进行了优化。她感觉好极了。

与此同时,公司的先进计算机网络一直在后台努力工作,通过过去几天和几周收集到的有关女儿的数百万条信息,为你的女儿建立一个完美的数据模型。庞大数据库还为她与其他孩子们进行了配对,这些数据库包括了公园的数亿其他孩子。

你女儿不知道的是,她现在已经成为公司的产品。公司用她作为模型和内容,去服务其他跟她相似的儿童,使公司创始人和股东成为亿万富翁。

伦敦一所大学的科学家开发了新的神经网络算法,可以识别出不同时间走过摄像头的同一个人。而且,这种算法的计算力要求不高,可以部署在摄像设备里面,不用部署在云端。下图每三张一组的照片,算法可以识别出是同一个人。

警用机器人

上海警方首次使用警用巡逻机器人参与2020跨年夜安保工作。它有4个广角高清摄像机、1个红外热成像及1个变焦高清摄像机,具有人脸识别功能,还可以用中英文语音播放不同的防范宣传内容,自带的升降式云台最高可升至1.8米。


机器人乐队

《北京日报》报道,2019年4月,全球首支中国风机器人乐队在清华大学对外亮相,乐队名字叫”墨甲”,包含三位机器人乐手,分别是演奏排鼓的”开阳”、演奏竹笛的”玉衡”和演奏箜篌的”瑶光”。该项目由清华大学美术学院与清华大学未来实验室联合发起。

三个机器人分别采用了吹奏、拨弦、打击三种截然不同的演奏技法。演奏的乐曲全部是原创音乐,为乐队量身打造的。设计师认为,机器人乐手有一些人类不具备的优点,比如吹奏竹笛时,机器人的气流可以随意调节,比人类的气息长得多。另外,人类只能用两只手打鼓,机器人有四只手臂,可以同时在四个不同音高的鼓上演奏。

电影减龄

美国电影《爱尔兰人》的主要演员全部年过70,但是电影情节主要发生在主人公四五十岁时,所以全片都使用人工智能算法,对演员影像进行”减龄”处理。


Facebook 将发布一个工具,可以检测出深度伪造的视频,比如发现下图的人脸是合成的,以防用户上传伪造的视频到它的网站。

Robot

自动执行工作的机器装置。

机器人能力的评价标准包括:智能,指感觉和感知,包括记忆、运算、比较、鉴别、判断、决策、学习和逻辑推理等;机能,指变通性、通用性或空间占有性等;物理能,指力、速度、可靠性、联用性和寿命等。因此,可以说机器人就是具有生物功能的实际空间运行工具,可以代替人类完成一些危险或难以进行的劳作、任务等。

如今机器人发展的特点可概括为:横向上,应用面越来越宽。由95%的工业应用扩展到更多领域的非工业应用。像做手术、采摘水果、剪枝、巷道掘进、侦查、排雷,还有空间机器人、潜海机器人。机器人应用无限制,只要能想到的,就可以去创造实现;纵向上,机器人的种类会越来越多,像进入人体的微型机器人,已成为一个新方向,可以小到像一个米粒般大小;机器人智能化得到加强,机器人会更加聪明。

为了防止机器人伤害人类,科幻作家阿西莫夫(Isaac.Asimov)于1940年提出了“机器人三原则”:

1.机器人不应伤害人类;
2.机器人应遵守人类的命令,与第一条违背的命令除外;
3.机器人应能保护自己,与第一条相抵触者除外。

这是给机器人赋予的伦理性纲领。机器人学术界一直将这三原则作为机器人开发的准则。


迪斯尼乐园从2018年开始研发特技机器人,可以表演类似超级英雄的空中跳跃和翻滚。下面的演示视频让人感觉,使用机器人和机器动物的游乐园,已经不是很遥远的事情了。

FT大视野:谁为机器人承担伦理与法律责任?

桑希尔:厂商、程序员还是用户?当机器人获得了更强的认知能力乃至有了意识,是否该由机器人自身来承担责任?

更新于2017年9月22日 06:22 英国《金融时报》 约翰•桑希尔

《火魔战车》(Maximum Overdrive)作为有史以来最大烂片之一被载入影史。这部1986年的科幻恐怖喜剧片想象了这样一个世界:推土机、链锯和电吹风机等无生命的物体活了过来,并且开始屠杀人类。就连担任该片编剧和导演的畅销书作家斯蒂芬•金(Stephen King)都说该片是一部“愚蠢的电影”。

但在这部电影拍摄期间,酷似电影剧情的一幕在现实中悲剧性地上演,一台无线电控制的割草机闯入摄影棚,导致摄影导演重伤,一只眼睛失明。他将金和其他17人告上法庭,以不安全的工作方式为由,索赔1800万美元,最终双方达成了庭外和解。

从某些方面来说,这部电影的拍摄经历在一定程度上牵涉到了当下有关自动化、机器人和人工智能(AI)的热门辩论。虽然我们似乎对这类技术在遥远的未来可能给人类带来生存威胁感到恐慌,但我们有可能忽视了一个更加迫在眼前的问题:如何管理我们创造的机器?

谁应该为日益普及的机器人的行为承担道德、伦理和法律责任?厂商、程序员还是用户?从更长期来看,当机器人获得了更强的认知能力乃至有了意识,是否该由机器人自身来承担责任?

三个场景:出了这些问题会有什么结果?

1.当聊天机器人出现反常行为

问题

去年3月,微软(Microsoft)被迫从Twitter下线其AI聊天机器人Tay,此前Tay因为在线用户的恶作剧而在Twitter上发出种族主义、性别歧视和仇外言论。今年8月,两个中国聊天机器人也离经叛道,对用户提出的有关南中国海和共产党的问题给出了反爱国主义的回答。

结果

考虑到有关假新闻的争议,人们不确定是否应该禁止AI聊天机器人传播政治观点。一些专家主张,聊天机器人的所有者应该享有言论自由,只要他们为诽谤言论承担法律责任。

————

澳大利亚新南威尔士大学(University of New South Wales)从事AI研究的托比•沃尔什教授(Toby Walsh)在即将出版的新书《机器人之梦》(Android Dreams)中主张,开发思维机器就像人类过去尝试的种种冒险一样大胆和雄心勃勃。“就像哥白尼(Copernican)的日心说革命一样,这将从根本上改变我们在宇宙中看待自身的方式,”他写道。


无人机、无人驾驶汽车,以及医疗、教育和家用机器人的数量正在爆炸性增长,在我们的天空、街道和家中嗖嗖地游移,这使这类问题变得更加紧迫。尽管机器人革命有望改善人类的生活状况,但也有可能释放出颠覆性的经济力量。

华盛顿大学(University of Washington)的法学教授瑞恩•卡洛(Ryan Calo)表示,我们倾向于把机器人当做一种未来技术来讨论,却忽视了我们已经与它们共存几十年的事实。

“如果你在上世纪20年代、40年代、80年代乃至2017年设想未来,你都会想到机器人。但事实上,自上世纪50年代以后,机器人就存在于我们的社会中了,”他说。

在一篇标题为《美国法律中的机器人》(Robots in American Law)的论文中,卡洛研究了过去60年涉及机器人的九宗法律案件,发现大多数司法推理都建立在对科技贫乏(而且往往过时)的理解上。“机器人让法院面临独特的法律挑战,法官们还没有做好应对的准备,”他总结道。

这些案件大多围绕着一个问题:机器人能否被视为替代人的角色的主体?比如,在征收进口关税的问题上,它们是否应被视为是“有生命的”?它们能否在音乐厅以艺人的身份“表演”?无人机器人潜艇能否“占有”一艘沉船,从而争取打捞权?

卡洛发现,法官们有一种很强的思维模式,倾向于将机器人视为可编程的工具或者不能自己做出决定的机器。但随着机器拥有了具体形态(有时候是人形),呈现出机器人研究者所称的“突现行为”(emergent behaviour),这种观点看起来日渐陈旧。

“突现是机器人以系统无法预测的方式行动的特质,”卡洛说,“这不是哲学意义上的自主。但这使没有肇事者的受害者成为可能。”

比如,一些高速交易算法正从金融市场的模式中“学习”,并以算法编制者无法预测、甚至可能无法理解的方式进行回应。研究人员正在研发这样的无人驾驶车辆,让它们能够对各种状况做出实时反应(希望如此),而不是通过预编程来预测每一种路况。

2.机器的发现

问题

1857年“中美洲号”(S.S. Central America)在大西洋沉没,船上载着从加利福尼亚州淘来的黄金。1987年,一艘无人潜艇帮助发现了这条海底沉船。该无人潜艇的运营者主张,根据海商法他们享有优先打捞权,他们的无人潜航器已经帮助他们实现“独家保管、控制和占有这条沉船。”

结果

法院裁定这些打捞者确实做到了“远程占有”,理由是他们找到了沉船位置,提供了实时影像,能够在现场操纵物体,并有意识地实施了控制。一位海事律师表示:“这几乎相当于法庭创造了一条新的法律依据,不用实际占有就可以证实为占有。”

————

最近,116名来自机器人和AI公司的创始人签署了一份请愿书,呼吁彻底禁止杀手机器人,即“致命自主武器系统”(Laws)。他们称使用这种武器系统越过了道德红线。杀死人类的只能是人类。

位于安大略的Clearpath Robotics的创始人瑞恩•加里皮(Ryan Gariepy)表示:“我们不应忽视一个事实,即与其他仍只出现在科幻小说中的潜在AI技术不同,自主武器系统就要开发出来了。发展致命自主武器系统是不明智、不道德的,应该在全世界被禁止。”

然而,在这个快速发展的世界中,想在人类与机器人之间画出清晰的界线是很困难的。最新的技术正在模糊人与物之间的界限,让机器人起到代理作用——即使算不上扮演代理人的角色。虽然今天的机器人还无法通过犯罪意图的法律测试,但以一个外行人对这一术语的感觉,它们似乎仍应对其行为“负责”。


机器人技术的第二大进展是让AI具有机器外观,有时还设计成人形,旨在与人类进行直接接触,这一进展让人与机器人的界线变得更加模糊了。

卡内基梅隆大学(Carnegie Mellon University)机器人研究所助理教授亨尼•阿德莫尼(Henny Admoni)表示,以往大多数机器人都独立于人类作业,主要在工业环境中从事一些枯燥、肮脏和危险的工作。但随着聊天机器人、无人机和家用机器人的到来,上述情况正在迅速改变。

她说:“过去10年里我们看到被设计为与人类直接接触的机器人的兴起。”

3.如果自动驾驶汽车出车祸,责任在谁?

问题

去年5月,一辆半自动特斯拉(Tesla)的司机在佛罗里达州丧生,原因是汽车的自动驾驶系统在光天化日之下没有发现一辆卡车。该事故提出了一个问题:就算人类能在紧急情况下收回控制权,允许部分自动的汽车在公共道路上行驶究竟是否安全?

结果

美国国家公路交通安全管理局(National Highway Traffic Safety Administration)进行了为期六个月的调查,结论是没有足够的技术故障证据证明应该大量召回该款车。不过该部门补充说特斯拉应该加强对司机关于特斯拉局限性的培训。NHTSA表示:“把它印在用户手册中,希望司机去阅读并遵守是不够的。”

————

这推动了一个快速发展的学术领域,即人机交互领域。大学和企业的机器人部门一直在聘请社会学家、人类学家、律师、哲学家和伦理学家,集思广益,研究此类交互功能应如何发展。

阿德莫尼说:“从法律和道德的角度来说,机器人是由人类编程并由人类设计的机器。但我们希望机器人能自主行动。我们确实想制造出能够处理新情况的机器人。在围绕机器人的辩论中,伦理是新近才增加的一个元素,因为机器人现在可以独立做事。”

总部位于香港的Hanson Robotics的创始人大卫•汉森(David Hanson)已经制造了一些极为引人注目的类人机器人。他最出名的作品是今年4月在吉米•法伦(Jimmy Fallon)主持的《今夜秀》(The Tonight Show)上亮相的索菲亚(Sophia),一个逼真到让人毛骨悚然的机器人。

汉森表示得益于自然语言处理技术,AI系统在理解语言交流方面越来越好。但他认为机器人还应该学习非语言的交流方式,如面部表情和手势。我们还需要它们理解人类的行为、文化和价值观。而最好的方法就是让机器人像婴儿一样,通过与人类生活在一起、和人类互动来学习。

汉森表示通过开发“仿生智能算法”,并让它们借助高级的传感器吸收丰富的社会数据,我们可以创造出更智能、反应更快的机器人。而这会不可避免地让这项技术变得“真正的充满生气、自给自足、有突现行为、有感觉、有意识。”

他还说:“我想让机器人学会爱,懂得被爱的意义,而且不只是狭义上的爱。是的,我们想要机器人能理解友情和亲情,理解这种情感牵绊。”

“但我们也希望机器人拥有大爱,希腊语‘agape’那种爱,也就是更高层次的爱。我们还希望它们学会重视信息、社会关系、人性。”

汉森认为当机器开始理解其行为后果,并为其日常挑战创造解决方案时,深刻的转变就指日可待了。“当机器能够这样思考的时候,它们就能够开始做出具有道德想象力的行为。虽说只是推测,但我相信在我们有生之年这一幕会到来。”

如果这样的“道德机器”真能造出来,那么就会产生一大堆新的问题和挑战。机器人或其所有者是否对其数据拥有权利?可以认为机器人将拥有它们自己的合法身份吗?是否像汉森所说,它们甚至能争取权利?


在有关机器人的辩论中,汉森的观点只能算是边缘思想,在今天看来显得荒诞离奇,但我们有充分的理由开始关注这些问题。出于各种法律原因,所有美国公司和印度一些神圣的河流已被赋予人格地位。英国也为一种无脊椎动物——章鱼——提供了额外的法律保护,因为它具有较高的感觉形式。未来的机器人也会受到如此不同的对待吗?

伦敦帝国理工学院(Imperial College)认知机器人学教授、谷歌(Google)DeepMind高级研究员穆雷•沙纳汗(Murray Shanahan)表示,到了现在,我们应该对我们创造的一些机器负起责任,就像我们要对那些伟大的艺术作品负责。

他说:“我们有道德责任不能破坏《蒙娜丽莎》,因为它是一件非凡的艺术品,对史料、对人们寄托了强烈情感的任何物品也是如此。”

但他认为将智能系统人格化会有很大危险,如果这导致人们对基础技术的误读和曲解的话。制造商不应试图欺骗用户相信机器人的能力超乎它们所具备的。他说:“人们不应受蒙骗以为机器人比它们实际上更聪明。”

沙纳汗认为在确定我们对机器的责任方面,区分认知和意识至关重要。“目前我认为谈论机器人的权利是完全不合适的。我们在这方面没有任何道德责任。但我不是说这永远不合适。

“我同意机器人或许有一天会有意识。但它们首先必须要有玩耍、制造东西,以及从架子上的罐子里拿一片巧克力饼干的能力。”

目前几乎没有政治家对这一话题表现出兴趣,但学术界和企业家发起的草根运动正将这些问题推上议事日程。

在美国,卡洛等学者一直呼吁成立一个“联邦机器人委员会”,以研究关于智能机器应用的道德和法律问题。卡洛表示这个想法开始在国会——即使不是在特朗普政府——引起一些有限的兴趣。

今年欧洲议会成员通过了一项决议,呼吁欧盟委员会成立一个类似的由机器人与AI专家组成的机构,并制定全欧盟范围通用的规则。特别是议员们还敦促欧盟委员会重点关注安全和隐私问题,以及考虑赋予机器人一种“电子人格”。

一些有影响的美国企业家似乎也打算发起讨论。特斯拉和SpaceX背后的科技创业者埃隆•马斯克(Elon Musk)近日就呼吁要实施更广泛的监管,他也支持禁止致命自主武器系统。

他在推文上写道:

“没有人喜欢受到监管,但一切会给公众带来危险的事物(汽车、飞机、食品、药物等)都是受到监管的。AI也应如此。”

译者/何黎

动手学深度学习

《Dive into Deep Learning》英文教材的中文翻译。

DeepL

一家创业公司推出的机器翻译引擎,据称比谷歌翻译得更好。

语音合成的用途

谷歌2018年发表了一篇论文,只需要5秒的真人语音,就可以提取语音特征,然后任何文本都可以转成该人的语音。

上面的链接有这种技术合成的很多语音示例,大家可以去听一下,很惊人。

这种技术要是推广开来,其实挺危险的。我知道一件真人真事,一个同事有一天接到诈骗电话,声称他的小孩被绑架了,要求支付赎金。当然他没有上当,但是如果那些骗子用了谷歌的这种技术,电话里播放一段他儿子的合成语音,恐怕就很容易相信了。

我还想到一个用途。以后人死了,他的声音还活着,结合人工智能,就可以跟死去的人进行虚拟对话了。

美国作家菲利普·迪克写过一本科幻小说《尤比克》(Ubik)。他想象在未来世界,人死后还可以继续以脑电波的形式”存活”一段时间。人们将死去亲友的身体冷冻保存在亡灵馆,活人通过脑电波装置与亡灵的脑电波”对话”。

我觉得,现有的技术已经可以实现这个预言了。一个人的生理特征、行为习惯、写过的文章、说过的话,都可以输入计算机生成模型(英语叫做 avatar),得到一模一样的外貌、语音、思考方式、一举一动。其他人跟这个 avatar 互动,好像跟本人互动一样。

这种模型可以商品化,就像上面说的,人们会愿意购买过世亲人的 avatar,让亲人还活在我们身边。某些名人的 avatar 肯定具有巨大的销路,喜爱偶像的青少年以后不会去听演唱会,而是购买偶像的 avatar,想听什么歌就让它唱给你听。电商平台也会推出排行榜,本周最畅销的 avatar 是谁、又有哪些新进榜等等。

avatarify

一个开源软件,只需要提供一张头像照片,就可以生成人物开口讲话的视频。

Learning-to-See-in-the-Dark

一个 Tensorflow 的算法实现,可以通过机器学习,将一片漆黑的照片(最左侧)还原成有光时的样子(最右侧)。

shan-shui-inf

一个自动生成中国山水画的 JS 实现。

Photoshop Camera

Adobe 公司推出的手机拍照软件,只要按下快门,就可以拍出具有艺术风格的照片。它的艺术风格不是来自滤镜,而且来自其他人拍的艺术照或明星照,通过 AI 套用在当前场景。

AI 海滩救生系统

夏季的海滩有很多人,如果发生溺水,不容易发现。为了帮助救生员尽快发现溺水者,以色列创业公司 Sightbit 开发了一套 AI 溺水救生系统,使用摄像头自动侦测溺水者,还能发现无人看管的孩子和异常的水流。

该系统接受了”成千上万张照片”的训练,只要三个摄像头,就能监控300米的海岸线。它会自动识别游泳者,一旦发现危险,就会出现闪烁框,救生员可以单击警报,放大查看。

NightCafe

一个图片处理的在线工具,可以让普通照片变成世界名画。下图就是基于凡高的《星夜》生成的照片。

AI 还原古罗马皇帝

这个项目使用 AI 模型,将古罗马皇帝的塑像还原成高清晰度人像照片。

从 Apple Photos 找出(机器认定的)最美照片(英文)


苹果的 Apple Photos 会对用户拍摄的每一张照片,运行机器学习模型来识别照片的内容,然后得出一个叫做”ZBEHAVIORALSCORE”的”总体美学评分”,保存在本地的 SQLite 数据库里面。
作者对这个数据库使用 SQL 查询,找出计算机认为的某个主题(比如”鸟类”)的最佳照片。

人工智能不需要恨我们就可以摧毁我们。正如我们不讨厌蚂蚁,但是如果我们需要修建高速公路,就会摧毁蚁丘一样。人工智能将以同样的方式对待我们,你不讨厌蚂蚁,你只是在修路。

伊隆·马斯克(Elon Musk)

交互式《蒙娜丽莎》画像(英文)

传说中,不管你从哪个角度看《蒙娜丽莎》画像,都会感到画像中的女子在看着你。TensorFlow 的官方博客,演示怎么用 TensorFlow.js,制作一个交互式的《蒙娜丽莎》画像,摄像头捕捉观看者的角度,然后自动改变画像的眼神。

足球直播的故障

10月25日,苏格兰足球联赛出现了一个令人啼笑皆非的直播事故。赛前,俱乐部宣布,本场比赛将采用 AI 摄像头替代人工摄像师,摄像头会自动识别足球,始终追踪球的运动。

意想不到的是,本场比赛的边裁是一个光头裁判,AI 摄像头分不清光头与足球,很多时候将光头误认为是足球,镜头跟着边裁。观众们纷纷抱怨错过了进球,只看见边判跑来跑去,要求俱乐部赶快为边裁提供一个假发或帽子。

下面的视频(Youtube腾讯视频)就是该场比赛的直播剪辑。

2011年,IBM 公司首次提出,正在开发的沃森(Watson)人工智能系统可能有一天可以治愈癌症。那时,该公司的年收入为1070亿美元,自那以后,业务规模每年都在缩小,2017年的年收入变成790亿美元。内部员工开始提出”公司应该停止研究癌症。”

《沃森系统出了什么问题?》

自动驾驶比人们想象的困难得多。即使到今天,谷歌的自动驾驶汽车依然只能在美国南部的凤凰城进行实验,因为那里少雨、道路宽阔、街道都是直线的,这些因素大大简化了计算机视觉系统的工程难度。
《鹦鹉螺》杂志

Reference

  1. BasicCAT
  2. 人工智能时代企业怎样参与竞争
  3. 硬核科普:一文看懂人脸识别技术流程
  4. 人工智能:四位行业大咖的看法
  5. 凯文·凯利解读人工智能神话
  6. 人生新算法
  7. 欧盟:可信赖人工智能的七个要素
  8. 李彦宏:人工智能将这样改变你
  9. 图灵奖不会忘记英雄:3 个人 30 年的深度学习孤独之旅
  10. show-facebook-computer-vision-tags
  11. 人工智能全球发展报告2016
  12. 奈飞怎样依靠“同品味用户群”推荐内容
  13. 如何开始机器学习?(英文)
  14. 你所不知道的 AI 进展
  15. The GAN Zoo
  16. 美国新规限制AI软件出口中国,周一生效
  17. AI芯片2019年的六大关键词和2020年的四大趋势
  18. 雷锋网 2019「AI 最佳掘金案例年度榜单」正式揭晓
  19. 人工智能简介
  20. 预测未来?Google 用 AI 模型实现了「近乎实时」的天气预报
  21. 这家公司想用算法通过实时视频检测你的心率和压力水平
  22. 保证命中的步枪
  23. 我如何用机器学习生成甲虫图片
  24. industry-machine-learning
  25. 写作猫
  26. 2019中国人工智能100人
  27. 简单粗暴 TensorFlow 2
  28. 施普林格机器学习图书免费下载
  29. 5G 时代,手机上的人工智能有啥用?这些功能超乎你的想象!
  30. AI合成主播丨中国与世卫组织联合启动公益筹款项目共抗疫情
  31. 机器学习生成的《吃豆人》
  32. 换脸视频生成服务
  33. 机器人餐厅
  34. GPT-3 模型的图灵测试
  35. 麻省理工学院的统计学课件
  36. 我用 GPT-3 写了一篇博客文章(英文)
  37. 被捧上天的 GPT-3,商业化之路怎么走?
  38. 智能尿布
  39. 服饰公司为什么收购高科技镜子?
  40. 牛脸识别
  41. 面向程序员的实用深度学习
  42. 人工智能玩《威利在哪里?》

欢迎关注我的其它发布渠道