To Further AI and Machine Learning , Needs More Open Sources

国外媒体TechCrunch撰文指出，当前的人工智能（AI）开源模式封闭，存在不足，且不合时宜。

人工智能正变得越来越重要。拥有机器学习（ML）技术经验的企业在寻求取得基于人工智能的技术。

　　还没有打造出机器学习技术的企业正竭力理解和设计机器学习和AI战略。正当AI受到大肆追捧，人们对该技术既感到困惑，又对它的风险感到恐慌，来自谷歌、Facebook、百度、微软等公司的一连串开源贡献公告（通过 Tensorflow、BigSur、Torch、SciKit、Caffe、CNTK、DMTK、Deeplearning4j、H2O、Mahout、MLLib、NuPIC、OpenNN等项目） 带来了一种明显的上手AI以及ML的方式，科技行业以外的企业尤其受益。

　　发现项目，下载，安装……应该是件轻而易举的事情。但事实上它并没有表面上那么的简单。

　　对于在AI使能或者AI影响的系统主导的时代软件的共享来说，当前的开源模式并不足够，且已经不合时宜；用户一天里使用过的AI引擎可能多达数千个。

　　对于AI和ML先驱们来说，共享他们的代码并不足够。整个行业和世界需要新的开源模式： 经过AI和ML训练的引擎本身开源的同时，数据、功能特性和现实世界表现细节也要开源。

当前的开源模式不足够且过时

　　AI和ML使能和影响的系统不同于其它用开源部件打造的软件。用开源部件打造的软件本质上还是具有确定性的，也就是说所设计和编写的软件每一次执行时的表现都是一样的。而 AI和ML系统，尤其是人工智能系统，并不能保证能够表现出确定性的行为。 随着对新情境、新环境和新用户的学习和适应，这些系统将会改变它们的行为。本质上，一旦这些AI系统被部署到现实世界，它们的创造者就会失去对AI的控制。当然，创造者们可以在学习框架中加入制衡机制。然而，即便是在AI系统被制约的范围内，仍需要进行大量的解读工作。与此同时，被AI包围的世界面临的更大挑战在于，制定制约条件的人造成的冲突。

　　想想看，最近有报道援引梅赛德斯董事长克里斯托弗·冯·雨果(Christoph Von Hugo)的话说，梅赛德斯无人驾驶汽车会选择优先保护乘客的生命，而非路人的生命。尽管该公司后来澄清说雨果的话被错误引述，但这揭示了资本主义将如何影响AI系统所嵌入的约束条件的根本性问题。

资本主义与AI伦理道德

　　
　　如果企业的经营目的是创造利润，那将基于AI的体验描述为带附加价值的差异化体验，要求消费者溢价购买该技术的产品服务会在多久后进入市场呢？

　　在这种情况下，愿意且有能力购买那种差异化体验的用户相比其他用户将会获得不正当的好处。因为企业将尝试从其对AI的投入中获得回报，这种技术将会局限于那些买得起的人。这将会导致AI内置的限制和行为对那些掏腰包购买的人有利，给他们提供保护，或者偏爱他们。

　　另一个担忧是，谁来为AI和M使能的产品的故障或者行为表现不佳负责的法律和政策问题。这个责任由谁来担负？用户，服务提供商，数据科学家，还是AI引擎？该如何问责，如何界定责任？回答这些问题的前提是，清晰地描述和遵守引发AI和ML的创造和使用的一系列事件。

AI与AI的互动

　　机器人玩木制魔术方块的3D渲染图

　　AI之间的冲突

　　考虑到AI使能产品在行为表现上可能存在不确定性，在原来没观察到的交互中可能会有意想不到的表现，在AI使能的产品代表两个或者更多的不同用户相互互动的场景中，这一问题会进一步放大。例如。当两辆由两个独立的AI引擎（由不同的公司用不同的训练数据和功能，以及独立配置的偏好和情境信息打造而成）驱动和运作的汽车遇到停车标志，或者将要发生碰撞时，会发生什么事情呢？这些系统在响应类似的情境时，即便有很细小的差异和变化，都可能会产生意想不到的不良影响。

　　偏好问题蔓延

　　互相影响的AI的另一个潜在副作用会放大训练的偏好风险。例如，如果无人驾驶汽车观察到另一辆无人驾驶汽车在以路人受伤为代价来保护乘客，观察到这一选择确保另一辆车能够避免发生事故，这种“学习”会使得它在遇到类似的情况时作出类似的行为。这会造成偏好问题蔓延：被独立训练的AI引擎受到另一个AI引擎的行为的影响（不管是正面的影响，还是负面的影响）。

　　学习的灵活性

　　即便类似的AI引擎获得的学习数据是一样的，训练环境和用来执行训练的基础设施方面的差异，也会导致训练和学习速度变得不一样，因而它们会得出不一样的结论。随着时间的推移，这些细微的变化会导致AI引擎的行为出现巨大的变化，带来不可预知的影响。

　　新的AI开源模式

　　我们需要新的AI开源模式来提供框架解决上述的部分问题。考虑到AI的本质，开源用于打造AI和ML引擎，将它们嵌入产品当中，并不足够。此外，类似于科学研究，行业将需要贡献回能够形成新改良的系统、引擎和产品基础的AI和ML引擎。

　　基线、基准与标准

　　对于无人驾驶汽车、图像识别、语音文本转换等所有重要的场景，尤其是有多家服务提供商涉足的场景，行业需要能够定义统一的基线和标准，让所有其它的新AI引擎或者现存AI引擎有评估和堆栈排序的标准（例如，美国国家公路安全局针对无人驾驶汽车制定五星安全评级）。为重要场景定义为行业所接受和批准的基准，可确保服务提供商和消费者能够在挑选AI与ML使能的产品服务时做出精明的决策。此外，现有的AI引擎可不断地根据基准与标准进行评估，进而确保这些系统的质量不断改进。

　　开发AI和ML模型的公司应当考虑对完整的AI和ML模型进行开源贡献（不仅仅是贡献打造这种模型的技术和框架）。 例如，即便是谷歌已有5年历史的图像识别模型，或者来自微软的Speech to Text语音文本转化模型，都能够在其它的领域或者行业激发AI和ML的快速创新和同化作用，进而形成自维持的创新回路。科技以外的行业也能够利用这些模式来启动自有的项目，以及将它们的学习成果贡献回开源社区。

　　偏好判定

　　行业需要偏好判定能力来使得嵌入AI和ML引擎的偏好能够被尽快发现和移除。没有这种能力的话，行业会难以形成在各种各样的场景中有着一致和确定性表现的统一AI引擎。偏好判定和偏好移除在AI开源模型中将需要以下的支持。

数据假定和偏好

　　AI使能的产品设计师需要确保它们理解其所做的和嵌入AI与ML引擎的数据假定和偏好。与其它AI使能产品进行交互的产品需要确保它们理解且准备好处理AI引擎行为带来的影响。为了确保消费者或者这类AI和ML模型的整合商做好准备，各个AI和ML模型应当揭示和共享以下的标准。

　　数据收集标准

　　数据是如何被收集的呢？数据生成器有哪些呢？数据收集的频率、地方、时间、方式和原因呢？数据是如何被收集、分层和传输的呢？

　　数据选择标准

　　数据是如何被选来训练的呢？数据不被选择的标准是什么呢？什么数据子集被选择，什么不被选择呢？定义高质量数据的标准是什么呢？可接受但非高质量的数据标准是什么呢？

　　数据处理标准

　　数据经过怎样的处理后才被拿来训练？数据经过怎样的转变、浓缩和概述呢？数据处理的频率如何？有什么会导致预订的数据处理推迟或者停止呢？

功能假定与偏好

　　AI和ML模型通过对被模式化的系统的功能或者特点的观察来训练。这些功能提取自数据，被应用于AI和ML引擎，可预测该系统的行为，或者将新信号归类成想要的类别来触发系统特定的动作或者行为。消费者和AI模型的整合商需要清楚有哪些功能被选来开发AI模型，以及有哪些功能被考虑，哪些没被选择及没被选择的原因。此外，用来判定训练功能的洞见将需要记录下来和共享。

　　盲点移除

　　由于模型内置的偏好和假定，AI和ML引擎会形成令其在特定的情境、环境和语境中的有用性和效能受到限制的盲点。

　　盲点回报和反馈回路

　　AI和ML开源模型的另一重要功能，应当是既能够判定特定模型是否有盲点，还能够给AI模型贡献回可用于移除这些盲点的数据（现实生活的例子）。大体上，这种机制类似于垃圾邮件的汇报机制：垃圾邮件检测引擎可利用用户新提供的垃圾邮件案例来更新其对垃圾邮件的定义和检测垃圾邮件所需的过滤工具。

　　协作性盲点移除

　　理想的开源协议的另一个特性会是，不同服务提供商之间相互共享数据，共同协作移除模型中的盲点。想想谷歌的无人驾驶汽车和特斯拉的Autopilot自动驾驶模式。谷歌的汽车在自动驾驶模式下行驶了大约200万英里，而特斯拉汽车在Autopilot下行驶了大约5000万英里的高速公路。抛开这两家公司是竞争对手的事实，它们的数据集包含大量避免碰撞和确保司机、乘客或者路人的安全相关的数据。它们 可相互利用各自的数据集来改进各自的安全协议和程序。 也许，这种数据应当成为开源模型的一部分，毕竟它们可最大化行业和用户的利益。

　　总结

　　要真正变革和颠覆我们的生活，带来更好、更简单、更安全且更令人愉快的体验，AI和ML需要被纳入尽可能多的场景当中，需要被纳入各个行业领域的用户案例当中。 要真正启动和加速这种普及，开源用以打造AI和ML引擎的框架其实并不足够。我们需要新的开源模式来使得企业能够贡献和利用的不只是AI和ML开发技术，而是整个受训模型。而且，这些受训模型能够得到改进或者调整，或者在特定的场景中适应新环境以及AI和ML基准与标准，进而让新的AI和ML有参照标准。此外，揭示AI和ML模型的假定和偏好（数据或者功能层面）的信息，以及让AI和ML模型消费者能够给特定场景中的所有AI和ML产品贡献回重要数据和反馈的反馈回路，也非常重要。没有这种开源模式，科技行业以外的世界将会继续难以实现AI和ML技术的普及。（皓慧）