2018年全球AI突破性技术TOP10

来源：(聚牛科技 ) 时间： 2018-07-25 点击：6209 点赞：5

本文来源艾瑞网

人工智能是个高科技、宽领域、多维度、跨学科的集大成者，从立足大数据、围绕互联网的纯计算机应用，逐步衍生到人们日常生产生活的方方面面，在细微之处改善和改变着我们。目前，不少新技术、新模式已经逐步投入到现实运用，但是多数领域仍然处在推广、试验、研究阶段，如何把握推广人工智能技术的重大机遇，让更广大的老百姓像普及手机一样，用上人工智能，这是我们这一代人必须面对的时代发展“必答题”。

2018年人工智能技术已在多方面实现突破进展，国内外的科技公司都在不断尝试将人工智能应用于更多领域，不论科技巨头还是初创企业，都在致力于不断创新，推动技术进步，接下来我们就来看看十项中外人工智能领域富有突破性的技术。

基于神经网络的机器翻译

入选理由：翻译是“自然语言处理”的最重要分支，也是比较难的一支。早年间，机器翻译还被视作 “低级翻译”被嘲讽，如今神经网络的机器翻译准确性大大提高，堪比专业人工翻译。我们熟知的谷歌翻译、微软语音翻译以及搜狗语音识别等都是基于此项技术。

技术突破：机器翻译是科研人员攻坚了数十年的研究领域，其技术核心是一个拥有海量结点的深度神经网络，可以自动的从语料库中学习翻译知识。

人类大脑处理语言的过程毫无疑问是最为复杂的认知过程之一，曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。神经网络中的多层感知就试图模拟人类大脑神经多层传递处理的过程，但通常不超过三层。2006年，科学家提出了神经网络的深度学习算法，使至少具有7层的神经网络训练成为可能。由于能够比较好地模拟人脑神经元多层深度传递的过程，它在解决一些复杂问题的时候有着非常明显的突破性表现。

今年3月，微软宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平，实现了自然语言处理的又一里程碑突破，将机器翻译超越人类业余译者的时间，提前了整整7年。

重大意义：基于神经网络的机器翻译，直接改善了之前逐词直译的效果，升级为以整个句子为单位进行翻译。

点评：机器翻译在手，纵横四海不是问题。

基于多传感器跨界融合的机器人自主导航

入选理由：机器人的终极目标是为人类提供智能化的服务，其中自主导航是近年来人类一直想要攻克的技术壁垒，臻迪(PowerVision)通过声呐、视觉等多传感器融合，使其水下机器人能实现自主导航及智能识别，在智能机器人领域内取得了突破性进展。

技术突破：随着机器人的应用场景及作业任务越来越复杂，单一传感器难以满足应用需求。而多传感器的信息融合对硬件资源依赖程度比较高，臻迪（PowerVision）基于自身在机器人行业深耕细作多年所积累的各类传感器、惯性导航、运动控制、相机、视觉检测/识别、SLAM等核心技术，以及深度学习的深入研究，通过嵌入式端一体化集成平台的系统架构及优化设计，突破了移动平台硬件资源的限制，使水下机器人更加准确、智能、全面地感知目标，并具备对水下目标进行锁定、检测、识别、跟随的能力。

重大意义：通过导航控制、声呐、视觉技术与深度学习的结合实现了机器人在全局环境中的定位及自主导航，以及智能化应用，为人类探索更为广阔的水下应用提供了强有力的技术保障。

点评：这也许是未来人工智能落地的最佳方式

DuerOS对话式人工智能系统

入选理由：DuerOS3.0能够为用户带来了划时代的自然对话交互，包括情感语音播报、声纹识别等能力在内的自然语言交互技术的全面升级。

技术突破：DuerOS是百度度秘事业部研发的对话式AI操作系统,拥有10大类目的250多项技能。DuerOS包括了从语音识别到语音播报再到屏幕显示的一个完整交互流程，以及背后支撑交互的自然语言理解、对话状态控制、自然语言生成、搜索等等核心技术，这些技术支撑着应用层和能力层的实现。

2018年7月4日，最新的DuerOS 3.0正式发布，使赋能的产品能够实现语音多轮纠错，进行复杂的递进意图识别与带逻辑的条件意图识别，从而更加准确判断用户意图，最终实现功能升维——利用扩展特征理解用户行为。基于此，DuerOS3.0提供了包括有屏设备解决方案、蓝牙设备解决方案和行业解决方案等在内超过20个跨场景、跨设备的解决方案。

重大意义：DuerOS率先开启AI时代商业化，将为生态合作伙伴从产品、内容与推广三大方面提供完整的应用方案支持，加速AI设备落地。

点评：小度小度，请问下一个技术我写什么？

移动AR技术

入选理由：未来AR与AI需要相互加持，可以将AR比喻成AI的眼睛。

技术突破：集成了众多计算机科技和图形图像学技术，包括实时渲染技术、空间定位追踪、图像识别、人机交互、显示技术、云端存储、数据传输、内容开发工具等领域。

AR技术不仅展现了真实世界的信息，而且将虚拟的信息同时显示出来，两种信息相互补充、叠加。在视觉化的增强现实中，用户利用头戴显示器，把真实世界与电脑图形多重合成在一起，便可以看到真实的世界围绕着它。增强现实技术包含了多媒体、三维建模、实时视频显示及控制、多传感器融合、实时跟踪及注册、场景融合等新技术与新手段，为人类感知信息提供了新的方式。

未来移动AR技术将向创意性AR应用、基于位置的AR体验、多人AR体验发展。

重大意义：随着苹果 ARKit、谷歌 ARCore 的发布，移动AR在两大移动平台上均意义重大。这也意味着，全球 5 亿台支持 AR 功能的移动设备正在吸引所有的公司入局，这些公司正在将数据与 API 相结合，为用户创造新的 AR 体验。

点评：感觉自己离进入真正的二次元世界不远了。

生物特征识别技术

入选理由：行为识别技术应用于安防，为安全又上了一道锁。

技术突破：店铺安装摄像头已经是一件非常普遍的行为，但普通的摄像头只能纪录店铺内人们的行为，如果发现盗窃需要通过观看监控记录人工排查，耗时费力。

而近日，日本电信巨头宣布已研发出一款名为“AI Guardman”的新型人工智能安全摄像头，这款摄像头可以通过对人类动作意图的理解，在盗窃行为发生前就能准确预测，从而帮助商店识别偷窃行为，发现潜在的商店扒手。

这套人工智能系统采用开源技术，能够实时对视频流进行扫描，并预测人们的姿势。当遇到监控中出现可以行为时，系统会尝试将姿势数据与预定义的“可疑”行为匹配，一旦发现就会通过相关手机App来通知店主。据相关媒体报道，这款产品使得商店减少了约四成的盗窃行为。

重大意义：通过行为识别技术，能够第一时间发现犯罪分子，预测犯罪行为，有效保护店铺安全。

点评：去日本的商店买东西一定要果断，被误会成小偷就不好啦。

机器人流程自动化

入选理由：机器人流程自动化能够帮助甚至代替人类负担大量简单且单一、重复而繁重的工作，并且效率更高、零失误。

技术突破：机器人流程自动化（RPA）是通过使用高性能认知技术实现业务的自动化和工作的效率。人类只需在操作界面上编写需要人工完成的工作流程，即可处理各种业务，如浏览器，云，以及各种软件。

Gartner数据显示，在过去的一年中，全球范围中大型商业巨头里有300家陆陆续续开展了RPA工程，将原先手工化的流程进行自动化改革。随着科技的进步RPA将融入更多人工智能技术，即智能流程自动化（Intelligent Process Automation）。相当于在基于规则的自动化基础（RPA）之上增加基于深度学习和认知技术的推理、判断、决策能力。

重大意义：机器人流程自动化能够大幅提升企业的工作效率，减少人员投入，帮助企业降低成本，让人类释放生产力，腾出双手去做价值更高的事情。

点评：小白领被吓的瑟瑟发抖，请老板别炒我。

像素级声源定位系统PixelPlayer

入选理由：从视觉和听觉信号角度实现声源分离，开辟研究新途径。

技术突破：在进行音乐编辑时，一般是利用均衡器将音乐中的低音部分调出来，而麻省理工学院计算机科学和人工智能实验室的研究人员发现了更好的解决方案。他们所研发的新系统PixelPlayer。

PixelPlayer能够通过结合声音和图像信息，机器学习系统能以无监督的方式从图像或声音中识别目标、定位图像中的目标，以及分离目标产生的声音。当我们给定一个输入视频，PixelPlayer可以联合地将配音分离为目标组件以及在图像帧上定位目标组件。PixelPlayer 允许在视频的每个像素上定位声源。

简单点说就是PixelPlayer能识别出视频中哪个物体发出哪些声音，并将声音分离出来。

重大意义：PixelPlayer能够过滤伴奏、识别音源，不仅能帮助人类处理音乐，还能够帮助机器人更好地理解其他物体所产生的环境声音。

点评：如果老师用了这个系统，就能立刻找出课堂交头接耳的同学。

兼顾高精度学习和低精度推理的深度学习芯片

入选理由：这个芯片可以涵盖了目前已知的最佳训练和最好推理，能够保持所有处理器组件能够得到数据和工作。

技术突破：该深度学习芯片是IBM正在研究的项目之一。IBM将这个芯片的目标利用率定在90%。这将是一个质的突破，为了实现这一突破，IBM的研发团队做了两项创新。

首先，利用率低通常是因为存在于芯片周围的数据流瓶颈。为了突破这些信息障碍，该项目的团队开发了一个“定制”的数据流系统。该数据流系统是一种网络方案，可以加速数据从一个处理引擎到下一个处理引擎的传输过程。它还针对要处理的是学习任务还是推理任务以及不同的精度进行了优化。

第二项创新是团队使用专门设计的“便笺本”形式的片上存储器，而不是CPU或GPU上的传统高速缓冲存储器。构建它的目标是为了保持数据流经芯片的处理引擎，并确保数据在恰当的时间处于正确的位置。为了获得90％的利用率，IBM必须使设计出的便笺本具有巨大的读/写带宽。

重大意义：该芯片可以执行当前所有的三种主要深度学习AI：卷积神经网络（CNN）、多层感知器（MLP）和长-短期记忆（LSTM）。这些技术共同主导了语言、视觉和自然语言处理。

点评：目前深度学习技术陷入瓶颈，IBM的深度学习芯片也许能够扭转这一局势。

智能代理训练平台

入选理由：智能代理技术使计算机应用趋向人性化、个性化。它能够以主动服务的方式完成的一组操作的机动计算实体,不需要人的即时干预。

技术突破：智能代理技术具有解决问题所需的丰富知识、策略和相关数据，能够进行相关的推理和智能计算，智能代理还可以在用户没有给出十分明确的需求时推测出用户的意图、兴趣或爱好，并按最佳方式代为其完成任务，并能自动拒绝一些不合理或可能给用户带来危害的要求；智能代理还从经验中不断自我学习，能够根据环境调整自身的行为，从而提高处理问题的能力。

智能代理技术可以应用于商业、智能搜索代理、数字图书馆、电子商务和远程教育的研究等，现在它也被应用于游戏领域。

Unity是全球领先的游戏开发公司之一，去年其推出了机器学习平台ML-Agents，让AI开发人员和研究人员在Unity模拟和游戏环境中，使用演化策略、深度强化学习和其他训练方法来训练智能代理。这种模拟训练的方法在工业机器人、无人机、无人驾驶车辆和游戏角色设计中均有着广泛应用。

重大意义：Unity以使机器学习研究人员获得最强大的训练场景为使命，为快速增长的AI爱好者群体探索深度学习提供了一个研究平台。

点评：NPC越来越聪明，对于游戏手残党来说可能不是个好事。

入耳式人工智能

入选理由：耳机从外变成了智能穿戴设备，可以无限延续使用时间和场景。

技术突破：苹果在今年即将推出的AirPods 2中加入了Siri唤起、内置芯片等等，可以收集行走步数、心率数据和体温等等，还可以通过内置陀螺仪捕捉用户头部移动状况甚至定位位置，当然也可以通过麦克风接受命令，再通过扬声器进行反馈。

谷歌的实时翻译无线耳机PixelBuds常被拿来与AirPods相比，PixelBuds对Google Assistant的唤起十分迅速，只要把手指放在耳机的触控板上，几乎同一时刻就可以和Google Assistant进行对话。

AirPods与PixelBuds让我们重新定义了耳机对人类的作用，相比手腕上的智能手表，耳机显然可以更方便的进行语音交互，在接收信息时更无需占用宝贵的视觉空间。还将智能音箱式的远场交互变成更自然也更快捷的近场交互。

重大意义：智能耳机让智能助理更接近随身随行，苹果、谷歌的涉足，必将带起一波耳中AI的风潮。

点评：现在我们手机不离手，以后可能要耳机不离耳了。

我们看到这些科技公司或者科研团队，学习翻译、研究捕鱼、开发游戏、做着音乐……看似“不务正业”，而这恰恰证明了，人工智能不单单是一种技术或一个产品。

从IBM、苹果，到谷歌，百度，所有的人工智能巨头都在尝试软件、硬件、应用场景的联通。聪明的科技公司都不再单一的专注于自己的传统业务，而是着眼于未来，不断创新技术，跨界融合打造一个整合的生态系统。