詹姆斯马丁,壳牌国际
Amjad Chaudry,壳牌国际公司
机器学习和深度学习可以用来实现一系列任务的自动化。壳牌和先进分析中心(AACoE)正在使用这些技术来加快处理速度,同时提高可靠性。在地学中,利用丰富的标记卫星图像训练数据集可以改进地形分类。自动标签检测在大型(全景)植物图像也导致更有效的维护。
詹姆斯和阿姆贾德将展示如何MATLAB®让使用这些技术容易。用最少的设置,MATLAB并行服务器™让球队在云中的多个远程GPU的培训网络。MATLAB生产服务器™可以让团队创建瘦Web客户端在外地运营商可以利用,以最小的物理硬件,如智能手机。
壳牌公司充分利用了所有这些技术和工具,使其工程师能够轻松、轻松地使用最新的发现成果。
在外壳内过去四年左右的时间,先进的分析技术正在为我们如何做的事情越来越重要的作用。但是,今天我想特别是你谈谈深度学习,以及如何,特别是内MATLAB,我们在一些深学习工具正利用,以提高我们的创新渠道。有趣的是,里克的主题演讲中提到转让的学习和语义分割。而这正是一些例子,我会跟你说话了今天。
当然,作为壳牌的一员,我们总是要提出警告的。所以我把它留到五秒钟左右,给那些想要阅读的人。好。
今天,我将按照以下方式来组织我的演讲。我将简要地向大家介绍一下Shell以及我们所提供的服务和产品。s manbetx 845我还将谈谈我们的创新和交付渠道,我们如何尝试和带来创新的想法,特别是在先进的分析,通过最终的产品,这是适当的维护它。s manbetx 845然后用MATLAB算一下。
然后我会谈谈两个用例。正如我所提到的,第一个在工业图像标签识别,然后也地形超光谱卫星图像识别。这听起来非常酷,所以我把它放在那里。然后终于下一步,我们从哪里里去的结果,我们已经有了。
好的。这是我们最新的业务总结幻灯片。我们是一家涉及面很广的公司。我们的业务范围从我最初加入该公司开始,当时该公司处于上游勘探阶段,试图识别碳氢化合物矿床。然后通过发展我们尝试和钻井中提取,然后通过更多的下游活动,我们试着流程和改进产品,通过运输和交易,然后我们提供这些产品的各种终端用户,其中可能包括零售前院,航空、润滑剂。s manbetx 845
如果我们重新利用这些信息,我们就可以突出分析在组织中带来的价值。哦,就是这样,我真正想要引起大家注意的是所有这些不同颜色的圆圈。所以这些是活跃的领域,分析在我们的组织中起着主导作用。我们可能最终会有相当大的改变,对当前的工作流程和工作方式产生相当大的影响。蓝色的两个圆圈是我要进一步探讨的地方。
黄色的是我们的创新漏斗。上面有一系列的决策门,从D0到D4。基本上我们试着把想法和概念从左到右。
在底部,你可以看到两个重叠的三角形,我们有一个重叠的地方,我们从一个数字化团队,这是我现在坐的地方,一直到它合适的地方。所以
我们试图做的是在划定范围和创新阶段,我们参与进来。我们生产的POC概念,最小可行的产品,试图证明价值。s manbetx 845然后逐渐被IT带来的,我们尽量和范围进行全面部署的解决方案,也维护策略,所以我们可以再完全交付业务价值。万博 尤文图斯
我想提醒大家注意的另一件事是所有的点。把它看作是组织中思想数量的标准化指标。我想强调的是,我们完全可以接受在每个决策门都有大量的变动,所以这是关于确保你在组织中充分发挥作用的问题。最后,我们会把资源集中在高价值的解决方案上。万博 尤文图斯
MATLAB在哪里增值?这是一个非常快的原型。我们与MathWorks Consulting有一个积极的协议,我们利用它来提高我们的生产率。
有大量的例子,文档,我们想在MATLAB中维护它们。由于MathWorks将重点放在集成一些深度学习技术上,比如在去年,我们能够利用该领域的一些最新发展,同时也能够访问这些有利的积压模块。我们真的很喜欢web应用程序交付,所以我们绕过了安装MATLAB版本时遇到的很多问题来运行我们的一些软件。
这里我们有两个我们制作的网络应用的例子。右上角是一个测试沥青的网络应用程序。在左下角你还可以看到我后面会讲到的一个预览,它是一个网络应用的地形分类。
我们也一直在尝试了一下与MDCS,所以MATLAB分布式计算服务器。所以,让我们对云计算的杠杆作用相当强大的GPU。我们主要用它训练了我们的一些深层的学习模式。
就今年而言,我们已经在Shell和MATLAB之间取得了一些里程碑式的进展。现在我们终于——因为Shell有时会有一些管理方面的事情,所以为业务的不同部分获得许可是相当困难的。所以现在我们有了一个企业范围的交易。这意味着任何聪明的人,无论他们来自哪里,加入这个组织,最终都可以很快地用MATLAB实现生产,从理论上讲。
我们有第二个MPS许可证。正如我所说,我认为,千年发展目标将成为一个日益重要的特征。我们正在考虑使其更符合我们的战略。
MathWorks的咨询,就像我说的,是一个非常高效利用我们的时间。然后,我们现在也希望利用一些我们在班加罗尔的资源,试图让我们进步全天候的项目。
好的。这是第一个例子。这是标签识别。你能在背景中看到的是一个工业设备。我想是打气筒。
但骨子里,我想提请你注意,是标签,该标签。这标签上有一个SAP代码。而我们这些图像都点缀around--他们都geotagged--在工业环境中的所有点左右。我们想要做的是提取物,标签,这样做就可以了OCR,然后链接,通过我们的SAP系统,因为我们可以从SAP系统将大量的元数据。
我们最初采用的方法是使用R-CNN,一种区域卷积神经网络。我们取图像。然后,由于图像非常大,我们需要首先从图像中提取一系列区域建议,然后将其输入到CNN中。
在我们的案例中,我们使用了——所以我想瑞克谈到了AlexNet的例子。所以我们使用了VGD 16网络,然后为了达到我们的目的,我们在最后三层进行了学习转移。一开始我们有两个课堂问题。我们只有标签或没有标签。
这是一些图像的样子。想想谷歌的街景。在左边你可以看到它就像是用鱼眼镜头拍摄的。首先我们需要对图像进行失真校正,这是在MATLAB中完成的。然后想一下——它的输出几乎就像你站在一个盒子里,然后你有盒子的六个面朝外。
我们丢弃顶部和底部的投影,只保留水平的前投影。然后我们将其输入到算法的区域提取部分。在这个例子中,我们稍微修改了一下,使用了一种叫做pdolarl EdgeBox的方法。但重要的是你可以看到这些区域很好地提取了可能有标签的区域。
好的。这则得到通过对CNN喂养。所以这是现在只是在讨论的训练。
因此,尽管与训练你不需要太多的训练数据,但是,我们仍然有一些问题想有足够的训练数据集用于这以稳定的方式进行。所以,我们种的扩大标签的定义更多的标志。所以,我们还包括标志,然后做数据扩张,以进一步提高数据集,以提供足够的数据给你一个稳定的结果。
在右边你可以看到训练后的激活。这很好地说明了在分类之前网络最初关注的地方。所以这个看起来很奇怪的图像告诉你它实际上是聚焦在紫色的斑块上。这是算法的输出。
所以,你可以看到一个室内场景,你可以看到一个外景,不同的光照条件。而你得到的是围绕它认为边框是signs-- sorry--哪些标志和标签与相关联的概率。
对于你们之中敏锐的眼睛,你可能会注意到,有很多误报在那里。而我们要做的是真正实现了所有可能的选项,然后,我们需要依靠OCR在此之上,以过滤掉大量的误报。
好的。我刚刚向您展示了如何将学习用于识别工业图像中的标记,然后在其上运行OCR来提取SAP代码。在运行时间方面,只是给你一个概念,它大约是3到4分钟每幅图像。在这个特殊的用例中,我们可以处理它,这很好,但是很明显,如果你想要实时的反馈,这是不会发生的。
不过,也有技术,显着提高的这个速度,如果你想下去实时路线。因此,例如,快速R-细胞神经网络,这应该给你的速度大约提高100倍。
我们也在寻找可能获得更多的GPU,GPU的大的MDCS,让我们增加图像的分辨率大小。而接下来,我想,很酷的事情是,一旦我们连接这通过对SAP系统,我们怎么然后将这些信息反馈,比方说,有人行走在工地附近的一些增强现实眼镜?我们怎样才能共同想象这些信息?这可能是我们的一些客户感兴趣的是一个相当令人兴奋的领域。
我们使用的数据来自一个欧洲的工业基地,我们现在从一个亚洲的商业单位得到了很多的关注。所以我们要继续这些活动。
好的。下一个例子是高光谱卫星数据中的地形识别。快速描述一下为什么这个问题值得解决,为什么我们要这么做。
因此,在上游勘探,地震数据是最重要的技术之一,我们必须为了看在地下地面下方。并且,例如,在底部未指定这个中东地区的位置,你可以看到它的辽阔,对不对?而采集数据,因此把精力投入到地面,并接受它的成本是非常高的。所以,我们正在谈论数百万每年,每调查。这是非常高的成本。
而地形类型,例如平滑和粗糙,可以影响高达50%的成本。因此,在我们的语言中,他们有一个非常理想的情况来标记数据,但在他们的语言中,却是一个非常低效的系统。所以他们花钱请了一个专业化程度很高、收入很高的人来查看卫星图像,并在崎岖的地形周围手工绘制多边形,他们认为这是崎岖的地形。
然后,他们必须证实与实地考察。所以有人飞越沙漠的这一特定区域,然后开车绕了卡车。他们需要把旗帜下,以确认这确实是崎岖的地形。这是之前的调查。
在我们的例子中,因为我们现在有很多训练数据,我们想,对。也许我们可以用一些更需要电脑的东西来代替整个工作流程。所以我们决定尝试这种语义分割方法。
因此,这是该数据,我们有。我们有三种类型的图像,航空摄影,雷达和深度表面模型,DSM图像。由于2017年B的局限性,我们需要做的三个通道,但没关系在这种情况下。
这在2018年的A和b中得到了改进,但我们决定把它分成三个通道来给图片上色,我们是这样做的。我们对航空摄影进行了灰度化,把它放在红色通道里,雷达放在绿色通道里,等等。最后你会看到这些彩色的图像在右边。这是用于算法的。
所以SegNet,是什么呢?它通常用于自动驾驶汽车使用。所以,想象一下在左顶部的道路场景,什么网络确实是你给它通过,然后将基本映射每个像素的一类。
因此,在顶部的例子,你有,比如说,一个铺面类,道路类,树木类,等等。所以在我们的例子中,我们想重新利用这一点,并使用它的粗糙地形或地势平坦。这就是我们所做的。
事实上,我们目前所面对的30,000例的数据集,但是我们只是为这项工作,使用1000倍的例子。所以有很多改进的余地。而且我们也与在上面的图片,有网络的稍微简单的结构。
所以我们决定使用三个编码器和解码器部分。而在1000个测试示例的训练方面,在一个相当小的4GB GPU上,大约需要8个小时的训练时间。
这些是结果。我把颜色去掉了,把它分解成原始的图像。在顶部你可以看到,在左边,航空摄影,然后是雷达和DSM。然后在左下方,你可以看到人,或者我们这里的地面真值,然后是算法预测的结果。
而在这两种情况下,你可以看到,OK。对于这个选择,我选择了数据的快照,其性能是相当不错的。目前的结果是小定性而不是定量的,虽然我们将要努力生产混淆矩阵,所有这些事情。但是,性能非常不错。而我们发现这,实际上,终端客户,并已基本上他们认为性能优于现有的工作流程。
我们允许客户通过一个web应用程序的数据交互,所以这是你可以在这里看到。随着左边的图片,客户可以很容易刚进入网址,只是上传的各种图像加上感兴趣的领域,他们想看看。然后在推理步骤后的权利,你可以通过不同的输入和输出图像轻弹和覆盖地面的真理,只是让他们能得到什么样的结果意味着感,他们很高兴有和他们”再不满意。
好的。接下来的步骤很像初始的工作。因此,如果我们能从内部获得足够的资金,未来还有很多工作要做。我们要做的第一步是参数调优。
我们将从现在开始增加训练数据的数量,也就是1000。我们还将添加更多的类。我们有一个设施类,一个城市类,我们想要添加到数据中。你可以在右上角看到一个工具类的例子。
这个应用程序也是,我们只是很快地——它只花了两天就完成了那个网络应用程序。这就是与MathWorks Consulting适当合作的真正力量。我们希望在web应用程序中添加更多的功能,并准确地交付客户想要的东西。
而与这个特殊的例子,因为已经和人们相当通过它能兴奋的表现,有一个关于这将如何影响现有的工作流程有点担心。这包括人做的工作。所以这次我们想拥有的双整合战略,我们既提供技术,同时还提高技能的工作人员,使他们能够了解工作流程多,懂技术的更多,然后还可能拿出新想法和更好的工作方法那么我们就可以拿出。我们的一些中东单位,很明显,非常这项技术感兴趣。但是,我们也收到利息,现在从东南亚一些业务部门也是如此。
好吧,那么这对未来意味着什么呢?在Shell中,这一切都是关于了解大的总体规划,然后如何才能融入大的总体规划。所以在我们的例子中,我们有这些数字主题。
所以我们现在要确保我们在内部推广的方式与那些数字主题保持一致,我们已经确定了其中的三个主题。利用云的一切,使用mdc的高性能计算,然后是高级分析。例如,使用基于智能应用程序的技术。
在2018年的当务之急方面,我们要继续部署MPS和MDCS。而且我们现在已经探明的这些解决方案的技术方面,但我们现在需要看看证明的商业价值方面。万博 尤文图斯所以,正如我所说,我们要看看在地形识别,标签识别进一步的进展。
但有些事情我不能谈论今天,不幸的是,也是在地震领域。因此,我们目前正在以非常陡峭的学习技术,通过只是简单的回旋通过对薪酬分配,油气分布,油气分布的属性,试图绘制地震数据,所以只是地下的图像。所以这是一个非常激动人心的领域,在我们公司一个公平的几个人都在看,太。
好的。这就是我要说的。我希望这是一次有趣的谈话。谢谢你!
记录:2018年10月3日