詹姆斯·马丁,壳牌国际公司
阿姆贾德·乔德瑞,壳牌国际公司
机器学习和深度学习可以用于自动化一系列任务。壳牌和高级分析卓越中心(AACoE)正在使用这些技术来加速过程,同时增加其可靠性。在测绘学中,地形分类可以使用标记卫星图像的丰富训练数据集来改进。在大型(全景)植物图像中的自动标记检测也导致更有效的维护。
James和Amjad将展示MATLAB®让使用这些技术变得简单。通过最小的设置,MATLAB并行服务器™允许团队在云端的多个远程gpu上训练网络。MATLAB Production Server™允许团队创建瘦web客户端,现场的操作人员可以使用最小的物理硬件,如智能手机。
壳牌利用了所有这些技术和工具,使其工程师可以轻松地使用最新发现。
记录:2018年10月3日
在过去四年左右的时间里,高级分析在我们的工作中扮演着越来越重要的角色。今天,我想特别和你们谈谈深度学习,特别是在MATLAB中,我们如何利用一些深度学习工具来改进我们的创新管道。有趣的是,Rick的主题演讲提到了迁移学习和语义分割。这正是我今天要讲的一些例子。
当然,作为壳牌的一员,我们总是不得不提出一个警告。我把这个放五秒钟左右,给那些想读的人看。好的。
所以今天,我的演讲结构如下。我将简单地向你们介绍壳牌公司以及我们提供的服务和产品。s manbetx 845我还将谈论我们的创新和交付管道,我们如何尝试和将创新的想法,特别是在高级分析方面,通过IT部门适当维护的最终产品。s manbetx 845然后是MATLAB适合的地方。
然后我将讨论两个用例。正如我提到的,第一个是工业图像中的标签识别,然后是高光谱卫星图像中的地形识别。听起来很酷,所以我把它放进去了。最后是下一步,根据我们已经得到的结果,我们要往哪里走。
好的。这是我们商业总结幻灯片的最新版本。所以我们是一个非常广泛的公司。从我最初加入该公司开始,我们一直在进行上游勘探,试图识别碳氢化合物沉积。然后是开发阶段,我们试着打井提取,然后是更多的下游活动,我们试着加工和精炼产品,再到运输和贸易阶段,我们把这些产品交付给不同的终端用户,包括零售前厅,航空,还有润滑油。s manbetx 845
如果我们重新利用这些信息,我们就可以突出分析为组织带来的价值。哦,对了,我想让大家注意的是这些不同颜色的圆。所以在这些活跃的领域中,分析在我们的组织中发挥着主导作用。我们最终可能会有相当大的改变,对当前的工作流程和工作方式产生相当大的影响。蓝色的两个圆圈是我要进一步探索的地方。
黄色表示创新漏斗。我们在顶部设置了一系列决策门,从D0到D4。基本上,我们试着从左到右的采纳想法和概念。
在底部,你可以看到两个重叠的三角形,我们有重叠——我们从一个数字化团队,也就是我现在所在的团队,过渡到IT部门。所以
我们尝试和做的是在范围和创新阶段,我们参与其中。我们生产POC概念,最低可行性产品,尝试并证明其价值。s manbetx 845然后,IT逐渐被引入,我们尝试并确定完整的部署解决方案和维护策略,这样我们就可以完全向业务交付价值。万博 尤文图斯
我想让大家注意的另一件事是所有的点。把它看作是组织中左侧想法数量的标准化表示。我想强调的是,我们完全可以接受在每个决策门有大量的变动,所以这是要确保你在组织内充分考虑。当你完成任务的时候,我们会把你的资源,集中在最有价值的解决方案上。万博 尤文图斯
MATLAB在哪里增加价值?这是一个非常快的原型。我们与MathWorks Consulting有一个积极的协议,我们利用它来提高我们的生产力。
我们想在MATLAB中维护大量的例子和文档。由于MathWorks在集成一些深度学习技术上投入了巨大的精力,比如说,在去年,我们能够利用该领域的一些最新发展,同时也能够访问这些有利的模块积压。我们真的很喜欢web应用交付,所以我们绕过了很多关于安装MATLAB版本的问题来运行我们的一些软件。
这里我们有两个我们制作的网页应用的例子。在右上方是一个沥青测试的网络应用程序。在左下方,你还可以看到我之后要讲的内容的预览,那就是作为网页应用的地形分类。
我们也做了一些MDCS的实验,也就是MATLAB分布式计算服务器。这让我们能够在云端利用非常强大的gpu。我们主要用它来训练我们的一些深度学习模型。
就今年而言,我们在Shell和MATLAB之间有了很多里程碑。我们现在终于——因为壳牌有时会有一些管理方面的事情,很难获得业务不同部分的许可。所以现在我们有了一个企业范围的交易。这意味着任何聪明的人,无论他们来自哪里,加入到这个组织中,最终都能在理论上很快地使用MATLAB。
我们获得了第二个MPS许可证。正如我所说,MDCS,我认为,将会是一个越来越重要的特征。我们正在考虑将其与我们的战略更加一致。
就像我说的,MathWorks Consulting非常有效地利用了我们的时间。我们现在也希望利用我们在班加罗尔的一些资源,让我们能够24小时推进项目。
好的。这是第一个例子。这就是标签识别。你在背景中看到的是一件工业设备。我认为这是一个泵。
但是下面,我想让你们注意的是,那个标签,那个标签。标签上有一个SAP代码。我们到处都有这些图片——它们都有地理标记——都分布在一个工业环境中。我们要做的是提取那个标签,在上面做OCR,然后把它链接到我们的SAP系统,因为我们可以从SAP系统中提取很多元数据。
我们最初采用的方法是使用R-CNN,一种区域卷积神经网络。我们取图像。然后,因为图像非常大,我们需要首先从图像中提取一系列的区域建议,然后将这些建议输入CNN。
在我们的案例中,我们用了——我想Rick提到了AlexNet的例子。所以我们用VGD 16网络代替,然后我们在最后三层进行转移学习。一开始我们只有两个类问题。我们只是有标签或没有标签。
这是其中一些图片的样子。想想街景吧。所以在左边你可以看到它几乎是用鱼眼镜头拍摄的。首先我们需要对图像进行失真校正,这是在MATLAB中完成的。然后想象一下——它的输出就像你站在一个盒子里,然后你有盒子的六个面向外看。
我们丢弃顶部和底部的投影,只保留水平的前投影。然后我们把它输入到算法的区域提取部分。在这个例子中,我们稍微修改了一下,使用了一种叫做Pdollar EdgeBox的方法。但重要的是你可以看到这些区域很好地提取了可能有标签的区域。
好的。然后被传送到CNN。现在我们讨论的只是训练。
虽然在训练中你不需要太多的训练数据,然而,我们仍然有一些问题,试图有足够的训练数据集,以稳定的方式运行。所以我们把标签的定义扩展到一个符号。所以我们也加入了符号,然后做了数据扩充,进一步增加数据集,以提供足够的数据,给你一个稳定的结果。
在右边你可以看到训练后的激活。所以这很好地说明了在分类之前网络最初关注的是什么。这张看起来很奇怪的图片告诉你它主要聚焦在紫色的区域上。这是算法的输出。
你可以看到室内场景和室外场景,不同的照明条件。你得到的是一个边界框围绕着它认为是符号的东西,抱歉,符号和标签是有关联概率的。
敏锐的你们可能会注意到这里有很多假阳性。我们想要做的是找出所有可能的选项,然后我们依靠OCR在上面过滤掉很多误报。
好的。我刚刚向你们展示了转移学习被用于识别工业图像中的标签,然后在上面运行OCR来提取SAP代码。就运行时间而言,只是给你们一个概念,每张图像大约3到4分钟。现在在这个特殊的用例中,我们可以处理它,这很好,但显然,如果你想要实时反馈,这是不可能发生的。
然而,如果您想要走实时路线,有一些技术可以显著提高这个速度。举个例子,快速r - cnn,它能给你大约100倍的速度提升。
我们也在考虑使用更多的GPU,在MDCS上使用更大的GPU,来增加图像的分辨率。下一个,我想,很酷的事情是一旦我们把它连接到SAP系统,我们如何把这些信息带回,比如说,给那些带着增强现实眼镜在现场走动的人?我们如何共同可视化这些信息?这可能是一个非常令人兴奋的领域,我们的一些客户对此很感兴趣。
我们使用的数据来自欧洲的一个工业站点,我们现在有很多兴趣,特别是来自一个亚洲业务部门。所以我们将继续进行这些活动。
好的。下一个例子是高光谱卫星数据中的地形识别。快速描述一下为什么这个问题值得解决以及为什么我们要这么麻烦。
因此,在上游勘探中,地震数据是我们掌握的最重要的技术之一,它可以探测地下和地下的情况。举个例子,在底部这个未指明的中东地区,你可以看到它的广阔,对吧?而获取数据的成本,也就是把能量注入地面并接收数据的成本,是非常高的。所以我们说的是每年数千万,每次调查。这是非常高的成本。
而地形类型,例如平坦还是粗糙,可以影响50%的成本。因此,在我们的语言中,他们有一个非常理想的情况来标记数据,但在他们的语言中是一个非常低效的系统。所以他们花钱请了一个专业的,高薪的人来观察卫星图像并在粗糙的地形周围手动绘制多边形,他们认为那是粗糙的地形。
然后他们必须通过实地考察来证实这一点。所以必须有人飞到沙漠的这个特定区域,然后开着卡车到处转。他们需要放下旗帜来确认这确实是崎岖的地形。这是在调查之前。
在我们的案例中,因为我们现在有很多训练数据,我们想,对。也许我们可以把整个工作流程换成电脑密集型的东西。所以我们决定尝试这种语义分割方法。
这是我们得到的数据。我们有三种类型的图像,航空摄影,雷达,以及深度表面模型,DSM图像。因为2017年B的限制,我们需要做三个渠道,但在这种情况下是可以的。
这在2018年的A和b中得到了改进,但我们决定在这里将其放入三个通道来给图像着色,我们是这样做的。我们对航拍照片进行灰度化处理,把它放在红色通道,雷达放在绿色通道,等等。然后你就得到了这些彩色的图像就像你在右边看到的那样。这是用于算法的。
SegNet是什么?它通常用于自动驾驶汽车。想象一个左上角的道路场景,网络所做的就是你把它输入进去然后它基本上会把每个像素映射到一个类。
在上面的例子中,你有一个人行道类,一个道路类,树类,等等。所以在我们的例子中,我们想要重新利用它,并将它用于粗糙的地形或平坦的地形。这就是我们所做的。
我们现在实际上有3万个样本数据集,但我们,仅仅为了这项工作,就用了1000个样本。所以还有很大的改进空间。和上面的图相比,我们也有了一个稍微简单的网络结构。
所以我们决定使用三个编码器和解码器部分。就1000个测试例子的训练而言,在一个4gb的GPU上,这是非常小的,大约需要8个小时的训练时间。
这就是结果。我已经从颜色中去除并将它分解回原始图像中。所以在上面你可以看到,在左边,航拍照片,然后是雷达和DSM。然后在左下方,你可以看到人类,或者在我们的例子中是地面真相,然后是算法预测的结果。
在这两种情况下,你可以看到。这将选择我所选择的数据的快照,因此性能非常好。目前的结果是定性的而不是定量的,尽管我们将致力于产生混淆矩阵和所有这类东西。但是表现非常好。我们把这个展示给最终客户,他们已经认为性能优于现有的工作流程。
我们允许客户通过网络应用程序与数据进行交互,这就是你在这里看到的。有了左边的图片,客户可以很容易地进入URL,上传各种图片和他们想看的感兴趣的区域。然后在推理步骤之后的右边,你可以浏览不同的输入和输出图像并覆盖基本事实,这样他们就能知道结果意味着什么,以及他们对什么满意,什么不满意。
好的。就下一步而言,这非常像初始工作。所以未来还有很多工作要做,前提是我们能在内部获得足够的资金。我们要做的第一步是参数调优。
我们将从目前的水平开始增加训练数据的数量,也就是1000。我们还将增加更多的类。我们有一个设施类,还有一个城市类我们想要添加到数据中。你可以在右上角看到一个设施类的例子。
还有这个应用,我们只花了两天时间就完成了这个网页应用。这就是和MathWorks Consulting合作的真正力量。我们希望在web应用中添加更多的功能,并提供客户想要的东西。
在这个特殊的例子中,由于性能已经非常好,人们对此非常兴奋,所以有些担心这将如何影响现有的工作流程。这也包括从事这项工作的人。所以这一次,我们试图采用双重整合的策略,在提供技术的同时提高员工的技能,这样他们就可以更好地理解工作流程,理解技术,然后可能会想出新的想法和更好的工作方式。很明显,我们在中东的一些单位对这项技术非常感兴趣。但我们现在也收到了来自东南亚一些业务部门的兴趣。
那么这对未来意味着什么呢?在壳牌,最重要的是了解总体规划以及如何适应总体规划。在我们的例子中,我们有这些数字主题。
所以我们现在要确保我们内部推广的方式与这些数字主题一致,我们已经确定了其中三个。利用一切到云,高性能计算与MDCS,然后是高级分析。例如,基于智能应用的技术。
就2018年的当务之急而言,我们希望继续部署MPS和MDCS。现在我们已经证明了其中一些解决方案的技术方面,但我们现在需要看看商业价值方面的证明。万博 尤文图斯所以,就像我说的,我们要看看进一步的进展在地形识别,标签识别。
但不幸的是,我今天不能谈论的东西,也是地震领域的。因此,我们目前正在研究非常陡峭的学习技术,试图绘制地震数据,通过简单的卷积来绘制地下的图像,来绘制油气分布、油气分布、油气属性分布。这是一个非常令人兴奋的领域,我们公司有相当一部分人也在关注这个领域。
好的。这就是我要说的。我希望这是一个有趣的演讲。谢谢你!
您也可以从以下列表中选择网站:
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。