风电场技改与优化专场——智擎信息技术王曦：基于神经网络的预防性维护策略实践

2018-06-14 16:54 点击：4327

　　云智擎信息技术(北京)有限公司副总经理王曦出席“第五届中国风电后市场专题研讨会”，在风电场技改与优化专题论坛，分享题为“基于神经网络的预防性维护策略实践”的主旨演讲。

云智擎信息技术(北京)有限公司副总经理王曦先生

　　以下为发言内容：

　　王曦：我们是跟之前所有的演讲嘉宾的公司不一样，我们是纯第三方做数据分析，工业大数据平台独立开发的一个厂商，风电行业其实觉得也是蛮有渊源的，风电行业的合作来讲2014年就开始了，最近三四年的时间公司也比较大的投入做这方面的投入，公司本身我们是不做硬件，不做传感器和采集盒子，我们本身是工业大数据的平台以及算法，我们的合作伙伴，我们是第三方公司，我们技术上和微软、亚洲研究院，和NVIDIA中国的团队有深度的合作，针对深度学习、记忆学习的行业应用上。

　　客户的群体来讲，能源角度我们新能源、风力发电和石油、石化方面有一些客户的合作，目前主要的客户来源都是设备的整机厂商和石油、石化设备研发公司，还有海油和中石油设备研发公司这样，风电行业业主的区公司有比较多的合作，设备的故障预测、诊断，以及我今天会主要讲的运维策略整体解决方案角度。

　　这页片子讲了我们行业面临的问题以及挑战，很早以前，2014年国内的厂商可利用小时数，国外的可利用效率比我们多，发电效率比我们好，国内这几年整机的研发、整机的利用、整机的技术迭代来讲，我不觉得硬件角度存在什么问题。我们可能存在运维策略，对硬件没有利用上，可能有一个很好的提升，这里面我们列了几点，包括我们运维管理还不是完全的闭环管理，我们传统的关系被动式的，不是预测系统，报警系统，是有问题了才报出来，现场有运维和工程师解决，然后再反馈，这个反馈就很薄弱，包括数据的质量。

　　我们从设备品牌来讲已经接入了6到5个设备品牌的数据，我们发现数据质量远远没有达到这样的标准，我们在美国参观过GE的现场，和他们的监控中心，他们引以自豪的就是说可能我们的截面，我们的功能没你们做的那么酷炫，那么强大，我们的数据质量一定是非常好的，因为他们有很多对于数据质量的提升机制。我们回来花了一年多的时间在这部分对数据质量评判，数据有效性的评判，包括数据的机制都建立起来了。

　　对业主来说机型、品牌比较多也是一个困扰，比如说长时间等待备件也是一个问题。运维整体方案来讲这是整体的方案，数据实时接入，包括大数据计算方面的子系统，包括后面无人式工单和策略的管理，底层是大数据的管理，大数据的分析和最后可视化结果的展现。

　　这页骗子就一行字，这个就是我们踩过N多坑最后的总结，每家企业，每家运维服务团队都在讲我要提高运维质量，我要做基于预测性、主动性的运维，怎么做？对于我们来说就这几点，首先我接入靠谱、高质量的数据，数据不管接了急控，接了实施数据，我可能会接一些故障数的数据，接一些比如说分资源的数据，这个数据的质量怎么样，会不会帮我们形成比较好的结果？

　　此外精准的算法，算法每年的法国都特别快，算法的角度讲我们这里讲精准，实操层面就是靠谱的算法，不一定每一个场景都要用深度学习，每一个场景用CPU进行大量的运算，只要精准贴合就好了。前两个是一个基础，但同样要和专业的专家的知识图谱融合，否则你先做数据标记，我没有行业专家，没有行业的知识图谱，你连标记都做不准，肯定有比较大的问题。

　　从整体来讲这是我们整体用比较简单的图形表现出来我们工作的方式，所以要做一个基于深度学习比较精准高质量的运维体系，所以左侧就是刚才跟各位介绍的我们揭露的数据，中间我们包括风机数据、运维数据、气象数据N多数据的算法，左边是包括故障预警、设备健康度，基于这两个产出的运维策略包。

　　其实刚才讲的那么多，最离不开的就是我们基础的大数据的运行平台，虽然预警、精准运维很出彩，所工作都是通过分布式的集群进行计算，这个集群底层是数据揭露层，风场的数据，实时数据，录播各种设备的数据，包括资产数据，风机生命档案这样的数据都要接进来，当然我们在数据大数据平台进行处理、规划、分类、汇总，再上层是大数据分析平台，上面有很多实时分析的算法，预警算法，以及我们叫运维最优化的算法，包括融入了很多故障数的数据，融入了很多数据做最后整体的展现。

　　我今天的主题是深度学习基于神经网络的预测性运维的策略，其实从整体来讲，在我们开来最后要产生一个能落地的，能让现场同事，现场工程师快速解决的方法，我们把运维策略分三个部分，第一部分无论是预警也好，还是我们叫设备健康度，我们这个风场25台风机，哪台或者是哪几台风机运行最差，最差是什么样的问题我们首先要找到，有了个问题我找到问题了，派什么样的人，带什么样工具，带什么样的备件什么时候点去做，什么时候做停机最合适，就叫运维窗口期和运维工作包，就是策略包。比如说这个运维点需要4个人早上几点做比较好，什么时候停机比较好，里面是不是有故障数、处理措施的支持，还是我有足够的人员能力和备件的支持，我们有动态运营、疲劳期等等设备分析是不是在比较差的疲劳期，这些都是我们中间结果和产出了，底层一样，底层我们需要大量的数据，运维数据，相关的其他数据做支撑。

　　这个刚才也提到了，我们要算健康度要看相关点位的动态预值，要看相关的一些问题，不会看到不相关部件的一些点位，另外要看全场对比，全场对比就是说全场里找出来模拟标准工况下什么指标下运行，不同的直销是不是会有样的问题，当然我们会分析疲劳度，也会有故障预警来做这样的工作。

　　说是这个想法的由来，现在觉得很普及，有很多做这样的事情，主机的角度和运维的角度SCADA很多运维的设置比较靠后，不会是非常灵敏的数值，可能是比较靠后的准备，以及提前准备好工作包和运维策略来帮助整体最终无论是成本的降低还是发电量的提升。

　　所以我们的基本原理也是刚才这几点，包括我们针对滑动窗口期一个坍塌的计算，什么叫滑动窗口期？这跟传统SCADA和急控的考虑不一样，我们是会往前延长一个有选择的时间窗口期来选择适当的数据，帮助我们做未来的预测，当然这里面还是有一些统计学和应用数据的理论在里面，我们会算疲劳期，疲劳期很多人会想，疲劳期很简单，我就说这个风机工作多式小时，我们后来发现这样比可能不是完整的，虽然能够解决一定问题，完整的想法我们是想说，疲劳期是不是应该在同功率，同发电量的情况下比较疲劳期，疲劳期要跟时间关联，跟故障率相关联，这是比较完整的疲劳期。

　　我们用深度学习专干期记忆LSTM的模型做这样的事情，这是建模的过程，这里不详细讲了，这也是涉及到刚才四个主要建模的过程。具体模型的创建和其他机器学习的方法没有什么区别，数据进来做聚合、提取做重要点位，然后做模型，做预测做验证，效果好持续优化，效果不好做一些各个点位的一些调整和技术的一些工作，当然我们是分三步做的，这是第一个，第二个是针对我们全场对比的，针对一些状态预测的结果，针对疲劳的一些分析，都是通过机器学习和深度学习进行的这样一个分析。

　　详细说说动态阈值是什么概念？SCADA会进行报警，这是详细的阈值，动态阈值不同工况下不定不同，不同的风速、不同的转速有时候可能80度够了，有的时候可能85度需要报，我们用深度学习历史的数据作为模型，未来24小时、48小时温度的点位、数值应该在什么数值上，这是我们要考虑的问题，这个过程是实时数据，没有写太细，对于数据的质量我们做了大量的工作，数据确实怎么补齐，数据有的水温低于多少度以上，用什么样的方式修整过来。体征提取，对于设备零部件的亚健康，特写特征跟它比较密切。

　　当然我们也会针对这些异常用聚类分析，判断哪些点位是异常的，会汇聚到我们整体工作当中，疲劳期开始的时候下降比较快，平稳期，最后是损耗失效期，这个是一个样子，每一台设备算出来的比率或者是梯度都是不一样的，整体的趋势是这样的，我们把它放在整体策略的前期分析里面做整体策略分析的支持。

　　当然最后说一下预警，其实这个是我们的一个老片子了，我们预警模型不止这些了，针对预警模型来讲，我们原来觉得这个跟SCADA差不多，用户也觉得是SCADA，我们可能提前预测用户觉得很好，后来只是觉得我只是预测出来一个事件意义是不大的，为什么我们要做针对这种大部件或者是整机的健康度？我们要把这些东西关联到一个大部件，或者是二级、三级部件上才有意义。但是我们整体的一个分析计算里面都是按照计算，分析叶片、整机等等这些都会跟我们具体大部件健康度的分析融合在一起的。

　　刚才计算了那么多，无论是疲劳期、动态阈值还是其他的这些东西，我们要做成集成算法汇集起来，算法这边会看到有几个比例，70、20、10，动态阈值状态预测70%，异常点检测20%，疲劳度分析10%，我们每次比例都是不一样的，只有我们观察动态阈值还是70%，所以其他的每次都不一样。

　　讲了这么多我们这次结果还是不错的，左侧是我们预测的故障的时段，右边是健康时段，虽然有下降，但是还是属于我们健康的故障图谱里面，我们通过这样完成了整个的过程。说一个具体的例子，就拿齿轮箱，齿轮箱运维上面的问题有时候还是比较多的，我们预防性策略上一个具体的例子，比如说我们会算齿轮箱健康度，我们会看齿轮箱的油温，最佳时间，什么样人可以做这个事情，我们可以用什么故障解决方案做，以及他需要什么样的工具。齿轮箱健康度和我们运维策略包会合成一个工单下发下去，这个工单做完之后会回来的。

　　这是内蒙风场厂的一个案例，我们做了一些处理，把一些隐患找到了。这里多说一句，其实SCADA这个是特别好的一个东西，它相当于对设备是一个在最底层，或者是真正大的损坏之前会报出来，但是它不关注小的隐患，我们为什么要关注小的隐患，部件的隐患？因为很多部件的隐患不做处理有一天报警了，SCADA的问题不做出来，然后有一天SCADA的问题真的出现了，我们正套的运维就是查缺补漏，我们会预先、提前来发现这个问题，告知这个问题，以及具体怎么操作，形成我们策略包做这样的事情。

　　这是我们产品的一些截屏，放在最后不是我们最重要的部分，是我们预警加策略包的产品，我们刚才讲的算法、底层的计算，和大数据相关是我们的关键，但是没有算法、底层的计算，高效的计算能力这些都没有办法做到实时。现在我们这套机制，包括全局管理、性能KPI指标，行业内十几个KPI指标，包括预警，健康度预警，审批及工单，以及策略包和解决方案建议，这是完整的一套体系。到了这边工单完成之后还会回到整体的平台里面做持续的优化和分析。

　　简单来说我们的初衷很简单，就是能省的成本省下来，能发电的时间尽量发电，提升发电量，降低运维成本，少换配件，提前维修就这么简单。

　　这是我整体的介绍。

　　谢谢大家！

　　（根据发言整理，未经本人审阅）