您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   Code  
会员   
   
 
     
   
 订阅
  捐助
工业大数据分析技术在实践应用中的思路与方法
 
作者:Tempodata
 
  1826  次浏览      14
2020-12-11 
 
编辑推荐:
本文主要介绍了工业大数据分析的特殊性和难点;共同探讨如何用少的时间代价换取数据分析工作的高成功率和大价值;如何选择合适的方法解决具体的应用问题,并对分析结果的可靠性做出科学评估,避免技术在具体应用中受阻、被淹没……
本文来自csdn,由火龙果软件Anna编辑、推荐。

工业大数据分析技术在实践应用中的思路与方法(上篇)

工业大数据即工业数据的总和,其来源主要包括企业信息化数据、工业物联网数据、“跨界”数据等,它是工业互联网的核心,是智能制造的关键。工业大数据分析作为工业大数据的核心技术之一,是工业智能化发展的重要基础和关键支撑。

本文将结合作者在工业领域多年的实践应用经验,力图对工业大数据分析技术的应用思路、方法和流程进行总结,旨在为企业开展大数据分析工作提供技术和业务上的借鉴。

在本文中我们将一起研讨和思考:

工业大数据分析的特殊性;

工业大数据分析的困境及难点;

工业大数据分析的基本框架;

工业大数据分析该如何开展?

工业大数据分析技术在实践应用中的思路与方法

01 工业大数据分析与传统数据分析的差异性及特殊性

工业大数据分析是利用统计学分析技术、机器学习技术、信号处理技术等技术手段,结合业务知识对工业过程产生的数据进行处理、计算、分析并提取其中有价值的信息和规律的过程。从过程与目标角度看,工业大数据分析和传统统计分析、商业智能分析涉及的学科和技术大同小异。但从分析理念和特点上看,工业大数据分析又有其自身的特殊性。

首先,进入大数据时代,数据的变化往往引发工作方法和价值体现的改变。对于数据的变化,非工业领域往往强调数量上的变化;但在工业领域,则更注重数据完整性和质量的提升。工业现场往往对分析结果的精度、可靠度要求高,加之工业对象和过程本身也很复杂。因此,工业大数据分析方法的重点是通过数据条件的改善,结合相关分析技术的有效应用,得到质量高的分析结果。

此外,工业场景的边界往往都有专业领域的机理来约束。对于复杂的工业过程数据分析,往往不能仅局限于相关关系分析,需要强调工业领域业务知识和数据分析过程的深度融合;强调复杂业务问题简化和分析结果的可解释性,而不是简单地追求数据量大与分析算法的复杂和先进性。一言以蔽之,工业大数据分析需要在工业具体业务要求的边界下,用数据思维和数理逻辑去严格地定义问题,采用“数据驱动+机理模型”的双轮驱动方式去精确表征、有效解决实际问题。

02 工业大数据分析的困境及难点

工业大数据分析的困境及难点主要体现在对工业对象(过程)理解和认知要求的高标准和一致性、工业大数据建模的复杂性和反复性、分析结果的可靠性和确定性三个方面。

第一. 工业大数据分析对数据分析人员的业务背景认知能力要求较高

数据分析师不能按照以往思路,对业务相关对象、数据情况初步摸底认知后就匆匆开展具体分析建模工作。而针对工业对象和过程的复杂系统,不同的场景下业务问题之间的关系往往会发生改变,加之数据缺失严重、噪声大、业务含义代表性强等因素,理论体系下的数据分析相关理念与技术很难直接适用于此类场景的变化和复杂度要求。如若数据分析团队对研究工业对象认识不够深入或“片面性”理解,往往会导致分析出来的结果是只是证明了领域内业务机理/常识的正确性或某一公认理念,就会经常出现项目研究投入高、产出低的问题。

因此,工业大数据分析需坚持的原则是分析和应用都要结合具体的流程,分析工作开展前要保证数据条件符合业务场景要求。

第二. 工业大数据建模算法的复杂性和过程的反复性使得整个实现过程较为“繁琐和曲折”

在开展工业建模时,虽然基础算法原理和应用方式的变化不大,但运用此类算法的过程却极大程度地“曲折”,往往需要结合业务知识和数据情况将算法嵌入到实际的工业应用场景与逻辑中去,需要模型基于初次的分析结果不断地修正、迭代和完善,以此来提升模型的鲁棒性与准确性。此外,工业过程数据形式的复杂性、数据质量参差不齐等也使得工业大数据分析建模与有效应用的困难度加大。

第三. 工业产业模式及应用场景对工业大数据分析结果的可靠性和决策可指导性要求高,导致工业大数据分析应用的成熟化落地变得困难。

一般情况下,大多数企业的工业现场设备控制、工艺调整、质量管控等都已处在相对优良的阶段,而通过工业数据分析得到的概率性结论和现场实际有一定的偏差。此偏差可能是生产环节本身引起的,也有可能是数据采集环节的数据本身失真引起的,单从数据分析结果角度往往很难发现和解释具体差异引起的原因,导致大家对于分析结果的可靠性存疑。另一方面,企业业务人员对所从事的工业过程/经营管理等业务的认识原本就相对深刻,这就要求工业大数据分析能剖析、给出更深层次的业务实情信息或优化策略,只有分析得到的知识具有更高精度和可靠性时,从业务决策指导层面才具有实用价值,这也是工业大数据分析价值落地应用面临的挑战之一。

因此,工业领域的数据分析重点强调数据分析技术和领域知识融合来获取有价值的知识。当模型涉及到的因素很多、形成真正的复杂多维度问题且机理不清晰时,且往往没足够的数据来建立和验证模型,这时就需要充分利用专业领域知识进行“降维”,力求从有限的数据中分析出足够可靠的结果。

我们在实践中认识到工业大数据分析的瓶颈难点,往往不是计算机存储和处理数据的能力,而是蕴含工业机理的数据关联关系的复杂性。这种复杂性使得传统的数据分析方法难以奏效,无法从数据中获得质量更高、价值更大的知识,如果没有合适的思想和技术手段,面对工业大数据价值的蓝海时,就会无从下手。

工业大数据分析技术在实践应用中的思路与方法(下篇)

一、工业大数据分析的基本框架

目前,业界在开展工业大数据分析时主要遵从CRISP-DM分析流程,以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个步骤,如下图所示。此流程相关步骤存在多处循环和反复迭代,如业务理解和数据理解、数据准备和建模之间,整个分析过程需要在不断交替中深入进行,甚至会出现模型验证评估和业务理解之间的修正调整。

图 1:CRISP-DM方法

由于工业数据关联关系复杂、工业数据质量差、工业场景的分析要求高等导致CRISP-DM方法在工业领域的具体应用中遇到一些问题。加之,工业大数据分析过程中往往需要对业务和数据进行充分解读,难免会出现大量无效的循环往复的工作,导致在用CRISP-DM方法分析时效率较低。所以,在工业大数据分析过程中,用好CRISP-DM的关键是减少上下步骤之间的反复,避免单向箭头变成双向。更需要注意的是,要尽量减少模型验证评估失败后重新进入业务理解这样大跳跃的反复。这就是在前文提到的在开展工业大数据建模前要固化好分析场景和评估确定好数据条件。

二、工业大数据分析具体如何开展

长期实践来看,CRISP-DM模型须补充进新内涵才能更好的指导工业应用场景的工业大数据分析。CRISP-DM模型在工业大数据的中的应用推进,主要分以下几个阶段:

01 业务理解

明确业务需求和数据分析的目标。

业务理解的过程通常需要将专业领域的知识和数据模型充分融合,业务领域的知识可作为工业建模的输入变量融入到工业分析模型中,也可以作为知识去辅助建立高效地诊断、检测、预测模型从而指导工业应用。工业大数据分析需要数据分析师深入理解业务,且要对这个“度”把握和控制好。一方面,只有数据分析师深入理解业务,才能实现领域知识与数据分析的有机融合,得到高水平、有价值的分析结果;另一方面,成为一个业务领域专家需要多年的积累,完整掌握业务知识是不现实的,需要专业人员及环境的多项支持。因此,为提升工业应用现场业务认知深度,企业基本是采用业务咨询顾问和数据分析师配合组队的模式来开展工业大数据分析工作。

02 数据理解

准确建立数据和业务间的关联关系,从数据的角度深度解读业务。

数据分析师会习惯性地把工业大数据分析过程中遇到的分析效率低、数据信噪比低、机理融合难、错误结果多等问题归结到数据质量层面,而忽略在数据理解阶段的深层次问题,而数据理解恰恰是数据建模的关键所在,也常常是数据分析过程中大家的盲点所在。数据理解需要从数据类型状态、数据质量条件和数据间的关联关系等方面开展判断论证,确定是否满足业务场景的要求。

03 数据准备

为工业建模分析提供干净、有效的输入数据源。

工业企业数据准备环节主要为解决业务应用问题开展数据集成治理,实现数据资源的互通和共享,提供工业建模所需的数据。通常需要成立专项数据治理组织,通过数据集成和定期运维等方式保证业务系统和线下数据准确与完整。此外,工业过程数据由于传感器故障、人为操作因素、系统误差、异构数据源、网络传输乱序等因素极易出现噪声、缺失值、数据不一致等情况,鉴于此通常需采用一定的数据预处理技术,消除数据中的噪声、纠正数据不一致、识别和删除离群数据,来提高算法模型的鲁棒性,防止模型过拟合或欠拟合。

04 数据建模

对业务和数据进行深入理解,选择合适的算法和建模工具,并对数据中的规律进行固化、提取,最后输出数据分析模型。

工业模型不同于数据分析中的聚类、分类、回归等算法,它更多的是基于业务机理知识与算法融合后解决实际业务问题的一套理论体系或业务机制。数据建模的本质是发现知识和固化知识,工业领域的知识主要通过试验\试加工等手段获得,把累次试验加工所用到的参数慢慢地固化下来,最终得到稳定的产品质量,此逻辑对工业领域的数据建模同样有效。

例如,我们在给航发某厂做外场服务备件年度需求预测分析时,首先定义业务场景及需求是面向服务部提供外场备件的需求预测服务,解决外场备件需求预测不准、不及时的问题。然后,通过数据集成和数据预处理等手段获取外场备件预测相关的近十年发动机故障信息、装机记录、计量信息和发货记录等数据,在对数据进行充分理解和探索后,结合厂内业务专家的业务知识,在开展工业建模时将备件细分为换件频次低但价值高的故障件(特殊消耗件、周转件)和换件频次高、换件量波动大且价值密度相对较低的消耗件(一般消耗件),分别进行建模预测。最后,在不同的规则约束下,通过模型评估和工程实际应用效果,优选出合适的算法模型,实现故障件和消耗件各自细分类别下的准确预测,极大提升了服务备件计划的准确性和外场服务保障的及时性。

图2:外场服务备件需求预测建模思路

因此,工业大数据建模需要对已有工业领域的知识深入理解,并在数据建模的过程中予以参考和融入,以通过数据分析获得大量“不纠结于因果的知识”,这是得到高质量模型的关键所在。对于企业而言,鉴于场景化数据积累量和全面性短期难以全面达到全面数据分析的要求,可优先以挖掘到的新知识\方法相比现有业务环节在结果和流程上得到提升或改进为原则,以保证分析建模工作达到基础的应用效果,然后在此基础随着数据积累和认知提升,持续改进优化。

05 模型的验证和评估

确认数据分析的结果或模型是否满足具体工业应用场景的使用需求的过程。

工业界通常追求分析结果具备高度的可靠性及准确性。所以,验证与评估的重点是验证模型在什么范围内有效,有效程度是多少,不能只盯平均精度。也就是说,需要分场景去验证和评估模型,结合数学精度要求与专业领域知识综合进行评估和改善。例如,我们针对某钢厂开展的硅钢纵条纹工艺参数优化项目,通过领域知识发现硅和铝的成分占比对生产工艺影响较大,但在工艺数据层面,此类关键参数控制的比较稳定,其对纵条纹影响的重要性就完全显现不出来。因此,生产控制过程中涉及到的工艺参数优化,其目标应该是首先选择波动较大的参数进行重点采集与调整,其次在设计区间约束的范围内对模型进行控制与调整,开展实际生产验证,进而获得对生产控制策略改进优化后的模型。

06 模型部署

将训练、分析得到的知识模型,以便于用户使用的方式和要求重新固化,形成便于用户使用的形式的过程,其成果可以是研究报告、可重复使用的数据挖掘程序或模型服务程序。

分析应用模型通常以软件定义和呈现的方式应用在企业的业务、管理或者监控系统中。模型在运行过程中需要持续地进行优化,否则模型就没有持续生命力,因为其精度很大程度上决定于数据的质量,往往模型在部署之后,由于缺乏数据的管理维护,导致数据的质量较差或者不满足采集条件。因此,要保证分析模型给企业带来效益,需要花费人力和物力保障数据的采集条件,从而为提高数据的精度奠定基础。同时,随着数据质量的提高和数量的增加,可能会挖掘出新的知识或规则,需要定期对模型进行完善,这也是推动模型不断优化的动力。

结语

随着工业大数据分析技术体系的不断成熟、企业数据资产的不断沉淀、应用场景的不断延伸、数据化意识的不断深化,工业大数据应用必将是企业数字化转型的持续动力和重要着力点。未来,在新技术条件下,我们将同各类工业企业一起着力于实现贯穿于产品研发设计、生产、管理、仓储、物流、服务等各业务环节和全流程的大数据采集、存储、管理和分析应用,利用工业大数据分析技术和解决方案融合应用能力,挖掘工业数据的深层次价值,达到改进产品设计、提升生产效率、提高产品质量、降低企业成本、提升运营能力等多项目标,为提升企业的生产力、竞争力和创新力不断赋能。

 
   
1826 次浏览       14
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
最新课程计划
信息架构建模(基于UML+EA)3-21[北京]
软件架构设计师 3-21[北京]
图数据库与知识图谱 3-25[北京]
业务架构设计 4-11[北京]
SysML和EA系统设计与建模 4-22[北京]
DoDAF规范、模型与实例 5-23[北京]
 
最新文章
大数据平台下的数据治理
如何设计实时数据平台(技术篇)
大数据资产管理总体框架概述
Kafka架构和原理
ELK多种架构及优劣
最新课程
大数据平台搭建与高性能计算
大数据平台架构与应用实战
大数据系统运维
大数据分析与管理
Python及数据分析
更多...   
成功案例
某通信设备企业 Python数据分析与挖掘
某银行 人工智能+Python+大数据
北京 Python及数据分析
神龙汽车 大数据技术平台-Hadoop
中国电信 大数据时代与现代企业的数据化运营实践
更多...