清研智谈 | 经济普查数据挖掘可视化分析探究与实现

清研智谈 | 经济普查数据挖掘可视化分析探究与实现

经济普查与人口普查、农业普查组成三大周期性全国普查项目。经济普查每五年进行一次,分别在逢3、逢8的年份实施,我国已在2004年、2008年、2013年、2018年开展了四次全国经济普查。今年开展的是第五次全国经济普查。

经济普查是国家为掌握国民经济第二产业和第三产业的发展规模及布局,了解我国产业组织、产业结构、产业技术的现状以及各生产要素的构成,摸清我国各类企业和单位能源消耗的基本情况,建立健全覆盖国民经济各行业的基本单位名录库、基础信息数据库和统计电子地理信息系统,为研究和制定国民经济和社会发展规划,提高决策和管理水平而进行的一项大型国情国力调查。

我国经济普查数据研究的现状

我国对经济普查数据质量的控制和评估贯穿于普查工作的全过程,从事前清查、事中登记录入汇总到事后抽查,都制订了相应的数据质量控制和评估办法。但现阶段,我国统计机构对经济普查数据的研究与国外存在较大的差距。欧美等大部分发达国家对经济普查数据的研究已经进入到 Web应用、数据仓库应用以及智能数据分析技术应用阶段,我国统计机构还未能将智能数据分析技术真正应用到经济普查数据中,仍较多的使用网络技术和数据库技术来获得一些结果。在我国经济不断发展、普查过程中调整数量不断增加的形势下工作量变得不堪重负,且过多的人工操作环节存在较多的失误机率,并会引起工作的滞后性。因此,普查工作需要依靠更高的科技进行网络数据传输、科学利用智能数据分析方法或数据挖掘方法研究普查数据结果的辅助。

我国经济普查数据挖掘需求分析

经济普查是全国重大的大型国情、国力调查,涉及全部的法人单位、产业活动单位和个体经营户。根据调查对象的不同,其调查内容也不尽相同。而经济普查数据挖掘可视化分析归根结底还是数据处理,这就离不开数据存储的管理。

数据存储的管理即针对经济普查数据处理业务的需求,以数据录入存储和数据分析处理为两个主要功能环节,通过数据库存储技术满足其录入需求,数据库脚本语言技术满足其数据表处理需求,基于此思想完成数据储存的需求分析,并通过需求分析的逐步深入,确定用户管理、数据录入、数据查询和汇总、系统导航帮助以及系统安全管理等功能点。

智能数据分析则是在数据采集、统计和汇总的基础上,利用智能化的分析的模型挖掘和发现普查数据关系、经济发展问题、经济水平地域划分、经济指标等级状况以及基于经济指标的全国经济发展布局对策建议。智能数据分析需要满足对现有数据库技术无法统计出的数据报表进行有效统计和聚类、需要协助数据库技术以期更全面地发现问题从而更全面地掌握全局、需要为经济发展的下一步规划做好基础分析工作和预测建议。

经济普查数据挖掘需求分析汇总

经济普查智能数据分析方法与实现

普查数据质量是普查工作的生命线,针对我国“五经普”调查对象数量大幅增加、查准查实普查单位难度空前加大、首次统筹开展投入产出调查等新特点,经济普查智能数据分析方法至关重要。首先,我们对原始数据进行预处理,包括数据清洗、缺失值处理等。然后,我们利用聚类分析对产业进行分类,并利用关联规则挖掘发现了不同产业之间的关联关系。最后,我们利用柱状图、折线图等可视化方法展示不同产业的产值、就业人数等信息,以及经济增长、就业等随时间变化的趋势。

常规的智能数据分析种类繁多,比如粗糙模糊集、概率粗糙集、遗传算法、基于决策树的分类、贝叶斯分类、层次聚类、贝叶斯网、马尔科夫网、影响图决策以及增强学习型算法和数据融合分析等。结合经济普查特点,可重点运用分类和聚类的各种方法实现对经济普查的智能化分析,主要包括模糊聚类算法、MMD算法(又称最大最小距离算法)、K-均值聚类法、FCM算法(又称模糊的c-均值聚类法),这四类的基本原理、算法过程以及其于经济普查数据分析的实践运用于经济普查数据分析效果良好,能很好地解决经济普查数据分析中的问题。

模糊聚类算法

模糊聚类算法是一种广泛应用的模糊数学方法,它根据研究对象本身的属性来构造模糊矩阵,并模糊聚类算法是一种广泛应用的模糊数学方法,它根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系。聚类是无监督学习的一种重要方法,旨在将相似的样本聚集在同一个类中,使得它们之间的距离或相似度较高,而非相似的样本则分散在不同的类中。

模糊聚类算法通常用一个向量来表示一个数据点的归属,向量中哪个维度的数值更大,意味着该数据点距离该维度对应簇更近,即归属于该簇的概率越大。在模糊聚类分析中,每个样本点对各个簇的隶属度是不同的,而不仅仅是属于某一类或不属于某一类。

MMD(Maximum Mean Discrepancy)算法

MMD(Maximum Mean Discrepancy)算法是一种度量两个分布之间差异的方法,尤其在迁移MMD(Maximum Mean Discrepancy)算法是一种度量两个分布之间差异的方法,尤其在迁移学习中被广泛用作损失函数。它是基于高斯核函数来计算两个不同分布的样本的均值和差值的度量方法,可以有效地判断两个分布的相似程度。

MMD的优势在于其不需要借助额外的参数,而是直接利用数据本身的分布特性进行计算。此外,MMD也被视为一种基于欧式距离的模式识别算法,能够避免聚类种子过于临近的问题,从而具有更好的性能。

K-均值聚类法

K-均值聚类法是一种非监督学习算法,其主要目标是将数据分为K个组,使得K-均值聚类法是一种非监督学习算法,其主要目标是将数据分为K个组,使得每个组内的数据点之间的相似度尽可能高,而不同组之间的数据点的相似度尽可能低。它的基本思想是通过迭代寻找K个聚类中心,然后将每个数据点分配给最近的聚类中心,形成K个簇。

模糊聚类算法与K均值聚类算法(Kmeans)有着密切的关系。Kmeans算法是根据样本之间的欧氏距离来进行聚类的,而模糊聚类则是基于样本之间的相似性度量来进行聚类的。因此,在进行模糊聚类分析时,可以借鉴Kmeans算法的一些思想。

FCM算法

FCM算法,全称为模糊C均值聚类算法,是一种基于隶属度的软聚类方法。它可以将数据集划分为K个类,每个样本都有属于每个类的隶属度,并且所有隶属度之和为1。

FCM算法的目标是通过优化目标函数来确定聚类中心和隶属度矩阵。目标函数如下:J_m(U, v)=∑_{i=1}^c ∑_{k=1}^n x_{ik}^m ‖x_k-v_i‖^2,其中v = (v1, v2,…, vc),m > 1为模糊参数,该参数决定了聚类的模糊度,也就是数据点可以成为多个类的程度,大多数情况下m=2。

经济普查智能数据挖掘可视化分析展望

伴随大数据时代、物联网、人工智能等技术的到来,经济发展形势更加复杂,我国政府既关注发展速度,又关注发展质量,这也是衡量国家综合实力的重要体现,做好第五次经济普查,加强数据挖掘技术和方法研究,对提高经济普查数据利用价值具有重要的意义。经济普查智能数据挖掘可视化分析结合经济普查的重点、难点,必将具备以下特点:

涵盖经济普查的全过程

经济普查从数据采集到录入数据库系统,到对数据进行有效分析,最后产生数据报表和呈现数据分析结果,经济普查智能数据挖掘的可视化需具备以上所有过程中涵盖的各项功能的完整性。

数据存储系统保障普查数据的时效性和共享性

以往的数据普查通过普查人员走访、人工录入电子设备,现有系统能满足普查单位直接网上录入,普查人员实时查看审核,时效性强;同时,普查数据网络化能让从上到下的各级单位 对数据进行查看和操作,避免了上级需要下级进行漫长的数据报送后才能了解数据情况的问题,系统实现了数据的共享。

智能数据分析系统应用目前热门的数据挖掘技术

数据挖掘技术在网络信息出现“大爆炸”现象但知识贫乏的背景下而生,目的是能从海量信息中发现潜在的规律和有效的“知识”,全国经济普查数据满足大而多的特点,虽然具备一些潜在规律,但依然避免不了存在很多内在的难以发现的问题,高效的可视化数据挖掘技术需有效地弥补这一缺陷。

MatLab绘图呈现结果精准化、全面化

MatLab是一个应用非常成熟的数学软件,其绘图功能能够实现各种图形的绘制,将其运用于经济普查数据分析结果的呈现,保障绘图数据的精准化。同时,MatLab能相对容易地进行三维图的 绘制,对经济普查数据走势的绘图将更直观、更全面,这是目前一般统计类软件所不具备的功能或拥有该功能但绘图效果没有那么明显。

总之,经济普查数据的挖掘与可视化分析是大数据时代背景下的一项重要任务。通过对经济普查数据的挖掘与可视化分析,我们可以更好地了解国民经济的运行状况,为政府制定宏观经济政策提供有力的支持。在未来的研究中,我们将继续探索更加高效、准确的经济普查数据挖掘与可视化分析方法,为我国经济发展做出更大的贡献。

撰稿 | 王秋慧 清研集团智能数据挖掘研究部研究员

编辑 | 陈泽玺

图片 | 网络

相关文章