您的当前位置:首页正文

基于移动通信大数据的城市人口空间分布统计

2024-03-27 来源:好走旅游网
计

2018年第5期

JISUANJI YU XIANDAIHUA

算机与现代化

总第273期

文章编号:1006 -2475 (2018) 05 -0045-05

基于移动通信大数据的城市人口空间分布统计

周天绮

(浙江医药高等专科学校医疗器械学院,浙江

宁波

315100)

摘要:针对移动通信空间大数据的计算与分析,通过Geometry API构建ArcGIS和Hadoop的集成计算平台。采用COO定

位技术采集手机用户位置数据。在ArcGIS中用VotoaL图构建地图信息模型;通过圈层人口密度计算构建人口密度模 型;通过DBSCAN密度聚类算法构建职住地分布模型;采用核密度估算构建报警电话分布模型。实验选取中国移动杭州 分公司201744至201746之间的移动通话数据,结果显示:杭州市区人口密度Moran’s I值为0.46724,人口分布的总体 特征表现为集聚,高值集聚涵盖滨江、上城、下城全境和江干、拱墅、西湖的部分区域。与杭州市2015年全国1%人口抽 样调查数据分析结果基本一致。以上各模型适用于城市人口时空分布统计。

关键词:移动通信;城市人口; ArcGIS; 中图分类号:TP391

Hadop;模型;空间聚类

文献标识码:A

doi: 10. 3969/j.issn. 1006-2475.2018.05.010

Spatitil Distribution Statistics of Urban Population Based on Mobile Communication Big Data

ZHOU Tian-qi

(Medical Devices Institute, Zhejiang Pharmaceutical College, Ningbo 315100, China)

Abstract : Aiming at

tlie calculation

and

analysis

of

big

data in mobile communication space,

the

ArcGIS and Hadoop is built through Geometry API. COOpositioning technology is adopted to collect mobile phone user locationdata. At the model is built

same time, through the

in density

ArcGIS, Voronoi calculation of the

diagram

is

used the

to

construct the

of

map the w

circle. Then, distribution model

ted based on DBSCANdensity clustering algorithm. Moreover, the kernel density estimation is used to build the alarm telephone distribution model. The experiment chooses mobile data from Hangzhou Branch of China Mobile Phone between 2017-04 and 2017-06. The result shows general characteristics of acheng, as well

as

that the

value

of Moran i s I for Hangzhou distribution

is

urban

population density is 0.46724. It

High the

value results

also

population parts

agglomeration. Xihu. Thus,

agglomeration in

of Jianggan, Gongshu and in

this eare

sults of data analysis of 1% population sampling survey Hangzliou in 2015. Therefore, the above models

spatial and temporal distribution statistics of urban population.

Key words: mobile communication; urban population ;ArcGIS; Hadoop; model; spatial clustering

;引言

国外使用G

始于

20

IS

连续的规则格网上描述人口的分布,它的优点是数据 被记录在高分辨率的规则栅格上,提供了相对更加详

技术对人口空间分布的应用研究

细和精确的人口分布数据[3]。

我国的人口空间分布统计研究始于

2003

1957

世纪

70

年代,其中以美国最为典型。美国于 年。

1970-1980年人口普查率先采用了自动化技术,发展

[1 ]。

年廖顺宝等选择一系列影响人口分布的因子,

了一套地理基础文件,独立坐标地图编码系统

Lansan

应用多源数据融合技术,生成模拟青藏高原人口分布 的

1 kmx 1 km

基于土地覆盖、坡度、道路、夜间灯光和城市 栅格表面[3]。

密度等地理因子计算回归方程系数,把人口统计数据 空间化到

1 kmx 1 km

已有研究中存在的主要不足:1)用自然和社会 经济特征综合估计法来间接统计人口密度分布,数据

的格网上[2]。栅格模拟技术在

收稿日期=2018-01-08

基金项目:教育部人文社会科学研究一般项目(17YJA910005);国家统计局统计科学研究项目(2016LY65)作者简介:周天绮(1976-),男,浙江兰溪人,浙江医药高等专科学校医疗器械学院副教授,硕士,研究方向:大数据处理,医

疗信息技术。

46计算机与现代化2018年第5期

够精确,无

人口数据,人口统计数据不

市规划、

’ IS

分析

2城市人口空间分布统计模型

用手机

生的用户位

格化的基础

模型、人

加精确的人口分布数据;2\" C大数据

充分利用

及时更

,统计方法、手段和

城市人口空间分布统计,在城市

,以相关算

模型为基础,建

新,人口统计既耗时成本又高。

用户用手机发送、 用户的时空 小

和周期

。根据移动

行时,可原理,网络进行

模型、 分模型、报警电话分布模型。

2?地图信息模型

根据手机通信时的基

标,使用

ArcGIS

新,这种定期产生的大和轨迹数据[4]。

期其

点图层

Stati〇n[5]。根据这些基站点

规则采样的手机 数据进行分析和

,采用大数据

构,结

ArcGIS

强大的

制作、空

间分析能力,可高 市人口的空间分布统计。

用手机大数据资源,在

ArGIS

中建一套城

市人口空间分布统计模型: 模型、人口密度

模型、

分模型和报警电话分布模型等。基于 ArcGIS

Hadoop集

构建城市人口统计平台,

实现大数据的空间相关性分析及其数据的可视化表 达,分析城市人口的数 分布、

、报

电话热点分 ,

市人口服务管理、公安全和经济发

支持。

1手机定位数据的采集

手机定

一种

赖于GPS、

有广阔应

用前景的技术,

/小区(Cell of Origin,

COO\"定

、TOA (

Time of Arrival,TOA

\"定

定 [5]。本实验采用

COO

手机用

时的位置数据。

coos

种单基站定 ,

动设

备所属基站的坐标视

动设备的坐标,这种定位方

基站覆盖的范围。在基

集的城市中心

,小划分

小,定 可以达

50 m

以内;越靠 市边缘,基分

分散,小

径越大,定 大

公里。

基于OO

的手机

数据 了手机用

时连接的基站的 ,

用户

唯一识别号、

时间、基

数据。)用户隐私,剔除手机号码信息,用户

I

用加密后的

IMSI号

表示。移动用

数据格式如表1所示。

表1移动用户位置数据格式

字段称

字段

用户I加密后的IMSI号

时间发生的时间时

时X

基 .纬度-基站纬度-主被叫主叫或被叫区号

手机 所在

数据构建

Voronoi图

(泰森多边形\"来表示手机基站

的覆盖范围,Voronoi图

是由一组两相邻的基站点连

线的

平分线连接组成的[5]。

先构建Delaunay三

角形,Delaunay三角形外接圆

的圆心是

Voronoi多边形的顶点;然后

连接

Delaunay三角形的外接圆圆心即可得到

Voronoi 图[5]。Voronoi图

具有以下3个特征% 1 \"每个

Voronoi

一个基站点;2 \"V

oronoi图

内的点到相应基 点的

;3)

Voronoi图

边上的点到其两

边的基站点的 相等。以上这些

表示

的覆盖范围,也能

基站之间的拓扑关

系[5]。所以,可用

Voronoi多边

小区,作

实际基站的覆盖小区。

杭州市

矢量数据进行

配及几何校正。

% 1 \"杭州市行政区划图;2 \"

:地

;3\"

杭州市

小区数据;4

\"

杭州市

小区分布。

GIS

矢数据图层进行坐标

手机

定位数据坐标系与

矢量数据一致[5]。方

市所

划分

多泰森多边

格,如1

所示。再根据实际

,将数、甚

格合并成一个工

格。按行政

统计人口时,可并

-街

道4

格,也可

、大型商场、风景

人口聚集 并网

格,以

人口统计的

图1基站相对应的泰森多边形图层

2018年第5期周天綺'基于移动通信大数据的城市人口空间分布统计47

2.2人口密度模型

针对手机通话时的位置数据,按照用户(进行 分组,对样本中的所有用户数据按照用户(以及时 间进行

[5]。 ,数据整

[5]。在

小数目

MinPts

的 ,则称

少出现的次数(

核心 值),工

。〖

MinPts代表用

1/2

现的天数至少要达到整个统计时段

现天数超

值,则用

并 用户(连续

1

小时内的通

。如果用

手机用户一小时一次的基

此基础上根据统计时段内手机连

所属的

Voronoi网格进行人口

核心

某用

如图

2

间睡眠时段定位点与工作时段定位点

频率最高的基 数量统计。

所示。

据圈层结构理论

层人口 的计算来

分析人口

与城市中心距离之间的关系,

人口的空间分

市心,武林场

杭州市 t

何中心,是杭州市

的商 段,人口密度

高, 所以

林 场

心。

其次,

市划分

层(0〜5

km

)、

(5〜20 km)

及外圈层(>20

km

)。

的层半径分别为:0• 5 km

、1

km

、2

km

,则第

i

个圈层

心的

r

可按公式(1)计算:

ri \\ (ri_1 _ri_2) +ri-1

如果第i个圈层穿越n

镇,则该圈层

的人口

可按公式(

2)

计算:

式⑵

^为第

i

个圈层的人口

;S

n

穿

:道

镇的面积;Pn为该街道或乡镇的人口密度^。

2?职住地分布模型

分析的关

根据居家和工

的时

段内用 的

聚类分析识别出工作

地和

。空间聚类分析由经纬度组成的

,是多空间的一个“

。聚类分析的结果是将

这些“点”分 “

簇”,并

可能

相似性较大的“点”

[6],

用户的集聚

DBSCAN ( Density-Based Spatial Clustering of Ap­

plications with Noise) 是基

的聚类算法。在整样本空间点中,各类目标 由一群稠密样本点组

的,这些稠密样本点被称 的低

分割,过滤低 ,发现稠密样本点。与其他聚类算法相比,DBSCA,不

受聚类数目的限制,

类计算

的 [6] 。

DBSCAN算 2

参数:1) G

。给定

径Eps内的

Eps ^

[6]。

Eps

值 动基站的

覆盖半径,则径为

E的范围内定位点可视为一簇。

2) 核心

。如果 的

Eps《

少 最

图2

某用户夜间睡眠时段定位点与工作时段定位点

2.4报警电话分布模型

采用核

分析报警电话在空间分布的总体

势,即报电话点集数据在几何分

的特点。核估算是在

报警电话的基

设定相应

的核 函数,然后用 所有报警电话的

函数

现报警电话的空间分布规律。假设空间上

分布的报警电话.

,X2,…,.为单变量

X

分布的一个样本,则

X

所 分布的密度函数

f

( X) 的核

估计 :

f(x) \\

\"?1 士 1(^_〇

⑶其中,K

(u

)

核函数,用高斯核函数表示;h

,估计结果 大。目前对h的值还没明确的定义,

进行多

进行

110、119、122

报电话的空间分布,

分析公安、消防、 安事故的高发

和时段,

、季

、年生成各类安全事故的统计报表,以 饼图、直方

多种形式在

表现。

3基于ArcGIS和Hadoop集成环境的

城市人口空间统计平台

ArcGIS 通过 Geometry API 实现与 Hadoop

交互,

通过

Geometry API将

数据传送到

Hadoop上之后,大

的分析工

Hadoop

。在

ArcGIS

Model Builder构

建任务模型以 自动化地执

行工

海量异构移动

数据的 ,构

5

层 构,自底往上分别是:数据源、计算层、

存储层、模型层和应用层,如图

3

所示。

48计算机与现代

1

化2018年第5期

于,表示空间正相关,即高高相

-1

低低相邻;Mo­

ran’s I

,表示空间负相关,即高低相

低高相邻;M随机分

oa ’ s I

接近于0,表示空间无相关性,即

工具可使用输

性创建一个新的输

z-score、p-value

类 类

的以下属

。如

:Local Moran’s I index、

和 cluster/outlier type (COType)z-soe

值,如果

高的,表示和相

COType字

相似段是

HH

值高于平均值,则,

图3

基于ArcGIS和

Hadoop集成环境的处理架构

数据:电运营商的各类异构原

数据,、用

、基参数等,进行数据清洗和

&

蔽用户隐私

,剔手机号

,用户

I

用加密后的IMSI号

表示。其

关键字段(11 ] &

计算层%开发高速数据 组件、数据

组件

ETL

处理,并能准确匹配

层定 ‘

的各类计算模型,进行

Map/Reduce计

算。

存储层% A

rcGIS

PostgreSQL

数据库。

构建基于

PostgreSQL的分布式关系型数据库集群和 NLQL

存储集群,

结构化和非结构化数据存

彳诸[12]。

模型层%在该层ArcGIS

通过Geometry API实现

Hadoop交

,ArcGIS

可以从

Hadoop

Pdfs

文件

系统

数据,并数据转化为ES

中的几何对

、 空间数据进行空间分析。在ArcGIS

的建

模工

构建各类模型,并蔽存储层的异构模块,

向前段用

统一的接口。

应用层:通过 ArcGIS 中的

ClusterandOutlierA-

nalysis、Kernel Density、Hot Spot Analysis

等工具进行

分析,并以可视化方式呈现城市人口的数

、报警电话热点分

&

4结果及分析

本文实验选取中国移动杭州分公司

2017-04

2017-06

之间的移动 数据,根据

2017

8

10

日公布的《中国动2017

年期

报告》,国

动用户

8. 35

亿,市场份 比

61.53%,

比例

可推算出总的人口数量。

4?人口密度分析

ArcGIS

中的聚类和异常分析工具(Cluster

and

Outlier Analysis)计算全局或局部

Moran’s I

,它可以 估人口的分 聚集分布、离散分 随机分

布。Moran’ s

I

的值在[

-1

,1 ]之间,Moran ’ s I

接近

代表 统计

的高值聚类;如果 值小于平

均值,则

COType字

段是

LL

,代表具有统计显著性的

低值聚类。如果一个要素具有较低的

z-sc〇re(

<

-1. 96)

,则表示空间异常,如果

值高

围对

象的属性值,则COType字

段值为HL

,反之

COType

字段值为

LH

根据移动

数据分析

的杭州市人口

空间分布如图4所示。市人口

Momn’sl

值为

0.46724,z-sc〇re

得分为

9. 450127,人口分布的总体

特征表现为集聚。杭州人口 的高值集聚涵盖滨江、 、

和江干、

、湖的部分

;余杭、

的人口分布呈现离散 ,仅在

、瓜

、临平、仓前、

表现为集聚。

图4杭州市人口密度空间分布图

图5

杭州市人口密度圈层分布图

杭州市人口

层分布如图

5

所示

。“

层”人口分布高度集聚, 值为

17946

人/k

m2,

并伴随距密度中心距离的增加递减至174人/km

2,比

值为

103,空

间规律符合

Smed

模型,体现

核心-边

的空间

&

2018年第5期周天綺'基于移动通信大数据的城市人口空间分布统计49

4.2职住地聚集分布分析

为了数据的准确性,以

06) 2317

3

(2017-04

及分布进行分析,结果如图8所示。

2017-

数据统计周期, 日6点,工

3

91

用 日

现时间设为

9

点 点。这

用 天,工

现时间设为

61

天,DBSCAN密

6

度聚类算

31

、工 时间阈值分别取4天、

天。杭州市

分布如图6所示。由大

:中心

,以

6

可,杭;次州现

3

,包括江南城、临平城和 #

、余杭、良渚、临浦、.

、.

外围组团。

杭州市工 分布如图7

所示。工

分在杭州 发区、

、余杭

发区、高新开发区、

以及武林湖滨、钱江新城、城北运 大型商圈。

图7杭州市工作地分布图

4?报警电话热点分布

估算是在

报警电话所在基站的空间设定一个核

函数,然后用

所有报

电话的

函数

现报警电话的空间分布规律。

此方法分析报警电话的热点分 可以识别罪案

高发

,还可以一

发生

由高到低连

续变化的。核

估算关

h

值的

h

设 1km

以 2017-04

201746 这 3

打的 110 报

警电

样本,采用核密度函数对110报电话数量

图8 110报警电话核密度估算

3

报电话

17296

起,报 点来,

报电

数最多,其 ,报电数最少的 和西湖区。

、江干闸

口、 东新、江干城东是3

里报 数最多

报警电话的热点分布分析可以反映罪案发

生的聚集

,有助

力资源的

配置,也可

高公众在相关 活动时的

5

结束语

与杭州市2010年第

6

国人口普查和杭

州市

2015

年国

1%

人口抽样调查数据分别进行分

析对比,

关杭州市人口

分布、 和工

分 与普查数据分析结果基本一致;报电分

与杭州市公安部门发布的治安通报结果

相符。说明 模型可用

动 大数据下的城市人口空间分布统计,可用

市规划、

公共安 多 ,应用前景。下一分析 比、 比、内向

标对杭州

市的

平衡

进行评估,为杭州市城市发展规划

空间大数据服务。

参考文献:

[1

]

许亮.GIS支持下的武汉城市圈人口空间分布与预测研

究(EB/O

L]. http://www. docin. com/p-72961833. html,

2010-08-22.

[2

] 王雪梅,李新,马明国.

基于遥感和GIS的人口数据空间化研究进展及

分析[J].遥感

与应用,

2004,19 (5) :320-327.

[3

] 陈学刚,杨

.

基于GIS的 市人口空间分布模拟与变化规律研究[J].干

资源与环境,2008,

22(4) :12-16.

[4]

峰,唐美华.基 动通信大数据的城市人口管理解方案[J].移动

,2014,23(13):38-41.

[5

] 许宁.基于手机定位数据的

分布特征研究

[D].

:

中南大学,2014. (

下转第5

5

页)

2018年第5期陈晓等:基于模糊推理的构件度量55

理人员每天知晓并把控代码质量,及时指导开发人员 提高代码质量,进行构件重构。

本文与人工专家评估构件质量的开发过程进行 实验对比,对比的指标是平均开发成本,其计算方法 是构件完成开发过程的总时长除以千行代码数的平 均数值。针对各开发过程中,本文分别随机选取

人工专家

基数

1

19

[2] 李晓丽,刘超,金茂忠,等.软件构件的可复用性质量度

量[J].计算机应用研究,2007,24(6):280-283.

[3] 赵森严,夏琦.一种基于置信度的软件构件可信性度量模型[J].井冈山大学学报(自然科学版),2013(4):

64-66.

[4] 唐莹,张育平,陈海燕.一种基于特定领域的可信构件度量模型[J].计算机与现代化,2014(10):12-15.[5]

型研究[J].计算机应用研究,2014,31(5):1467-1469.

个构件样本数据,进行平均开发成本的统计计算。本

估质

程的

汪永好,曾广平.基于模糊集合的构件资源信任评估模

,实验结果如表8所示。

8

从表可以看出,基于模糊推理的构件度量开发

[6] 王燕玲,曾国荪.基于构件使用依赖关系的构件复用可信度计算方法[J].计算机应用,2015,35 (12): 3524-

3529=

[7] 齐晶晶,郭跟成.基于信息熵的软件构件度量方法[J]. 计算机应用,2006,26(5):1183-1185.

模式能够有效降低开发成本。由于本文提出的方法 能够自动化地执行,节省了人工审核的时间,因此相 较于人工专家评估构件质量的开发模式,本文的方法 能够降低开发成本。

表8

构件度量结果对比

平均开发成本/(小时•每千行代码-1)

人工专家评估构件质量基于模糊推理评估构件质量

10.3

[8] 上官盼利,雷航.构件内聚性度量方法研究[J].微计算机信息,2009 (18): 190-192.[9]梅 宏,谢涛.青鸟构件库的构件度量[J].软件学报, 2000,11 (5) :634-641.[10] 毛国蓓,李雪静,葛孝堃,等.基于软件构件质量模型的 度量及应用[J].计算机应用与软件,2005,22(5):1-.[11] Andreou A S,

5结束语

本文提出了一种基于模糊推理的构件度量方法,

Tziakouris M. A quality frameworl^ for devel­oping and evaluating original soft^vare components [ J ]. In­formation & Software Technology, 2007,49(2):122-141.[12] 祁华成,张广泉.基于特征点的枸件度量方法[J].苏

州大学学报(自然科学版),2008,24(2):47-51.[13] ISO/IEC 25010,

能够自动化地综合评价构件的内部质量,为构件入库 提供明确的参考依据,减少了人工参与的精力和时 间,降低了开发成本,大大提高了构件度量效率。不 过,目前还有一些问题需要进一步研究% 1)增加内部度 量构件质量的考察维度和模糊规则,以提高构件度量 的全面性;2)在推理机中引入人工神经网络,实现自动 化地产生新的模糊规则,以提高推理机的适应性。参考文献:

[1]薛云皎,王渊峰,余枝强,等.基于构件库管理系统的构

件复用度度量模型['.计算机工程与应用,2002,38(13)%81-84.

Systems and Software Engineering Systems

and Software Quality Requirements and Evaluation (SQuaRE) —Systemand Software QuD/ Models[S].

件质量度量模型研究[J].云南大学学报(自然科学 版),2015,37(1):31-2.

[14] 汪海涛,刘帅,姜瑛,等.一种基于模糊物元评价法的构

IshiharaT,Hotta K,Higo Y,et al. Reusing [C] // Proceedings of tlie 20th Worl^ing Conference on Re­verse Engineering. 2013:457-61.[16] 吴钊,尹朝庆.模糊专家系统推理机设计[J].武汉工

[15]

程大学学报,2003,25(1):80-82.[17]

Michael,.人工智能•智能系统指南[M].陈薇译.

3ed.北京:机械工业出版社,2012:56-82.

(

上接第4

9

页)

[6]

高硕,王铭杨,鲁旭,等.基于大数据的城市居民职住锚

点计算方法研究['].西部人居环境学刊,2017,32 ⑴%31-37.

马淇蔚,李咏华.2000-2010年杭州市人口分布格局时 国家统计局.2016年行政区划代码[EB/OL]. http://

[7][8][9]

空演变[J].经济地理,2016,36(8):87-92.

www. docin. com^p-72961833. html,2017-05-16.

CSDN.基站定位 LAC,CID 转经纬度[EB/OL]. http:// blog.cdn. net/zqrhzyj/article/detail/63301690,2017-3- 18.

[10] OneMap. ArcGIS的大数据挖掘和并行处理[EB/OL].

http ://blog. sina. com. cn/s/blog_ba3ace5f0101oqla. html, 2013-11-07.

[11]

周天绮,严奥霞.基于移动通信大数据的流动人口统计中

Hadop的应用研究[J].软件导刊,2015,14(3):36-38.

[12] 周天绮.基于移动通信数据的流动人口统计中的Hie

优化[J].软件工程师,2015,18(7):58-0.[13] 水真香.ArcGIS 统计工具介绍[EB/OL]. http://www.

360doc. com/content/14/0721/09/3046928 _ 395863623. shtml,2014-07-21.

[14] 一凡.空间自相关分析[EB/OL].http://blog. sina.

com. cn/s/blog_6c6780330101e2ad. html,2014-04-15.[15] CSDN.空间点数据分析与 ArCS[EB/OL]. http://bl〇g.

cdn. net/allenlu2008/article/details/46273425,2015-05-30.[16] 廳啦.ArcGIS 空间统计分析[EB/OL]. http://blog./na.

com. ci^s/l3log_8db49f0e0102wwpc . html,2016-07-17.[17] whwyy21c. ArcGIS10中有关空间统计分析的数学公式原理

及工具操作汇总资料[EB/OL]. http ://wenku. baidu. com/ view/ea8d3d55ad02de80d4d840c8. html,2012-04-10.

因篇幅问题不能全部显示,请点此查看更多更全内容