35 手机用户的精准识别
黄 昶 朱光普 张晓明
(中国石油大学(华东)石油
学院,青岛 266580)
摘 要:手机用户的精准识别属于模式识别的研究领域.针对不同的用户群体,本文提出了
不同的识别方案.针对信息较为齐全的本网用户,本文主要以 K均值聚类算法为工
具,以消费力度、通话量、以及手机交往圈为关键特征变量,识别出高端用户,并给
出了简单实用的 Fisher判别准则;针对信息大量缺失的异网用户,本文建立了新的
特征变量———高端交际圈,创造性地提供了一种多级分类识别方法,在较大程度上
保证了识别的精确性.然后,为了衡量本网用户和异网用户消费力度的差别,本文
采用匹配套餐的方法估计了异网用户月均消费;为了从不同侧面获取高端用户可
能的特征,比如靓号是否多被高端用户所使用,本文采用按价格排序的方法对各种
靓号类型进行了分级.最后,文章对模型进行了
.
关键词:模式识别 K均值聚类 Fisher判别函数 高端交际圈 套餐匹配 靓号分级
一、引言
随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,成为了人们
日常生活中不可缺少的一部分.人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及
其个人基本信息在运营商那里均有所
.某城市(以下称为本城市或该城市)某运营商(以下称为本
运营商或本网)需要通过记录的数据,精准地识别用户类型,以便针对不同用户推出合适的产品和服
务,同时吸引更多的高端用户.对用户的识别只能从运营商记录的海量数据中
用户行为特征,再
根据用户行为特征的差别给用户分类.这是典型的反问题,属于模式识别[1]的研究领域.
模型Ⅰ识别本网高端用户.本文首先进行无监督的模式识别,也就是利用 K均值聚类算法,
以消费力度、通话量和手机交往圈这几个关键特征变量对本网用户进行分类,进而描述出满足
题设的高端用户的特征,最后通过有监督的模式识别,即 Fisher线性判别方法给出判别准则.
模型Ⅱ识别异网高端用户.因为异网用户的信息只是部分被叫记录,得到的通话量和交际
圈的大小都很片面,而且缺少消费力度这一关键特征变量.考虑到高端用户的交往圈中也多是
高端用户,本文首先筛选出和本网高端用户有过联系的异网用户,并计算出其所联系的本网高
端用户的个数———高端交际圈,然后根据高端交际圈和其他特征变量,分级识别异网高端用户.
模型Ⅲ估算异网手机用户月均消费金额.本文假设不同运营商的用户在行为特征上极为相
似,因为用户的行为主要受工作、生活的影响,不同运营商的影响是次要的.故模型Ⅰ分出的本
网用户群在通话行为上应和异网用户相差不大,本文依据本网用户的通话时间匹配以相应的资
费套餐,从而估算出异网手机用户的月均消费金额.
模型Ⅳ对各种靓号进行分级.靓号的等级往往象征着用户的身份和地位,因此靓号的分级
135 手机用户的精准识别
工作对高端用户的识别也有一定的意义.靓号分级的工作要建立在人们感性认识的基础上进行
定量分析,得到理性的认识.为了定量衡量一个靓号的优劣,本文做了这样一条假设,即靓号价
格是衡量靓号好坏的唯一尺度.从网络上搜集靓号,分析比较价格,便可得出合理的靓号分级.
二、模型假设
1手机用户每个月的消费行为大致不变,即本文获得的数据能够较真实的反映用户很长一
段时间的行为特征;
2根据日常生活经验和题设条件,假设只有消费力度,通话量和手机交际圈的大小是用户
行为的关键特征;
3忽略运营商对用户通信行为(通话量和交往圈)的影响;
4和高端用户联系过的用户是高端用户的可能性较大;
5通话总时长即是通话量,不足整分钟的通话部分不考虑按整分钟计;
6假设靓号价格是衡量靓号等级的唯一尺度;
7不考虑对个人有特殊意义的靓号类型,比如包含个人生日的靓号.
三、模型的建立与求解
1模型Ⅰ———本网手机高端用户的识别模型
根据前文的分析,本文采用无监督的模式识别.无监督的模式识别也称为聚类分析,所谓聚
类,就是一个将集中在某些方面相似的数据成员进行分类组织的过程,聚类分析就是一种发现
这种内在结构的技术.就本题而言,具体过程如下:
(1)信息获取
研究本网用户的行为特征,需要从用户资料表和通话清单表中提取关键信息,本网用户的
消费金额可以从用户资料表中直接提取,通话时长和交际圈的大小只能从通话清单表中间接提
取,经分类汇总与去除重复等数据处理后得到用户通话时长与交际圈大小.模型求解过程中,主
要采用 IBMSPSSStatistics200,它功能调用方便,可视性好,效率较高[2].
(2)数据预处理
通过 SPSS对消费金额,通话时长和交际圈的大小三个特征量进行基本的描述统计,发现三
个变量都有明显过高的离群值,消费金额有负值,去除包含这些离群值的个案.由于得到的通话
时长与消费金额和交际圈不在一个量级上,这会使衡量近邻程度的距离失去意义,需进行三类
变量归一化,将数值归一到0~1区间的化方法如下:
X′i=
Xi-Xmin
Xmax-Xmin
, (1)
其中:
Xi为变量组 X中第 i个变量的值;
Xmin为变量组 X中的最小值;
Xmax为变量组 X中的最大值;
X′i为 Xi归一化后的值;
(3)进行分类决策
2 第三篇 手机用户精准识别
本文采取针对大量数据的 K均值聚类算法,这是一种根据近邻度进行动态聚类的算法.这
里我们采用欧氏距离作为近邻度的衡量
,欧氏距离的定义如下:
有 m个特征变量,即 m个指标,Y1,Y2…,Yn为用户集合{Y}中的 n个样本,记 Yi=(yi1,yi2,
yi3)
T,式中各分量的第一个下标是指第 i个用户,第二个下标是变量号,1,2,3分别代表交际圈,
消费金额和通话时长.
Yi与 Yj间的欧氏距离 dij的计算式如下:
dij [= m
k=1
(yik-yjk) ]2 12. (2)
K均值算法的原理如下:
先随机选取 K个对象作为初始的聚类中心.然后计算每个对象与各个种子聚类中心之间的
距离,把每个对象分配给距离它最近的聚类中心.聚类中心以及分配给它们的对象就代表一个
类.一旦全部对象都被分配了,每个类的聚类中心会根据类中现有的对象被重新计算.
下面三个条件中的任意一个都可以作为迭代终止的条件:
① 没有(或最小数目)对象被重新分配给不同的聚类;
② 没有(或最小数目)聚类中心再发生变化;
③ 误差平方和局部最小.
迭代终止后,算法收敛.
本文进行了多次分类试验,不断调整聚类个数,通过分析类中心和全体平均水平的差异,比
较类中心地分离程度以及离群点的多少,来比较聚类结果的效果[3].本文最终发现聚成四类时,
聚类效果最好(见表1).
表 1 四类本网用户的类中心各特征大小
类群 1 2 3 4 整体平均水平
交际圈 0026 0098 0009 005 0020
消费金额 0036 0175 0011 0076 0028
通话时长 0025 0097 0007 0055 0019
由表1可以看出,类群2高端性很明显,发现类群4的三项特征值也均满足了远高于整体平
均水平的条件,即其中类群2和类群4就是所谓高端用户.
由表2可以看出,类群2与类群4和其他群都有较好的分离,聚类效果良好.
表 2 类群中心的距离
类群 1 2 3 4
1′ 0 0173 0035 0055
2′ 0173 0 0207 0118
3′ 0035 0207 0 0090
4′ 0055 0118 0090 0
335 手机用户的精准识别
(4)基于 Fisher线性判别函数制定判别准则
Fisher准则的基本原理,就是要找到一个最合适的投影轴,使两类样本在该轴上投影的重叠
部分最少,从而使分类效果为最佳.如果在二维空间中一条直线能将两类样本分开,或者错分类
很少,则同一类别样本数据在该直线的单位法向量上的投影的绝大多数都应该超过某一值.而
另一类数据的投影都应该小于(或绝大多数都小于)该值,则这条直线就有可能将两类分开,这
也就是线性分类器的适用条件,若线性分类效果很差,则应改用非线性分类器.
采用 Fisher线性判别,回代判别结果见表3
表 3 Fisher线性判别回代检验结果
案例的类别号
预测类成员
1′ 2′ 3′ 4′
合计
初始
计数
1′ 113618 0 843 507 114968
2′ 0 6372 0 109 6481
3′ 768 0 202320 0 203088
4′ 482 99 0 35528 36109
百分比
1′ 988 0 07 04 1000
2′ 0 983 0 17 1000
3′ 04 0 996 0 1000
4′ 13 03 0 984 1000
已对初始分组案例中 992%的样本进行了正确分类
由表3可见,采用 Fisher线性判别函数进行判别,正确率达到了 992%,这种分类器对本问
题中用户的分群有很高的判别准确性,无需换用其他判别器.Fisher判别函数:
f1=103205y′i1+166063y′i2+10798y′i3-7042,
f2=422758y′i1+772984y′i2+443358y′i3-111393,
f3=36566y′i1+50802y′i2+30964y′i3-1943,
f4=203525y′i1+347196y′i2+238405y′i3-2615
,
(3)
这里,fi(i=1,2,3,4)表示第 i个 Fisher判别函数;Y′i=(y′i1,y′i2,y′i3)
T,表示用户集合中归一化后
的第 i个用户向量.
应用 Fisher判别函数进行判别的具体步骤如下:
① 待判用户向量 Y0=(y01,y02,y03)
T,把 Y0按照模型中的归一化方法进行归一化处理,得
到 Y′0=(y′01,y′02,y′03)′,然后把 Y′0代入(3)式中的每一个 Fisher判别函数中,得到 4个数,记为
F0=(f
1
0,f
2
0,f
3
0,f
4
0)
T;
② 把每一类群的均值代入已得到的4个 Fisher判别函数中,得到 Fg=(f
1
g,f
2
g,f
3
g,f
4
g)
T(g=
1,2,3,4),其中 fjg(j=1,2,3,4)代表第 g类均值向量代入到第 j个判别函数的函数值;
4 第三篇 手机用户精准识别
③ 计算 D2g =
M
j=1
(fjg-f
j
0)
2,从4个值中选出最小值:D2h=min
1≤g≤4
{D2g}.这样就把待判用户判
为 h类.
按照如上步骤,只要获知一个用户的三项特征变量信息,就可以方便的判别出该用户是否
是高端用户.
2模型Ⅱ———异网手机高端用户的识别模型
基于假设4,即假设和本网高端用户联系过的异网用户是高端用户的几率更大,本模型采取
多级识别.首先筛选出和本网高端用户有过通讯行为的异网用户,这些异网用户更有可能是真
正的异网高端用户,然后根据其联系的本网高端用户的数量进行二级筛选,之后根据通话量和
交际圈大小进行三级筛选,最终得到更为可信的异网高端用户.
(1)一级分类筛选
筛选和本网高端用户联系过的异网用户,并统计出其联系过的本网高端用户的人数,即所
谓的高端交际圈的大小.
(2)对一级分类筛选得到异网用户进行基本统计描述分析(表4)
表 4 和本网高端用户联系过的异网用户与全体异网用户信息对比
和本网高端联系过的异网用户 全体异网用户
通话时间(秒) 交际圈(人) 通话时(秒) 交际圈(人)
均值 1775576 4170 1109593 2332
方差 9936282545 17441 7444299411 6865
由上表不难发现,和本网高端用户联系过的异网用户的通话时间和交际圈都要高于整体水
平,这说明假设 4的合理性;通过方差分析,还可以看出和本网高端用户联系过的异网用户的特
征变量波动性更大,不再千篇一律,也就说明了通过一级筛选,我们得到的用户的特征能够更
好、更全面地描述用户行为,片面性有所下降,采用聚类分析的合理性增加.
通过频率分析,绝大多数异网用户高端交际圈的大小为 1和 2,二者的比重超过 95%,高端
交际圈太过集中,若将其直接作为模式识别的一个新特征变量,意义不大,故进行二级筛选.
(3)二级分类筛选
通过机理分析,在片面的异网用户信息中,高端交际圈的大小对描述异网用户行为特征至
关重要.故认定高端交际圈大于2的异网用户为异网高端用户,姑且将这一部分高端用户称为
网间高端用户.经过统计描述发现,高端交际圈大于 2的异网用户通话时间和交际圈的均值分
别为008558和02623
(4)三级分类筛选
对高端交际圈小于等于2的异网用户,我们以总通话时长和总交际圈大小为聚类特征量,
进行聚类分析,得到另一部分高端用户,分析发现这一部分高端用户的类群中心两特征变量大
小分别为 0090和 020,这两个值略低于本网高端用户对应的值,两者的一致性佐证了本文多
级识别的合理性.
535 手机用户的精准识别
结果,异网高端用户在全部异网用户中所占比例为 402%,在和本网高端用户联系过的异
网用户中所占比例为2424%,这两个数据也佐证了假设4
3模型Ⅲ———异网手机用户月均消费金额估算模型
本文忽略运营商对用户通信行为(通话量和交往圈)的影响,即假设 3因为用户的行为主
要受工作、生活的影响,不同运营商的影响是次要的,可以忽略.
首先依据行为特征,给本网用户群匹配以不同的主要套餐,之后依据本网用户通话时间给
群内不同用户匹配以具体的次级异网资费套餐,精确估算异网用户的消费金额,最终可以求出
异网手机用户的月均消费金额.
这里异网用户以中国移动用户为例,进行估算.考虑到中国移动针对不同用户群推出的三
大套餐,即神州行、动感地带和全球通,我们这里暂且采用将用户聚成3类.
因为聚成3类时,类群1过于臃肿,类群2和另外两类的界限不甚清晰,为尽量贴近实际用
户群的平均消费金额,在实际操作时,我们去除了低端用户群中通话时长极高的用户,去除了高
端用户群中通话时长极低的用户,同时去除了中等用户群的上下边界处模糊的用户.
(1)匹配主套餐
中国移动三大套餐面向的用户群各有特征,即神州行用户往往打电话较少,交际圈也较小,
通信行为不活跃;动感地带用户通信活跃,但达不到高端用户的水平;而全球通用户往往是商务
人士,日常通话量很大,长途也很多,消费金额和交际圈都很大.基于模型Ⅰ,类群 1为低端用
户,类群3为中等用户,类群2为高端用户.本文给低端用户配以神州行套餐,给中等用户配以
动感地带套餐,给高端用户配以全球通套餐.
(2)匹配二级套餐
通过中国移动网上营业厅获取了中国移动的各项套餐的资费标准,经过一系列简化合并,
将资费标准和匹配方案列出,如表5
表 5 简化的中国移动套餐资费标准及匹配方案
神州行 动感地带 全球通
资费标准及
匹配方案
6元套餐:
039元/分钟,适合通话量极
少的用户.(通话时长小于 30
分钟)
8元套餐:
029元/分钟,适合通话较多
的用户(通话时长大于 30分
钟)
套餐费不包含通话时间,有
19元,29元,39元等套餐,假
设三者的市场份额为 5∶3∶1,
套餐费取 26元,资费均约为
0196元/分钟
88元套餐:
含 350分钟通话,超出部分 025
元/分钟,适合通话时长低于 510
分钟
128元及以上套餐:
套餐内约为 015元/分钟,超出部
分约为 019元/分钟,适合通话时
长大于 510分钟
(3)估算消费金额
按照表5的匹配方案,以通话时长合理估算消费金额,得到异网用户月均消费金额,见表6
6 第三篇 手机用户精准识别
表 6 异网用户月均消费估算结果
神州行 动感地带 全球通 全体
月均消费(元) 349 98576 203945 5361
用户数(人) 238770 56798 12737 308305
该地区中国移动用户月均消费金额约为5361元,与调研所得的 65元有一定差距,但相差
不大.若考虑到短信、上网等其他消费,二者的差距会更小.
4模型Ⅳ———手机号码靓号分级模型
(1)模型建立
人们对不同的手机靓号类型有高低好坏之分,差别最直接地体现在号码的价格上,即假设
6本文在手机挑号网(http://www.tiaohao.com)上找到不同类型的靓号以及对应的价格,本着
控制变量的原则,研究的所有靓号都是北京市中国移动用户的号码.首先分析出每种主靓号类
型一般的号价范围,根据此号价范围对不同的靓号类型进行分级,之后根据特殊规律进行二级
分析,特殊规律各式各样,本文研究的仅是对号码是否易记上口、是否“吉祥”有影响的特殊情
况,具体包括:
① 含特殊数字,是指号码的任意位置含有数字 4,尾号段(决定靓号类型的末尾数字段)含
有6、8、9;
② 号段顺、逆序等特殊的数字组合;
③ 中间号段对号价的影响,如北京的区号是 010,当号码中间段含有 010时,价格会异常的
高于此号价范围.具体的等级确定之后,再分析①和②两种特殊情况对每个等级中的具体靓号
类型的等级的影响.
整理得到了主号码规律 -次特殊规律的双层靓号分级表.
表 7 靓号分级表
分级等级 靓号类型 数字 4引起的等级变化 数字 6或 8或 9引起的等级变化 其他特殊规律引起等级变化
一 AAAAA 无 无 无
二 AAAA 无 升到一级 无
三 ABABAB 降为四级 升到二级 无
四
AABBB 无 升到三级 无
AAA 部分降为五级 升到三级 无
ABCDABCD 无 升到三级 无
AABBCC 降为五级 无 无
五
ABAB 降为六级 升到四级 无
AAAB 降为六级 升到四级 无
AABB 部分降为六级 升到到级 无
735 手机用户的精准识别
续表
分级等级 靓号类型 数字 4引起的等级变化 数字 6或 8或 9引起的等级变化 其他特殊规律引起等级变化
六
ABBA 无 升到五或四级 无
ABCD 无 升到五或四级 无
AABCC 无 升到五级 无
ABCAB 无 升为五级 无
AA 无 升到五或四级 无
ABC 无 无 升到四级
ABCABC 无 无 升到四级
AABBCC 无 无 升到四级
ABCABC 无 无 升到五级
(2)结果分析
通过分析表7,可以很容易地得到以下4点规律:
① 连续相同的数字越多等级越高,数字规律重复次数越多等级越高,因为规律重复越多,号
码越好记,更为关键的是号码越是稀少,物以稀为贵;
② 数字4对处于绝对高端的靓号等级变化一般不明显,正所谓瑕不掩瑜.对应的,对处于绝
对低端的靓号,数字4的影响也不大,因为价位已处于低端;
③ 数字6或8或9对靓号等级影响是普遍的,一般会上升一个等级,当 6、8、9的个数较多
时,甚至可以上升两个等级;
④ 当尾号段是 ABC的组合时,特殊数字的影响不明显,原因是此类靓号的尾号段普遍都含
有特殊数字6或8或9此时特殊的数字组合对号价和等级有很大的影响,此特殊规律有靓号段
顺逆序、对称、全为偶数、奇数、连号、等比数列、等差数列等.在特殊数字组合的影响下,靓号类
型普遍会上升两个等级.
(3)合理性的评估
模型建立的合理性评估必须要考虑人们对靓号判断的普遍感性标准,即以下三个原则:
原则一:易记顺口
易记顺口主要是从排列组合考虑,一看就能记住的号码我们通常将它视为好号码.尾数后
几位成等差数列,或连续相同的数字,三位或三位以上就可以称得上是靓号,如 AAA,AAAA,
AABB,ABCD,ABAB,ABBB,AABBB,AAABBB.
规律①和规律④就主要是这一原则的体现.
原则二:谐音吉祥
所谓谐音吉祥就是俗语讲的风水意义好.如6———顺,8———发,9———久,4———死.
规律②和规律③是谐音吉祥原则的体现.
原则三:物以稀为贵
一种号码规律在一个号段中存在的越少,在符合上述两原则下,号码就越贵.
8 第三篇 手机用户精准识别
综上所述,可知此靓号分级工作和现实联系紧密,具有较强的合理性.
四、模型的评价
1模型Ⅰ———本网手机高端用户的识别模型的评价
在模型Ⅰ的建立与求解过程中,本文已经评估了本网高端用户的判别准则的合理性,从无
监督的模式识别到有监督的模式识别,模型Ⅰ都很好的考虑了手机用户的关键特征,类群分离
度好,而且分类结果与现实符合度较高,Fisher线性判别简洁有效,准确率高.总体而言,本网手
机高端用户的判别准则较为合理.
2模型Ⅱ———异网手机高端用户的识别模型评价
本模型针对的是信息量较少、较片面的异网用户.之所以采取多级的分类识别,就是为了规
避这些片面性,而得到较为可能是真正高端用户的异网用户,但是由于采用了多级分类识别,即
使从第三级分类识别得到了 Fisher判别函数,也不能直接适用于全体异网用户,故本模型提供
的仅是一种较为科学、准确的识别方法,仍需要改进.
3模型Ⅲ———异网手机用户月均消费金额估算模型的评价
模型Ⅱ对不同行为特征的本网用户匹配以相适应的异网套餐,这是在假设 3的基础上进行
的,即忽略了不同的电信运营商对用户消费行为的影响,这一假设具有一定合理性,但会造成估
算的一定偏差.
模型Ⅱ估算的消费金额仅能包括话费和套餐费,而且用户套餐的匹配工作也不易精确进
行,都会造成估算精度不高,但是因为本文考虑了构成消费金额的诸多细小因素,尤其是对数量
占绝大多数的低端用户的匹配工作做到了尽可能的还原,所以个别因素的估算不准对整体消费
金额的估计不会产生太大影响.不过,如果可以综合考虑短信费和流量费,估算的准确度会进一
步提高,这还需要用户短信和上网流量的统计信息.
4模型Ⅳ———手机号码靓号分级模型的评价
在此次靓号分级模型的建立过程中,除了剔除了部分个别因人而异的规律外,本文尽最大
可能的考虑了现实情况,可以说建立的模型具有较强的现实意义.建立的靓号分级表更是具有
实用、方便等特点.
但是本文建立的模型仍然具有一些局限性,比如选取的号码均来自同一商业网站,仅以此
定价作为衡量靓号优良中差的标准可能有失偏颇,同时又由于同一号码规律的价格波动范围较
大,本文在选择价格范围时也有一定的主观性存在.
五、参考文献
[1] 边肇祺,张学工.模式识别[M].北京:清华大学出版社,1999
[2] 张红兵,李潞.SPSS宝典[M].北京:电子工业出版社,2007
[3] 周世兵,徐振源,唐旭清.新的 K均值算法最佳聚类数确定方法[J].计算机工程与应用,2010,46(16):27
~31
[4] 刘兰兰.中国移动一季度利润增速放缓,高端用户流失明显[N/OL].新京报,2012421
935 手机用户的精准识别