在线社会网络中用户行为的实证分析与机制建模研究
VIP免费
摘 要
“认识你自己”的神谕早在几千年前便已刻下,而时至今日人类对于自身行为的
认识依旧任重道远。在信息革命推动下,互联网时代的到来为我们揭开人类行为
的神秘面纱、挖掘人类行为的内在机制提供了契机。鉴于互联网中用户的浏览、
交友、选择、购买等行为对与理解人类行为模式具有重要理论意义,以及对电子
商务、在线服务等行业具有重要实际价值,本论文将对在线社会系统中的用户行
为进行实证分析,并对其行为的内在机制进行建模。
首先,对用户在线选择偏好的记忆效应进行了实证分析,并利用马尔科夫过程
对记忆效应的机制进行了建模。在线系统往往允许用户对其选择过的产品进行打
分,而打分可以在很大程度上反映用户对产品的喜好。根据 Correlation Coefficient
方法,我们发现用户的选择序列(用户所选产品的平均分序列)与打分序列(用
户对其选择过产品的打分)都具有较强的记忆效应。不同于随机情况下的指数分
布,这种记忆的长度呈现出幂律形式的分布,也就是说,用户长时间执行相似行
为的可能性要比随机情况高得多。通过利用马尔科夫过程描述用户的选择过程,
并假设其打分行为完全依赖于选择行为,本文建立了偏好模型对用户偏好的记忆
效应进行了刻画。模型中用户的选择行为和打分行为各只有一个参数,通过控制
此参数,便可以重现从幂律分布(强记忆)到指数分布(弱记忆)之间的任意形
式的记忆长度分布。
其次,基于二部分网络模型,分别从网络局部集聚特性以及对产品流行度偏好
的角度研究了在线用户兴趣的表征与作用。对于用户—产品二部分网络这一特殊
系统,传统集聚系数无法描述其集聚特性,因此基于二部分网络的集聚系数
C4
得
以提出。从用户—产品二部分网络的特性出发,一个用户的
C4
可以表征其兴趣的
多样性。根据
C4
对用户兴趣多样性的体现,本文发现兴趣最为广泛以及最为单一
的用户,其活跃度都处于系统最低水平,而系统中最活跃用户的兴趣多样性往往
处于系统中等水平。在对用户行为进行分析的时候,我们不能将同等活跃度的用
户一概而论,因为同样活跃度的用户可能有两种截然不同的兴趣多样性形式——
非常单一或非常广泛。这种现象不仅仅存在于依赖网络结构的兴趣定义方式,用
户基于产品流行度的兴趣多样性也展现出类似的结果。进一步,考虑用户对产品
流行度的偏好,从经典的物质扩散和热传导算法出发,本文提出了非平衡物质扩
散以及非平衡热传导算法。较之经典算法,本文提出的算法在准确率与召回率等
方面都有大幅度的提升。这再一次证明了用户对产品流行度的偏好是用户在线选
择行为的重要驱动力。
最后,研究了产品相似度的稳定性问题。相似度指标虽然可以度量生物、社会、
商务等系统中产品之间的潜在关联关系,但若不稳定则不可信赖并含有大量虚假
信息的。一个好的相似度指标应该在不同时间度量两个固定产品之间的相似度,
得到相同的结果。在用户—产品二部分系统中,本文对 15 种经典相似度指标的稳
定性进行了分析,发现除 Preferential Attachment, Common Neighbor, Adamic-Adar
Index 以及 Resource Allocation Index 指标以外的大部分算法,在使用不同样本数据
时,得出的相似度矩阵可能完全不同,也就是非常不稳定的。从稳定性的角度出
发,结果表明众多的相似度指标可以被分成几个简单的类别,并且同一类别中的
指标基本都具有同样的思想以及相似的数学定义,其在数据量变化时的动态过程
也是一致的。如此一来,对于任意相似度算法,只需要分析其稳定性、确定其分
类,便可以通过对比深入地理解该算法。另外,论文提出 Top-n-stability 方法,在
推荐时只考虑稳定的产品相似度,分析了产品相似度稳定性对推荐结果的影响。
实验表明,不稳定的产品相似度类似于虚假信息,通过剔除该部分信息,可使推
荐结果的稳定性有大幅度的提高。
总之,本文的研究工作对认识人类在线行为有十分重要的意义。围绕在线用户
的选择行为、兴趣偏好以及相似度指标的稳定性等若干方面,本文的研究与结论
能够帮助我们更深入地理解用户的在线行为模式,为设计在线系统、提高在线服
务质量提供了重要的参考价值。也希望本文所提出、研究的问题能够得到更为广
泛的关注,对在线社会系统中的用户行为进行更深入的研究。
关键词:在线社会系统 用户选择行为 记忆效应 用户兴趣 推荐系统
产品相似度 稳定性
ABSTRACT
Beginning with the oracle, ‘know yourself’, thousands years ago, we still have far
way to go on the road of understanding human behavior patterns. Fortunately, the
coming of Internet era, which recorded every detail of our behavior, provides us a great
opportunity to study and uncovering the human behavior’s patterns and mechanisms.
The present thesis focus on the user behavior in the online social systems, which has
theoretical significance for better understanding human behaviors and practical
significance for e-commerce and online service etc.
Firstly, the thesis uncovers and models the memory effect of the online users’
selecting and rating behavior that could reflect the periodical transfer of users’ interest
and tastes. Since users are allowed to rate on objects in many online systems, ratings
can well reflect the users’ preference. According to the method of Correlation
Coefficient, we find the strong memory effect in users’ selecting behavior, which is the
sequence of qualities of selected objects, and the rating behavior, which is the sequence
of ratings delivered by each user. In addition, the memory duration, which is presented
to describe the length of a memory, exhibits the power-law distribution, i.e., the
probability of the occurring of long-duration memory is much higher than that of the
random case that follows the exponential distribution. We further present a preference
model in which a Markovian process is utilized to describe the users’ selecting behavior,
and the rating behavior depends on the selecting behavior. With only one parameter for
each of the user’s selecting and rating behavior, the preference model could regenerate
any duration distribution ranging from the power-law form (i.e. strong memory) to the
exponential form (i.e. weak memory).
Secondly, based on the bipartite network theory, the thesis studies online users’
interest from the prospective of local clustering properties and the object popularity
respectively. The clustering coefficient of bipartite network
C4
, considering the
properties of user-object systems, could describe the diversity of users’ interests. We
find that, one should not classify users only according to their activity levels, because
users with the same activity level may have two totally different interest patterns, one of
which is very concentrate but another is very diverse. Besides in the interest based on
the structure clustering property, similar phenomenon is also found in users’ preference
on object popularity. Thus, according to the preference on object popularity, the thesis
proposes Non-equilibrium Mass Diffusion and Non-equilibrium Heat Conduction
recommendation algorithm. Compared with the classical mass diffusion and heat
conduction method, the presented algorithm could largely improve the accuracy and
diversity of the recommendation. The improvement proves from another perspective
that, the users’ preference is an important force in the evolution of such kind of online
social systems.
At last, the thesis presents and studies the stability problem of object similarity.
Similarity measuring two objects’ potential relation is widely used constructing the gene
co-expression networks, protein-to-protein networks, recommendation systems etc. But
it would be unreliable and contains false information if the similarity is unstable, i.e. the
similarity of a definite pair of objects is measured as different level before and after. In
two online bipartite systems, we evaluate the stabilities of fifteen similarity indexes
when measuring object similarity. Results show that, more data could lead to more
stable evaluations but most indexes except Preferencial Attachment, Common Neighbor
index, Adamic-Adar index and Resource Allocation index, may have quite different
evaluations using different data samples. While there are dozens of similarity indexes,
most of them can be classified into three Clusters from the prospective of stability and
indexes in the same cluster are generally based on the same considerations and have
similar mathematical definitions. When a new index being proposed, one just need to
identify which cluster it belongs to, and then could get deeper insight to this index by
comparing with other indexes in the same cluster. In addition, we develop a
top-n-stability method to study the object similarity stability’s further effect on the
recommendation. We find that, by taking only the stable similarities into account, the
stability, accuracy and diversity of the recommendation could be improved.
Overall, the present thesis is a significant step on the road of understanding human
behavior pattern. Focusing on the online users’ selecting behavior, interest preference
and objects similarity stability, investigations and results in this thesis may shed some
light on both theoretical investigation and practical application, and attract more
attention to get deeper insight in those important problems.
Key Words: Online social system, selecting behavior, memory effect, user interest,
recommendation system, object similarity, stability
目 录
摘要
ABSTRACT
第一章 绪论 .................................................................................................................... 1!
1.1 问题的研究背景和意义 ................................................................................... 1!
1.2 人类行为动力学之线下行为研究综述 ........................................................... 3!
§1.2.1 突发事件中的人类行为 ...................................................................... 3!
§1.2.2 人类行为的时间分布 .......................................................................... 4!
§1.2.3 人类行为的空间分布 .......................................................................... 7!
1.3 在线社会系统中的人类行为动力学 ............................................................... 9!
§1.3.1 社交网络中的用户-用户行为研究进展 ........................................ 10!
§1.3.2 推荐系统中的用户行为分析 ............................................................ 15!
1.4 本文的研究内容和主要贡献 ......................................................................... 18!
第二章 用户选择偏好的记忆效应分析及建模研究 .................................................. 21!
2.1!用户选择行为对产品质量偏好的记忆效应分析 ...................................... 21!
2.1.1 数据集介绍 .......................................................................................... 21!
2.1.2 方法与定义 .......................................................................................... 22!
2.1.3 实证分析结果 ...................................................................................... 24!
2.2!用户在线选择偏好的马尔科夫建模 .......................................................... 27!
2.2.1 基于任务优先级的经典排队模型 ....................................................... 27!
2.2.2 基于马尔科夫过程的偏好模型 .......................................................... 29!
2.2.3 用户活跃度以及间隔时间对模型与实证的影响 .............................. 33!
2.3!本章小结 ...................................................................................................... 35!
第三章 基于用户—产品二部分网络集聚特性及流行度偏好的用户兴趣研究 ...... 37!
3.1!用户-产品二部分网络及经典推荐算法简介 .......................................... 37!
3.1.1 推荐系统的构成 .................................................................................. 37!
3.1.2 推荐系统的复杂网络建模 .................................................................. 38!
3.1.3 经典推荐算法简介 .............................................................................. 39!
3.1.4 几个经典的评价指标 .......................................................................... 41!
3.2!基于集聚系数的用户兴趣多样性分析 ...................................................... 43!
3.2.1 二部分网络集聚系数的定义 .............................................................. 43!
3.2.2 用户—产品二部分网络集聚系数的实证分析 .................................. 44!
3.2.3 随机模型 .............................................................................................. 48!
3.3!考虑流行度偏好的非平衡扩散推荐算法研究 .......................................... 48!
3.3.1 非平衡热传导算法与非平衡物质扩散算法的定义 .......................... 49!
3.3.2 数值实验 .............................................................................................. 52!
3.4!本章小结 ...................................................................................................... 54!
第四章 相似度指标的稳定性及其对推荐的影响 ...................................................... 57!
4.1!常用相似度指标的定义 .............................................................................. 58!
4.2!产品相似度的稳定性分析 .......................................................................... 60!
4.2.1 数据与研究方法介绍 .......................................................................... 60!
4.2.2 产品相似度稳定性结果 ...................................................................... 63!
4.3!产品相似度稳定性对推荐结果的影响 ...................................................... 66!
4.3.1 推荐结果稳定性 .................................................................................. 66!
4.3.1 Top-n-stability 方法 ............................................................................. 68!
4.4!本章小结 ...................................................................................................... 70!
第五章 总结与展望 ...................................................................................................... 72!
5.1!总结 .............................................................................................................. 72!
5.2!展望 .............................................................................................................. 73!
参考文献 ........................................................................................................................ 75!
在读期间公开发表的论文和承担科研项目及取得成果 ............................................ 86!
致谢 ................................................................................................................................ 88!
第一章 绪论
1
第一章 绪论
1.1 问题的研究背景和意义
早在古希腊时期,阿波罗神庙的石柱上便刻下了“认识你自己”的神谕。德国
哲学家尼采更是认为:“我们无可避免跟自己保持陌生,我们不明白自己,我们
搞不清楚自己,我们的永恒判词是:‘离每个人最远的,就是他自己。’──对于
我们自己,我们不是‘知者’……”[1]。
当然,走在认识我们自己道路上的,不只是哲学家。几百年来,人类的行为
模式或习惯也受到社会学家的广泛关注。哈佛大学的教授 Milgram 在上世纪 60 年
代做了一项传递信件的“小世界”实验,并由此推断:根据通过朋友找朋友的方
式,世界上的任意两个人找到对方一般只需要六个“中介朋友”[2]。这便是著名的“六
度分离”理论。无独有偶,Granovetter 发现,在人们获得工作机会的过程中,起到
关键作用的往往是关系没那么紧密的泛泛之交,由此得到“弱关系有强效应”的结论
[3]。随着社会和科技的发展,学者获得数据的方法、渠道逐渐多样化,许多物理学
家也开始将社会系统、人类本身作为研究对象,对其中展现出的物理统计规律进
行分析与建模。通过追踪银行账单或手机通讯记录,物理学家发现人类的移动行
为服从简单的规律[4,5]并具有相当高的可预测性[6]。另一方面,经过分析信件及电
子邮件的收发数据,发现人类行为的间隔时间并非往常所认为的泊松分布,而是
服从胖尾的幂律分布[7,8]。一系列开创性的工作,引发了学者们对一个新领域的研
究——人类行为动力学[9-11]。人类行为动力学的研究,力图挖掘人类行为的统计
规律,并对其中的机制进行动力学建模,逐步深入地理解人类行为。这对认识我
们自己有重要的意义,并且有极高的商业价值。例如,对人类移动模式的研究,
可帮助企业向用户提供更好的移动通讯服务或酒店预定服务,甚至也可为政府提
供构建交通网络的决策支持。
在信息革命的热潮下,人类已经进入了网络时代,尤其是 Web2.0 技术的诞生,
使得互联网成为人类的一个极其重要的交互平台。人们几乎每天都要与网络打交
道,网络已成为日常生活中不可或缺的一个重要部分。人类可以在线看电影、听
音乐、购买商品甚至是维系社会关系以及交新朋友,可以说,我们的大部分行为
都已转移至线上。因此,用户在线行为——人类行为的线上模式,也受到了广泛
的关注。图 1-1 是在 Web of Science 数据库中,搜索 Online User Behavior 的检索
上海理工大学硕士毕业论文
2
结果统计。仅近三年(2011,2012,2013),有关用户在线行为的 SCI 检索的文章
数量就达到 2700 多篇,而该类研究的被引用次数则达到 15000 余次。并且,文献
数量以及被引用次数仍然爆发式增长着。可见,用户在线行为已经受到广泛关注,
并且其受重视程度仍在攀升。
图 1-1 在Web of Science 数据库中搜索 Online User Behavior 的结果统计。
对于用户在线行为的研究,有助于建立更加合理完善的在线系统,为用户提
供更好的在线服务,增强用户体验。学者们所关注的几个重大的问题,可以大致
总结如下:
! Web2.0 技术带来了微博等新媒体的兴盛,在线的交流较之线下交流更为自
由、开放,并且每个人都可以在这里表达自己的观点、态度。因此,为了加速信
息的传播以及控制谣言的散布[12-14],研究舆论演化的动态过程意义重大。另外,
我们的观点会怎样影响他人,而我们又会受到系统的何种影响,也是极受关注的
热点问题[15,16]。
! 据统计,新浪微博每月有上亿的活跃用户,而腾讯 QQ 的同时在线用户最
高曾突破两亿。面对用户数量如此之大的社交平台,如何识别重要用户、度量用
户的重要程度,对于网络营销、维持系统生机甚至控制谣言散布都有重要意义,
这也是另一个亟待解决的问题[17-20]。
! 互联网的发展在一定程度上颠覆了人们日常的生活、工作方式。但是,受
到广泛讨论的问题是:我们行为的习惯、模式有没有受到网络这个平台的影响,
而发生转变?我们的线上行为和线下行为有何种对应关系?另外,在网络时代背
景下,用户的在线交友行为或是建立其他关系的模式又有何种规律?[20,21]
! 网络时代产生了巨量的信息,面对林林总总的选择,用户无法找到最为相
关的信息,因此滋生了推荐系统[23,24]的发展。推荐系统能够预测用户的潜在兴趣,
第一章 绪论
3
并生成推荐列表主动推送到用户界面。然而,如何度量用户的兴趣,刻画用户的
在线浏览、选择行为,成为了推荐系统至关重要的一个环节。
当然,用户在线行为是一个相当大的方向,此处并不可能详尽地罗列其关注
的种种问题。本论文重点研究的是在线社交网络以及推荐系统中的用户行为。用
户在社交网络中的交流、交友等行为都是在线行为的重要形式,对其进行研究可
以更加深入地理解社交网络的演化以及网络信息的传播,以使我们建立更加合理
的在线社交系统、提供优质服务。另一方面,对用户在推荐系统中的行为进行分
析与建模,更是能够为设计推荐算法,帮助用户找到潜在信息提供良好的基础。
1.2 人类行为动力学之线下行为研究综述
有关人类行为的研究百年来一直有零星报道,但却一直没有引起学者的广泛
关注。2005 年Barabasi 在《Nature》上发表了关于人类行为间隔时间展现出胖尾
分布的工作[25]。此外,在 2006 年,Brockman 在《Nature》上发表关于人类移动模
式服从 levy 行走的工作[4]。这两篇开创性研究的发表,引起了学术界对于人类行
为模式的重视与广泛讨论。
人类行为可以分为线下行为和线上行为两个类别,在这一节,笔者将对人类
的线下行为作出综述介绍。
虽然互联网在最近十几年才开始兴盛,而人类的线下行为已进行了几千年。
较早受到广泛关注研究的线下行为,是非常规突发事件中的人类行为,如人群
疏散、疾病或谣言的传播等。自 2005 年,才开始有针对人类的日常行为的集中、
系统的研究,其中讨论较为热烈的问题,包括人类行为的时间分布和空间分布。
§1.2.1 突发事件中的人类行为
在人群疏散方面,学者们致力于建立合理的模型描述个体在恐慌状态下的心理
变化以及逃生模式,并利用模型进行模拟实验,讨论建筑结构或人群行为对疏散
过程的影响,最终达到优化疏散系统、制定紧急疏散预案的目的,以尽可能减少
突发事件带来的生命财产损失。较为经典的人群疏散模型包括社会力模型(Social
Force Model)和元胞自动机模型(Cellular Automaton Model)。社会力模型最初由
Helbing在1995 年提出[26],用于模拟交通流、行人流。2000年Helbing 又在《Science》
上发表文章[27],用社会力模型研究人群的恐慌疏散过程。社会力模型是典型的力
学模型,认为系统中的每个个体都会受到其他个体的心理影响和生理影响,其中
上海理工大学硕士毕业论文
4
包括要与他人保持一定的安全距离,又要尽可能按照自己希望的方向与特定的速
度进行移动,此外,身体的接触则会产生排斥力与摩擦力。通过从微观层面刻画
个体之间的相互作用,社会力模型可以出色地模拟人群疏散的过程,尤其是特定
现场或特定位置的堵塞现象,因此得到广泛的应用[28,29]。元胞自动机模型[30,31]是一
种离散模型,在可算性理论、数学及理论生物学等领域都有广泛应用。该模型将
现场划分为若干格子,而个体根据一定的规则由一个格子向相邻格子移动。学者
们对人群疏散的过程展开了一系列的研究。有关建筑结构,彭钰慈等人[32]研究了 T
型结构中的拥堵现象,而马佩杰等人[33]研究了现场出口位置对于疏散过程的影响。
另一个更为重要的影响因素是人群疏散中的群体或个体行为。Helbing[27]等人就发
现在疏散过程中,行人的理想移动速度可能会造成“移动越快,疏散越慢”的效果。
贾斌的研究[34]则表明,在火灾逃生中,行人的“避火性”在一定程度上可以加速
人群疏散。
有关人群疏散的研究,最终的目的无非是如何快速有效地疏散人群,而最有效
的方法之一,是进行疏散引导。笔者在读期间,做了有关疏散引导的若干工作,
发现逃生领导的个体动态对集群疏散过程有重要的影响。对于单出口现场,一至
两个逃生领导已能极大地提高疏散效率,而在多出口现场,更为重要的是逃生领
导的初始位置,若险情发生时,逃生领导所处位置不合理,反而逃生领导的疏散
引导会导致集群疏散减慢。研究表明,在未发生事件时,每个逃生领导应在现场
的结构中心布岗(服务台或巡逻岗位),而在险情发生时,第一时间引导附近人群
向不同出口进行移动。这种方式能够最有效地利用各出口的通行能力,并且最快
地将人群疏散至安全位置。本研究的结论可以很好地为大型现场,如商场、体育
馆,提供制定疏散预案的决策支持。然而,由于本论文主要介绍在线系统中的用
户行为研究,因此笔者在读期间所做的若干人群疏散的工作在本毕业论文中不做
详尽介绍。
疾病与谣言的传播应属传播动力学研究范围,但人类的行为在传播过程中也扮
演着十分重要的角色。例如,个体是否自愿接种疫苗[35],人群交流中的有限信任[36]
等。
§1.2.2 人类行为的时间分布
非常规突发事件中的人类行为已被广泛研究几十年,而人类的日常行为则是近
些年才得到关注。转折点应归因于 Barabasi 在2005 年发表在《Nature》上的工作
[7,25]。他们分别分析了达尔文和爱因斯坦的信件往来,发现两位科学家虽所处时代
相关推荐
-
跨境电商商业计划书模版VIP免费
2025-01-09 27 -
跨境电商方案范文VIP免费
2025-01-09 14 -
创业计划书VIP免费
2025-01-09 18 -
xx生鲜APP计划书VIP免费
2025-01-09 12 -
跨境电商创业园商业计划书(盈利模式)VIP免费
2025-01-09 8 -
跨境电商计划书VIP免费
2025-01-09 13 -
绿色食品电商平台项目计划书VIP免费
2025-01-09 22 -
农产品电子商务商业计划书VIP免费
2025-01-09 8 -
农村电商平台商业计划书VIP免费
2025-01-09 13 -
生鲜商城平台商业计划书VIP免费
2025-01-09 21
作者:侯斌
分类:高等教育资料
价格:15积分
属性:91 页
大小:13.25MB
格式:PDF
时间:2025-01-09

