数学建模互联网用户识别

数学建模互联网用户识别

ID:22703656

大小:135.52 KB

页数:21页

发布时间:2023-10-23 05:05:01

数学建模互联网用户识别_第1页
数学建模互联网用户识别_第2页
数学建模互联网用户识别_第3页
数学建模互联网用户识别_第4页
数学建模互联网用户识别_第5页
数学建模互联网用户识别_第6页
数学建模互联网用户识别_第7页
数学建模互联网用户识别_第8页
数学建模互联网用户识别_第9页
数学建模互联网用户识别_第10页
资源描述:

互联网论坛用户识别中国互联网发展经历了10年的快速增长期,已经形成较为成熟的应用。现在的互联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、用户与用户之间重要的互动平台。在这样的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。这些识别需要达到如下四个结果:1、言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。2、话题用户:精确定位关注某一特定话题的用户3、活|跃用户:识别论坛活跃用户。4、关系圈:发掘论坛人际关系圈。研究建议:1.言论领袖的发现可以从其所发帖子的跟帖数量、精华贴数、置顶时间、发帖总数等变量切入,并进行综合评价。2.话题用户的定位可从其主要跟帖主题、谈论内容判断。不需要完全准确,大概识别出范围即可。例如,diybbs.it168.com论坛中对游戏话题非常关注的用户。3.活跃用户可从登录频率、参与话题数量等方面综合评价。4.关系圈可从帖子关联关系等方面综合评价。5.建模所用数据以你能在这些论坛上注册后能看到的所有内容为准,不限于文字、数字、符号。例如,发帖时间、主帖跟帖数量(主帖楼|高)、用户登录频率、用户最后登录时间、发帖积分、帖子关键字。因为,你能看到的内容就是爬虫机器人可获取的内容,在技术上以可完全实现,并进入到结构化数据库进行数据挖掘。研究对象包括但不限于如下论坛:1、http://bbs.55bbs.com2、http://diybbs.it168.com3、http://club.autohome.com.cn/bbs4、http://bbs.pchome.net/bbs

1最后成果请提炼形成通用模型,并针对言论领导、话题用户、活跃用户、关系圈四个要求提出实例说明。例如,在http://diybbs.it1|68.com论坛上关注游戏话题的话题用户的识别,在http://bbs.55bbs.com论坛上的活跃用户等。考虑到各个论坛结构和内容上的差异,通用模型使用的变量应尽量考虑各论坛间的通用性,定量和定性结合为佳,通用模型配合文字或使用方法论说明为佳。本题要说明识别所用数据获取途径或方法,包括数据挖掘技术以及程序代码。第三届BiZ-WiZ杯华中地区大学生数学建模邀请赛题目:互联网论坛用户识别【摘要】中国互联网发展经历了10年的快速增长期,已经形成了较成熟的应用。现在互联网论坛已经成为企业与用户、用户与用户之间的重要互动平台。企业如何去发掘其中的|商业价值和解决运营难题关键在于企业能够对论坛内的用户进行有效识别。本文给出如何运用火车采集器采集对论坛用户信息进行采集,并进行挖掘处理,然后运用层次分析法进行建模,将数据进行优选,并提炼出通用模型,解决如何找出言论领袖、话题用户、活跃用户及关系圈的问题。模型的优点在于能系统地获取数据,挖掘数据以及处理数据,并考虑到各论坛间的通用性。通过模型,互联网企业能够对论坛内的用户进行有效识别,从而解决运营难题以及抓住其中的商业机会。一、问题的背景随着科学技术的发展,互联网的使用开始普及化,网络论坛也越来越多,论坛中用户的人数也随之增加。现在互联网论坛|已经成为企业与用户、用户与用户之间的重要互动平台。互联网企业为了全面的掌握市场信息,解决运营难题,互联网公司需要对论坛中的用户信息进行分析与处理,对用户进行有效的识别,进而有效的挖掘用户的商业价值,提高用户在论坛中的活跃性,从而提高论坛热度,促进商业效应。

2二、问题的提出论坛中在企业与用户、用户与用户的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。这些识别需要达到如下四个结果:1、|言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。2、话题用户:精确定位关注某一特定话题的用户3、活跃用户:识别论坛活跃用户。4、关系圈:发掘论坛人际关系圈。由于影响四种结果都不相同,所以将四种结果分开进行识别。我们利用层次分析的方法构建层次结构,在每种情况下进行得出排序结果进行排序选优。三、基本假设1.假设从互联网上获取的用户信息都是真实的,准确的;2.假设用户信息数据可以准确量化;3.假设量化时间以采集数据时间为准;4.假设每个论坛中的用户信息格式都为用户名、UID、性别、注册日期、上次访问时间、帖子数量、积分、跟帖数。(一)论坛领袖|的识别言论领袖即最具影响力的论坛人物,影响言论领袖的因素有四个:跟帖数量、精华贴数、置顶时间、发帖总数,我们根据各个因素的影响程度构造比较矩阵,形成层次结构,得出排序结果,识别论坛领袖。1.建立层次结构

3问题的层次结构公分三层:第一层为目标层(O):综合选优排序;第二层为准则层(C):影响因素,共有4个,依次为帖数量、精华贴数、置顶时间、发帖总数分别记为C(k=1,2,3,4);第三层为方案层(P):论坛中有N个用户,依次记为P(n=1,2,…,N)。2.确定准则层(C)对目标层(O)的权重W根据每个因素对评价结果的影响程度小组讨论得比较|矩阵:A=式中表示发帖数C与跟帖数C对选择言论领袖这个目标的重要之比为3:1,表示发帖数C与其他因素C对选择言论领袖这个目标的重要之比为6:1,表示Ci与Cj对选择言论领袖的重要之比,全部比较结果构成上式。进行成对定性比较时参考了如下表:尺度含义1Bi与Bj的影响相同3Bi比Bj的影响稍强5Bi比Bj的影响强7Bi比Bj的影响明显的强9Bi比Bj的影响绝对的强2,4,6,8Bi与Bj的影响之比在上述两个相邻等级之间1,1/2,…,1/9Bi与Bj的影响之比为上面的互反数表11-9尺度的含义经计算求得A的最大特征值为4.0015,相应的特征向|量作为归一化有,W=(2.1534,0.7177,0.3276,0.8011)

4则一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1、本文档共21页,下载后即可获取全部内容。
2、此文档《数学建模互联网用户识别》由用户(158****5147)提供并上传付费之前 请先通过免费阅读内容等途径辨别内容,本站所有文档下载所得的收益全部归上传人(卖家)所有:如有侵权或不适当内容,请进行举报或申诉。
3、所有的PPT和DOC文档都被视为“模板”允许上传人保留音节日灵结构的情况下删减部份的内容,下裁前须认直查看,确认无误后再购买。
4、欧宝真人·(中国)科技有限公司网仅提供信息存储空间,仅对用户上传内容的表现方式做保护外理,无法对各卖家所售文档的直实性,完整性,准确性以及专业性等问题提供审核和保证,请谨慎购买。
5、本站文档的总页数,文档格式和文档大小以系统显示为准(内容中显示页数不一定正确),网站客服只以系统显示页数,文件格式,文档大小作为仲裁依据。

文档提供

发布者:158****5147

上传时间:2023-10-20 13:21:51

认证主体:齐**(个人认证)

IP归属:湖北省 武汉

相关标签

文档提供

发布者:158****5147

上传时间:2023-10-20 13:21:51

认证主体:齐**(个人认证)

IP归属:湖北省 武汉

相关标签