图书介绍

社群网站的资料探勘【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

Matthew A.Russell著；师蓉，胡为君译著
出版社：碁峰资讯股份有限公司
ISBN：9789862767825
出版时间：2013
标注页数：346页
文件大小：29MB
文件页数：360页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：80287dd67313702130bada7b2dde637c

下载说明

社群网站的资料探勘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一章绪论：Twitter资料的处理1

Python开发工具的安装1

Twitter资讯的收集和处理4

处理Twitter的API4

频率分析和词汇多样性7

tweet图的视觉化14

综合应用：用Protovis视觉化转推的tweet17

结论18

第二章微格式：语义标记和常识碰撞19

XFN和朋友20

使用XFN来探讨社群关系22

XFN资讯的广度优先撷取23

地理座标：兴趣爱好的共同主线31

维基百科文章＋Google地图=开车旅行是否成立31

对食谱进行交叉分析（以健康的名义）35

蒐集餐厅评论38

结论40

第三章信箱：老套但好用41

mbox：Unix的入门级信箱42

mbox＋CouchDB=任意分析Email49

将文件批次载入到CouchDB中52

合理的排序53

映射/简化启发的频率分析57

按值排序文件62

couchdb-lucene：不光是全文索引64

将对话串接在一起68

看谁在说话74

使用SIMILE Timeline将邮件「事件」视觉化79

分析你自己的邮件资讯85

Graph Your （Gmail） Inbox Chrome工具87

结论88

第四章Twitter：朋友、追随者和Setwise操作89

REST风格的和OAuth-Cladded API90

不，才不告诉你密码呢91

精明能干的资讯收集器94

一个非常简短的重构子程式97

Redis：资料结构伺服器98

基本的集合操作100

使用基本的朋友/追随者度量来增强效能102

透过计算共同朋友和追随者来计算相似性108

影响的度量110

友谊图的构建115

派系检测与分析117

Infochimp「强连结」API121

互动式3D图的视觉化123

结论126

第五章Twitter：tweet，tweet，全都是tweet127

笔：剑：：tweet：机枪（？！？128

tweet的分析（每次一个实体）131

对（Tim的）Tweet的利用134

Tim最常转推谁的tweet147

Tim的影响力151

Tim的tweet中有多少包含hashtag ？154

并行的潛在社群网站（或#JustinBieber VS #TeaParty ）157

#JustinBieber和#TeaParty的tweet中最常共同出现的实体159

平均来说，#JustinBieber或#TeaParty，谁的tweet包含更多hashtag？163

谁比较常被转推：#JustinBieber或#TeaParty？164

#TeaParty和#JustinBieber的tweet实体之间存在多少重叠166

对大量tweet的视觉化168

使用标籤云视觉化tweet168

Twitter搜寻结果中群集结构的视觉化173

结论176

第六章Linkedln：为了乐趣（和利润？）将职场网路分类179

分类的动机180

按职位将连络人分类183

规范并统计职位的数量183

分类常见的相似性度量186

分类的贪心方法189

分层分类和k均值分类197

获得补充个人资讯200

从地理上分类网路205

使用Google Earth标示职场网路206

使用Dorling Cartograms标示职场网路210

结论212

第七章Google＋：TF-IDF、馀弦相似性与搭配213

采集 Google＋资料214

用N LTK检阅资料217

文字探勘基础221

TF-IDF简介221

用TF-IDF查询Google＋资料226

寻找相似文件228

向量空间模型与馀弦相似性的背后理论228

零散文字与馀弦相似性230

用图表软体将相似性视觉化233

双字组分析（Bigram Analysis）235

怎么灌出搭配香肠（Collocation Sausage）：列联表与计分函式239

伸手捞向Gmail242

以OAuth存取242

取得与解读电子邮件内容243

动手打造你自己的搜寻引擎之前246

结论248

第八章部落格及其他：自然语言处理（等等）249

NLP：帕累托式介绍249

句法与语义250

简短的思考练习251

使用NLTK的典型NLP管线252

使用NLTK检测部落格中的句子255

对文件的总结259

Luhn摘要演算法的分析266

以实体为中心的分析：对资料的深层瞭解268

分析的品质278

结论280

第九章Facebook：一体化的奇迹281

利用社群网路资料282

在10分钟内从零到存取憑证282

Facebook的查询API288

Facebook数据的视觉化300

对整个社群网路的视觉化301

视觉化分组中的共同友谊312

我的朋友都到哪里去了？（一个资料导向的游戏）315

把留言板数据视觉化为（旋转的）标籤云321

结论324

第十章语义网：简短的讨论325

发展中的变革325

人不可能只靠事实生活326

开放世界与封闭世界假说327

使用FuXi推断开放世界328

期望330