图书介绍

社群网站的资料探勘【2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载】

社群网站的资料探勘
  • Matthew A.Russell著;师蓉,胡为君译 著
  • 出版社: 碁峰资讯股份有限公司
  • ISBN:9789862767825
  • 出版时间:2013
  • 标注页数:346页
  • 文件大小:29MB
  • 文件页数:360页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

社群网站的资料探勘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一章 绪论:Twitter资料的处理1

Python开发工具的安装1

Twitter资讯的收集和处理4

处理Twitter的API4

频率分析和词汇多样性7

tweet图的视觉化14

综合应用:用Protovis视觉化转推的tweet17

结论18

第二章 微格式:语义标记和常识碰撞19

XFN和朋友20

使用XFN来探讨社群关系22

XFN资讯的广度优先撷取23

地理座标:兴趣爱好的共同主线31

维基百科文章+Google地图=开车旅行是否成立31

对食谱进行交叉分析(以健康的名义)35

蒐集餐厅评论38

结论40

第三章 信箱:老套但好用41

mbox:Unix的入门级信箱42

mbox+CouchDB=任意分析Email49

将文件批次载入到CouchDB中52

合理的排序53

映射/简化启发的频率分析57

按值排序文件62

couchdb-lucene:不光是全文索引64

将对话串接在一起68

看谁在说话74

使用SIMILE Timeline将邮件「事件」视觉化79

分析你自己的邮件资讯85

Graph Your (Gmail) Inbox Chrome工具87

结论88

第四章Twitter:朋友、追随者和Setwise操作89

REST风格的和OAuth-Cladded API90

不,才不告诉你密码呢91

精明能干的资讯收集器94

一个非常简短的重构子程式97

Redis:资料结构伺服器98

基本的集合操作100

使用基本的朋友/追随者度量来增强效能102

透过计算共同朋友和追随者来计算相似性108

影响的度量110

友谊图的构建115

派系检测与分析117

Infochimp「强连结」API121

互动式3D图的视觉化123

结论126

第五章Twitter:tweet,tweet,全都是tweet127

笔:剑::tweet:机枪(?!?128

tweet的分析(每次一个实体)131

对(Tim的)Tweet的利用134

Tim最常转推谁的tweet147

Tim的影响力151

Tim的tweet中有多少包含hashtag ?154

并行的潛在社群网站(或#JustinBieber VS #TeaParty )157

#JustinBieber和#TeaParty的tweet中最常共同出现的实体159

平均来说,#JustinBieber或#TeaParty,谁的tweet包含更多hashtag?163

谁比较常被转推:#JustinBieber或#TeaParty?164

#TeaParty和#JustinBieber的tweet实体之间存在多少重叠166

对大量tweet的视觉化168

使用标籤云视觉化tweet168

Twitter搜寻结果中群集结构的视觉化173

结论176

第六章Linkedln:为了乐趣(和利润?)将职场网路分类179

分类的动机180

按职位将连络人分类183

规范并统计职位的数量183

分类常见的相似性度量186

分类的贪心方法189

分层分类和k均值分类197

获得补充个人资讯200

从地理上分类网路205

使用Google Earth标示职场网路206

使用Dorling Cartograms标示职场网路210

结论212

第七章Google+:TF-IDF、馀弦相似性与搭配213

采集 Google+资料214

用N LTK检阅资料217

文字探勘基础221

TF-IDF简介221

用TF-IDF查询Google+资料226

寻找相似文件228

向量空间模型与馀弦相似性的背后理论228

零散文字与馀弦相似性230

用图表软体将相似性视觉化233

双字组分析(Bigram Analysis)235

怎么灌出搭配香肠(Collocation Sausage):列联表与计分函式239

伸手捞向Gmail242

以OAuth存取242

取得与解读电子邮件内容243

动手打造你自己的搜寻引擎之前246

结论248

第八章 部落格及其他:自然语言处理(等等)249

NLP:帕累托式介绍249

句法与语义250

简短的思考练习251

使用NLTK的典型NLP管线252

使用NLTK检测部落格中的句子255

对文件的总结259

Luhn摘要演算法的分析266

以实体为中心的分析:对资料的深层瞭解268

分析的品质278

结论280

第九章Facebook:一体化的奇迹281

利用社群网路资料282

在10分钟内从零到存取憑证282

Facebook的查询API288

Facebook数据的视觉化300

对整个社群网路的视觉化301

视觉化分组中的共同友谊312

我的朋友都到哪里去了?(一个资料导向的游戏)315

把留言板数据视觉化为(旋转的)标籤云321

结论324

第十章 语义网:简短的讨论325

发展中的变革325

人不可能只靠事实生活326

开放世界与封闭世界假说327

使用FuXi推断开放世界328

期望330

热门推荐