时间:2016-07-29 14:47:19 作者:啤酒 阅读:16777215
抓取完成后,得到了用户的一些属性以及评论的内容。
好,既然是评论,我们首先当然要来一发词云分析先。
library(tm)
library(Rwordseg)
installDict('明星【官方推荐】.scel','明星')
contentCorpus<- Corpus(VectorSource(na.omit(d$text)))
contentCorpus<- tm_map(contentCorpus, stripWhitespace)
contentCorpus=tm_map(contentCorpus, content_transformer(segmentCN), returnType='tm')
#tm分词对中文分词Bug解决方案
tokenizer <-function(x){
unlist(
strsplit(
x$content,
'[[:space:]]+'
)
)
}
tdm <-TermDocumentMatrix(
contentCorpus,
control=list(
wordLengths=c(1,Inf),
tokenize=tokenizer
)
)
#转成向量矩阵
tdm <-as.matrix(tdm)
library(wordcloud)
v <-sort(rowSums(tdm), decreasing = TRUE)
d <-data.frame(word = names(v), freq = v)
d <- d[1:300,]
wordcloud(
d$word,
d$freq,
min.freq=2,
random.order=F,
colors=rainbow(length(row.names(d)))
)
近日,陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰 的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。如何用分析热点事件背后的数 (yu)据(le)意(ba)义(gua)呢?这一次数据侠KEN用R语言分析了微博上粉丝的舆论,通过词云可以发现,网友对于这种无端端撕B的行为总的 来说4个字:“你”“的”“不”“是”!
16777215