从数据角度分析陈冠希大骂林志玲事件

时间:2016-07-29 14:47:19  作者:啤酒  阅读:16777215


抓取完成后,得到了用户的一些属性以及评论的内容。



  好,既然是评论,我们首先当然要来一发词云分析先。


library(tm)

library(Rwordseg)

installDict('明星【官方推荐】.scel','明星')

contentCorpus<- Corpus(VectorSource(na.omit(d$text)))

contentCorpus<- tm_map(contentCorpus, stripWhitespace)

contentCorpus=tm_map(contentCorpus, content_transformer(segmentCN), returnType='tm')

#tm分词对中文分词Bug解决方案

tokenizer <-function(x){

unlist(

strsplit(

x$content,

'[[:space:]]+'

)

)

}

tdm <-TermDocumentMatrix(

contentCorpus,

control=list(

wordLengths=c(1,Inf),

tokenize=tokenizer

)

)

#转成向量矩阵

tdm <-as.matrix(tdm)

library(wordcloud)

v <-sort(rowSums(tdm), decreasing = TRUE)

d <-data.frame(word = names(v), freq = v)

d <- d[1:300,]

wordcloud(

d$word,

d$freq,

min.freq=2,

random.order=F,

colors=rainbow(length(row.names(d)))

)


电脑
大小:MB  时间:01.01  赞:

相关文章

  • 从数据角度分析陈冠希大骂林志玲事件
    从数据角度分析陈冠希大骂林志玲事件

      近日,陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰 的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。如何用分析热点事件背后的数 (yu)据(le)意(ba)义(gua)呢?这一次数据侠KEN用R语言分析了微博上粉丝的舆论,通过词云可以发现,网友对于这种无端端撕B的行为总的 来说4个字:“你”“的”“不”“是”!

    16777215