<데이터분석과정 수강기> #3 트위터크롤링

in #kr-science7 years ago (edited)

#2 에서 이어짐
안녕하세요, 데이터분석 뉴비 @islandvibes입니다. 데이터분석을 하려면 일단 데이터가 있어야 하지 않겠어요. 그리고 트잉여라면 당연히 트위터를 긁어보고 싶지 않겠습니까


두번째, 크롤링(트위터)입니다.

제가 쓸 패키지로는 모든 트위터를 긁어올 수는 없고 일주일쯤이었나.. 주는대로 잘라서 받아올 수 밖에 없었습니다.
(streamR패키지로 streaming API를 쓸 수 있는 방법도 있긴 했지만 어차피 제가 원하는 결과를 내기 위해서는 대략 긁어오면 되니 여기서는 아래의 패키지로 진행합니다.)

진행하기 전에 OAuth 설정이 필요합니다. 키값을 받아오기 위해서인데요, 계정이 있으셔야 되고
generating a token 을 따라하시면 됩니다. createnewapp을 누르시고 적절히 항목을 채워주시면 됩니다.



준비가 되셨으면 R로 돌아와서 쓸 라이브러리를 불러옵니다.
없으시면 install.packages()해주시면 됩니다.
library("twitteR")
library("ROAuth")
library("base64enc")

아까 받아둔 키를 넣고(각각 ""사이에 넣어줍니다.)
consumerKey <- ""
consumerSecret <-""
accessToken <-""
accessTokenSecret <-""

아래와같이 설정을 해줍니다. 뭐가 뜨면 1번 누르고 엔터
setup_twitter_oauth(consumerKey, consumerSecret, accessToken, accessTokenSecret)

그 다음엔 원하시는 걸 긁어오면 되요. 나의 마음을 긁어온다든지, RT를 긁어온다든지
제가 쓸 라이브러리 자세한 설명은 여기있으니 원하시는 걸 해보시면 되고 일단 저는 특정 키워드를 포함한 트윗을 긁어보았습니다.

#'원달러'표시가 안되서 이미지로 붙였습니다....
bigdata <- searchTwitter(searchString=keyword1, n=30000, lang="ko", since = '2018-02-09')

긁어온 것 중에 텍스트컬럼만 저장합니다.
tweets.df <- twListToDF(bigdata)
text <- tweets.df$text

이것저것 힘들었으니 한번 끊어갑시다. 다음시간의 목표는 워드클라우드입니다.
save(text, file="twitter.Rdata")

저장! 다음에 로드해서 이어서 쓰면 되요.

Sort:  

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 1 year!

Click here to view your Board

Support SteemitBoard's project! Vote for its witness and get one more award!

Congratulations @islandvibes! You received a personal award!

Happy Birthday! - You are on the Steem blockchain for 2 years!

You can view your badges on your Steem Board and compare to others on the Steem Ranking

Vote for @Steemitboard as a witness to get one more award and increased upvotes!

Coin Marketplace

STEEM 0.26
TRX 0.20
JST 0.037
BTC 94837.57
ETH 3452.01
USDT 1.00
SBD 3.93