웹사이트에서 뉴스 간단하게 가져오기 / python newspaper library 실습 / google colaboratory

in #python4 years ago

python 을 처음 접할 때 설치, 등 여러 가지 문제를 줄이면서 간편하게 빨리 python을 실행해볼 수 있는 것이 google colaboratory입니다.(사용법 : https://ndb796.tistory.com/312 )

대부분 웹에서 정보를 가져오려고 할 때 beatifulsoup를 이용해서 각 사이트에 맞게 잘라서 가져오는 방법을 주로 사용합니다.

(제약은 있지만 GPU, TPU 실습도 가능...)

뉴스 형식의 데이터를 가져오는 python newspaper라는 library를 이용하면 어떻게 작업을 쉽게 할 수 있는지 살펴보고자 합니다.

일단 사용법을 살펴보고 블로그 등 일반 사이트에도 적용해서 실습해 보겠습니다.

image.png

참고사이트

​​

실습 내용

​​

정리

  • newspaper library를 이용해서 간단하게 웹페이지 내용을 가져올 수 있습니다.
  • 사용법
from newspaper import Article 

url = 'https://news.chosun.com/site/data/html_dir/2020/07/02/2020070204391.html' 
article = Article(url) 
article.download() 
article.parse() 
article.nlp() 

# 제목 
article.title 

# 저자 
article.authors 

# 날짜 
article.publish_date 

# 내용 
article.text 

# 주요 이미지 
article.top_image 

# 동영상 
article.movies 

# 키워드 
article.keywords 

# 요약 
article.summary
  • 네이버 블로그는 잘 안되고, tistory는 잘 작동합니다.

image.png

Coin Marketplace

STEEM 0.26
TRX 0.20
JST 0.038
BTC 96315.76
ETH 3565.22
USDT 1.00
SBD 3.90