웹사이트에서 뉴스 간단하게 가져오기 / python newspaper library 실습 / google colaboratory
python 을 처음 접할 때 설치, 등 여러 가지 문제를 줄이면서 간편하게 빨리 python을 실행해볼 수 있는 것이 google colaboratory입니다.(사용법 : https://ndb796.tistory.com/312 )
대부분 웹에서 정보를 가져오려고 할 때 beatifulsoup를 이용해서 각 사이트에 맞게 잘라서 가져오는 방법을 주로 사용합니다.
(제약은 있지만 GPU, TPU 실습도 가능...)
뉴스 형식의 데이터를 가져오는 python newspaper라는 library를 이용하면 어떻게 작업을 쉽게 할 수 있는지 살펴보고자 합니다.
일단 사용법을 살펴보고 블로그 등 일반 사이트에도 적용해서 실습해 보겠습니다.
참고사이트
실습 내용
정리
- newspaper library를 이용해서 간단하게 웹페이지 내용을 가져올 수 있습니다.
- 사용법
from newspaper import Article
url = 'https://news.chosun.com/site/data/html_dir/2020/07/02/2020070204391.html'
article = Article(url)
article.download()
article.parse()
article.nlp()
# 제목
article.title
# 저자
article.authors
# 날짜
article.publish_date
# 내용
article.text
# 주요 이미지
article.top_image
# 동영상
article.movies
# 키워드
article.keywords
# 요약
article.summary
- 네이버 블로그는 잘 안되고, tistory는 잘 작동합니다.