오늘은 파이썬의 Newspaper의 라이브러리를 한 번 파헤쳐 보려고 합니다.
Newspaper는 뭐하는 친구인가요?
Newspaper는 인터넷 뉴스 기사들을 Article이라는 함수로 감싸 제목, 본문, 날짜, 태그 등 기사 속 내용들을 분류해 보여줄 수 있는 그러한 라이브러리입니다.
현재 제가 개발하고 있는 뉴스 요약 API에서도 이 Newspaper를 사용하고 있기 때문에 여러분들께 좀 더 쉽게 이야기 할 수 있을 것 같습니다.
Newspaper를 어떻게 쓰나요?
사용 방법은 엄청 쉽습니다.
먼저 이 라이브러리를 사용하기 위해선 먼저 터미널을 열어 pip install newspaper3k로 설치만 하면 됩니다.
정말 쉽죠? (만약 Python2를 사용하시는 분은 newspaper로 변경하여 설치해주세요!)
그 다음 어떻게 사용하는지 이야기 해드리자면 뉴스 링크를 Article이라는 클래스로 감싸주면 Article이라는 클래스가 저절로 뉴스 기사를 분해(?) 시키기 때문에 누구나 쉽게 사용할 수 있습니다.
내가 만약 뉴스 제목을 가져오고 싶다면 Article로 감싼 뉴스 링크가 담긴 변수에 .title만 달아주면 제목이 나옵니다.
from newspaper import Article
link = 'https://www.inven.co.kr/webzine/news/?news=263028'
article = Article(link, language = 'ko')
article.download()
article.parse()
newTitle = article.title
print(newTitle)
방금 10명 제치고 골 넣는 상상함. 상상을 현실로 바꿔줄 '피파22'
Process finished with exit code 0
이렇게 newspaper라는 라이브러리를 사용하면 쉽게 인터넷 기사들을 가져올(해부) 수 있습니다.
하지만 중간 부분에 보면 article.download()와 article.parse() 이 부분들을 볼 수 있을 겁니다.
이 부분은 짧은 저의 시선에서 보게 된다면 download는 Article로 긁어온 뉴스 링크 데이터를 태그로 이루어진 html로 만드는 것 같고 parse는 그 태그들을 사용할 수 있도록 만들어주는 그런 분별하는 역할로 보입니다.
결론을 말씀 드리자면 Newspaper를 쓰기 위해서는 이 download와 parse는 중요하다는 것이죠
조금 더 라이브러리를 이야기 해드리자면
본문 : .text
기사 업로드 날짜 : .publish_date
태그 : .tags
메타 데이터 : .meta_data
url 주소 : .url
등등 여러 가지 함수들이 있으니 한 번 직접 해보시는 것을 추천드립니다!
'Dev DBAN > 개발 이야기' 카테고리의 다른 글
나의 첫 리눅스 - APACHE2,MYSQL,PHP (1) | 2021.10.04 |
---|---|
HTTP 상태 코드 모음 (0) | 2021.10.02 |
파이썬으로 네이버 카페 게시글 크롤링 (1) | 2021.06.15 |
파이썬으로 자동 요약하기 5편 - 자동 요약mk.2 (0) | 2021.06.11 |
파이썬으로 기사 요약하기 4편 - 자동 포스팅 (6) | 2021.06.07 |
댓글