-
[모각코+] 파이썬 크롤링 2월 과정 7일차모각코+/파이썬 크롤링 2022. 2. 15. 19:45728x90
https://codemate.kr/@Qcell/7%EC%9D%BC%EC%B0%A8-BS4-%ED%99%9C%EC%9A%A9
7일차 : BS4 활용 by Qcell | 코드메이트
저는 한국 프로야구 구단의 순위 및 기타 데이터를 크롤링 하고 싶었습니다! 대상 사이트 : https://sports.news.naver.com/kbaseball/record/index?category=kbo 다만 테이블이 thead , tbody로 나누어져있어서
codemate.kr
1~6일차에선 requests, bs4 등 라이브러리 활용법을 학습하고, 정적크롤링 & 동적크롤링 , 선택자등을 학습하여 따로 포스팅을 하지 않았습니다.
이번 7일차에서는 Beautifulsoup4 라이브러리를 활용하여 제가 얻고자 하는 사이트의 데이터를 추출해보았습니다.
저는 KBO 팀들의 순위 , 팀타율 , 평균자책점 및 선수 개인 지표등 유의미한 자료를 시즌중에도 실시간으로 얻고 싶었고, 그러기 위해 해당 사이트를 크롤링하기로 결정했습니다.
대상 사이트 : https://sports.news.naver.com/kbaseball/record/index?category=kbo
다만 테이블이 thead , tbody로 나누어져있어서
thead에는 해당하는 수치가 무엇인지에 대한 정보값 ( ex: 순위,경기수 등)이 담겨있었고,
tbody에 실질적인 데이터들이 담겨 있었는데, 이를 출력하는 과정에서 어려움을 느껴 일단 for문으로 깔끔하진 않지만, 출력이라도 해봤습니다.
코드
import requests import bs4 URL = 'https://sports.news.naver.com/kbaseball/record/index?category=kbo' raw = requests.get(URL) html = bs4.BeautifulSoup(raw.text, 'html.parser') target = html.find('div', {'class' : 'tbl_box'}) baseball = target.find_all("tbody", {'id' : 'regularTeamRecordList_table'}) information = target.find_all("span", {'class' : 'blind'}) for informations in information: print(informations.text) for baseballs in baseball: print(baseballs.text)
실행결과 :
728x90'모각코+ > 파이썬 크롤링' 카테고리의 다른 글
[모각코+] 파이썬 크롤링 2월 과정 14일차 (0) 2022.02.24 [모각코+] 파이썬 크롤링 2월 과정 12일차 (0) 2022.02.22 [모각코+] 파이썬 크롤링 2월 과정 11일차 (0) 2022.02.21 [모각코+] 파이썬 크롤링 2월 과정 9일차 (0) 2022.02.17 [모각코+] 파이썬 크롤링 2월 과정 8일차 (0) 2022.02.16