크롤링을 하는데 있어서 조금 이해가 안가는 부분들이 있었는데,
그럴때는 하나씩 구조를 뜯어보면 이해가 갔다.
그 부분을 정리해보자면
먼저 requests를 활용해서 response를 받고, 이를 BeautifulSoup의 'html.parser'를 활용해서 soup으로 만들었다.
이때 articles같은 것을 가져올 때 항상 tbody나.. ul 같은것으로 하나 묶여 있어서 이걸 찾는 것부터 했다.
순서를 정리해보자면
1) a = select('.class명') 또는 #id 로 ul이나 tbody를 찾아옴.
2) 이때 a는 하나의 리스트에 tbody 내용이 모두 담겨 있어서 len(a)를 해보면 1로 나옴.
3) 이 a 안에 담겨잇는 모든 'li'를 갖고와야하기 떄문에 a = a[0].find_all('li') 가끔은 'tr' 상황에 맞게
이렇게 해서 a안의 li를 모두 가져오게 됨. 이때 a는 리스트의 형태로 li 개수만큼 존재함.
4) for 문으로 li의 내용 빼오기
이렇게 구조를 이해하면 된다.
'크롤링' 카테고리의 다른 글
| 내맘대로 크롤링(4): 그래서 BeautifulSoup이 뭔데? (0) | 2023.07.10 |
|---|---|
| 내맘대로 크롤링(3): BeautifulSoup을 활용해서 원하는 것 가져오자! (0) | 2023.07.09 |
| 내맘대로 크롤링(2): CSS 선택자의 종류 (0) | 2023.07.09 |
| 내맘대로 크롤링(1): HTML구조와 태그 (0) | 2023.07.09 |
| 내맘대로 크롤링 (0): 크롤링을 하게 된 이유 (0) | 2023.07.09 |