내맘대로 크롤링(5): 구조를 좀더 살펴보자~

크롤링

너티드코오딩 2023. 7. 21. 10:05

크롤링을 하는데 있어서 조금 이해가 안가는 부분들이 있었는데,

그럴때는 하나씩 구조를 뜯어보면 이해가 갔다.

그 부분을 정리해보자면

먼저 requests를 활용해서 response를 받고, 이를 BeautifulSoup의 'html.parser'를 활용해서 soup으로 만들었다.

이때 articles같은 것을 가져올 때 항상 tbody나.. ul 같은것으로 하나 묶여 있어서 이걸 찾는 것부터 했다.

순서를 정리해보자면

1) a = select('.class명') 또는 #id 로 ul이나 tbody를 찾아옴.

2) 이때 a는 하나의 리스트에 tbody 내용이 모두 담겨 있어서 len(a)를 해보면 1로 나옴.

3) 이 a 안에 담겨잇는 모든 'li'를 갖고와야하기 떄문에 a = a[0].find_all('li') 가끔은 'tr' 상황에 맞게

이렇게 해서 a안의 li를 모두 가져오게 됨. 이때 a는 리스트의 형태로 li 개수만큼 존재함.

4) for 문으로 li의 내용 빼오기

이렇게 구조를 이해하면 된다.