우선은 내가 크롤링 하는 사이트를 위주로 정리해볼 것이다
가장 기초라고 할 수 있는 HTML 코드를 내가 정리한 부분으로 살펴보자면
<태그명 속셩명 ="속성값"> 내용 </태그명>
<h1 id = "title"> 내맘대로코딩</h1>
이게 기본 구조라고 볼 수 있다.
아래는 예시로 살포시 써본 것.
자주쓰는 태그 종류는
<div> 구역나누기
<a> 링크(대체로 <a href>)
<h1> 제목
<p> 문단
<ul>, <li> 목록
이렇게 있는데, 내가 크롤링했던 사이트들은 table 하위에 tbody, 그리고 각 tr들로 구성되어 있었다.
설명하기는 어렵지만 어쟀든 table > tbody > tr
이걸 구글링좀 해보니까
<tbody>는 표의 데이터를 담는 것이라고 하고, 그 안에 <tr>은 row 행을 만든다. 고 되어있음.
사실 내가 원하는 페이지들은 대체로 표가 많더라. 결국 크롤링을 하려면 HTML구조를 아예 모르면 어렵다고 느꼈음.
정리하자면
<tr> table row의 약자로 행
<td> table data의 약자로 <tr> 밑에 <td> 태그를 활용해서 데이터를 넣음
이렇게 이해하면 되고, <tr>, <td>를 찾는법은 다음에~
'크롤링' 카테고리의 다른 글
| 내맘대로 크롤링(5): 구조를 좀더 살펴보자~ (0) | 2023.07.21 |
|---|---|
| 내맘대로 크롤링(4): 그래서 BeautifulSoup이 뭔데? (0) | 2023.07.10 |
| 내맘대로 크롤링(3): BeautifulSoup을 활용해서 원하는 것 가져오자! (0) | 2023.07.09 |
| 내맘대로 크롤링(2): CSS 선택자의 종류 (0) | 2023.07.09 |
| 내맘대로 크롤링 (0): 크롤링을 하게 된 이유 (0) | 2023.07.09 |