크롤링
내맘대로 크롤링(1): HTML구조와 태그
너티드코오딩
2023. 7. 9. 12:58
우선은 내가 크롤링 하는 사이트를 위주로 정리해볼 것이다
가장 기초라고 할 수 있는 HTML 코드를 내가 정리한 부분으로 살펴보자면
<태그명 속셩명 ="속성값"> 내용 </태그명>
<h1 id = "title"> 내맘대로코딩</h1>
이게 기본 구조라고 볼 수 있다.
아래는 예시로 살포시 써본 것.
자주쓰는 태그 종류는
<div> 구역나누기
<a> 링크(대체로 <a href>)
<h1> 제목
<p> 문단
<ul>, <li> 목록
이렇게 있는데, 내가 크롤링했던 사이트들은 table 하위에 tbody, 그리고 각 tr들로 구성되어 있었다.
설명하기는 어렵지만 어쟀든 table > tbody > tr
이걸 구글링좀 해보니까
<tbody>는 표의 데이터를 담는 것이라고 하고, 그 안에 <tr>은 row 행을 만든다. 고 되어있음.
사실 내가 원하는 페이지들은 대체로 표가 많더라. 결국 크롤링을 하려면 HTML구조를 아예 모르면 어렵다고 느꼈음.
정리하자면
<tr> table row의 약자로 행
<td> table data의 약자로 <tr> 밑에 <td> 태그를 활용해서 데이터를 넣음
이렇게 이해하면 되고, <tr>, <td>를 찾는법은 다음에~