본문 바로가기
크롤링

내맘대로 크롤링(1): HTML구조와 태그

by 너티드코오딩 2023. 7. 9.

우선은 내가 크롤링 하는 사이트를 위주로 정리해볼 것이다

 

가장 기초라고 할 수 있는 HTML 코드를 내가 정리한 부분으로 살펴보자면

 

<태그명 속셩명 ="속성값"> 내용 </태그명>

<h1 id = "title"> 내맘대로코딩</h1>

이게 기본 구조라고 볼 수 있다.

아래는 예시로 살포시 써본 것.

 

자주쓰는 태그 종류는

<div> 구역나누기

<a>  링크(대체로 <a href>)

<h1> 제목

<p> 문단

<ul>, <li> 목록

이렇게 있는데, 내가 크롤링했던 사이트들은 table 하위에 tbody, 그리고 각 tr들로 구성되어 있었다.

설명하기는 어렵지만 어쟀든 table > tbody > tr

 

이걸 구글링좀 해보니까

<tbody>는 표의 데이터를 담는 것이라고 하고, 그 안에 <tr>은 row 행을 만든다. 고 되어있음.

 

사실 내가 원하는 페이지들은 대체로 표가 많더라. 결국 크롤링을 하려면 HTML구조를 아예 모르면 어렵다고 느꼈음.

 

정리하자면

<tr> table row의 약자로 행
<td> table data의 약자로 <tr> 밑에 <td> 태그를 활용해서 데이터를 넣음

이렇게 이해하면 되고, <tr>, <td>를 찾는법은 다음에~