- 수업 내용 리마인드 및 아카이빙 목적의 업로드
웹 크롤링에 관심이 있으신가요? 웹에서 데이터를 가져오려면 'API 요청'을 이해하고 분석하는 것이 중요한데요. 이 부분이 처음에는 조금 어렵게 느껴질 수도 있어요. 그래서 오늘은 웹사이트에서 API 요청을 찾는 방법을 하나하나 쉽게 설명드리려고 해요. API 요청을 잘 파악하면 원하는 데이터를 훨씬 더 효율적으로 가져올 수 있답니다. 자, 그럼 시작해볼까요?
1. 개발자 도구(F12) 열기
1) 개발자 도구 열기
먼저 Chrome 브라우저를 열고, 크롤링하려는 웹페이지로 이동하세요. 그리고 키보드에서 F12 키를 눌러 개발자 도구를 열어주세요.
2) 네트워크 탭 선택
개발자 도구가 열리면, 여러 가지 탭이 보일 텐데요, 이 중에서 네트워크(Network) 탭을 클릭해 주세요. 이 탭에서는 웹페이지가 로드되면서 발생하는 모든 네트워크 요청을 볼 수 있답니다.
2. 네트워크 요청 모니터링
1) 페이지 새로고침
네트워크 탭을 열어놓은 상태에서 F5 키를 눌러 페이지를 새로고침해 주세요. 이렇게 하면 페이지가 로드되면서 발생하는 모든 네트워크 요청이 기록돼요.
2) JSON 응답 필터링
여러 요청이 나열될 텐데, 우리는 주로 JSON 형식의 데이터를 반환하는 요청을 찾고 싶어요. 네트워크 탭 상단에 있는 검색창에 json 또는 xhr을 입력해 보세요. 이렇게 하면 JSON 응답을 반환하는 요청만 남게 되죠. 또, Fetch/XHR 탭을 선택하면 XML HTTP 요청을 통해 데이터를 주고받는 요청만 볼 수 있답니다.
3. 원하는 API 요청 찾기
1) 요청 분석하기
이제 필터링된 요청들 중에서, 상품 데이터나 리스트 데이터 같은 정보를 포함하고 있을 법한 요청을 찾아봐요. 원하는 요청을 클릭하면 오른쪽 패널에서 Headers, Response 등 다양한 정보를 확인할 수 있어요.
2) 응답 데이터 확인하기
Response 탭에서 서버가 반환한 실제 데이터를 볼 수 있어요. 이 데이터가 JSON 형식이라면, 그 안에 상품 정보, 사용자 정보 등 다양한 데이터가 들어 있을 가능성이 높아요.
4. API 요청 구조 파악하기
1) 요청 URL과 헤더 확인하기
찾아낸 API 요청이 우리가 원하는 데이터를 담고 있다면, URL과 Headers를 꼭 확인해 두세요. 이 정보들은 Python 같은 프로그래밍 언어를 사용해 동일한 요청을 보낼 때 꼭 필요해요. 특히 User-Agent, Referer, Authorization(필요할 경우) 같은 중요한 헤더를 기록해 두면 좋답니다.
2) 파라미터 분석하기
많은 API 요청은 URL의 쿼리 파라미터를 통해 데이터를 필터링하거나 정렬하는데요. 예를 들어 카테고리 ID나 페이지 번호 같은 파라미터들이 있어요. 이런 파라미터들을 잘 분석하면 원하는 데이터를 더 정밀하게 가져올 수 있어요.
5. 주의사항 및 팁
1) API 정책 준수하기
모든 웹사이트는 자체적인 데이터 사용 정책이 있어요. 과도한 크롤링은 서버에 부하를 줄 수 있으니, 적절한 요청 간격을 유지하고 사이트의 이용 약관을 준수하는 것이 중요해요.
2) 데이터 보안
요청에 포함된 민감한 정보, 예를 들어 API 키나 토큰은 절대 공유하지 말고 안전하게 보관해야 해요.
'+ 개발' 카테고리의 다른 글
Selenium을 이용한 웹 크롤링 (0) | 2024.08.15 |
---|---|
비동기 웹 크롤링(#무신사)_Gen.AI (0) | 2024.08.13 |
동기 웹과 비동기 웹의 차이(ft.데이터 크롤링) (0) | 2024.08.13 |
주가 크롤링(#네이버증권)_Gen.AI (0) | 2024.08.12 |
웹 크롤링(#Requests #BeautifulSoup) (0) | 2024.08.11 |