웹 크롤링(#Requests #BeautifulSoup)

+ 개발

웹 크롤링(#Requests #BeautifulSoup)

AI.Logger 2024. 8. 11. 01:55

수업 내용 리마인드 및 아카이빙 목적의 업로드

"Image generated using DALL-E by OpenAI"

1. Requests 모듈

Requests는 Python의 HTTP 요청을 간편하게 처리할 수 있는 라이브러리입니다. 다양한 HTTP 메서드를 사용하여 데이터를 서버와 주고받을 수 있습니다.

GET 요청: 주로 데이터를 조회할 때 사용합니다.

import requests

URL = 'http://httpbin.org/get'
response = requests.get(URL)

print(response.status_code)
print(response.text)

POST 요청: 새로운 데이터를 서버에 제출할 때 사용합니다.

response = requests.post("http://httpbin.org/post", data={'key':'value'})

PUT 요청: 서버에 있는 데이터를 업데이트할 때 사용합니다.

response = requests.put("http://httpbin.org/put", data={'key':'value'})

DELETE 요청: 특정 리소스를 삭제할 때 사용합니다.

response = requests.delete("http://httpbin.org/delete")

2. Requests의 주요 기능

Params: URL에 파라미터를 전달하는 방법입니다.

params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(URL, params=params)

Headers: 요청에 필요한 헤더 정보를 추가할 수 있습니다.

headers = {'Content-Type': 'application/json'}
response = requests.get(URL, headers=headers)

Body: POST 요청 시 데이터를 전송할 때 사용합니다.

data = {'key1': 'value1', 'key2': 'value2'}
response = requests.post(URL, data=data)

3. BeautifulSoup를 활용한 HTML 파싱

BeautifulSoup은 HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출할 수 있는 라이브러리입니다. 다음과 같은 기본적인 사용법을 알아봅니다.

HTML 소스 가져오기

from bs4 import BeautifulSoup
import requests

URL = "https://example.com"
source = requests.get(URL).text
soup = BeautifulSoup(source, 'html.parser')

특정 태그 선택하기
- select(): CSS 선택자를 이용하여 여러 개의 태그를 선택합니다.
- select_one(): CSS 선택자를 이용하여 첫 번째로 매칭되는 태그를 선택합니다.

tags = soup.select('div.class_name')

tag = soup.select_one('div.class_name')

find()와 find_all()
- find(): 첫 번째로 매칭되는 태그를 선택합니다.
- find_all(): 매칭되는 모든 태그를 리스트로 반환합니다.

tag = soup.find('div', class_='class_name')

tags = soup.find_all('div', limit=2)

'+ 개발' 카테고리의 다른 글

비동기 웹 크롤링(#무신사)_Gen.AI (0)	2024.08.13
API 요청 찾는 방법 (0)	2024.08.13
동기 웹과 비동기 웹의 차이(ft.데이터 크롤링) (0)	2024.08.13
주가 크롤링(#네이버증권)_Gen.AI (0)	2024.08.12
파이썬 기초(ft.LLM) (0)	2024.08.09

현재글웹 크롤링(#Requests #BeautifulSoup)

모든 순간이 'AI'였다.

AI 없이는 못사는 인간

ChatGPT, 딥러닝, 모델학습, 인공지능, 웹크롤링, scikit-learn, nlp, 파이썬코딩, 웹스크래핑, 대규모언어모델, 머신러닝, 데이터분석, 데이터수집, 파이썬, 텍스트분석, 자연어처리, 프로그래밍, 생성형AI, 데이터전처리, 파이토치,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

모든 순간이 'AI'였다.

웹 크롤링(#Requests #BeautifulSoup)

1. Requests 모듈

2. Requests의 주요 기능

3. BeautifulSoup를 활용한 HTML 파싱

'+ 개발' 카테고리의 다른 글

'+ 개발'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

웹 크롤링(#Requests #BeautifulSoup)

1. Requests 모듈

2. Requests의 주요 기능

3. BeautifulSoup를 활용한 HTML 파싱

'+ 개발' 카테고리의 다른 글

'+ 개발'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역