- 수업 내용 리마인드 및 아카이빙 목적의 업로드
Q. 아래 URL의 다음 뉴스기사의 기사제목, 기사내용, 사람들반응을 모두 크롤링하여 json 파일 형태로 저장해주세요.
https://v.daum.net/v/20240811221440047
- 결과 예시:
[{
“title” : “제목 삽입”,
“body” : “본문 삽입“,
“reactions”: {
“react1”: 0,
“react2”:0, …
}]
A. ChatGPT에게 필요한 정보를 제공하고, 프롬프트를 통해 데이터를 파일로 저장하는 코드 작성 요청
1) 필요한 정보 제공하기
- 설명: API 응답 전체 구조 스크립트를 txt파일로 제공합니다.
2) 프롬프트 작성 및 요청하기
너는 웹 크롤링 전문가야. 아래 URL에서 뉴스 기사를 크롤링하고, API를 통해 사람들 반응 데이터를 추출한 후, JSON 파일로 저장하는 코드를 작성해줘:
1. 웹 페이지 URL: 'https://v.daum.net/v/20240811221440047'
2. 기사 제목:
- <h3> 태그와 클래스 tit_view에서 제목을 추출해줘.
3. 기사 본문:
- 모든 <p> 태그에서 텍스트를 추출하고, 각 문단을 공백으로 연결해줘. 줄바꿈 없이 하나의 문자열로 결합하도록 해.
4. 사람들 반응 데이터:
- API 엔드포인트: 'https://action.daum.net/apis/v1/reactions/home?itemKey=20240811221440047'
- 요청 헤더에 Bearer 토큰을 포함해줘: 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJqdGkiOiJiNzQ5NDY5NC1jMjU3LTRlYzAtYjA1Yy1kMzFjNWE1YzYyNjUiLCJjbGllbnRfaWQiOiIyNkJYQXZLbnk1V0Y1WjA5bHI1azc3WTgiLCJmb3J1bV9rZXkiOiJuZXdzIiwiZm9ydW1faWQiOi05OSwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJhdXRob3JpdGllcyI6WyJST0xFX0NMSUVOVCJdLCJzY29wZSI6W10sImV4cCI6MTcyMzgwODMwN30.6VoGZK1xg3y7uuAZpR7bgQfh7CyfHjS6w70DVAoC6eE'
- 응답 데이터 구조는 첨부된 'api_response_20240816_152547.txt'에서 확인했어. item 키 아래에 있는 stats 객체에서 RECOMMEND, LIKE, IMPRESS, ANGRY, SAD 5개의 키에 해당하는 값만 추출해줘.
5. 결과 저장:
- 추출한 데이터를 JSON 형식으로 다음과 같이 저장해줘:
json
{
"title": "기사 제목",
"body": "기사 본문",
"reactions": {
"RECOMMEND": 0,
"LIKE": 0,
"IMPRESS": 0,
"ANGRY": 0,
"SAD": 0
}
}
3) ChatGPT 답변 코드 확인하기
import requests
from bs4 import BeautifulSoup
import json
# Step 1: 웹 페이지 크롤링
url = 'https://v.daum.net/v/20240811221440047'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 기사 제목 추출
title = soup.find('h3', class_='tit_view').get_text()
# 기사 본문 추출 (모든 <p> 태그의 텍스트를 공백으로 연결)
body = ' '.join([p.get_text() for p in soup.find_all('p')])
# Step 2: 사람들 반응 데이터 추출
api_url = 'https://action.daum.net/apis/v1/reactions/home?itemKey=20240811221440047'
headers = {
'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJqdGkiOiJiNzQ5NDY5NC1jMjU3LTRlYzAtYjA1Yy1kMzFjNWE1YzYyNjUiLCJjbGllbnRfaWQiOiIyNkJYQXZLbnk1V0Y1WjA5bHI1azc3WTgiLCJmb3J1bV9rZXkiOiJuZXdzIiwiZm9ydW1faWQiOi05OSwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJhdXRob3JpdGllcyI6WyJST0xFX0NMSUVOVCJdLCJzY29wZSI6W10sImV4cCI6MTcyMzgwODMwN30.6VoGZK1xg3y7uuAZpR7bgQfh7CyfHjS6w70DVAoC6eE'
}
api_response = requests.get(api_url, headers=headers).json()
# 'stats' 객체에서 필요한 데이터 추출
reactions = api_response['item']['stats']
reaction_data = {
"RECOMMEND": reactions.get("RECOMMEND", 0),
"LIKE": reactions.get("LIKE", 0),
"IMPRESS": reactions.get("IMPRESS", 0),
"ANGRY": reactions.get("ANGRY", 0),
"SAD": reactions.get("SAD", 0)
}
# Step 3: 결과를 JSON 파일로 저장
result = {
"title": title,
"body": body,
"reactions": reaction_data
}
# JSON 파일로 저장
with open('Daum_News_data.json', 'w', encoding='utf-8') as f:
json.dump(result, f, ensure_ascii=False, indent=4)
print("JSON 파일이 성공적으로 저장되었습니다.")
- 설명:
- BeautifulSoup을 사용해 주어진 URL에서 기사 제목과 본문을 추출합니다.
- API 엔드포인트를 사용해 사람들의 반응 데이터를 가져오고, 필요한 반응 데이터만 추출합니다.
- 추출한 데이터를 JSON 형식으로 저장합니다.
4) 출력 결과
{
"title": "[단독] '침출수 줄줄' 여수산단 대체녹지, 오염된 토사로 조성됐다",
"body": "여수산단 대체녹지에서 1년 넘게 발암물질이 섞인 침출수가 흘러나오고 있다는 소식, 얼마 전 전해드렸는데요. 그런데 대체녹지 조성 당시, 오염된 토사가 사용됐을 가능성이 큰 것으로 확인됐습니다. 대체녹지 조성 당시 토사의 오염여부를 확인해야 이 같은 문제를 방지할 수 있었지만, 법적 기준에 미치지 못 해 별다른 관리가 이뤄지지 않았습니다. 이 글자크기로 변경됩니다. (예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다. 【 앵커멘트 】여수산단 대체녹지에서 1년 넘게 발암물질이 섞인 침출수가 흘러나오고 있다는 소식, 얼마 전 전해드렸는데요. 토양오염의 원인을 찾지 못했다며 녹지를 조성한 기업도, 감독해야 할 행정기관도 손을 놓고 있습니다. 그런데 대체녹지 조성 당시, 오염된 토사가 사용됐을 가능성이 큰 것으로 확인됐습니다. 박성호 기자의 보도입니다. 【 기자 】여수산단 대체녹지에서 오염된 침출수가 처음 확인된 것은 지난해 7월. 1년 넘게 문제가 계속되고 있지만 녹지를 조성한 기업들도, 기부채납 받은 여수시도 책임을 미룬 채 지켜만 보고 있습니다. 이런 와중에 대체 녹지를 조성한 토사 가운데 절반 이상을, 건축폐기물 4천8백톤이 불법매립됐던 곳에서 가져온 사실이 새롭게 드러났습니다. KBC가 단독 입수한 대체녹지 1구역 조성 토사반입 내역 서류입니다. 전체 토사 5만㎥ 중 3만㎥, 전체 57%의 토사가 한 곳에서 반입됐는데, 이 곳은 건축폐기물 불법매립이 뒤늦게 드러난 곳이었습니다. 전문가들은 건축폐기물 불법매립으로 오염된 토사가 유입됐을 경우 침출수 등 문제가 발생할 수 있다고 말합니다. ▶ 싱크 : 환경공학 전문가(음성변조)- \"폐기물에 의해서 그 토사에 그게(오염원) 농축이 되고 그 농축된 토사에 의해서 침출이 되는 거, 그거는 이제 저희가 많이 확인이 돼왔죠.\" 대체녹지 조성 당시 토사의 오염여부를 확인해야 이 같은 문제를 방지할 수 있었지만, 법적 기준에 미치지 못 해 별다른 관리가 이뤄지지 않았습니다. ▶ 인터뷰 : 박민수 / 여수시 공원과장- \"저희가 공원 녹지를 조성할 때 10만 평방미터 이상이 되면 사전에 토양 조사를 해야 되는데 여기는 6만 2천 평방미터 정도 돼서 그 토양 조사나 이런 것들은 생략하고 저희가 공원을 조성했습니다.\" 토양오염은 드러났지만 그 원인을 찾지 못했다는 이유로 1년 넘게 방치됐던 여수산단 대체녹지 문제가 해결의 실마리를 찾을 수 있을지 주목됩니다. KBC 박성호입니다. #사건사고 #전남 #여수산단 #침출수 Copyright © kbc광주방송. 무단전재 및 재배포 금지. 이 뉴스에 대해 의견을 나눠보세요. 톡방 종료까지 00:00:00 남았습니다. ",
"reactions": {
"RECOMMEND": 0,
"LIKE": 0,
"IMPRESS": 1,
"ANGRY": 3,
"SAD": 0
}
}
'+ 개발' 카테고리의 다른 글
데이터베이스 기초 (1) | 2024.08.21 |
---|---|
Selenium 무한 스크롤 웹 크롤링(#Jungle)_Gen.AI (0) | 2024.08.18 |
Scrapy를 이용한 웹 크롤링 (0) | 2024.08.16 |
Selenium을 이용한 웹 크롤링 (0) | 2024.08.15 |
비동기 웹 크롤링(#무신사)_Gen.AI (0) | 2024.08.13 |