데이터분석 17

파이토치(Pytorch): 다중 선형 회귀 모델 구현

수업 내용 리마인드 및 아카이빙 목적의 업로드  이번 글에서는 다중 선형 회귀를 파이토치로 직접 구현해보는 과정을 소개할게요. 다층 퍼셉트론(MLP) 모델을 사용해서 비선형 데이터에 대한 예측을 해볼 거예요. 처음부터 끝까지 함께 진행하면서 학습 과정과 평가 방법까지 차근차근 살펴봐요.  1. 필요 모듈 로드 먼저, 필요한 라이브러리를 가져오고 GPU가 사용 가능한지 확인해볼게요. 파이토치, 데이터 전처리 및 시각화를 위한 다양한 모듈들을 사용합니다. !pip install torchinfoimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import DataLoader, Dataset, random_spli..

+ 개발 2024.09.20

파이토치(Pytorch): 단순 선형 회귀 모델 구현

수업 내용 리마인드 및 아카이빙 목적의 업로드  이번 글에서는 파이토치(Pytorch)를 사용하여 단순 선형 회귀 모델을 구현하고 학습시키는 과정을 단계별로 살펴볼게요. 기본적인 데이터셋 생성부터 모델 정의, 학습, 평가, 시각화까지 전체 워크플로우를 다뤄요. 이 글을 통해 선형 회귀 모델이 어떻게 작동하는지 이해하고, 파이토치를 이용해 직접 모델을 구현해봐요.  1. 필요한 라이브러리 로드 먼저 실습에 필요한 라이브러리부터 설치하고 가져와야겠죠? torchinfo는 모델 구조를 확인하는 데 유용한 도구에요.pip install torchinfoimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import D..

+ 개발 2024.09.19

머신러닝(Machine Learning) 입문

수업 내용 리마인드 및 아카이빙 목적의 업로드 머신러닝(Machine Learning)이라고 들어보셨나요? 요즘 AI(인공지능)라는 단어와 함께 자주 등장하는 용어인데요, 머신러닝은 데이터를 통해 컴퓨터가 스스로 학습하고 예측할 수 있도록 하는 기술이에요. 이 글에서는 머신러닝이 무엇인지, 그리고 머신러닝에서 사용되는 다양한 학습 방법에 대해 쉽고 간단하게 설명해 드릴게요! 1. 머신러닝이란?머신러닝은 컴퓨터가 사람처럼 데이터를 분석하고 학습해 스스로 결론을 내리는 과정을 말해요. 예를 들어, 수많은 사진을 보고 고양이와 강아지를 구분할 수 있게 되거나, 기온 데이터를 통해 내일의 날씨를 예측할 수 있는 기술이죠.머신러닝은 크게 AI(인공지능)의 한 분야로, 그중에서도 딥러닝(Deep Learning)이..

+ 개발 2024.09.17

자연어 처리를 위한 텍스트 전처리(ft.NLTK & KoNLPy)

수업 내용 리마인드 및 아카이빙 목적의 업로드 자연어 처리에 관심이 있다면, 텍스트 데이터를 잘 다루는 것이 정말 중요해요. 그래서 오늘은 텍스트를 자연어 처리에 맞게 준비하는 텍스트 전처리에 대해 이야기해볼까 해요. 전처리 과정을 통해 중요한 정보는 그대로 두면서 불필요한 부분을 깔끔하게 정리하면, 훨씬 더 효과적인 분석이 가능해집니다. 1. 토큰화 (Tokenizing)먼저 토큰화에 대해 알아볼게요. 토큰화는 텍스트를 잘게 쪼개는 작업인데요, 주로 단어별로 나누는 "단어 토큰화(Word Tokenization)"와 문장별로 나누는 "문장 토큰화(Sentence Tokenization)"가 있어요. 앞으로의 실습에서는 단어 토큰화를 주로 사용하게 될 거예요. 2. 품사 부착(PoS Tagging)토큰화..

+ 개발 2024.09.05

텍스트 마이닝 : 개념부터 활용까지

수업 내용 리마인드 및 아카이빙 목적의 업로드 1. 텍스트 마이닝이란? 텍스트 마이닝(Text Mining)은 자연어 처리(NLP) 기술을 바탕으로 비정형 텍스트 데이터를 정형화하고, 그 속에서 유의미한 패턴과 정보를 찾아내는 기술이에요. 언어학, 통계학, 기계 학습 등이 융합된 이 기술은 이메일, 고객 리뷰, 소셜 미디어 게시물, 연구 보고서 등 다양한 텍스트 데이터를 분석하여 중요한 인사이트를 도출합니다. 2. 텍스트 마이닝과 데이터 마이닝의 차이점 텍스트 마이닝과 데이터 마이닝은 둘 다 데이터를 분석해 유의미한 정보를 추출하는 기술이지만, 분석 대상이 다릅니다.텍스트 마이닝: 비정형 텍스트 데이터를 분석하여 의미 있는 정보를 추출합니다. 주로 자연어 처리 기술을 사용해 데이터를 가공합니다.데이터 마..

+ 개발 2024.09.04

자연어 처리(NLP) 기초

수업 내용 리마인드 및 아카이빙 목적의 업로드 1. 자연어 처리와 전통적인 프로그래밍의 차이  전통적인 프로그래밍에서는 컴퓨터가 이해할 수 있는 언어로 직접 명령을 내리죠. 하지만 자연어 처리는 컴퓨터가 사람의 언어, 즉 우리가 평소에 쓰는 말을 이해하고 소통할 수 있도록 돕는 기술이에요. 예를 들어, "오늘 날씨 어때?"라고 물으면, 자연어 처리를 통해 컴퓨터가 이 질문을 이해하고 적절한 답을 줄 수 있답니다.  2. 데이터의 유형: 정형 데이터 vs 비정형 데이터  정형 데이터는 말 그대로 구조가 잘 잡힌 데이터에요. 엑셀 파일이나 데이터베이스에 저장된 데이터를 생각하시면 돼요. 반면, 비정형 데이터는 글이나 이메일, 소셜 미디어 글처럼 정해진 틀이 없는 데이터를 말해요. 요즘은 인터넷과 모바일 덕분..

+ 개발 2024.09.03

Streamlit으로 데이터 분석 및 시각화

수업 내용 리마인드 및 아카이빙 목적의 업로드 1. Streamlit이란?  Streamlit은 데이터 분석과 시각화를 위한 파이썬 라이브러리에요. 복잡한 코딩 없이도 직관적으로 데이터를 분석하고, 시각화된 결과물을 웹 애플리케이션 형태로 만들 수 있어요.간편한 사용: 코드가 짧고 이해하기 쉬워서, 프로그래밍 경험이 많지 않아도 쉽게 사용할 수 있어요.다양한 데이터 소스 지원: CSV, JSON, SQL 등 여러 가지 데이터 형식을 쉽게 다룰 수 있어요.실시간 데이터 처리: 실시간으로 데이터를 분석하고, 그 결과를 바로바로 볼 수 있어요.쉽게 웹 애플리케이션으로 공유: 분석한 데이터를 간편하게 웹 애플리케이션으로 만들어 공유할 수 있어요. 2. Streamlit의 강점  Streamlit은 빠르게 프로토..

+ 개발 2024.09.02

논문 리뷰(#텍스트 마이닝 #뉴스 분석 #금융 시장 변동성)_Gen.AI

GPT를 활용하여, 논문 구현 없이 문헌 검토 수준의 논문 리뷰를 진행- 제목 : 비즈니스 뉴스에서 고품질 토픽을 추출하여 비정상적인 금융 시장 변동성을 설명하는 방법 - 저자 : Ryohei Hisano (ETH Zurich, The Canon Institute for Global Studies), Didier Sornette (ETH Zurich, Swiss Finance Institute), Takayuki Mizuno (University of Tsukuba), Takaaki Ohnishi (The University of Tokyo), Tsutomu Watanabe (The University of Tokyo)  https://journals.plos.org/plosone/article?id=1..

+ 개발 2024.09.01

뉴스 크롤링(#네이버 뉴스)_코드 설명

수업 내용 리마인드 및 아카이빙 목적의 업로드Q. 네이버 뉴스에서 '특정 키워드(청년취업사관학교)'와 '날짜 범위(20240101~20240731)'에 해당하는 게시물들을 자동으로 수집하고, 각 게시물의 "제목", "발행기관", "작성일", "본문 내용", "URL"을 추출하여 CSV 파일로 저장하는 코드를 작성하세요.https://search.naver.com/search.naver?where=news&query=%EC%B2%AD%EB%85%84%EC%B7%A8%EC%97%85%EC%82%AC%EA%B4%80%ED%95%99%EA%B5%90&sm=tab_opt&sort=1&photo=0&field=0&pd=3&ds=2024.01.01&de=2024.07.31&docid=&related=0&mynews=..

+ 개발 2024.08.31

논문 리뷰(#텍스트 마이닝 #금통위 의사록 분석)_Gen.AI

GPT를 활용하여, 논문 구현 없이 문헌 검토 수준의 논문 리뷰를 진행- 제목 : 텍스트 마이닝을 활용한 금융통화위원회 의사록 분석- 저자 : 박기영(연세대학교 경제학부), 이영준(연세대학교 경영대학), 김수현(한국은행 경제연구원 국제경제연구실) https://www.bok.or.kr/imer/bbs/P0002456/view.do?nttId=10049321&searchCnd=1&searchKwd=&depth2=500535&date=&sdate=&edate=&sort=1&pageUnit=10&depth=500535&pageIndex=14&programType=rsrchrData&menuNo=500789&oldMenuNo=500535 [제2019-1호] Deciphering Monetary Policy Bo..

+ 개발 2024.08.30