데이터는 이전 포스팅에서 어디에서 가져올 수 있는지 확인 가능하다. 데이터 불러오기 !python -m pip install --user --upgrade pip 위의 코드를 주피터 노트북에서 실행함으로써, anaconda prompt에서 입력해야 하는 명령어를 주피터 노트북 상에서 실행할 수 있다. #ignore wanrings import warnings # warnings.filterwarnings('always') # 항상 warning이 뜨도록 설정 warnings.filterwarnings('ignore') #System related and data input controls import os #Data manipulation and visualization import pandas as p..
DataFrame 검색 결과
다음의 랭킹 뉴스 페이지는 "많이 본 순", "열독률 높은 순", "댓글 많은 순", "연령, 성별"로 정리되어 있다. 각각의 랭킹뉴스 페이지의 url은 다음과 같은 형식으로 이루어져 있다. 많이 본 순 : "https://news.daum.net/ranking/popular?regDate=" + str(date) 열독률 높은 순 : "https://news.daum.net/ranking/kkomkkom?regDate=" + str(date) 댓글 많은 순 : "https://news.daum.net/ranking/bestreply?regDate=" + str(date) 연령, 성별 : "https://news.daum.net/ranking/age?regDate=" + str(date) 기본적으로 각각의..
크롤링 (5), beautifulsoup4로 네이버 기사 크롤링하기 네이버 랭킹 뉴스 페이지가 개편되어 해당 코드로 기사를 가져올 수 없습니다. 해당 코드는 참고용으로만 봐주시기 바랍니다. (JY) 융합연구 1 - 크롤링 (4), beautifulsoup4로 네이버 기사 크롤링하기 dsbook.tistory.com 네이버 랭킹 뉴스만 볼 수 있던 페이지가 전면적으로 개편되면서 위 게시글에서 작성한 코드를 사용했을 때 뉴스를 가져올 수 없었다. 그래서 이번에 개편된 랭킹 뉴스 페이지를 기반으로 새롭게 크롤링하는 코드를 작성해보았다. 랭킹 뉴스 페이지에서 이전처럼 정치, 경제, 사회, 과학 등 분야별로 따로 나누어서 게시글을 찾아볼 수 없었다. 대신 각 언론사별로 많이 본 뉴스와 댓글이 많은 뉴스를 나누어서..
Data Frame은 다변량 데이터 분석에서 주로 사용되는 list형의 데이터 구조다. 1. Data Frame 생성 col1 % filter(age == 50 & (period > 150 | term > 2)) data에서 age가 50이면서 period가 150보다 크거나 term이 2보다 큰 것만 추출한 것이다. 3) arrange() : 정렬 data %>% arrange(disease) data %>% arrange(desc(disease)) 정렬할 기준 변수에 따라 오른차순, 내림차순으로 정렬할 수 있다. 4) mutate() : 파생변수 추가 data %>% mutate(churn_mutate = ifelse(data$activity % head(data..
(카테고리는 Kaggle이지만, 데이터를 분석하는 과정을 실습하는 과정이므로, 해당 카테고리에 포스팅하게 되었다.) 데이터 다운로드 주소는 https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones UCI Machine Learning Repository: Human Activity Recognition Using Smartphones Data Set Human Activity Recognition Using Smartphones Data Set Download: Data Folder, Data Set Description Abstract: Human Activity Recognition database buil..
인덱스 판다스에서 인덱스는 없어서는 안될 필수적인 요소이다. 파일을 로딩해서 .index 매서드를 통해서 인덱스를 가져올 수 있다. 이 때, 1차원 array 형태가 반환되고, ndarray처럼 단일 값을 반환하거나, 슬라이싱 하는 것도 가능하다. import pandas as pd import numpy as np #원본 파일 다시 로딩 titnaic_df = pd.read_csv('titanic_train.csv') #Index 객체 추출 indexes = titanic_df.index print(indexes) #Index 객체를 실제 값 array로 변환 print('Index 객체 array 값 : \n', indexes.values) print(type(indexes.values)) print..
생성 DataFrame의 열 생성은 쉽게 만들 수 있다.(판다스의 가장 큰 장점이기도 하다.) 일단 2가지로 나눌 수 있다. 1) 새로 만드는 열의 모든 데이터를 상수로 채워 넣는 경우 이 경우는 주로, 새로운 열(피처)을 만들기 위해서 해주는 경우가 많다. 어려울 것 없이 titanic_df['Age_0'] = 0 #새로 만들어진 'Age_0'열의 모든 value 값들이 0으로 채워진다. titanic_df.head(3) 'Age_0'이라는 열이 존재하는 열이 아니라, 새로 생성할 열의 이름을 대괄호 안에 작은 따옴표로 지정해 준 뒤 등호 오른쪽에 상수를 넣으면 해당 열의 모든 Value 값들이 해당 상수 값으로 채워지는 것을 확인 할 수 있다. 2) 기존에 있는 열(column)을 이용하여 새로운 열..
Pandas : 데이터 처리를 위한 라이브러리 / 많은 부분이 numpy로 작성되어 있다. / 고수준 API 제공 / csv 파일 등 외부 데이터도 DataFrame으로 변경하는 것이 용이하다. import pandas as pd pandas를 불러오는 코드. numpy를 코드에서 np로 적는 것 처럼 pandas에서도 마찬가지로 pd라고 사용하는 경우가 대부분이다. 판다스의 기본적인 함수들 pd.read_csv() : csv 파일을 dataframe으로 만드는 함수(csv파일은 이해하기 쉽게 엑셀 파일과 거의 동일한 형태라고 보면 된다. ) pd.head / tail() : DataFrame의 첫/마지막 데이터들을 제공한다. 샘플을 보여주는 기능을 하는 함수라고 생각하면 된다. 괄호 안에 숫자를 집어넣..
네이버 랭킹 뉴스 페이지가 개편되어 해당 코드로 기사를 가져올 수 없습니다. 해당 코드는 참고용으로만 봐주시기 바랍니다. ↓개편된 네이버 랭킹 뉴스 크롤링 네이버 랭킹 뉴스 크롤링 크롤링 (5), beautifulsoup4로 네이버 기사 크롤링하기 네이버 랭킹 뉴스 페이지가 개편되어 해당 코드로 기사를 가져올 수 없습니다. 해당 코드는 참고용으로만 봐주시기 바랍니다. (JY) 융합연구 1 - dsbook.tistory.com (JY) 융합연구 1 - 크롤링 (4), beautifulsoup4로 네이버 기사 크롤링하기 저번에 네이버 API를 통해 검색에서 네이버 기사를 긁어왔다면, 이번엔 python 모듈 중 하나인 beautifulsoup4로 네이버 주요뉴스를 크롤링하는 방법을 알아보기로 하자. 1. 조..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존.. dsbook.tistory.com 이번에는 데이터 프레임을 직접 만들어 줄 것이다. df = pd.DataFrame({ '사람': ['A', 'A', 'A', 'B', 'B', 'C', 'A', 'A', 'C', 'B', 'B', 'B'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', ..
최근댓글