1. OPEN API OPEN API : 누구나 사용할 수 있도록 공개된 API를 뜻하며, 개발자에게 웹 서비스에 대한 프로그래밍적인 권한을 제공한다. 최근 코로나 맵 등의 웹 사이트 역시 API를 활용해서 만들어졌다. 2. 공공데이터포털에서 API 사용 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr 공공데이터포털은 정부에서 제공하는 공공데이터 통합제공 시스템이다. 2020년 현재, 사회의 120개 분야에 관한 데이터 셋이 공개되어 있다. 공공데이터포털에 접속해서 필요한 ..
데이터 사이언스 메뉴얼 검색 결과
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -3 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read.. dsbook.tistory.com 데이터 프레임을 직접 만들어보자. df1 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df2 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존.. dsbook.tistory.com 이번에는 데이터 프레임을 직접 만들어 줄 것이다. df = pd.DataFrame({ '사람': ['A', 'A', 'A', 'B', 'B', 'C', 'A', 'A', 'C', 'B', 'B', 'B'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', ..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산.. dsbook.tistory.com 2. 데이터 연산하기 -2) 3) 기존의 DataFrame 형태를 그대로 유지한채로 연산하기: transform() train_data.groupby('Pclass').mean() 그룹핑을 한 후 바로 연산을 하면, 그룹핑된 column들이 index레벨에 내려간 채로 연산이 진행되게 되며, 원본 D..
1. 크롤링 크롤링(crawling) : 웹 페이지를 그대로 가져와서 데이터를 추출해 내는 행위 개발자로서 데이터를 얻기 위해 일일이 사이트에서 검색해서 추출하는 것은 매우 번거롭다. 컴퓨터 프로그램을 이용한다면 필요한 자료만 찾아 종합하고, 획득한 내용을 활용해서 좋은 정보를 추출할 수 있다. 이러한 행위를 크롤링이라 한다. Python을 통해 크롤링을 하기 위해서는 HTML과 HTTP가 무엇이고 어떤 방식으로 자료를 가져와야 할지 파악해야 한다. 2. HTML HTML : 웹을 통해서 볼 수 있는 문서를 만들 때 사용하는 웹 언어의 한 종류이고, 대부분의 웹 페이지는 HTML로 작성되어 있다. HTML는 일반적으로 다음과 같이 구성되어 있다. 사실 이렇게 봐서는 제대로 이해가 되지 않는다. Wikip..
import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산하기 (통계적으로 계산, 조건에 맞는 데이터 걸러내기, 그룹별 작업 수행) 데이터 병합하기 1. 데이터 분할하기 1) groupby()를 이용한 데이터 분할 Pandas 객체를 분할할 때는 groupby() 메소드를 사용하며 인자로는 column이름이나 column으로 이루어진 리스트를 전달하면 된다. class_group = train_data.groupby('Pclass') class_group.groups 그렇게 만들어진 clas..
1. 출력과 연산 출력 파이썬에서 출력하기 위한 문법은 print(출력하고 싶은 것)이다. 문자를 출력하고 싶을 때는 ""로 묶어주고, 숫자를 출력하고 싶을 땐 print(2)와 같이 그대로 쓰면 된다. 연산 +, -, *, / : 더하기 빼기 곱하기 나누기(왼쪽 순서대로) //, % : 몫 나머지(왼쪽 순서대로) - : 음수 ** : 제곱수 연산 주의사항 숫자 - 숫자, 문자 - 문자끼리 연산은 가능하지만 타입이 다른 숫자 - 문자끼리의 연산은 불가능하다. 2. 변수 어떠한 값을 저장하기 위해 변수라는 개념을 사용한다. 위에 예제와 같이 1이라는 값을 x라는 변수로 저장하여 x
python에는 여러 가지의 자료 형태가 있다. 그래서 코드를 짤때 자료 형태의 특성을 잘 이해하고 활용하는 게 중요하다. 본문에서는 자료구조들 중 List, Set, Tuple, Dictionary를 설명하고자 한다. 3) Tuple Tuple의 특징은 순서는 있지만 수정이 안된다는 것이다. 그 외에는 List자료형과 유사하지만 indexing,slicing,in 등등 list에서 쓰이는 몇몇 operator를 사용할 수 있다. - Tuple 생성하기 여기서 주의할 점은 int형태의 값을 1개만 받는 tuple을 만들때를 생각해봐야 한다. 왜냐하면 소괄호는 연산을 할때도 쓰이기 때문이다. 아래 코드를 보자 - Tuple 수정하기 tuple의 가장 큰 특징은 수정이 안된다는 것이다. 여기서 주의해야 할점..
python에는 여러 가지의 자료 구조가 있다. 그래서 코드를 짤때 자료 구조의 특성을 잘 이해하고 활용하는 게 중요하다. 필자는 자료구조들 중 List, Set, Tuple, Dictionary를 설명하고자 한다. 1) List list의 특징은 순서를 가지고 있으며 수정이 가능하다는 것이다. 가장 기본적이 자료 구조이다. - List 생성하기 list는 대괄호를 이용해 [value1, value2... value n] 형태로 만든다. - List indexing List는 순서가 있는 자료형이기 때문에 index를 이용해 원하는 정보만 얻을 수 있다. - List 연산 덧셈과 곱셈을 List에 적용할 수 있다. - List 수정 List는 수정이 가능한 자료형이다. - List 자르기 List의 in..
1. 제어문 학생이 아침마다 등교하는 것은 반복적인 일에 해당하고, 날짜에 따라 주말이나 공휴일은 학교를 가지 않는 것은 조건에 따라 이루어지는 일에 해당한다. 컴퓨터의 프로그램 역시 흐름에 따라 특정 조건에 따라 실행하거나 특정 부분을 반복적으로 실행하도록 이루어진다. 그것이 제어문이다. Python에서는 if문, for문, while문 등의 제어문이 있다. 2. if문 1) 단순 if문 if문은 어떤 조건에 따라 코드를 다르게 수행하는 조건문이다. 다음과 같은 문장이 조건문의 예시다. “키가 140cm 보다 크면 탑승 가능합니다. 키가 140cm 보다 작으면 탑승 불가합니다.” 흔히 놀이공원에서 많이 볼 수 있는 문장이다. Python에서는 위와 같은 문장을 if라는 단어로 조건문을 표현할 수 있다...
최근댓글