Numpy모듈에 대해 Numpy란? : “Numerical Python“의 약자로 대규모 다차원 배열과 행렬 연산에 필요한 다양한 함수를 제공한고, 파이썬 기반 데이터 분석 환경에서 행렬 연산을 위한 핵심 라이브러리. (numpy를 np로 보통 축약해서 쓴다. = 사람들간의 약속) Numpy를 사용하는 이유 : 1) 메모리 사이즈 : 메모리 버퍼에 배열 데이터를 저장하고 처리하는 효율적인 인터페이스를 제공한다. 2) 성능 : 파이썬 list 객체를 개선한 NumPy의 ndarray 객체를 통해 더 많은 데이터를 더 빠르게 처리할 수 있다. 3) 빌트인 함수 : 선형대수, 통계관련 여러 함수가 내장되어있다. Numpy를 사용하기 전 배열이란? : NumPy 배열은 과 같이 다차원 배열을 지원하고, 구조는 ..
전체 글 검색 결과
네이버 오픈 API 이용하기 NAVER Developers 네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음성인식, 음성합성 등이 있습니다. developers.naver.com 네이버 오픈 API에서는 다양한 서비서 API를 제공한다. 통합 검색어 트렌드 및 쇼핑인사이트를 위한 데이터랩API, 검색API, 단축URL, 지도 뿐만아니라 파파고 번역, Clova얼굴인식 기능도 사용할 수 있다. 우리는 이 중 특정 단어가 들어가 있는 뉴스를 검색하기 위해 '검색 API를 사용하여 네이버 뉴스를 긁어올 것이다. 먼저 네이버 검색 API를 사용하기 위해 AP..
지난 글에 이어 이번에는 matplotlib에 있는 여러 시각화 모델 중 대표적인 것 몇 개를 간단 하게 알려주려고 한다. 각 모델에 대해 더 자세히 공부해 보고 싶다면 각 모델 시작 마다 웹 사이트 링크가 달려있으니 웹사이트를 참조하면 된다. Bar_chart(막대그래프) - https://matplotlib.org/3.2.1/api/_as_gen/matplotlib.pyplot.bar.html 막대그래프의 장점은 크고 작음을 한눈에 이해할 수 있다는 것이다. 주로 공시적 자료를 다룰 때 자주 쓰인다. 1)막대그래프 생성하기 - plt.bar(x,y,기타설정들) 똑같이 연도별 messi의 골수를 막대그래프로 나타내 보자 작성 형식은 다음과 같다. 기본적인 형태로 막대그래프를 그려봤다. y축 label들..
Matplotlib에 대하여 Matplotlib란 Matplotlib는 Python에서 데이터들을 시각화해주는 라이브러리이다. matplotlib는 사실 다른 시각화 라이브러리들에 비해 시각적인 부분에서 뛰어나다고는 할 수 없다. 하지만 matplotlib는 적당한 수준의 시각화를 간단하게 할 수 있기 때문에 가장 대중적인 시각화 라이브러리이다. Python에서 사용되기 때문에 그때그때마다 그래프를 수정해줄 수 있다는 장점이 있다. Maplotlib 설치하기 먼저 matplotleb를 설치를 해야한다. matplotlib의 설치 방법은 다음과 같다. Python을 깔고 cmd 창에 아래 코드를 치면 설치가 된다. pip install matplolib 시작하기에 앞서.. matplotlib에는 수많은 종..
1. OPEN API OPEN API : 누구나 사용할 수 있도록 공개된 API를 뜻하며, 개발자에게 웹 서비스에 대한 프로그래밍적인 권한을 제공한다. 최근 코로나 맵 등의 웹 사이트 역시 API를 활용해서 만들어졌다. 2. 공공데이터포털에서 API 사용 공공데이터포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Dataset)와 Open API로 제공하는 사이트입니다. www.data.go.kr 공공데이터포털은 정부에서 제공하는 공공데이터 통합제공 시스템이다. 2020년 현재, 사회의 120개 분야에 관한 데이터 셋이 공개되어 있다. 공공데이터포털에 접속해서 필요한 ..
Select a specific programming language 문제정의 현재, 과 동기들과 함께 ‘월간 데이콘 4 코로나 데이터 시각화 경진대회’에 참여를 했다. 기존에 알고 있던 언어인 파이썬으로 데이터 분석을 할 수 있었다. 하지만, 주제가 시각화인 만큼, 시각적인 효과를 잘 나타낼 수 있는 그래프나 도표들을 이용하고 싶었다. 파이썬으로 matplotlib이나 seaborn등의 라이브러리를 이용해서 어느 정도 표현을 하는 것은 가능했으나, 내가 원하는 만큼의 시각화 효과를 줄 수 없는 것이 아쉬웠다. 시각화를 위해서 많이 쓰이는 언어들 Python : matplotlib, seaborn 외에도 folium으로 시각화를 하는데에 많이 사용한다. 하지만, 시각화 툴을 가지고 있는 정도이지, 시각화..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -3 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read.. dsbook.tistory.com 데이터 프레임을 직접 만들어보자. df1 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df2 = pd.DataFrame('key1' : np.arange(10), 'value1' : np.random.randn(10)) df..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -2 이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존.. dsbook.tistory.com 이번에는 데이터 프레임을 직접 만들어 줄 것이다. df = pd.DataFrame({ '사람': ['A', 'A', 'A', 'B', 'B', 'C', 'A', 'A', 'C', 'B', 'B', 'B'], '요일': ['월요일', '화요일', '수요일', '월요일', '화요일', ..
이전 글에서 이어지는 글입니다. (JY) 파이썬 Pandas groupby 이해하고 활용하기 -1 import pandas as pd train_data = pd.read_csv('./train.csv') train_data.head() Groupby 이해하기 모든 groupby 연산은 기존 객체에 대해 다음과 같은 연산 중 하나를 포함한다. 데이터 분할하기 데이터 연산.. dsbook.tistory.com 2. 데이터 연산하기 -2) 3) 기존의 DataFrame 형태를 그대로 유지한채로 연산하기: transform() train_data.groupby('Pclass').mean() 그룹핑을 한 후 바로 연산을 하면, 그룹핑된 column들이 index레벨에 내려간 채로 연산이 진행되게 되며, 원본 D..
1. 크롤링 크롤링(crawling) : 웹 페이지를 그대로 가져와서 데이터를 추출해 내는 행위 개발자로서 데이터를 얻기 위해 일일이 사이트에서 검색해서 추출하는 것은 매우 번거롭다. 컴퓨터 프로그램을 이용한다면 필요한 자료만 찾아 종합하고, 획득한 내용을 활용해서 좋은 정보를 추출할 수 있다. 이러한 행위를 크롤링이라 한다. Python을 통해 크롤링을 하기 위해서는 HTML과 HTTP가 무엇이고 어떤 방식으로 자료를 가져와야 할지 파악해야 한다. 2. HTML HTML : 웹을 통해서 볼 수 있는 문서를 만들 때 사용하는 웹 언어의 한 종류이고, 대부분의 웹 페이지는 HTML로 작성되어 있다. HTML는 일반적으로 다음과 같이 구성되어 있다. 사실 이렇게 봐서는 제대로 이해가 되지 않는다. Wikip..
최근댓글