이전까지의 실습 내용을 통해서 데이터를 전처리하였고, 이번 실습에서는 전처리된 데이터가 어떤 그래프 형태를 지니는지, 어떤 특성을 가지고 있는지를 시각화하는 실습을 진행할 것이다. 그 후 각 Column 들 간의 상관도를 계산할 것이다. 시각화 raw_fe.describe(include = 'all').T 보통 df.describe() 혹은 df.describe().T를 통해서 데이터의 기본적인 통계적 특성을 확인한다. 여기에서 include = 'all'이라는 옵션을 설정해주게 되면, 수치로 된 데이터가 아닌, object 형태의 데이터나, category 형태의 데이터 또한, 생략하지 않고 보여준다. 히스토그램 raw_fe.hist(bins = 20, grid = True, figsize = (16,..
데이터 사이언스 사용 설명서 검색 결과
문제1 상품의 카테고리별로 상품 수와 평균 가격대(list_price)를 찾는 쿼리를 작성하세요. 쿼리 select category, COUNT(*), avg(list_price) from products group by category; 실행화면 문제2 2006년 1분기에 고객별 주문횟수, 주문한 상품의 카테고리수, 총 주문 금액을 찾는 쿼리를 작성하세요. 쿼리 select o.customer_id, c.first_name, c.last_name , COUNT(p.category) AS `카테고리수`, SUM(od.quantity * od.unit_price) AS `총 주문 금액` from orders as o join order_details as od on o.id = od.order_id joi..
문제1 Country별로 ContactName이 'A'로 시작하는 Customer의 숫자를 세는 쿼리를 작성하세요. 쿼리 SELECT Country, COUNT(*) FROM [Customers] WHERE ContactName LIKE 'A%' GROUP BY Country; 실행화면 문제2 Customer 별로 Order한 Product의 총 Quantity를 세는 쿼리를 작성하세요. 쿼리 SELECT O.CustomerID, COUNT(OD.Quantity) FROM OrderDetails AS OD, Orders AS O WHERE OD.OrderID = O.OrderID GROUP BY CustomerID; 실행화면 문제3 년월별, Employee별로 Product를 몇 개씩 판매했는지와 그 E..
dsbook.tistory.com/280 (이전글) C로 만드는 자료구조 - 그래프(Graph)란? 그래프(Graph)란? 그래프는 객체 사이의 연결 관계를 표현하는 자료구조이다. 지금까지 설명한 자료구조 중에서 가장 현실 세계의 다양한 문제들을 효과적으로 모델링 할 수 있을 정도로 표현 dsbook.tistory.com 인접행렬을 이용한 그래프 구현 그래프 G의 각 도드 사이의 간선을 2차원 배열로 저장하는 것이다. 각 노드 사이에 간선이 존재할 경우 해당 배열의 값을 1로 없을때는 0으로 저장한다. 여기서 무방향 그래프라면 반대로 똑같이 1로 저장해주면 된다. 무방향 그래프의 이러한 성질을 대칭성(symmetry)라고 한다. 참고로 인접 행렬에서 각 노드의 차수를 구하고 싶다면 인접 행렬의 각 행 또..
dsbook.tistory.com/280 (이전글) C로 만드는 자료구조 - 그래프(Graph)란? 그래프(Graph)란? 그래프는 객체 사이의 연결 관계를 표현하는 자료구조이다. 지금까지 설명한 자료구조 중에서 가장 현실 세계의 다양한 문제들을 효과적으로 모델링 할 수 있을 정도로 표현 dsbook.tistory.com 그래프 관련 용어들 그래프를 실제 규현하고 그래프 기반의 다양한 알고리즘을 살펴보기 전에 그래프와 관련된 용어들을 알아보자. 인접(Adjacent) 두 개의 노드를 연결하는 간선이 존재하는 경우 두 노드는 인접(Adjacent)되었다고 한다. 다음 그림을 통해 자세히 살펴보자. 부속(Incident) 두 개의 노드를 연결하는 간선이 존재하는 경우 이 간선은 두 노드에 각각 부속(Inci..
dsbook.tistory.com/280 (이전글) C로 만드는 자료구조 - 그래프(Graph)란? 그래프(Graph)란? 그래프는 객체 사이의 연결 관계를 표현하는 자료구조이다. 지금까지 설명한 자료구조 중에서 가장 현실 세계의 다양한 문제들을 효과적으로 모델링 할 수 있을 정도로 표현 dsbook.tistory.com 이전 글에서 표로 정리한 그래프 종류에 대해 자세히 알아보자 구분 종류 설명 간선의 방향성 무방향 그래프 간선에 방향이 없는 그래프 방향 그래프 간선에 방향이 있는 그래프 간선의 가중치 가중 그래프 간선에 가중치가 할당된 그래프 구조적 특징 완전 그래프 연결가능한 최대 간선 수를 가진 그래프 부분 그래프 원래의 그래프에서 일분의 노드나 간선을 제외하여 만든 그래프 다중 그래프 중복된 간..
한국 거래소의 규정/제도에선 매매거래시간 및 휴장일을 안내하고 있다. Regulation | 일반상품제도 | 금시장 | 거래제도 | 매매거래시간 및 휴장일 주의KRX 금시장 운영규정 제 77조 및 동규정 시행세칙 제 42조의 2에 따라. 임의종료(랜덤엔드) 적용 요건에 해당하는 경우불공정거래 예방 등을 위해 5분 이내 regulation.krx.co.kr 휴장일 「관공서의 공휴일에 관한 규정」에 따른 공휴일 「근로자의 날 제정에 관한 법률」에 따른 근로자의 날 토요일 12월 31일(공휴일 또는 토요일인 경우에는 직전의 매매거래일로 한다) 그 밖에 경제사정의 급격한 변동 또는 급격한 변동이 예상되거나 거래소가 시장관리상 필요하다고 인정하는 날 import reque..
그래프(Graph)란? 그래프는 객체 사이의 연결 관계를 표현하는 자료구조이다. 지금까지 설명한 자료구조 중에서 가장 현실 세계의 다양한 문제들을 효과적으로 모델링 할 수 있을 정도로 표현 능력이 매우 우수하다. 다음 그림은 우리나라의 고속도로 지도이다. 각 도시를 연결하는 고속도로를 자료구조로 나타낼 수 있을까? 앞서 소개한 자료구조 중에서 선형 자료인 리스트,스택,큐 같은 경우는 객체들의 선,후 관계 밖에 나타내지 못하기 때문에 1:1인 관계가 아닌 것이 존재하는 고속도로를 표현하기에는 적합하지 못하다. 하나의 객체가 여러개의 객체와의 관계를 나타낼 수 있는 자료구조인 트리는 부모 자식 간의 관계만 나타낼 수 있고 일반적인 관계는 나타내지 못한다는 한계가 있다. 각 도시를 연결하는 고속도로 같은 경우..
시계열 데이터는 추세, 계절성, 주기 등의 패턴이 복합적으로 섞인 형태를 지닐 수 있다. 여러 요인이 합쳐진 데이터를 단번에 파악하기는 어렵지만, 각 요인을 분리하면 데이터를 쉽게 파악하는데 도움이 된다. 그래서 이 글에서는 R에 내장된 1920~1939년 Nottingham의 월 평균 기온이 담긴 nottem 데이터를 사용해서 4가지의 시계열 분해법을 간단히 소개하고자 한다. 1) 고전적인 분해 고전적인 분해법은 대부분의 시계열 분해의 기반이 될 정도로 비교적 단순하게 사용할 수 있다. 분해 방법에 대해 간단히 설명하자면 다음과 같다. 우선, 이동평균을 사용하여 추세-주기 성분을 계산한 후에 추세를 제거한 시계열을 계산한다. 그 다음, 계절별 추세를 제거한 평균에서 추세-주기 성분 값을 제외한 나머지 ..
최근 주식과 트레이딩 알고리즘을 이용한 자동 주식 매매에 관심이 생기기 시작했다. 그래서 이번에 가볍게 관심 종목의 현재 주가를 알려주는 Slack 챗봇을 만들어 보기로 했다. Slack 챗봇을 만들기 전에 우선 현재 주가를 실시간으로 어디서 어떻게 가져올 것인지 고민해봐야 한다. 처음에는 증권사에서 제공하는 OpenAPI를 이용해 HTS에 접속해서 현재가를 가져오려고 했지만 API가 가벼운 편은 아니기 때문에, 이후 가상머신에 해당 프로그램을 올리고 사용하기에는 부담이 있어 다른 방법을 사용하기로 했다. 당연하게도 크롤링을 통해 현재가 데이터만 scraping 하는 방식을 채택했다. 네이버 및 다음 증권 홈페이지에서는 실시간 주가 데이터를 제공해주기 때문에 특정 주기로 업데이트된 관심 종목의 주가를 알..
최근댓글