• 검색

  • 글작성
  • 방명록
  • 환경설정
  • 메뉴 닫기
데이터 사이언스 사용 설명서
CATEGORY
  • 데이터 사이언스 사용 설명서 (341)
    • 데이터사이언스 정보 (4)
    • 소개 및 연구분야 (4)
      • 김민재 - NeuroScience (1)
      • 차준영 - 홀로그램 (0)
      • 최선안 - Domain Adaptation (0)
      • 한주혁 - NeuroScience (3)
    • 데이터 분석 & 시각화 (65)
      • Crawling (5)
      • Numpy (3)
      • SQL (3)
      • Tableau (2)
      • OpenCV (44)
      • Pandas (8)
    • 기계학습 (41)
      • Kaggle (4)
      • Machine Learning (37)
    • 딥러닝 (64)
      • Deep Learning (10)
      • 컴퓨터비전 (5)
      • 자연어처리 (16)
      • 추천시스템 (3)
      • 시계열 (27)
    • 컴퓨터 공학 (32)
      • 자료구조 (28)
      • 알고리즘 (0)
      • 컴퓨터 네트워크 (0)
      • 운영체제 (2)
      • 클라우드 컴퓨팅 (2)
    • 버전 관리 (11)
      • Django (1)
      • git & github (10)
    • 기타 정보 (10)
      • 기업 분석 (0)
      • Django (0)
      • 삼성 SDS Brightics (0)
      • 오류 코드 해결 모음 (10)
    • Algorithm 문제 풀이 (7)
      • 문제풀이 (7)
      • 알고리즘 (0)
    • Programming Language (12)
      • python (4)
      • R (7)
      • C, C++ (1)
    • 데이터 사이언스 메뉴얼 (49)
      • python (5)
      • numpy (4)
      • pandas (10)
      • data visualization (4)
      • Crawling (2)
      • National Language Processin.. (4)
      • Object classification (8)
      • Machine Learning (9)
      • Deep Learning (1)
      • 데이터사이언스 정보 (1)
    • 기타 (21)
      • ADsP (데이터분석준전문가) (8)
      • 기업분석 (3)
      • 컨퍼런스 후기 (1)
      • HTML (준영) (0)
      • Slack Trading Bot (준영) (5)
    • 삼성 SDS Brightics (20)
VISITOR 오늘 전체
  • 글쓰기
  • 환경설정
  • 로그인
  • 로그아웃
  • 취소

sklearn.model_selection 검색 결과

해당 글 1건
[Hands-on Machine Learning] 계층적 샘플링 (Stratified Sampling) - housing data

데이터 셋이 충분히 크다면 일반 훈련 데이터 셋을 무작위로 샘플링 하여도 큰 문제가 발생하지 않는다. 하지만 그렇지 않으면 데이터 편향이 생길 가능성이 크다. 예를들어 여론 설문조사 기관에서 무작위로 1,000명을 선정해 조사를 한다고 가정하자. 무작위로 선정한 1,000명이, 물론 그럴 가능성은 거의 없겠지만 한 성별로만 이루어져 있거나 특정 연령대에 집중되어 있는 경우, 그 데이터 셋에 충분히 신뢰가 가진 않을 것이다. 이를 위해 전체 인구를 계층이라는 동질의 그룹으로 나누고, 테스트 세트가 전체 인구를 대표하도록 각 계층에서 올바른 수의 샘플을 추출한다. 인구 계층을 성별에 따라 남성와 여성으로 나눈다고 가정하자. 2020년 우리나라 남녀 성비는 남자가 50.1%, 여자가 49.9%이다. 여기서 전..

기계학습/Machine Learning 2020. 7. 9. 15:29
  • 이전
  • 1
  • 다음

CATEGORY

  • 데이터 사이언스 사용 설명서 (341)
    • 데이터사이언스 정보 (4)
    • 소개 및 연구분야 (4)
      • 김민재 - NeuroScience (1)
      • 차준영 - 홀로그램 (0)
      • 최선안 - Domain Adaptation (0)
      • 한주혁 - NeuroScience (3)
    • 데이터 분석 & 시각화 (65)
      • Crawling (5)
      • Numpy (3)
      • SQL (3)
      • Tableau (2)
      • OpenCV (44)
      • Pandas (8)
    • 기계학습 (41)
      • Kaggle (4)
      • Machine Learning (37)
    • 딥러닝 (64)
      • Deep Learning (10)
      • 컴퓨터비전 (5)
      • 자연어처리 (16)
      • 추천시스템 (3)
      • 시계열 (27)
    • 컴퓨터 공학 (32)
      • 자료구조 (28)
      • 알고리즘 (0)
      • 컴퓨터 네트워크 (0)
      • 운영체제 (2)
      • 클라우드 컴퓨팅 (2)
    • 버전 관리 (11)
      • Django (1)
      • git & github (10)
    • 기타 정보 (10)
      • 기업 분석 (0)
      • Django (0)
      • 삼성 SDS Brightics (0)
      • 오류 코드 해결 모음 (10)
    • Algorithm 문제 풀이 (7)
      • 문제풀이 (7)
      • 알고리즘 (0)
    • Programming Language (12)
      • python (4)
      • R (7)
      • C, C++ (1)
    • 데이터 사이언스 메뉴얼 (49)
      • python (5)
      • numpy (4)
      • pandas (10)
      • data visualization (4)
      • Crawling (2)
      • National Language Processin.. (4)
      • Object classification (8)
      • Machine Learning (9)
      • Deep Learning (1)
      • 데이터사이언스 정보 (1)
    • 기타 (21)
      • ADsP (데이터분석준전문가) (8)
      • 기업분석 (3)
      • 컨퍼런스 후기 (1)
      • HTML (준영) (0)
      • Slack Trading Bot (준영) (5)
    • 삼성 SDS Brightics (20)

RECENTLY

  • 최근 글
  • 최근 댓글

최근 글

최근댓글

태그

  • Machine Learning
  • python
  • 시계열 분석
  • python library
  • 브라이틱스서포터즈
  • Computer Vision
  • web programming
  • 파이썬
  • pandas
  • DataFrame
  • 삼성SDS
  • 딥러닝
  • opencv
  • 판다스
  • 머신러닝
더보기+

VISITOR

오늘
어제
전체
Powered by Privatenote Copyright © 데이터 사이언스 사용 설명서 All rights reserved. TistoryWhaleSkin3.2

티스토리툴바