안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 저번 포스팅으로 Brightics 서포터즈 3기 발대식 후기를 작성했었는데요 그 감동과 여운을 바탕으로 이번 포스팅은 주제를 정해 분석하는 개인 분석 프로젝트!! 주제 및 데이터셋 설명과 Data Load에 대해 작성하겠습니다 :) 주제 선정 아무래도 제가 가장 자신있는 분야이기도 하고 기존 연구실 경험을 살려 텍스트 데이터를 다뤄보는 주제로 선정하였습니다. 바로 '영화 리뷰 데이터 분석하기 with text analysis'라는 주제로 여러분들에게 친숙한 영화라는 데이터셋을 텍스트 데이터와 함께 분석해보는 시간을 가져보겠습니다. 텍스트 분석이란? 데이터의 유형에는 정형데이터, 이미지, 텍스트, 음성 등 여러 가지의 유형이 있고..
데이터 사이언스 사용 설명서 검색 결과
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 저번 포스팅은 삼성 SDS Brightics 서포터즈로 합격하고 Brightics를 소개하는 내용을 다뤘는데요 이번에는 Brightics 서포터즈 3기 발대식을 다녀온 후기를 포스팅하겠습니다! 이번 3기는 오프라인으로 잠실에 있는 삼성 SDS 본사에서 진행됐는데요 위 사진처럼 삼성 SDS 본사 입구를 봤을 때부터 심장이 두근거렸습니다.. 본사에 들어가고 예정된 시간에 발대식이 진행되었는데요. 발대식 순서는 아래와 같이 1) 환영사 2) 서포터즈 활동 소개 3) 사진촬영 4) 팀 편성 및 멘토소개 5) EBC 투어 순서로 진행됐습니다! 환영사는 그룹장님과 부사장님께서 진행해주셨는데, 데이터분석가가 갖춰야 할 마음가짐에 대해 주로 ..
안녕하세요!! 삼성 SDS Brightics 서포터즈 3기 이상민입니다. 해당 포스팅은 삼성 SDS에서 주관하는 Brightics 서포터즈를 합격하고 난 후, Brightics를 소개하고 체험해보는 첫 포스팅입니다 :) 오늘 포스팅할 내용은 1. Brightics란 무엇인지! 2. Brightics는 어떻게 사용하는지 두 가지에 대해 간단하게 알아보는 시간을 가져보겠습니다~! Brightics란 무엇인가? 먼저 Brightics AI란 누구나 쉽고 빠르게 AI분석을 하고 활용할 수 있도록 삼성 SDS에서 개발한 통합 AI 플랫폼입니다. 데이터 수집/전처리부터 정형/비정형 데이터 분석, 시각화 및 배포/운영까지! 데이터 분석의 모든 과정을 자동화하여 진행할 수 있는 장점이 있습니다. 이 Brightics ..
12.1 일반 사례를 위해 만들어진 도구로 작업하기 표본 간 데이터를 '공유'하지 않는 비시계열 데이터용 모델 시계열 데이터의 이산적인 표본을 알고리즘에 주입하는 경우, 데이터가 많이 겹친다는 것을 알게 된다. 다음과 같은 월간 판매 기록 데이터가 있다고 가정해보자. 예측은 최근접 곡선에 각각의 '모양'을 매핑하는 방식으로 준비한다. 6개월 기간의 곡선을 구성하는 데이터는 다음과 같다. 흥미로운 점은 추가 정보 없이 데이터를 6배 크게 만들어준다. 1) 중첩 데이터를 사용하지 말 것 2) 제너레이터와 같은 패러다임을 사용해서 데이터셋 반복 접근하기 사전 계산을 하지 않는 모델로 측정와 예측 사이에 불필요한 지연 발생 시계열의 요약 특징(평균, 표준편차 등)으로 최근접 이웃을 찾는 클러스터링 모델을 사용하..
백테스트 히스토리 데이터에서 예측 모델을 테스트하기 위해 모델링 사용되는 용어이다. 이전 기간에 적용되는 특수한 유형의 교차 검증이다. 학습딘 모델의 역동성을 고려해야 한다. 특히 특정 기간의 데이터로 모델을 학습하는 것을 고려해야 한다. ARIMA와 같은 전통적 통계 모델에서는 모든 데이터가 파라미터를 선택할 때 균등하게 고려되었다. 파라미터가 시간에 따라서 달라져야 한다면, 더 많은 데이터는 모델의 성능을 떨어뜨린다. 11.2 예측하기 좋은 시점 모델의 가능성을 식별하기 위한 방법으로 아래와 같은 조치를 취할 수 있다. 1) 테스트 데이터셋에 대한 모델 출력 그래프 그리기 2) 시간에 따른 모델의 잔차 그래프 그리기 3) 시간을 인식하는 간단한 널 모델에 대해 여러분의 모델 검증하기 4) 모델이 이상..
딥러닝 모델을 사용하면, 통계기반 모델처럼 가정을 하지 않아 아래와 같은 전처리 과정이 사라진다. 1) 정상성을 요구하지 않는다. 2) 계절형 ARIMA 모델의 차수, 계절성에 따른 평가와 같은 파라미터를 고르는 기술을 개발할 필요가 없다. 3) 상태 공간 모델링에서 유용했던 시스템의 역동성에 대한 가설을 세울 필요가 없다. 딥러닝은 입력의 모든 입력 채널의 값이 -1~1 사이로 조정될 때 가장 잘 동작하므로 데이터 전처리 작업이 필요하다는 특징이 있다. 10.1 딥러닝 개념 딥러닝은 인간의 뇌를 모방한 신경망을 더욱 발전시켜 만든 것이다. 비선형 기능을 표현한다. 1) 입력계층과 은닉계층 사이 가중치 : 4X3 행렬, 계산 결과는 4X1행렬 2) 활성함수를 통해 비선형성 제공 3) Dense layer..
시계열 특징의 생성 및 선택 특징 생성 : 시계열 데이터의 가장 중요한 특성을 정량화하여 수치 및 범주형 레이블로 압축하는 방법을 찾는 과정 예시) 평균과 시간 단계의 개수 특징 생성의 목적 : 많은 정보를 적은 수의 지표로 압축하는 것, 압축된 지표로 중요한 정보를 식별하고 나머지는 제거할 수 있다. 8.1 입문자를 위한 예제 온도가 주기성(일일 순환)을 띄며, 전반적으로 증가하는 추세를 가진다. 이 데이터를 요약지표로 압축하는 방식을 추구한다. 다음과 같은 요약지표로 압축할 수 있다. - 일일/주기성 - 증가하는 추세 - 각각 아침, 점심, 저녁의 평균값 8.2 특징 계산 시 고려 사항 8.2.1 시계열의 특성 특징을 생성하는 과정에서 아래와 같은 기본 성질을 항상 염두해야 한다. 정상성 정상성은 시..
상태공간 모델 실제 상태를 직접 측정할 수 없으며 측정된 것으로부터 추론하는 것만 가능 예시) 공격적으로 차선 변경을 시도하는 운전자 발견 -> 어느 차선으로 진로를 변경하는지 추측(수 초, 수 분 간의 고나찰을 통해 상태공간 모델 갱신) 키워드 선형 가우스 모델에 적용된 칼만 필터, 은닉 마르코프 모형, 베이즈 구조적 시계열 관측에 기반한 근본 상태를 추적하는 작업 필터링 : 시간 t의 상태에 대한 추정 갱신에 시간 t의 측정 사용 (상태에 대한 추정의 갱신에 가장 최근 정보에 가중치를 부여하는 방식) 예측 : 시간 t의 예상되는 상태에 대한 예측 생성에 시간 t-1의 측정을 사용(시간 t의 예상되는 측정의 추론도 가능, 미래에 대한 어떠한 정보도 없이 미래 상태 예측) 평활화 : 시간 t의 참 상태 ..
chap06의 핵심내용 - 자기회귀(AR)모델, 이동평균(MA) 모델, 자기회귀누적이동평균(ARIMA) 모델, 벡터자기회귀(VAR), 계층형 모델 정상성 : 평균과 분산이 시간에 따라 상관관계를 가지지 않는 형태 6.1 선형회귀를 사용하지 않는 이유 선형회귀 분석은 독립항등분포(IID)데이터가 있다는 것을 가정하기 때문에, 시계열 데이터에 해당되지 않는다. 시계열 데이터는 시간에 가까운 데이터일수록 서로 강한 관계를 맺는 경향이 있다. 즉 시계열 데이터에 시간적 상관관계가 없다면 면 미래를 예측하거나 시간의 역동성을 이해하는 등 전통적 시계열 작업을 하기 어렵다. 선형회귀, 최소제곱선형회귀 모델을 다음과 같은 상황일 때 시계열 데이터에 적용해볼 수 있다. 시계열 행동에 대한 가정 - 시계열은 예측 변수에..
chap05 시간 데이터 저장 시계열 데이터의 가치는 실시간 스트리밍보다는 과거에 축적된 데이터에서 자주 발생한다. 따라서 시계열 데이터를 저장하기 위한 스토리지가 반드시 필요하다. - 크기에 따른 성능 확장 방언에 대한 중요성 - 데이터 접근에 대한 무작위적인 방식 대 순차적 방식의 중요성 - 자동화 스크립트의 중요성 5.1 요구 사항 정의 시계열 데이터를 위한 스토리지를 고려할 때, 스스로에게 다음과 같은 질문을 해봐야 한다. - 얼마나 많은 시계열 데이터를 저장해야 하나요? 얼마나 데이터가 빠르게 증가하나요? - 측정에 대한 업데이트가 끊임없이 발생하거나(예: 계속 이어지는 웹 트래픽 스트림), 측정이 구분되는 개별 사건 단위로 발생하나요(예: 지난 10년 동안 미국의 모든 주요 공휴일에 대한 시간..
최근댓글