[내배캠] 데이터분석 6기/프로젝트 기록 5

[본캠프 28일차] 부록: [chap 2] 기초 프로젝트 준비⑤

(코드 정리. 공유를 위한 ipynb 파일의 내용을 혹시 몰라 티스토리에도 남겨 놓는다) 라이브러리 및 데이터 불러오기# 라이브러리import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 데이터 (불러올 때 파일 경로는 각자의 것으로 변경해주세요)cus = pd.read_csv("/Users/.../customer_hm.csv")tra = pd.read_csv("/Users/.../transactions_hm.csv")art = pd.read_csv("/Users/.../articles_hm.csv")거래 내역(transactions) 데이터로 고객 분석하기🔍 transactions 테이블 살펴보기..

[본캠프 27일차] 부록: [chap 2] 기초 프로젝트 준비④

프로젝트 준비하면서 계속 할 일을 하는데 왜 일이 끝이 없지..? 나는 오늘은 개인적으로 필요한 부분을 공부를 할 수 있을 줄 알았는데, 그랬는데... 데이터 분석에 사용한 코드 검토 및 취합하기혼자서 EDA를 하면서 코드를 작성했던 파일은 낙서장처럼 갈겨쓴 수준이라 공유하기 어렵겠다 싶었다. 어떤 수준이냐면 데이터 분석을 위해 주어진 데이터들로 만들 각종 테이블들이 존재하고(이 중 절반은 결국 분석 시 사용하지 않음), 코드의 경우에도 한 번 돌려보고 나오는 결과가 이상하면 해당 코드를 지우고서 새로 쓰는 게 아니라 잘못된 코드도 다시 쓸 일이 있지 않을까 싶은 마음에 그 코드는 #을 붙여서 주석 처리하고서 그 밑에 수정한 코드를 적어 놓고, 테이블의 경우에도 컬럼을 만들었는데 결과 테이블을 조회해보니..

[본캠프 26일차] 부록: [chap 2] 기초 프로젝트 준비③

어제 오후 스크럼 때 수요일까진 발표용 PPT 자료를 만드는 것을 목표로 오늘 각자 할 일을 정했는데그래서 오늘은 이게 말이 되든 안 되든 고객 세그먼트를 해가야 해.. 그나저나 어제 두통이 심해서 그냥 우선 자고 나면 괜찮아지겠지 싶어서 자고 일어났는데 피곤한 것도, 두통도 여전하구나... 주말 언제 와.  방문 횟수에 따른 고객군 탐색하기어제 구한 방문 횟수 기준으로 고객 수, 총 판매액, 전체 판매액에서 차지하는 비율,객단가 평균, 객단가 중앙값을 보기로 한다. # 방문횟수로 피벗 테이블 만들기# 방문횟수별 판매액 계산한 컬럼 'total_sum' 생성pivot_visitcnt = tra_final2.pivot_table(index=['visit_cnt'], values=['total_sum'], ..

[본캠프 25일차] 부록: [chap 2] 기초 프로젝트 준비②

[본캠프 24일차] 부록: [chap 2] 기초 프로젝트 준비①어제부터 주제를 정해서 기초 프로젝트 과제를 해나가고 있다. 어제도 하긴 했는데, 낡고 지친 관계로 어제 TIL에 해당 내용을 적지 못했다. 비주얼 코드 스튜디오와 씨름하기만도 지치고 바빠maandoo.tistory.com 어제에 이어서(오늘은 월요일인데도 어제에 이어서라니... 흑) 오늘은 구매 건수에 따른 고객의 특성을 파악해보기로 한다.구매 건수에 따른 고객군 분석하기transactions 테이블의 기본적인 고객 데이터에 관한 정보 짚고 넘어가기# 이전 데이터 분석으로 알아놓은 부분이지만 오늘 살펴볼 부분과 관련 있는 것들을 한 곳에 모아봄# 구매 고객 수 세기구매_회원_수 = tra['customer_id'].nunique() # tr..

[본캠프 24일차] 부록: [chap 2] 기초 프로젝트 준비①

어제부터 주제를 정해서 기초 프로젝트 과제를 해나가고 있다. 어제도 하긴 했는데, 낡고 지친 관계로 어제 TIL에 해당 내용을 적지 못했다. 비주얼 코드 스튜디오와 씨름하기만도 지치고 바빠서.. 그래도 오늘은 뭐라도 끼적이면서 남겨놔야 할 것 같아서 기록한다. 선정 주제: [커머스] H&M 고객/매출 데이터 분석선정한 데이터셋:  H&M Personalized Fashion Data www.kaggle.com 해당 주제는 H&M 데이터에 대한 EDA를 통해 1️⃣자사의 서비스 현황과 2️⃣향후 서비스의 행보에 대한 제언을 해야 한다. 추가적으로 캐글의 데이터셋에 대한 소개 페이지를 보면 다음과 같은 내용들도 알 수 있다.H&M의 온라인 스토어는 폭넓은 제품군을 취급하고 있으나, 너무 많은 선택지는 오히려..