[내배캠] 데이터분석 6기/본캠프 기록

[본캠프 45일차] 심화 프로젝트 준비

물맨두 2025. 4. 21. 23:45

 

오늘 한 일은,

  • 심화 프로젝트 준비
    • 주어진 데이터셋에서 보기로 정해진 컬럼들 나눠서 데이터 분포 확인하기
    • 분류 모델에서 독립변수로 둘 컬럼 추리는 중

 

팀플: 심화 프로젝트 준비

굴리는 과정 보러가기:

 

[본캠프 45일차] 부록: [chap 3] 심화 프로젝트 준비②

아직도 데이터 전처리 중이다. 가장 처음에 주어진 데이터셋(accepted)의 행와 열의 수다. 컬럼이 무려 151개나 된다. 가장 첫 번째로는 컬럼에서 결측치 비율이 50% 이상인 경우 해당 컬럼을 제거한

maandoo.tistory.com

 

 

전처리를 한번 해보고 싶다고 이 데이터셋을 선택한 이유도 있는데 도메인 지식 하나 없이 맨땅에 헤딩하려니까 멀미가 나는 것 같다. 그래도 주말에 팀원 분 중 한 분이 아는 분을 통해서 해당 데이터셋의 컬럼에 어떤 정보들이 들어있는지 추가적으로 알아와서 2차적으로 한 번 거르고, 오늘은 또 주말에 추린 컬럼들을 1/n로 나눠서 각자 데이터가 어떻게 분포되어 있는지, 어떤 값들이 들어있는지, 파생 변수를 만들어낸다면 어떻게 만들어낼 수 있는지 등을 보았다.

 

내일은 이상치 처리하기로 했는데, 어떻게 하지 고민이다.