2025/04/22 2

[본캠프 46일차] 심화 프로젝트 준비

오늘 한 일은,맡은 컬럼들 마저 EDA 마치기각자 추려온 컬럼들로만 이상치 탐지하기슬랙 '데이터 누수' 관련 공지에 따라 다시 데이터 컬럼 추리기 (...)심화 프로젝트 준비팀플: 심화 프로젝트 준비굴리는 과정 보러가기: 오늘 나름 많이 EDA도 각자 맡은 컬럼 끝냈고 데이터셋을 이해하고 컬럼을 추리는 데서 할 것들을 꽤 했다고 생각했다. 그랬는데, 오후 스크럼 때 각자 EDA 살펴본 내용을 공유할 때 팀원 분 중 추린 컬럼들 간 상관관계를 히트맵으로 확인했을 때 상관관계가 높은 컬럼들이 꽤 보여서 더 추려야 할 상황을 발견한 상태였다. 다른 한 분은 추린 데이터셋으로 임의로 전처리하고 분류 모델 몇 가지를 돌려서 F1 점수를 비롯해서 예측 성능을 확인했는데 점수들이 다들 너무 잘 나와서 과적합 문제가..

[본캠프 45일차] 부록: [chap 3] 심화 프로젝트 준비②

아직도 데이터 전처리 중이다. 가장 처음에 주어진 데이터셋(accepted)의 행와 열의 수다. 컬럼이 무려 151개나 된다. 가장 첫 번째로는 컬럼에서 결측치 비율이 50% 이상인 경우 해당 컬럼을 제거한다. 그러면 151개에서 107개로 줄었다. 그리고 두 번째로 컬럼마다 어떤 데이터를 담고 있는지 의미를 어느 정도 각자 공부해와서 컬럼을 추렸다. 값이 이상하게 들어있는 컬럼들을 쳐냈다(데이터 하나로 쏠려 있거나 결측치가 많다거나 등). 또 분류 모델에 넣을 때 y로 둘 컬럼 loan_status값이 'Fully Paid', 'Charged Off', 'Default'인 건들만 두고 아닌 건들은 분석에서 제외시키기로 했다.처음에 비해서 데이터가 많이 줄었다. 행은 2,260,701건에서 1,286,8..