오늘 한 일은,
-
- 맡은 컬럼들 마저 EDA 마치기
- 각자 추려온 컬럼들로만 이상치 탐지하기
- 슬랙 '데이터 누수' 관련 공지에 따라 다시 데이터 컬럼 추리기 (...)심화 프로젝트 준비
팀플: 심화 프로젝트 준비
굴리는 과정 보러가기:
오늘 나름 많이 EDA도 각자 맡은 컬럼 끝냈고 데이터셋을 이해하고 컬럼을 추리는 데서 할 것들을 꽤 했다고 생각했다.
그랬는데, 오후 스크럼 때 각자 EDA 살펴본 내용을 공유할 때 팀원 분 중 추린 컬럼들 간 상관관계를 히트맵으로 확인했을 때 상관관계가 높은 컬럼들이 꽤 보여서 더 추려야 할 상황을 발견한 상태였다. 다른 한 분은 추린 데이터셋으로 임의로 전처리하고 분류 모델 몇 가지를 돌려서 F1 점수를 비롯해서 예측 성능을 확인했는데 점수들이 다들 너무 잘 나와서 과적합 문제가 있는 것 같다고 공유해주셨다.
그런 얘기에서 등장한 오늘의 공지, 데이터 누수에 대한 내용이었다. 대출 실행 이후 업데이트 되는 컬럼들을 제외한다고 하면 애초에 안 봤어도 될 컬럼들을 너무 많이 보고 있었던... 그렇지만 추후에 인사이트 도출 및 전략 수립할 때 도움이 될 것이다. 그렇다고 믿기로...
데이터 누수로 못 쓸 컬럼들도 제외하고 나니 컬럼도 거의 20개 좀 넘게 남아서 내일은 머신러닝까지 우선 돌려보는 걸 목표로 해봐야겠다. 그리고 만약에 시간이 된다면(...아마 없을 것 같긴 하지만), 데이터 누수에 대해 얘기가 나온 타이밍에 관련 아티클이나 찾아서 읽어보고 싶다.
'[내배캠] 데이터분석 6기 > 본캠프 기록' 카테고리의 다른 글
[본캠프 50일차] 심화 프로젝트 준비, SQL 공부 (0) | 2025.04.28 |
---|---|
[본캠프 47일차] 심화 프로젝트 준비 (0) | 2025.04.23 |
[본캠프 45일차] 심화 프로젝트 준비 (0) | 2025.04.21 |
[본캠프 44일차] 심화 프로젝트 준비 (0) | 2025.04.18 |
[본캠프 42일차] SQL 공부, 머신러닝 공부 (0) | 2025.04.16 |