[내배캠] 데이터분석 6기/본캠프 기록 46

[본캠프 50일차] 심화 프로젝트 준비, SQL 공부

오늘 한 일은, 심화 프로젝트 준비분류 모델 후보들 중 최종 모델 및 최종 데이터셋의 컬럼 확정하기최종 모델 하이퍼파라미터 튜닝하기해당 모델의 성능을 통계적 검정으로 우연이 아님을 확인하기SQL 공부[코드카타] SQL 3문제 풀기(163~165번) 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: 오늘이 D-2, 이제 이번 심화 프로젝트의 발표가 정말 머지 않았다. 그래도 오늘 하루가 지나고 나니 정리할 내용들이 많이 매듭지어졌다. 오늘은 이제까지 봤던 컬럼들(파생 변수들 포함), 분류 모델들을 정했다. 모델은 LightGBM으로 정해졌다. XGBoost도 비슷하게 성능이 잘 나왔지만 특성 중요도(feature importance)를 비교했을 때, XGBoost는 특정 컬럼에 중요도가 쏠리는 편인데 그에 ..

[본캠프 47일차] 심화 프로젝트 준비

오늘 한 일은,심화 프로젝트 준비분류 머신러닝 돌리기팀 프로젝트 노션에 "[Classification ML]" 문서로 오늘 한 일 기록하기 오늘은 둘, 둘씩 나눠서 두 명은 파생변수 만드는 작업을 하고, 두 명은 머신러닝을 돌려보기로 했다. 내가 맡은 담당은 머신러닝을 돌리는 담당이어서 분류 머신러닝을 튜터님들의 코드를 참고해서 처음부터 끝까지(오늘은 돌린 모델 5개 중에서 최고 성능 모델 결과 나오고, 그 모델의 특성 중요도까지 보여주는 것까지 함) 해봤다. 나는 내가 돌려본 코드 파일은 팀원들에게 공유하고서 팀 프로젝트 노션에 정리하느라 중간 점검 이후 저녁에 다시 모일 때까지의 시간을 다 썼는데, 그동안 다른 팀원분이 내 코드를 다시 정리해서 봤는데 거긴 정확도며, 정밀도며, 재현율이며 다 전체적으..

[본캠프 46일차] 심화 프로젝트 준비

오늘 한 일은,맡은 컬럼들 마저 EDA 마치기각자 추려온 컬럼들로만 이상치 탐지하기슬랙 '데이터 누수' 관련 공지에 따라 다시 데이터 컬럼 추리기 (...)심화 프로젝트 준비팀플: 심화 프로젝트 준비굴리는 과정 보러가기: 오늘 나름 많이 EDA도 각자 맡은 컬럼 끝냈고 데이터셋을 이해하고 컬럼을 추리는 데서 할 것들을 꽤 했다고 생각했다. 그랬는데, 오후 스크럼 때 각자 EDA 살펴본 내용을 공유할 때 팀원 분 중 추린 컬럼들 간 상관관계를 히트맵으로 확인했을 때 상관관계가 높은 컬럼들이 꽤 보여서 더 추려야 할 상황을 발견한 상태였다. 다른 한 분은 추린 데이터셋으로 임의로 전처리하고 분류 모델 몇 가지를 돌려서 F1 점수를 비롯해서 예측 성능을 확인했는데 점수들이 다들 너무 잘 나와서 과적합 문제가..

[본캠프 45일차] 심화 프로젝트 준비

오늘 한 일은,심화 프로젝트 준비주어진 데이터셋에서 보기로 정해진 컬럼들 나눠서 데이터 분포 확인하기분류 모델에서 독립변수로 둘 컬럼 추리는 중 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: [본캠프 45일차] 부록: [chap 3] 심화 프로젝트 준비②아직도 데이터 전처리 중이다. 가장 처음에 주어진 데이터셋(accepted)의 행와 열의 수다. 컬럼이 무려 151개나 된다. 가장 첫 번째로는 컬럼에서 결측치 비율이 50% 이상인 경우 해당 컬럼을 제거한maandoo.tistory.com 전처리를 한번 해보고 싶다고 이 데이터셋을 선택한 이유도 있는데 도메인 지식 하나 없이 맨땅에 헤딩하려니까 멀미가 나는 것 같다. 그래도 주말에 팀원 분 중 한 분이 아는 분을 통해서 해당 데이터셋의 컬럼에 어떤 ..

[본캠프 44일차] 심화 프로젝트 준비

오늘 한 일은심화 프로젝트 준비심화 프로젝트 주제 선정주어진 데이터셋 이해하기 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: https://maandoo.tistory.com/66 다시 돌아온 프로젝트 기간. 팀원들은 걱정이 없는데 내가 제일 걱정이다. 매번 커머스 주제만 하다가, 이번에는 처음으로 다른 주제를 선정했다. 사실 분류, 군집도, 회귀도 관심이 있었다. 분류와 군집은 아무래도 고객 세그멘테이션과 관련된 분야이다 보니까 관심이 있었고, 회귀는 판매 수요량이나 광고 비용 효용 등을 가늠해보는 데도 사용되니 관심이 갔는데, 팀원들과 얘기하다보니 이번에는 커머스가 아닌 다른 주제를 해보고 싶어졌다. 그래서 분류의 금융 주제를 선택할지, 군집의 금융 주제를 선택할지 고민하다가 '분류의 금융 데이터셋..

[본캠프 42일차] SQL 공부, 머신러닝 공부

오늘 한 일은,SQL 공부[코드카타] SQL 9문제 풀기(149~157번)머신러닝 공부[머신러닝 특강] "이상 탐지", "회귀" 수강하기[실무에 쓰는 머신러닝 기초] 1-8(차원 축소) , 1-9(이상 탐지) 실습하기SQL 공부: [코드카타] SQL 문제 풀기(149~157번)149. The PADSGenerate the following two result sets:1. Query an alphabetically ordered list of all names in OCCUPATIONS, immediately followed by the first letter of each profession as a parenthetical (i.e.: enclosed in parentheses). For exampl..

[본캠프 41일차] SQL 공부, 머신러닝 공부

오늘 한 일은,SQL 공부[코드카타] SQL 4문제 풀기(145~148번)머신러닝 공부[머신러닝 특강] "분류" 수강하기[실무에 쓰는 머신러닝 기초] 1-7 실습하기[실무에 쓰는 머신러닝 기초] 1-10 수강하기 다섯 번째 아티클 스터디 하기SQL 공부: [코드카타] SQL 문제 풀기(145~148번)145. Higher Than 75 MarksQuery the Name of any student in STUDENTS who scored higher than Marks. Order your output by the last three characters of each name. If two or more students both have names ending in the same last three ..

[본캠프 40일차] SQL 공부, 머신러닝 공부

오늘 한 일은,SQL 공부[코드카타] SQL 7문제 풀기(138~144번)통계학 공부[통계 라이브세션] 6회차 수강하기머신러닝 공부[python standard] 9회차 수강하기[실무에 쓰는 머신러닝 기초] 1-6 실습하기[실무에 쓰는 머신러닝 기초] 1-7, 1-8, 1-9 수강하기제45회 데이터 분석 준전문가(ADsP) 접수하기 미래의 나, 믿고 있을게^^ 합격 맡겨놨어~~SQL 공부: [코드카타] SQL 문제 풀기(138~144번)140. Weather Observation Station 8Query the list of CITY names from STATION which have vowels (i.e., a, e, i, o, and u) as both their first and last cha..

[본캠프 39일차] SQL 공부, QCC ④, 머신러닝 공부

머신러닝과 통계의 파도에 휩쓸려 이번주가 어떻게 지나간 줄 모르겠다. 오늘 한 일은,SQL 공부[코드카타] SQL 3문제 10문제 풀기 (128~137번)QCC 4회차 응시하기[QCC 해설 세션] 수강하기[QCC] 오답 정리하기머신러닝 공부하기[실무에 쓰는 머신러닝 기초] 1-5 실습 문제 풀기 SQL 공부: [코드카타] SQL 문제 풀기(128~137번)137. Weather Observation Station 5Query the two cities in STATION with the shortest and longest CITY names, as well as their respective lengths (i.e.: number of characters in the name). If there is ..

[본캠프 38일차] SQL 공부, 머신러닝 공부

어제 기준으로 2025년도 벌써 27%가 지나갔고, 오늘이 목요일이고 벌써 내일이 금요일이라는 것도 믿기지 않는다. 시간 왜 이렇게 빨리 가지? 오늘 한 일은, SQL 공부[코드카타] SQL 3문제 풀기 (125~127번)통계 공부[통계 라이브세션] 5회차 수강하기머신러닝 공부[실무에 쓰는 머신러닝 기초] 1-4 실습 문제 풀기[실무에 쓰는 머신러닝 기초] 1-5 수강하기네 번째 아티클 스터디 진행하기 (누적은 24번째(11+4+5+4)) SQL 공부: [코드카타] SQL 문제 풀기(125~127번)125. (1327) List the Products Ordered in a PeriodWrite a solution to get the names of products that have at least 10..