데이터분석6기 66

[본캠프 56일차] 태블로 공부

끝나지 않는 공부, 끝나지 않는 개인과제, 끝나지 않는 프로젝트..개인 과제야, 그렇다치는데,, 내일부터 프로젝트 기간 시작이라니 믿기지 않는다 오늘 한 일은,태블로 공부[실습으로 배우는 태블로] 4주차 수강하기[태블로 라이브세션] 3회차 수강하기태블로 공부: [실습으로 배우는 태블로] 4주차 수강하기계산식 활용하기텍스트 테이블 테이블 구조화 형식에는 대표적으로 2가지가 있음: ①wide format table, ②long format table①wide format table : 옆으로 넓은 형태로 데이터가 쌓이는 형식데이터 분석을 할 경우 많이 사용하는 형태표를 비교하거나(상관 관계 분석 및 각 변수의 분포 비교 등) 그래프 시각화하기 용이함②long format table : 아래로 긴 형태로 데이..

[본캠프 55일차] 머신러닝 개인 과제, 태블로 공부

믿기지 않는다. 연휴 아껴 썼는데(?) 벌써 끝이라니. ...일어나서 할 일을 하자. 오늘 한 일은,태블로 공부[태블로 라이브세션] 2회차 수강하기[실습으로 배우는 태블로] 3주차 수강하기머신러닝 공부[머신러닝 개인 과제 - 해설 세션] 수강하기ADsP 공부ADsP 모의고사 오답 정리하기첫 번째 아티클 스터디하기 (누적은 26번째(11+4+5+5+1))머신러닝 공부: 머신러닝 개인 과제 정리하기오늘 10시까지 머신러닝 개인 과제를 제출해야 해서 어제 자기 전에 조금 풀고서 제출했다. 문제들이 크게 어려운 것은 없었고 오히려 지난 챕터의 내용들을 가볍게 되짚어 볼 수 있게끔 튜터님이 출제해주셔서 다시 복습할겸 블로그에도 해당 내용을 정리해두는 게 좋을 것 같았다. 문제는 필수 6문제, 도전 2문제로 총 ..

[본캠프 54일차] QCC ⑤, 태블로 공부

아 QCC 이렇게 못 볼 줄은 몰랐는데, 주말에 ADsP 공부도 해야 하는데 QCC 1회차부터 문제들 다시 풀어봐야 할 듯하다. 이번 QCC는 1번 문제를 제외하고는 문제를 잘 못 읽어서 놓친 조건들도 꽤 있어서 문제를 꼼꼼히 살펴야겠다고 반성했다. 오늘 한 일은,SQL 공부[QCC] 5회차 응시하기[QCC - 해설 세션] 수강하기[QCC] 5회차 오답노트 정리하기태블로 공부[실습으로 배우는 태블로] 2주차 수강하기SQL 공부: 5회차 QCC 회고 1. 전체 상담 건수 대비 분류되지 않은 상담 비율 구하기스파르타생명(주) 프로그램에서는 일부 상담이 정확한 카테고리로 분류되지 못하는 경우가 있습니다. category 컬럼의 값이 n/a 또는 NULL로 되어 있는 경우, 해당 상담을 '분류되지 않은 상담'으..

[본캠프 53일차] SQL 공부, 머신러닝 공부, 태블로 공부

벌써 4월이 가고 5월이다. 오늘 4월 한 달 동안 함께했던 조를 떠나 다시 새로운 조원분들을 만났고, 새롭게 태블로 공부를 시작하고, 또 SQLD 시험도 접수했다. 여러모로 새롭게 시작하는 5월이다. 프로젝트 기간 동안 정신 없어서 일주일 정도 방치해뒀던 블로그에도 다시 TIL을 쓰고 주말에는 지난 프로젝트 동안 한 내용도 회고하며 정리해둬야겠다. 5월도 아자아자 화이팅이닷! 오늘 한 일은,SQL 공부[코드카타] SQL 3문제 풀기(166~168번)머신러닝 공부[머신러닝 특강 - 최적화] 복습하기태블로 공부태블로 환경 설정하기[태블로 라이브세션] 1회차 수강하기[실습으로 배우는 태블로] 1주차 수강하기ADsP 공부[ADsP 자격증 챌린지] 7주차 수강하기제57회 SQL 개발자(SQLD) 접수하기 SQL..

[본캠프 50일차] 심화 프로젝트 준비, SQL 공부

오늘 한 일은, 심화 프로젝트 준비분류 모델 후보들 중 최종 모델 및 최종 데이터셋의 컬럼 확정하기최종 모델 하이퍼파라미터 튜닝하기해당 모델의 성능을 통계적 검정으로 우연이 아님을 확인하기SQL 공부[코드카타] SQL 3문제 풀기(163~165번) 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: 오늘이 D-2, 이제 이번 심화 프로젝트의 발표가 정말 머지 않았다. 그래도 오늘 하루가 지나고 나니 정리할 내용들이 많이 매듭지어졌다. 오늘은 이제까지 봤던 컬럼들(파생 변수들 포함), 분류 모델들을 정했다. 모델은 LightGBM으로 정해졌다. XGBoost도 비슷하게 성능이 잘 나왔지만 특성 중요도(feature importance)를 비교했을 때, XGBoost는 특정 컬럼에 중요도가 쏠리는 편인데 그에 ..

[본캠프 47일차] 심화 프로젝트 준비

오늘 한 일은,심화 프로젝트 준비분류 머신러닝 돌리기팀 프로젝트 노션에 "[Classification ML]" 문서로 오늘 한 일 기록하기 오늘은 둘, 둘씩 나눠서 두 명은 파생변수 만드는 작업을 하고, 두 명은 머신러닝을 돌려보기로 했다. 내가 맡은 담당은 머신러닝을 돌리는 담당이어서 분류 머신러닝을 튜터님들의 코드를 참고해서 처음부터 끝까지(오늘은 돌린 모델 5개 중에서 최고 성능 모델 결과 나오고, 그 모델의 특성 중요도까지 보여주는 것까지 함) 해봤다. 나는 내가 돌려본 코드 파일은 팀원들에게 공유하고서 팀 프로젝트 노션에 정리하느라 중간 점검 이후 저녁에 다시 모일 때까지의 시간을 다 썼는데, 그동안 다른 팀원분이 내 코드를 다시 정리해서 봤는데 거긴 정확도며, 정밀도며, 재현율이며 다 전체적으..

[본캠프 46일차] 심화 프로젝트 준비

오늘 한 일은,맡은 컬럼들 마저 EDA 마치기각자 추려온 컬럼들로만 이상치 탐지하기슬랙 '데이터 누수' 관련 공지에 따라 다시 데이터 컬럼 추리기 (...)심화 프로젝트 준비팀플: 심화 프로젝트 준비굴리는 과정 보러가기: 오늘 나름 많이 EDA도 각자 맡은 컬럼 끝냈고 데이터셋을 이해하고 컬럼을 추리는 데서 할 것들을 꽤 했다고 생각했다. 그랬는데, 오후 스크럼 때 각자 EDA 살펴본 내용을 공유할 때 팀원 분 중 추린 컬럼들 간 상관관계를 히트맵으로 확인했을 때 상관관계가 높은 컬럼들이 꽤 보여서 더 추려야 할 상황을 발견한 상태였다. 다른 한 분은 추린 데이터셋으로 임의로 전처리하고 분류 모델 몇 가지를 돌려서 F1 점수를 비롯해서 예측 성능을 확인했는데 점수들이 다들 너무 잘 나와서 과적합 문제가..

[본캠프 45일차] 심화 프로젝트 준비

오늘 한 일은,심화 프로젝트 준비주어진 데이터셋에서 보기로 정해진 컬럼들 나눠서 데이터 분포 확인하기분류 모델에서 독립변수로 둘 컬럼 추리는 중 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: [본캠프 45일차] 부록: [chap 3] 심화 프로젝트 준비②아직도 데이터 전처리 중이다. 가장 처음에 주어진 데이터셋(accepted)의 행와 열의 수다. 컬럼이 무려 151개나 된다. 가장 첫 번째로는 컬럼에서 결측치 비율이 50% 이상인 경우 해당 컬럼을 제거한maandoo.tistory.com 전처리를 한번 해보고 싶다고 이 데이터셋을 선택한 이유도 있는데 도메인 지식 하나 없이 맨땅에 헤딩하려니까 멀미가 나는 것 같다. 그래도 주말에 팀원 분 중 한 분이 아는 분을 통해서 해당 데이터셋의 컬럼에 어떤 ..

[본캠프 44일차] 심화 프로젝트 준비

오늘 한 일은심화 프로젝트 준비심화 프로젝트 주제 선정주어진 데이터셋 이해하기 팀플: 심화 프로젝트 준비굴리는 과정 보러가기: https://maandoo.tistory.com/66 다시 돌아온 프로젝트 기간. 팀원들은 걱정이 없는데 내가 제일 걱정이다. 매번 커머스 주제만 하다가, 이번에는 처음으로 다른 주제를 선정했다. 사실 분류, 군집도, 회귀도 관심이 있었다. 분류와 군집은 아무래도 고객 세그멘테이션과 관련된 분야이다 보니까 관심이 있었고, 회귀는 판매 수요량이나 광고 비용 효용 등을 가늠해보는 데도 사용되니 관심이 갔는데, 팀원들과 얘기하다보니 이번에는 커머스가 아닌 다른 주제를 해보고 싶어졌다. 그래서 분류의 금융 주제를 선택할지, 군집의 금융 주제를 선택할지 고민하다가 '분류의 금융 데이터셋..

[본캠프 42일차] SQL 공부, 머신러닝 공부

오늘 한 일은,SQL 공부[코드카타] SQL 9문제 풀기(149~157번)머신러닝 공부[머신러닝 특강] "이상 탐지", "회귀" 수강하기[실무에 쓰는 머신러닝 기초] 1-8(차원 축소) , 1-9(이상 탐지) 실습하기SQL 공부: [코드카타] SQL 문제 풀기(149~157번)149. The PADSGenerate the following two result sets:1. Query an alphabetically ordered list of all names in OCCUPATIONS, immediately followed by the first letter of each profession as a parenthetical (i.e.: enclosed in parentheses). For exampl..