[본캠프 37일차] SQL 공부, 머신러닝 공부

[내배캠] 데이터분석 6기/본캠프 기록

[본캠프 37일차] SQL 공부, 머신러닝 공부

물맨두 2025. 4. 9. 23:18

나 공부하기도 바빠죽겠는데 기계까지 공부시키라는 게 무슨 말인가 싶었는데, 슬슬 기계를 공부시키는 게 낫다는 걸 머신러닝 공부하면서 체감하는 요즘. 통계.. 회귀.....

오늘 한 일은,

SQL 공부
- [코드카타] SQL 3문제 풀기 (122~124번)
통계 공부
- [통계 라이브세션] 4회차 수강하기
머신러닝 공부
- [python standard] 7회차 수강하기
- [실무에 쓰는 머신러닝 기초] 1-4 수강하기

SQL 공부: [코드카타] SQL 문제 풀기 (122~124번)

122. (196) Delete Duplicate Email

Write a solution to delete all duplicate emails, keeping only one unique email with the smallest id.
For SQL users, please note that you are supposed to write a DELETE statement and not a SELECT one.

문제에서 SELECT를 사용하지 말고 DELETE를 사용하라길래 SELECT절에 DISTINCT를 사용해봤는데 출력된 결과 테이블에 변화가 없었다. DELETE 문법은 어떻게 쓰는지 찾아봤다.

[참고 1] [MySQL] DELETE 데이터 삭제 기본 사용법

[참고 2] [MySQL] 테이블 내 중복 데이터 삭제

DELETE FROM [테이블명] WHERE [조건] : 테이블에서 WHERE절에 입력한 조건에 맞는 행만 삭제 (WHERE절 생략 시 테이블 내 모든 데이터가 삭제됨)

DELETE p1
FROM Person p1, Person p2
WHERE (p1.id > p2.id) AND
      (p1.email = p2.email)

DELETE 문법에 대해서 찾아보다가 중복값을 제거하는 쿼리를 찾아서 해당 내용을 참고해 위와 같이 작성해 정답을 맞췄다.

신기한 것은 FROM절에 하나의 테이블만 가져오는 것이 아니라 쉼표로 테이블 두 개를(동일한 테이블이지만 어쨌든) 가져오는 점이다. WHERE절을 위와 같이 입력하면 id가 작은 값의 행이 살아남는다.

123. (176) Second Highest Salary

Write a solution to find the second highest distinct salary from the Employee table. If there is no second highest salary, return null (return None in Pandas).

-- 첫 번째 쿼리 (오답 처리, null값이 뜨지 않음)
SELECT IFNULL(s.salary, NULL) SecondHighestSalary 
FROM (
    SELECT DISTINCT salary,
       DENSE_RANK() OVER(ORDER BY salary DESC) rnk
    FROM Employee  
    ) s 
WHERE s.rnk = 2

두 번째로 급여가 높은 값을 조회할 때, 해당 값이 없을 경우 NULL값을 채워서 조회하도록 IFNULL() 함수를 사용했는데 왜인지 NULL값을 채워서 조회되지 않아 오답 처리가 됐다.

왜 생각했던 대로 NULL값을 표시하지 않는 것인지 모르겠어서 질문을 튜터님께 드렸더니 왜 NULL값이 조회되지 않는지 알게 됐다.

SELECT절에 입력한 IFNULL() 함수를 적용하려면 그것을 적용할 행이 있어야 하는데 작성한 쿼리는 rnk 컬럼의 값이 2인 행이 없으면 NULL인지 아닌지를 판단할 행 자체가 없어서 위의 결과 테이블이 출력된 것이다.

그래서 튜터님께서 알려주신 대로 작성했던 WHERE절 없이 문제를 해결해보기 위해서 다시 먼 길을 떠나보기로...

-- 두 번째 쿼리 (정답 처리됨) (IFNULL() 함수를 쓰지도 않았는데, 알아서 NULL값이 왜 생겼지..?)
SELECT MAX(salary) SecondHighestSalary
FROM Employee
WHERE salary != (
    SELECT MAX(salary)
    FROM Employee
    ORDER BY salary DESC
)

첫 번째 방식이 아니라 두 번째로 시도한 방식은 WHERE절에서 salary에서 최댓값을 제외한 salary 값들 중에서 SELECT절로 다시 최댓값을 조회하는 방식으로 작성했다. 사실 그냥 원하는 방식으로 돌아가는지 확인하기 위해서 실행했는데, 위의 쿼리에선 IFNULL() 함수를 사용할 것도 없이 알아서 NULL값이 채워져서 떴다. (어리둥절)

(출처: MySQL 공식문서 "14.19.1 Aggregate Function Descriptions" 中)

궁금해서 MAX() 함수에 대해서 좀 찾아봤는데, 원래 MAX() 함수가 해당하는 행이 없다면 알아서 NULL값을 반환한다고 한다.

[참고] MySQL 8.4 Reference Manual /…/ Aggregate Function Descriptions

(+)

-- 첫 번째 쿼리-(2) (오답 처리, null값이 뜨지 않고 출력될 때 따옴표가 씌워짐)
SELECT IFNULL(s.salary, 'null') SecondHighestSalary 
FROM (
    SELECT DISTINCT salary,
       DENSE_RANK() OVER(ORDER BY salary DESC) rnk
    FROM Employee  
    ) s 
WHERE s.rnk = 2

그리고 추가적으로 첫 번째 쿼리를 입력할 당시 문제가 WHERE절을 'WHERE s.rnk = 2'로 입력한 것이 문제인 줄 모르고 SELECT절의 IFNULL() 함수만 바라보고 있을 때에 두 번째 인수를 NULL이 아니라 위의 쿼리처럼 'null'로 입력해보기도 했다. 그랬더니 멀쩡히 통과됐던 case1에서 난데없이 "200"으로 조회되면서 틀렸다는 결과가 떴다.

그래서 이와 관련해서 찾아보다가 딱히 이거다 할 정보를 못 찾아서 이 부분을 chatGPT에 물어봤다.

즉, 질문하고서 받은 답변의 요지를 요약해보자면

하나의 컬럼에는 하나의 데이터 타입만 저장할 수 있음
그런데 IFNULL(s.salary, 'null')이라고 입력함
- → s.salary의 데이터 타입 : int / 'null'의 데이터 타입 : 문자열
그러면 두 가지 데이터 타입을 한 컬럼에 담을 수 없으니 하나로 통일시켜줘야 하는 상황이 됨
MySQL은 형변환을 알아서 처리해주는데 'null'로 인해서 SecondHighestSalary 컬럼의 데이터 타입은 문자열이 되고,
따라서 NULL이 아닐 경우에 담길 s.salary의 int값도 문자열로 변환되어 담기는 것임

이 내용을 알아내고서 'null'값으로 입력하는 것은 결국 문제 해결과 관련있는 시도는 아니었음을 알고서 다른 방식으로 문제를 풀고 있을 때,

질문방에 올린 나의 질문을 보고 이 경우에 대해서 어떻게 의문을 해소했는지 이전에 같은 조였던 분께서 DM을 주셨다. 그래서 해당 내용을 공유드렸는데, 이 분께선 MySQL 공식 문서에서 IFNULL()에 대한 부분을 찾아보셔서 공유해주셨다.

(출처: 출처: MySQL 공식문서 "14.5 Flow Control Functions" 中)

[참고] MySQL 8.4 Reference Manual /…/ Flow Control Functions

공식 문서에 따르면 "IFNULL()이 반환하는 기본적인 데이터 타입은 입력한 두 개의 인자 중에서 더 "보편적인(general)" 것으로 정해지는데, 그 순서는 문자열(string), 실수(real), 정수(integer) 순이다."라고 한다. 그래서 내 경우엔 int(s.salary) 타입과 문자열('null') 타입 중에서 더 보편적인 문자열 타입으로 반환했던 것이다.

이전 조원분께서 DM으로 물어봐주신 덕분에 이런 것도 알게 됐다. 사실 공식 문서 잘 안 봤는데 이번에 공식 문서도 볼 만하구나, 봐야겠다를 덕분에 알게 됐습니다(꾸벅)

124. (1484) Group Sold Products By The Date

Write a solution to find for each date the number of different products sold and their names.
The sold products names for each date should be sorted lexicographically.
Return the result table ordered by sell_date.

SELECT sell_date,
       COUNT(DISTINCT product) num_sold
FROM Activities
GROUP BY sell_date
ORDER BY sell_date

우선 이렇게까지 만들어서 결과 테이블에 출력할 컬럼 num_sold를 만들었는데 sell_date별로 중복을 제거한 product값들을 한데 합쳐서 조회하는 products 컬럼을 만드는 문법을 모르겠어서 구글링해봤다.

[참고] [MySQL] GROUP_CONCAT 사용하기

SELECT a, GROUP_CONCAT(b) FROM table GROUP BY a
: table의 컬럼 a별로 컬럼 b의 값을 합쳐서 한 행에 나타냄

SELECT sell_date,
       GROUP_CONCAT(DISTINCT product ORDER BY product) products 
FROM Activities
GROUP BY sell_date
ORDER BY sell_date

찾아보니 GROUP_CONCAT() 함수를 알게 돼 그를 사용해 컬럼 products를 생성했다.

-- 최종적으로 작성한 쿼리 (정답 처리됨)
SELECT ns.sell_date,
       ns.num_sold,
       p.products
FROM (
    SELECT sell_date,
           COUNT(DISTINCT product) num_sold
    FROM Activities
    GROUP BY sell_date
    ) ns
    INNER JOIN (
    SELECT sell_date,
           GROUP_CONCAT(DISTINCT product ORDER BY product) products 
    FROM Activities
    GROUP BY sell_date
    ) p
    ON ns.sell_date = p.sell_date
ORDER BY ns.sell_date

위에 작성한 쿼리들을 FROM절에서 sell_date 컬럼을 공통으로 INNER JOIN해주었다.

머신러닝 공부: [실무에서 쓰는 머신러닝 기초] 1-4 수강하기

회귀 분석

종속 변수(Y)와 하나 이상의 독립 변수(X) 간 관계를 추정하여, 연속형 종속 변수를 예측하는 통계 / 머신러닝 기법
연속된 숫자값을 예측하고 싶으면 회귀로
지도 학습 지도 학습은 크게 회귀(Regression)와 분류(Classification)로 나뉨
회귀 모델을 사용하는 대표적 사례
- 경제 : 주가 예측, 판매량 예측 등
- 건강 : 혈압, 콜레스테롤 수치 예측 등
- 제조업 : 불량률, 생산량, 장비 고장 시점 예측 등

선형 회귀 (Linear Regression)

독립 변수(X)와 종속 변수(Y)가 선형적으로 관계를 맺고 있다고 가정 선형적 = 단순한 관계
회귀식 : Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + β₄X₄ + … + βₙXₙ
- β₀ : 절편(intercept) '편향'이라고도 함
- βᵢ : 각 독립 변수의 회귀계수(coefficient) '가중치', '파라미터'라고도 함
장단점
- 장점 : 해석이 간단함, 구현이 쉬움
- 단점 : 데이터가 선형성이 아닌 경우에 예측 성능이 떨어짐
  데이터가 선형성을 띄는지 아닌지 확인하는 법
  - 산점도 등으로 시각화하여서 파악하기
  - 그냥 선형 회귀로도, 다항 회귀로도 돌려보고 결과값을 봐서 좋은 것으로 택하기(?)

import numpy as np
import pandas as pd
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression, SGDRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 수학적인 방법(최소자승법)으로 단순 선형 회귀 모델 최적화하기 =========
# ========================================================

# 1. 데이터 로드 그리고 X와 Y 선언하기 ----------------------------
# .shape : 데이터의 형태를 보는. 튜플 형태로 (행, 열)을 반환
print(X.shape) 
print(y.shape) 


# 2. 학습용/검증용 데이터 분리하기  ----------------------------
# train_test_split() 함수 사용
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)


# 3. 선형 회귀 모델 학습시키기  ----------------------------
# LinearRegression() 함수로 모델을 생성 (OSL 방식[최소제곱법, 최소자승법]으로 추정함)
# 생성한 선형 회귀 모델을 .fit() 메서드에 학습용 데이터를 넣어서 학습시킴
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)


# 4. 학습시킨 모델로 예측해보기  ----------------------------
# 학습시킨 모델에 .predict() 메서드에 검증용 데이터(X)를 넣어 예측값 Y 구하기
y_pred_lin = lin_reg.predict(X_test)



# 5. 모델의 예측 성능 검증하기 ----------------------------
# mean_squared_error() : 오차를 계산하는 지표 (검증용 데이터의 y(=정답)와 위에서 구한 예측한 y값을 넣음)
# r2_score() : 얼마나 예측이 잘 되어 있는지를 점수로 나타냄
mse_lin = mean_squared_error(y_test, y_pred_lin)
r2_lin = r2_score(y_test, y_pred_lin)

# 평균 비율 오차 (몇 퍼센트 오차가 나는지, 실제 값 대비 오차가 몇 퍼센트인지 계산)
def MPE(y_true, y_pred):
    return np.mean((y_true - y_pred) / y_true) * 100

# .coef_ : 가중치(독립변수 개수만큼 나옴) (해당 변수가 중요할수록 가중치가 커짐. 중요하지 않으면 0에 가까움)
### 예시에선 -931.xx, 736.xx 같은 가중치가 나온 독립변수가 중요한 변수임을 확인할 수 있음
# .intercept_ : 절편(상수값)
# mse : 오차이기에 낮으면 낮을수록 좋음(0에 가까울수록 좋음)
# r2 : 0~1 사이의 값을 갖는데, 1에 가까울수록 좋음
# mpe : 전반적으로 예측값이 정답값보다 높은 값이 나온 경우엔 음수로 나오고, 예측값이 정답값보다 낮은 값이 나온 경우엔 양수로 나옴. 0에 가까울수록 좋음
print("[LinearRegression 결과]")
print("가중치(coefficient):", lin_reg.coef_)
print("절편(intercept):", lin_reg.intercept_)
print("MSE:", mse_lin)
print("R2 점수:", r2_lin)
print("평균 비율 오차 : ", MPE(y_test, y_pred_lin))

# 경사하강법으로 단순 선형 회귀 모델 최적화하기 =========
# ============================================
# 데이터가 많지 않은 상황에선 선형회귀를 쓰든 SGDRegressor를 쓰든 상관없음
# 데이터가 굉장히 많은 경우 혹은 독립변수가 많은 경우엔 경사하강법이 더 효과적임 (수학적인 방법은 데이터가 많고 변수가 많은 경우에는 많이 느려진다는 단점이 존재)


# 1, 2번 동일


# 3. 선형 회귀 모델 학습시키기  ----------------------------
# SGDRegression() 함수로 모델을 생성 (경사하강법으로 추정함)
# max_iter : 학습 횟수(이걸 몇 번 반복할 것이냐)
# tol : 오차가 입력한 숫자만큼 작아지면 멈춤 (0은 아니고, 0보다 조금 큰 값을 적음)
sgd_reg = SGDRegressor(max_iter=6000, tol=1e-3, random_state=42)
sgd_reg.fit(X_train, y_train)


# 4. 학습시킨 모델로 예측해보기  ----------------------------
# 학습시킨 모델에 .predict() 메서드에 검증용 데이터(X)를 넣어 예측값 Y 구하기
y_pred_sgd = sgd_reg.predict(X_test)


# 5. 모델의 예측 성능 검증하기 ----------------------------
mse_sgd = mean_squared_error(y_test, y_pred_sgd)
r2_sgd = r2_score(y_test, y_pred_sgd)

# 평균 비율 오차
def MPE(y_true, y_pred):
    return np.mean((y_true - y_pred) / y_true) * 100
    
print("[SGDRegressor 결과]")
print("가중치(coefficient):", sgd_reg.coef_)
print("절편(intercept):", sgd_reg.intercept_)
print("MSE:", mse_sgd)
print("R2 점수:", r2_sgd)
print("평균 비율 오차 : ", MPE(y_test, y_pred_sgd))

다항 회귀 (Polynomial Regression)

비선형적인 관계를 다항식 형태로 모델링
단순 선형항(X)뿐만 아니라 X², X³,... 같은 고차항을 추가해 비선형 패턴을 학습할 수 있음
주의할 점
- 고차항을 무작정 늘리면 학습용 데이터에 과도하게 맞춰져 과적합(overfitting) 문제가 발생할 수 있음
  과적합 = 일반화가 잘 되지 않은 상황
- 그러므로 모델 복잡도와 일반화 성능 간 균형을 잘 맞춰야 함

import numpy as np
import pandas as pd
from sklearn.datasets import make_friedman1
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline

# 1. 데이터 로드 그리고 X와 Y 선언하기 ----------------------------
# 이번에는 다항 회귀 분석을 할 비선형 데이터 생성해서 진행 (make_friedman1)
# n_samples: 샘플 개수, n_features: 특성 개수, noise: 잡음 크기
X, y = make_friedman1(n_samples=1000, n_features=5, noise=1.0, random_state=42)
print(X.shape)
print(y.shape)


# 2. 학습용/검증용 데이터 분리하기  ----------------------------
# 보통 학습용 데이터셋과 검즘용 데이터셋 비율을 8:2, 7:3 정도로 함
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)


# 3. 다항 회귀 모델 학습시키기 ----------------------------
# Pipeline() : 여러 가지 처리 순서를 하나로 묶어서 한 번에 하게끔 함
# 다항회귀의 경우 : PolynomialFeatures()로 가공을 해주고 LinearRegression()으로 처리함
### PolynomialFeatures() - degree : 몇 차 다항식인지 숫자를 입력
poly_model = Pipeline([
    ("poly", PolynomialFeatures(degree=2, include_bias=False)),
    ("lin_reg", LinearRegression())
])
poly_model.fit(X_train, y_train)


# 4. 학습시킨 모델로 예측해보기  ----------------------------
y_pred_poly = poly_model.predict(X_test)


# 5. 모델의 예측 성능 검증하기 ----------------------------
mse_poly = mean_squared_error(y_test, y_pred_poly)
r2_poly = r2_score(y_test, y_pred_poly)

# 평균 비율 오차
def MPE(y_true, y_pred):
    return np.mean((y_true - y_pred) / y_true) * 100

# 위의 단순선형 회귀 결과와 비교했을 때, 다항회귀(2차)가 1) mse가 5.7에서 2.5로 줄었고 2) R2도 0.77에서 0.89로 더 1에 가까운 값이 나옴
### mpe는 별다른 차이가 없지만, mse와 r2를 봤을 때 다항회귀가 더 나은 결과를 보여줌 
print("[다항회귀(2차) 결과]")
print("MSE:", mse_poly)
print("R2:", r2_poly)
print("평균 비율 오차 : ", MPE(y_test, y_pred_poly))

회귀 모델 평가 방법

MSE(Mean Squared Error, 평균 제곱 오차) : 예측값과 실제값의 차이를 제곱하여 평균을 낸 값
- 큰 오차에 특히 민감함 그래서 오차를 좀 더 공격적으로 감지해내어 학습시키고 싶을 때 사용
- 회귀 모델 평가에서 가장 자주 사용함
MAE (Mean Absolute Error, 평균 절대 오차) : 예측값과 실제값의 차이를 절댓값으로 측정하여 평균을 낸 값
- 예측이 평균적으로 실제값에서 얼마나 벗어났는지를 직관적으로 표현함
- 오차값이 이상치의 영향을 상대적으로 크게 받지 않는 편임
RMSE (Root Mean Squared Error, 평균 제곱근 오차) : MSE에 루트를 취한 값
- 큰 오차에 가중치를 주지만, MSE에 비해 제곱함으로써 생기는 왜곡이 줄음
R² (결정 계수) : 실제값의 분산 대비 예측값의 분산 비율을 계산한 값
- 다른 지표들은 모델마다 값이 다르기 때문에 값만 보고서 성능을 판단하지 어려운 데에 반해 상대적인 성능을 나타낸다는 점에서 비교가 쉬움
- 값의 범위 : 0 ~ 1 (0에 가까울수록 회귀 모델이 종속 변수의 변동성에 대해 잘 설명하지 못함, 1에 가까울수록 회귀 모델이 종속 변수의 변동성에 대해 잘 설명함) 1에 가까울수록 예측 성능이 좋다는 말임
  - 음수가 나올 수도 있음. 이땐 데이터 전처리부터 다시 되짚어봐야 함...

고급 회귀 기법: 규제(Regularization)

선형 회귀에 규제하는 항을 추가하여 모델의 과적합을 방지하고 일반성을 가지도록 함
underfitting을 피하기 위해 고차 회귀 모델을 세우는데, 모델의 차원을 높이면 반대로 overfitting의 문제가 커짐.
* 고차 : 독립 변수의 고차항을 포함한다는 의미, 동시에 독립 변수의 수가 많다는 의미 = 고려해야 할 변수가 많다는 소리
규제의 방식: Ridge(L2), Lasso(L1)
- Ridge 회귀 : 가중치 제곱합(L2 Norm)을 페널티로 추가
  - 가중치를 0에 근사하도록 축소하여 가중치가 너무 커지지 않도록 방지
  - feature의 중요도가 전체적으로 비슷하다면 Ridge로
- Lasso 회귀 : 가중치 절댓값합(L1 Norm)을 패널티로 추가
  - 가중치를 0으로 만들어 변수 선택(feature selection) 효과를 낼 수 있음
  - feature 중 일부만 중요하다면 Lasso로

import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge, Lasso
from sklearn.metrics import mean_squared_error, r2_score

# 규제 : Ridge 회귀 모델로 ===================================
# ========================================================

#  1. 데이터 로드 그리고 X와 Y 선언하기 ----------------------------
housing = fetch_california_housing()
X = housing.data
y = housing.target

print(X.shape)
print(y.shape)


# 2. 학습용/검증용 데이터 분리하기 ----------------------------
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)


# 3. Ridge 회귀 모델 학습시키기 ----------------------------
# Ridge() 함수를 사용
# alpha=1.0 (규제 세기) 는 필요에 따라 조정 가능 (0~1 사이 값을 가져올 수 있음, 1에 가까울수록 규제를 강하게 하겠다는 의미)
ridge_reg = Ridge(alpha=1.0, random_state=42)
ridge_reg.fit(X_train, y_train)


# 4. 학습시킨 모델로 예측해보기  ----------------------------
y_pred_ridge = ridge_reg.predict(X_test)


# 5. 모델의 예측 성능 검증하기 ----------------------------
mse_ridge = mean_squared_error(y_test, y_pred_ridge)
r2_ridge = r2_score(y_test, y_pred_ridge)

# 평균 비율 오차
def MPE(y_true, y_pred):
    return np.mean((y_true - y_pred) / y_true) * 100

# 가중치의 결과값을 보면 위에서 단순 선형회귀 모델의 가중치와 비교했을 때 상대적으로 고르게 낮은 것을 확인할 수 있음
print("[Ridge 회귀 결과]")
print("  가중치(coefficient):", ridge_reg.coef_)
print("  절편(intercept):", ridge_reg.intercept_)
print("  MSE:", mse_ridge)
print("  R^2 점수:", r2_ridge)
print("평균 비율 오차 : ", MPE(y_test, y_pred_ridge))
print()

# 규제 : Lasso 회귀 모델로 ===================================
# ========================================================

# 1, 2번 동일


# 3. Lasso 회귀 모델 학습시키기 ----------------------------
# alpha=0.1 정도로 조금 낮춰 볼 수도 있음 (기본값 1.0)
### alpha가 너무 크면 가중치가 0이 되어 과소적합 위험이 있습니다.
# max_iter : 얼마나 반복할 것인지(Ridge()에서도 해당 매개변수를 넣을 수 있음. 원한다면 설정하기)
lasso_reg = Lasso(alpha=0.1, random_state=42, max_iter=10000)
lasso_reg.fit(X_train, y_train)


# 4. 학습시킨 모델로 예측해보기  ----------------------------
y_pred_lasso = lasso_reg.predict(X_test)


# 5. 모델의 예측 성능 검증하기 ----------------------------
mse_lasso = mean_squared_error(y_test, y_pred_lasso)
r2_lasso = r2_score(y_test, y_pred_lasso)

# 평균 비율 오차
def MPE(y_true, y_pred):
    return np.mean((y_true - y_pred) / y_true) * 100

# lasso의 특징으로 가중치를 보면 0인 값들이 있는 것을 볼 수 있음
### 즉 3번째, 4번째 독립변수는 회귀를 예측하는 데 있어서 필요 없다는 소리고, 그 독립변수를 제외하고서 나머지 독립변수들로만 회귀 예측을 했다는 소리
print("[Lasso 회귀 결과]")
print("  가중치(coefficient):", lasso_reg.coef_)
print("  절편(intercept):", lasso_reg.intercept_)
print("  MSE:", mse_lasso)
print("  R^2 점수:", r2_lasso)
print("평균 비율 오차 : ", MPE(y_test, y_pred_lasso))

'[내배캠] 데이터분석 6기 > 본캠프 기록' 카테고리의 다른 글

[본캠프 39일차] SQL 공부, QCC ④, 머신러닝 공부 (0)	2025.04.11
[본캠프 38일차] SQL 공부, 머신러닝 공부 (0)	2025.04.10
[본캠프 36일차] SQL 공부, 머신러닝 공부, 파이썬 공부 (0)	2025.04.08
[본캠프 35일차] SQL 공부, 머신러닝 공부 (2)	2025.04.07
[본캠프 34일차] 통계학 공부, QCC ③, 파이썬 공부 (1)	2025.04.04

현재글[본캠프 37일차] SQL 공부, 머신러닝 공부

맨두만의 방

"나는 그저 다른 무엇이 아닌 자기 자신이 되는 것이 훨씬 중요한 일이라고 간단하게 그리고 평범하게 중얼거릴 뿐입니다."

파이썬_라이브러리, 머신러닝, 데이터리터러시, 내배캠TIL, sql가독성, 데이터eda, FOR문, 이상탐지, ADsP, 데이터전처리, 데이터분석6기, pandas, 데이터분석가, 파이썬, 내일배움캠프, sqld, 스파르타코딩클럽, SQL, 데이터분석, sqld모의고사,

Today :
Yesterday :

맨두만의 방