본문 바로가기
인공지능

선형 회귀(Linear Regression): 기초부터 실전까지 한눈에 이해하기

by think-something 2024. 11. 17.

선형 회귀(Linear Regression)는 데이터 분석과 머신러닝에서 가장 기본적이고 중요한 기법 중 하나입니다. 선형 회귀는 독립 변수와 종속 변수 간의 관계를 직선 형태의 수학적 모델로 표현합니다. 이 모델은 종속 변수를 독립 변수의 가중합으로 나타내며, 관계를 설명하거나 예측하는 데 사용됩니다. 회귀 계수는 데이터 간의 관계를 수치화하고, 잔차(residuals)는 모델 예측과 실제 값 간의 차이를 측정합니다. 선형 회귀는 단순 선형 회귀(변수가 하나일 때)와 다중 선형 회귀(변수가 여러 개일 때)로 나뉩니다. 이를 활용하면 매출 예측, 트렌드 분석, 학업 성적 예측 등 다양한 분야에서 효과적인 인사이트를 얻을 수 있습니다. 하지만 독립 변수 간의 다중 공선성, 이상치(outlier) 등은 모델 성능에 부정적 영향을 줄 수 있으므로 주의가 필요합니다.

 

목차

     

     


     

    1. 선형 회귀란 무엇인가?

    1-1. 회귀 분석의 정의

    회귀 분석은 변수 간의 관계를 분석하고 이를 기반으로 예측 모델을 만드는 통계적 기법입니다. 특히, 선형 회귀는 독립 변수(X)종속 변수(Y) 간의 관계를 직선 형태의 수학적 모델로 표현합니다.

    • 목적: 데이터 간의 관계를 설명하거나 미래 값을 예측
    • 활용: 매출 예측, 트렌드 분석, 학업 성적 예측 등

    1-2. 선형 회귀의 개념

    선형 회귀의 수학적 모델은 아래와 같습니다:

    \[ Y = \beta_0 + \beta_1 X + \epsilon \]

    • Y: 종속 변수
    • X: 독립 변수
    • \(\beta_0\): 절편 (Intercept)
    • \(\beta_1\): 회귀 계수 (Regression Coefficient)
    • \(\epsilon\): 잔차 (오차, Residual)

    핵심 아이디어: 독립 변수가 변화할 때 종속 변수가 어떻게 변화하는지 설명하는 직선 관계를 찾는 것이 목적입니다.

    항목 설명
    회귀 분석 변수 간의 관계를 분석하고 예측 모델을 구축
    선형 회귀 독립 변수와 종속 변수 간의 직선 관계 모델
    주요 요소 독립 변수, 종속 변수, 회귀 계수, 잔차

    2. 선형 회귀의 주요 요소

    2-1. 독립 변수와 종속 변수

    독립 변수(X): 영향을 미치는 변수

    종속 변수(Y): 영향을 받는 변수

    예: 공부 시간(독립 변수)이 시험 점수(종속 변수)에 미치는 영향


    2-2. 회귀 계수와 절편의 역할

    • 회귀 계수 (\( \beta_1 \)): 독립 변수가 1단위 변화할 때 종속 변수의 변화량
    • 절편 (\( \beta_0 \)): 독립 변수가 0일 때 종속 변수의 예상값

    2-3. 잔차와 모델 적합성

    잔차는 모델 예측값과 실제 값 간의 차이를 의미합니다. 잔차가 작을수록 모델이 데이터에 잘 맞는다는 것을 의미합니다.

    요소 설명
    독립 변수 영향을 미치는 변수, 예: 공부 시간
    종속 변수 영향을 받는 변수, 예: 시험 점수
    회귀 계수 변수 간의 관계를 나타내는 값, 기울기 역할
    절편 독립 변수가 0일 때의 종속 변수 값
    잔차 예측값과 실제 값 간의 차이

    3. 선형 회귀의 유형

    3-1. 단순 선형 회귀

    • 특징: 독립 변수가 1개일 때 사용
    • 예시: 광고비(독립 변수)가 매출(종속 변수)에 미치는 영향

    3-2. 다중 선형 회귀

    • 특징: 독립 변수가 2개 이상일 때 사용
    • 예시: 광고비와 프로모션(독립 변수들)이 매출(종속 변수)에 미치는 영향
    유형 설명
    단순 선형 회귀 독립 변수가 하나인 경우, 간단한 직선 관계 모델
    다중 선형 회귀 독립 변수가 여러 개인 경우, 복잡한 관계 모델

    4. 선형 회귀 모델의 구축

    4-1. 데이터 준비 및 전처리

    1. 데이터 수집: 분석에 필요한 데이터 확보
    2. 결측값 처리: 누락된 데이터 제거 또는 보완
    3. 정규화: 변수의 스케일 조정

    4-2. 모델 학습과 평가

    1. 훈련 데이터: 모델 학습에 사용
    2. 테스트 데이터: 모델 평가에 사용
    3. 평가 지표: 평균제곱오차(MSE), 결정계수(\( R^2 \)) 등
    단계 설명
    데이터 수집 분석에 필요한 데이터 확보
    전처리 결측값 처리, 정규화 등 데이터 정제
    평가 지표 MSE, \( R^2 \), 잔차 분석

    5. 선형 회귀의 한계와 극복 방안

    5-1. 다중 공선성과 해결 방법

    • 다중 공선성: 독립 변수들 간의 높은 상관관계로 인해 모델 성능 저하
    • 해결 방안: 변수 선택법, 차원 축소(PCA)

    5-2. 이상치와 처리 방법

    • 이상치: 모델 적합성을 저하시킬 수 있는 극단값
    • 해결 방안: 이상치 탐지 및 제거, 변환(로그, 제곱근 등)
    문제 설명 해결 방안
    다중 공선성 독립 변수 간의 높은 상관관계로 모델 성능 저하 변수 선택, 차원 축소(PCA)
    이상치 데이터 분포에서 벗어난 값으로 모델 적합성 저하 이상치 제거, 로그 변환 등

    6. 실전 적용 사례

    6-1. 매출 예측

    • 목표: 광고비와 프로모션을 기반으로 매출 예측
    • 사용 데이터: 광고비, 프로모션 예산, 매출

    6-1. 매출 예측

    • 목표: 시간에 따른 제품 판매량의 변화 분석
    • 사용 데이터: 시간, 판매량
    사례 설명 사용 데이터
    매출 예측 광고비와 프로모션을 기반으로 예측 광고비, 프로모션 예산, 매출
    트렌드 분석 시간에 따른 판매량 변화 분석 시간, 판매량