Etc/Deep Learning

머신러닝 핵심 알고리즘(3) - 지도학습(로지스틱 회귀와 선형 회귀)

z.zzz 2021. 7. 21. 14:36

3.1.4 로지스틱 회귀와 선형 회귀

회귀란?

변수가 두 개 주어졌을 때 한 변수에서 다른 변수를 예측하거나 두 변수의 관계를 규명하는 데 사용하는 방법

 

회귀에 사용되는 변수 유형

   ① 독립 변수(예측 변수) : 영향을 미칠 것으로 예상되는 변수

   ② 종속 변수(기준 변수) : 영향을 받을 것으로 예상되는 변수

 

로지스틱 회귀

로지스틱 회귀란?

분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단에 분류될 수 있는지 분석, 이를 예측하는 모형을 개발하는 데 사용되는 통계 기법

 

로지스틱 회귀를 사용하는 이유와 적용환경

   사용하는 이유 : 주어진 데이터에 대한 분류

   적용환경 : 주어진 데이터에 대한 확신이 없거나((예) 분류 결과에 대해 확신X 경우),

                    향후 추가적으로 훈련 데이터셋을 수집하여 모델을 훈련시킬 수 있는 환경에서 사용하면 유리함

 

'일반' 회귀 분석과 '로지스틱' 회귀 분석의 차이

구분 일반적인 회귀 분석 로지스틱 회귀 분석
종속 변수 연속형 변수 이산형 변수
모형 탐색 방법 최소제곱법 최대우도법
모형 검정 F-테스트, t-테스트 X² 테스트

최소제곱법, 최대우도법 : 랜덤 표본에서 모집단 모수를 추정하는데 사용       

 //모수 : 모집단을 조사하여 얻을 수 있는 통계적인 특성치(모평균, 모분산, 모비율, 모표준편차)

   * 최소제곱법 : (실제 값 - 예측값)²

최소제곱법 공식

 

   * 최대 우도법

      - 우도(가능도) : 나타난 결과에 따라 여러 가능한 가설 평가의 척도

      - 최대우도 : 나타난 결과에 해당하는 가설마다 계산된 우도 값 중 가장 큰 값(일어날 가능성(우도)가 가장 큰 것)

최대우도법 공식

 

   ① 입력값 X와 모델의 파라미터 θ이 주어졌을 때, Y가 나타날 확률을 최대화하는 것 = 최대우도법

       (X와 Y가 고정된 상태에서 모델에 X를 넣었을 때 실제 값 Y에 가장 가까운 θ를 찾는 것)

   ② 관측치 m개가 모두 서로 독립이라고 가정, 언더플로를 방지하고자 우도에 로그를 취할때의 최대우도 추정치 수식

 

로지스틱 회귀 분석 절차

1단계 : 각 집단에 속하는 확률의 추정치를 예측(이때 추정치는 이진 분류의 경우, 집단 1에 속하는 확률 P(Y=1)로 구함)

2단계 : 분류 기준 값(cut-off)을 설정한 후, 특정 범주로 분류

    예) P(Y=1) >= 0.5  → 집단 1로 분류

        P(Y=1)  <   0.5  → 집단 0으로 분류


로지스틱 회귀 예제 - 신규 데이터(숫자, digits)에 대한 정확도 예측

 


선형 회귀

선형 회귀란?

독립 변수 x를 사용하여, 종속 변수 y의 움직임을 예측/설명하는데 사용

 

선형 회귀 종류

: 단순 선형 회귀(하나의 x값으로 y값을 설명할 수 있음), 다중 선형 회귀(x값이 여러개)

 

선형 회귀를 사용하는 이유와 적용 환경

   사용하는 이유 : 주어진 데이터에 대한 분류

   적용 환경 : 주어진 데이터에서 독립변수 x와 종속변수 y가 선형 관계를 가질때 사용하면 유용,

                   컴퓨터 성능이 낮은 환경에서 사용하면 좋음(복잡한 연산 과정이 없어서)

 

선형 회귀와 종속, 독립 변수 사이의 관계, 로지스틱 회귀와의 차이점

구분 선형 회귀 로지스틱스 회귀
사용하는 경우 종속변수와 독립변수 사이의 관계 설정에 사용
(독립 변수가 변경되었을 때, 종속 변수를 추정하는 데 유용)
사건의 확률(0 또는 1)을 확인하는 데 사용
아이스크림이 시간당 100개가 팔린다면 
y = 100x    //x: 아이스크림 가격, y: 매출
고객이 A제품을 구매할지 여부를 확인하고 싶을 때
(종속변수는 이진변수(예/아니오)로 표현되기 때문)

 


선형 회귀 예제 - 훈련 데이터(특성)에서 최대 기온 예측

날씨 데이터셋: 전 세계 여러 기상 관측소에서 매일 기록된 기상 조건 정보(강수량, 강설량, 기온, 풍속 및 그 날의 뇌우 등 정보)

 

평균제곱법(최소제곱법)과 루트 평균제곱법의 관계(?)

 

참고 자료

로지스틱 회귀 : http://hleecaster.com/ml-logistic-regression-example/

선형 회귀 : http://hleecaster.com/ml-linear-regression-example/