전통문화대전망 - 전통 미덕 - 모든 데이터 과학자가 알아야 할 7가지 회귀 기법

모든 데이터 과학자가 알아야 할 7가지 회귀 기법

소개 선형 회귀와 로지스틱 회귀는 사람들이 데이터 과학에서 배우는 첫 번째 알고리즘인 경우가 많습니다. 인기로 인해 많은 분석가들은 이를 유일한 수익 형태로 간주하기도 합니다. 경험이 적은 사람이라도 모든 형태의 회귀 분석 중에서 가장 중요하다고 생각할 것입니다.

사실, 사용할 수 있는 회귀 형식은 셀 수 없이 많습니다. 각 회귀 형태에는 고유한 중요성과 적용에 가장 적합한 특정 시나리오가 있습니다. 이 글에서는 데이터 과학에서 가장 일반적으로 사용되는 7가지 회귀 형식을 간단한 방법으로 설명합니다. 또한 이 기사를 통해 사람들이 직면하는 모든 문제에 선형/로지스틱 회귀를 적용하는 것이 아니라 회귀의 폭에 대한 아이디어를 얻고 많은 회귀 기술을 사용할 수 있기를 바랍니다!

데이터 과학을 처음 접하고 학습을 시작할 곳을 찾고 있다면 데이터 과학 과정을 시작하는 것이 좋습니다! Python, 통계, 예측 모델링의 핵심 주제를 다루며 데이터 과학의 첫 단계를 시작하는 완벽한 방법입니다.

회귀분석이란 무엇인가요?

회귀분석은 종속변수(목표)와 독립변수(예측변수) 사이의 관계를 연구하는 예측 모델링 기법의 일종입니다. 이 기술은 예측, 시계열 모델링 및 변수 간의 인과 관계 찾기에 사용됩니다. 예를 들어, 난폭 운전과 운전자가 겪은 도로 교통 사고 건수 사이의 관계는 회귀 분석을 통해 가장 잘 연구됩니다.

회귀 분석은 데이터를 모델링하고 분석하는 데 중요한 도구입니다. 여기서는 곡선이나 선에서 데이터 점까지의 거리 차이가 최소화되도록 곡선/선을 데이터 점에 맞춥니다. 이에 대해서는 다음 장에서 자세히 설명하겠습니다.

회귀 분석을 사용하는 이유는 무엇입니까?

위에서 언급했듯이 회귀 분석은 두 개 이상의 변수 간의 관계를 추정합니다. 간단한 예를 통해 이를 이해해 보겠습니다.

현재 경제 상황을 기준으로 회사의 매출 성장률을 추정한다고 가정해 보겠습니다. 최근 회사 데이터에 따르면 매출 성장이 경제 성장의 약 2.5배에 달하는 것으로 나타났습니다. 이러한 인사이트를 활용하면 현재 및 과거 정보를 바탕으로 회사의 미래 매출을 예측할 수 있습니다.

회귀 분석을 사용하면 많은 이점이 있습니다.

종속변수와 독립변수의 유의미한 관계를 보여줍니다. 이는 여러 독립변수가 종속변수에 미치는 영향의 강도를 나타냅니다.

또한 회귀 분석을 통해 가격 변화, 프로모션 횟수 등 다양한 규모에서 측정된 변수의 영향을 비교할 수 있습니다. 이러한 이점은 시장 조사원/데이터 분석가/데이터 과학자가 예측 모델 구축을 위한 최상의 변수 세트를 제거하고 평가하는 데 도움이 됩니다.

우리는 얼마나 많은 회귀 기술을 가지고 있습니까?

예측에 사용할 수 있는 다양한 회귀 기술이 있습니다. 이러한 기법은 주로 세 가지 지표(독립변수의 수, 종속변수의 유형, 회귀선의 모양)에 따라 결정됩니다. 다음 섹션에서 이에 대해 자세히 논의합니다.

광고 소재의 경우 위 매개변수의 조합을 사용해야 한다고 생각되면 이전에 사용되지 않은 새로운 회귀를 만들 수도 있습니다. 하지만 시작하기 전에 가장 일반적으로 사용되는 회귀를 이해해 보겠습니다.

1. 선형 회귀

이는 가장 널리 알려진 모델링 기술 중 하나입니다. 선형 회귀는 예측 모델링을 학습할 때 사람들이 선택하는 첫 번째 방법 중 하나인 경우가 많습니다. 이 방법에서 종속변수는 연속형이고 독립변수는 연속형 또는 이산형일 수 있으며 회귀선의 특성은 선형입니다.

선형 회귀는 가장 적합한 직선(회귀선이라고도 함)을 사용하여 종속 변수(Y)와 하나 이상의 독립 변수(X) 간의 관계를 설정합니다.

Y = a + b * X + e 등식으로 표현됩니다. 여기서 a는 절편, b는 선의 기울기, e는 오류항입니다. 이 방정식은 예측 변수가 주어지면 목표 변수의 값을 예측합니다.

단순 선형 회귀와 다중 선형 회귀의 차이점은 다중 선형 회귀에는 독립 변수(> 1)가 있는 반면 단순 선형 회귀에는 독립 변수가 1개만 있다는 점입니다. 이제 질문은 "가장 적합한 라인을 어떻게 얻을 수 있습니까?"입니다.

가장 적합한 선(a와 b의 값)을 얻는 방법은 무엇입니까?

이 작업은 최소 제곱법을 사용하여 쉽게 수행할 수 있습니다. 회귀선을 맞추는 가장 일반적인 방법입니다. 각 데이터 포인트의 직선과 수직 편차의 제곱합을 최소화하여 관찰된 데이터에 가장 적합한 선을 계산합니다. 편차를 먼저 제곱하기 때문에 추가 시 양수 값과 음수 값이 상쇄되지 않습니다.

R-제곱 측정항목을 사용하여 모델 성능을 평가할 수 있습니다.

핵심사항: 독립변수와 종속변수 사이에는 선형 관계가 있어야 합니다. 다중회귀에는 다중 선형성, 자기상관성, 이분산성 등의 문제가 있습니다. 선형 회귀는 이상값에 매우 민감합니다. 이는 회귀선과 궁극적으로 예측 값에 큰 영향을 미칠 수 있습니다. 다중 선형성은 계수 추정의 분산을 증가시키고 추정이 모델의 작은 변화에 매우 민감하게 만들 수 있습니다. 그 결과는 불안정한 계수 추정치입니다. 독립 변수가 여러 개인 경우 가장 중요한 독립 변수를 선택하기 위해 전진 선택, 후진 제거 및 단계적 방법을 선택할 수 있습니다.

2. 로지스틱 회귀

로지스틱 회귀 방법은 사건의 성공 확률과 실패 확률을 구하는 데 사용됩니다. 종속 변수가 본질적으로 이진(0/1, 참/거짓, 예/아니요)인 경우 로지스틱 회귀를 사용해야 합니다. 여기서 Y값의 범위는 0부터 1까지이며 다음과 같은 수식으로 표현할 수 있다.

확률 = p / (1-p) = 사건 확률 / 비사건 확률 ln (odds) = ln (p / (1-p)) logit (p) = ln (p / (1 -p)) = b0 + b1X1 + b2X2 + b3X3 .... + bkXk

위에서 p는 관심 특성이 존재할 확률입니다. 이 시점에서 던져야 할 질문은 "왜 방정식에 로그를 사용하는가?"입니다.

여기서는 이항분포(종속변수)를 사용하고 있으므로 이 분포에 가장 적합한 연결함수를 선택해야 합니다. 게다가 로짓 함수다. 위의 방정식에서 이 매개변수는 (일반 회귀에서와 같이) 오차 제곱합을 최소화하기보다는 표본 값을 관찰할 가능성을 최대화하기 위해 선택되었습니다.

핵심 사항: 분류 문제에 널리 사용됩니다. 로지스틱 회귀는 종속 변수와 독립 변수 간의 선형 관계에 의존할 필요가 없습니다. 과적합과 과소적합을 방지하려면 모든 중요한 변수를 포함해야 합니다. 이는 예측 승산비에 비선형 로그 변환을 적용하기 때문에 다양한 유형의 관계를 처리할 수 있습니다. 이를 보장하는 좋은 방법은 로지스틱 회귀 분석에 단계적 접근 방식을 사용하는 것입니다. 표본 크기가 작을 때 최대 우도 추정이 일반 최소 제곱보다 덜 효율적이기 때문에 독립 변수가 서로 상관되어서는 안 됩니다. , 즉, 다중 *** 선형성을 갖지 않습니다. 그러나 분석 및 모델에 범주형 변수와의 상호 작용을 포함하도록 선택할 수 있습니다. 종속변수의 값이 순서형이면 순서형 로지스틱 회귀라고 합니다. 종속변수가 다중 범주이면 다중 로지스틱 회귀라고 합니다. 3. 다항식 회귀

독립변수의 거듭제곱이 1보다 크면 회귀 방정식은 다항식 회귀 방정식이 됩니다. 다음 방정식은 다항식을 나타냅니다.

Y = A + B * X ^ 2

이 회귀 기법에서 가장 적합한 선은 직선이 아닙니다. 데이터 포인트에 맞는 곡선입니다.

중요: 더 낮은 오류를 얻기 위해 더 높은 차수의 다항식을 피팅하려는 유혹이 있을 수 있지만 이로 인해 과적합이 발생할 수 있습니다. 항상 관계를 그려서 일치하는지 확인하고, 곡선이 문제의 본질에 맞는지 확인하는 데 집중하세요. 그림이 어떻게 도움이 되는지 보여주는 예는 다음과 같습니다. 끝 부분의 곡선에 특별한 주의를 기울여 모양과 추세가 적합한지 확인하세요. 더 높은 다항식은 결국 이상한 결과를 낳습니다. 4. 단계적 회귀

이 회귀 형태는 여러 독립 변수를 다룰 때 사용됩니다. 이 기술에서는 사람의 개입이 필요하지 않은 자동 프로세스를 통해 독립 변수를 선택합니다.

이러한 성과는 R-제곱, t-테스트, AIC 지표 등의 통계값을 관찰하여 중요한 변수를 식별함으로써 달성할 수 있습니다. 단계적 회귀는 기본적으로 지정된 기준에 따라 공변량을 한 번에 하나씩 추가/제거하여 회귀 모델에 적합합니다. 다음은 가장 일반적으로 사용되는 단계적 회귀 방법 중 일부입니다.

표준 단계적 회귀는 두 가지 작업을 수행합니다. 각 단계에서 필요에 따라 예측변수를 추가하고 제거합니다. 전진 선택은 모델에서 가장 중요한 예측 변수부터 시작하여 각 단계에 변수를 추가합니다. 후진 제거는 모델의 모든 예측 변수에서 시작하여 각 단계에서 가장 중요하지 않은 변수를 제거합니다.

이 모델링 기법의 목표는 최소한의 예측변수로 예측력을 극대화하는 것입니다. 이는 더 높은 차원의 데이터 세트를 처리하는 방법 중 하나입니다.

5. 능선 회귀

능선 회귀는 데이터가 다중 선형인 경우(독립 변수의 상관 관계가 높음) 사용되는 기술입니다. 다중선형에서는 최소자승추정(OLS)이 편향되지 않음에도 불구하고 그 분산이 커서 관측값이 실제값에서 벗어나게 됩니다. 능선 회귀는 회귀 추정에 특정 정도의 편향을 추가하여 표준 오류를 줄일 수 있습니다.

위에서 우리는 선형 회귀 방정식을 보았습니다. 기억 나니? 다음과 같이 표현될 수 있습니다:

y = a + b * x

이 방정식에는 오류항도 있습니다. 전체 방정식은 다음과 같습니다.

y = a + b * x + e(오차항), [오차항은 관찰된 값과 예측된 값 사이의 예측 오류를 수정하는 데 필요한 값]은 여러 독립 변수를 나타냅니다. , => y = a + y = a + b1x1 + b2x2 + .... + e.

선형 방정식에서 예측 오류는 두 개의 하위 구성요소로 분해될 수 있습니다. 첫 번째는 편향(bias)에 의한 것이고, 두 번째는 분산(variance)에 의한 것입니다. 예측 오류는 이러한 구성 요소 중 하나 또는 둘 다로 인해 발생할 수 있습니다. 여기에서는 차이로 인한 오류에 대해 설명합니다.

능선 회귀는 매개변수 λ(람다)를 축소하여 다중선형 문제를 해결합니다. 아래 방정식을 살펴보세요.

이 방정식에는 두 가지 구성 요소가 있습니다.

첫 번째는 최소 제곱 항이고 다른 하나는 β2(β 제곱) 합의 λ입니다. 여기서 β는 계수입니다. 이는 매우 낮은 분산을 갖도록 매개변수를 축소하기 위해 최소 제곱 항에 추가됩니다.

중요: 이 회귀 분석의 가정은 최소 제곱 회귀 분석과 동일하지만 정규성은 가정되지 않습니다. 이는 계수 값을 축소하지만 0에 도달하지 않습니다. 이는 특성이 없음을 나타냅니다. 선택 기능은 정규화 방법이며 l2 정규화를 사용합니다. 6.Lasso 회귀

능선 회귀와 마찬가지로 Lasso(최소 절대 축소 및 선택 연산자)도 회귀 계수의 절대 크기를 제한합니다. 또한 선형 회귀 모델의 변동성을 줄이고 정확도를 향상시킬 수 있습니다. 아래 방정식을 보세요.

Lasso 회귀는 페널티 함수에서 제곱이 아닌 절대값을 사용한다는 점에서 능선 회귀와 다릅니다. 이로 인해 값에 불이익을 주거나 추정치의 절대값의 합을 동일하게 제한하여 일부 매개변수 추정치가 정확히 0이 됩니다. 적용되는 페널티가 클수록 추정치는 절대 0으로 줄어듭니다. 결과적으로 주어진 n개의 변수에서 변수가 선택됩니다.

중요: 이 회귀는 최소 제곱 회귀와 동일한 가정을 하지만 정규성을 가정하지 않습니다. 이는 계수를 0(정확히 0)으로 축소하므로 기능 선택에 확실히 도움이 됩니다. 예측 변수의 상관 관계가 높은 경우 l1 정규화를 사용합니다. Lasso는 그 중 하나만 선택하고 다른 예측은 0으로 축소합니다. 7. 탄력적 네트워크 회귀

탄력적 네트워크 회귀는 Lasso 회귀와 능형 회귀 기술을 혼합한 것입니다. 몸. L1 및 L2 사전을 정규화 도구로 사용하여 훈련됩니다. 탄력적 네트워크는 관련된 기능이 여러 개 있을 때 유용합니다. 올가미는 그 중 하나를 무작위로 선택할 수 있고, 탄력적 망은 두 가지를 동시에 선택할 수 있습니다.

Lasso 회귀와 Ridge 회귀 간의 절충의 실질적인 이점은 탄성 네트워크가 회전 시 Ridge 회귀의 안정성 중 일부를 상속할 수 있다는 것입니다.

요점: 변수의 상관관계가 높은 경우 그룹 효과를 촉진합니다. 선택 변수 수에 제한이 없습니다. 이중 축소의 영향을 받습니다. 올바른 회귀 모델을 선택하는 방법은 무엇입니까?

한두 가지 기술만 알면 인생은 대개 단순합니다. 내가 아는 교육 기관 중 하나에서는 학생들에게 결과가 연속적이면 선형 회귀를 사용하라고 말합니다. 바이너리인 경우 로지스틱 회귀를 사용하세요! 그러나 우리에게 제공되는 옵션의 수가 많아질수록 올바른 옵션을 선택하는 것이 더 어려워집니다. 회귀 모델에서도 비슷한 일이 발생합니다.

다양한 유형의 회귀모델 중에서 독립변수와 종속변수의 유형, 데이터의 차원, 기타 데이터의 기본 특성을 고려하여 가장 적합한 회귀분석 방법을 선택하는 것이 중요합니다. 다음은 올바른 회귀 모델을 선택할 때 고려해야 할 주요 요소입니다.

데이터 마이닝은 예측 모델 구축에서 불가피한 부분입니다. 올바른 모델을 선택하기 전에 먼저 변수 간의 상관 계수와 영향을 결정해야 합니다. 다양한 모델의 적합도를 비교하기 위해 매개변수의 통계적 유의성, R-제곱, 수정된 R- 등 다양한 지표를 분석할 수 있습니다. 사각형, AIC 표시기, BIC 표시기 및 오류 용어. 다른 하나는 Mallow의 Cp 표준입니다. 이는 기본적으로 모델을 가능한 모든 하위 모델과 비교하여(신중하게 선택) 모델의 가능한 편향을 확인합니다. 교차 검증은 예측을 위해 모델을 평가하는 가장 좋은 방법입니다. 여기서 데이터 세트는 두 그룹(훈련 및 검증)으로 나눌 수 있습니다. 관찰된 값과 예측된 값 사이의 단순 평균 제곱 오차는 예측의 정확도를 측정합니다. 데이터 세트에 교란변수가 여러 개 있는 경우 자동 모델 선택 방법을 선택하면 해당 변수를 모델에 동시에 추가할 수 없습니다. 그것은 또한 당신의 목표에 달려 있습니다. 덜 강력한 모델은 통계적으로 유의미한 모델보다 구현하기가 더 쉽습니다. 회귀 정규화 방법(Lasso 회귀, Ridge 회귀 및 Elastic Network 회귀)은 데이터 세트의 변수 간에 높은 차원성과 다중 선형성이 있는 경우에 잘 작동합니다. 결론

이제 회귀에 대한 아이디어를 가지셨기를 바랍니다. 데이터 조건을 고려하여 이러한 회귀 기법을 적용합니다. 사용할 기술을 찾는 가장 좋은 팁 중 하나는 변수군, 즉 이산형 또는 연속형을 조사하는 것입니다.

이 기사에서는 회귀의 7가지 유형과 각 기술과 관련된 몇 가지 주요 사실을 논의합니다. 이 업계에 새로 입문한 분이라면 이러한 기술을 익히신 후 모델에 구현해 보시기 바랍니다.

-위는 데이터 과학 분야의 모든 사람이 알아야 할 저자가 권장하는 7가지 유형의 회귀 모델입니다. 이 7가지 모델에 관심이 있다면 직접 시도해 보세요. 이러한 모델을 진정으로 익히려면 더 많은 실제 실험이 필요합니다.

꼭 알아야 할 회귀 기법 7가지!