Интерпретация LDA

Я использую пакет HMeasure для привлечения LDA в мой анализ кредитного риска. У меня 11000 человек, и я выбрал возраст и доход для разработки анализа. Я точно не знаю, как интерпретировать R-результаты LDA. Итак, я не знаю, выбрали ли я лучшие переменные в соответствии с кредитным риском. Я покажу вам ниже кода.

lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161

lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174

lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

Где ETA = ВОЗРАСТ И СТИПЕНДИО = ДОХОД

Большое спасибо!

+2
источник поделиться
1 ответ

LDA использует средства и дисперсии каждого класса для создания линейной границы (или разделения) между ними. Эта граница делится на коэффициенты.

У вас есть две разные модели, одна из которых зависит от переменной ETA и той, которая зависит от ETA и Stipendio.

Первое, что вы можете видеть, - это Prior probabilities of groups. Эти вероятности являются теми, которые уже существуют в ваших данных обучения. Т.е. 47.17% ваших данных обучения соответствует кредитному риску, который оценивается как 0, а 52,82% ваших данных обучения соответствует кредитным рискам, оцениваемым как 1. (Я предполагаю, что 0 означает "не рискованный", а 1 означает "рискованный"). Эти вероятности одинаковы в обеих моделях.

Вторая вещь, которую вы видите, - это средства группы, которые являются средними для каждого предиктора в каждом классе. Эти значения могут свидетельствовать о том, что переменная ETA может иметь несколько большее влияние на рискованные кредиты (37.8154), чем на неоригинальные кредиты (34.8025). Эта ситуация также возникает с переменной Stipendio в вашей второй модели.

Вычисленный коэффициент для ETA в первой модели равен 0,1833161. Это означает, что граница между двумя разными классами будет определяться следующей формулой:

y = 0.1833161 * ETA

Это может быть представлено следующей строкой (x представляет переменную ETA). Кредитные риски 0 или 1 будут прогнозироваться в зависимости от того, на какой стороне линии они находятся.

enter image description here

Вторая модель содержит две зависимые переменные: ETA и Stipendio, поэтому граница между классами будет разделена по этой формуле:

y = 0.148374799 * ETA + 0.001445174 * Stipendio

Как вы можете видеть, эта формула представляет собой плоскость. (x1 представляет ETA а x2 представляет Stipendio). Как и в предыдущей модели, эта плоскость представляет собой разницу между рискованным кредитом и не рискованным.

enter image description here

В этой второй модели коэффициент ETA намного больше, Stipendio коэффициент Stipendio, предполагающий, что прежняя переменная больше влияет на кредитоспособность, чем более поздняя.

Надеюсь, это поможет.

+1
источник

Посмотрите другие вопросы по меткам или Задайте вопрос