Основные понятия регрессии

Данный узел или опция доступны, только если они включены в лицензии PolyAnalyst Server.

Интерпретация стандартного отклонения

Это регулярное статистическое стандартное отклонение, также называемое дисперсией ошибок. Оно вычисляется по следующей математической формуле:

\[\sqrt{\frac{\sum_{i=1}^{N}(p_{i}-P_{i})^{2}}{(N-1)}}\]

p - среднее значение атрибута \(p_{i}\). Стандартное отклонение - это квадратный корень из дисперсии ошибок только в том случае, если ошибка сбалансирована, т.е. если среднее значение ошибки равно 0.

Интерпретация стандартной ошибки

Стандартная ошибка определяется по следующей формуле:

\[\sqrt{\frac{\sum_{i=1}^{N}(p_{i}-P_{i})^{2}}{(N-1)\sigma }}\]

Здесь N - количество записей в таблице данных, а \(\sigma\) - дисперсия целевой переменной \(p_{i}\). Таким образом, стандартная ошибка равна отношению стандартного отклонения к квадратному корню из дисперсии целевой переменной. Это безразмерная величина, определяющая точность модели. Обычно значения стандартного отклонения принадлежат интервалу [0, 1]. Значение 0 свидетельствует о том, что прогноз абсолютно точен. Другое предельное значение 1 получается тогда, когда мы используем среднее значение \(p_{i}\) в качестве прогнозируемого значения целевой переменной во всех записях.

Интерпретация R-квадрата

Это - еще одна часто используемая мера точности полученной модели. R-квадрат также называют коэффициентом детерминации. Его значения тоже находятся в интервале [0,1]. В отличие от среднеквадратической ошибки, R-квадрат равен 1, если модель абсолютно точна. Он равен 0, когда среднее значение целевой переменной рассматривается как прогноз для всех записей. R-квадрат приблизительно понимается как часть изменчивости целевого атрибута, истолкованного полученной моделью.

R-квадрат – это мера точности модели линейной регрессии. Чем она ближе к значению 1, тем выше точность модели. Если R-квадрат равен 0, модель является неточной (ее не следует использовать для прогнозирования значения целевой переменной). Точки данных, используемые при вычислении значения R-квадрата, отображаются на вкладке Прогнозированные значения vs. Реальные значения в отчете узла Линейная регрессия.

Интерпретация стандартного отклонения свободного терма

Свободный терм – это дополнительная константа, которая может входить (или не входить) в модель линейной регрессии. Когда алгоритм линейной регрессии вычисляет значение каждого коэффициента регрессии модели, он также определяет степень неточности этого значения. Таким образом, стандартное отклонение свободного терма характеризует точность определения значения свободного терма.

F-критерий свободного терма

F-критерий (критерий Фишера) свободного терма – это квадрат отношения значения свободного терма к стандартному отклонению свободного терма. Это отношение выражает степень уверенности в том, что свободный терм должен войти в создаваемую модель. Например, если погрешность определения свободного терма выше, чем само значение свободного терма, - неизвестно, должен ли свободный терм входить в модель. В этом случае значение F-критерия низкое (меньше 1). И наоборот, большие значения F-критерия подтверждают, что свободный терм должен входить в модель. В большинстве статистических алгоритмов для отделения значимых термов от незначимых устанавливается порог значения F-критерия, равный 3.

F-критерий коэффициента регрессии - это квадрат отношения коэффициента регрессии к его стандартному отклонению. Также следует отметить, что F-критерии коэффициентов регрессии могут использоваться для ранжирования атрибутов, входящих в модель, с точки зрения их относительной важности. Атрибуты, которые влияют на целевую переменную больше, имеют более высокие значения соответствующего F-критерия.

Регрессионный алгоритм ступенчатого выбора предиктора: Выбираются переменные предиктора, обеспечивающие наибольшее сокращение ошибки, и добавляются по одному к модели на каждом этапе работы алгоритма. Одновременно статистика F-критерия определяется для каждого коэффициента регрессии. Если у нового коэффициента регрессии, добавляемого в модель, F-критерий меньше порогового значения (обычно это 3), то новые предикторы не включаются, и алгоритм завершает работу.

Интерпретация стандартного отклонения терма

Когда алгоритм линейной регрессии вычисляет значение каждого коэффициента регрессии модели, он также определяет степень неточности этого значения, выраженную посредством стандартной ошибки.

Интерпретация частичной суммы квадратов терма (значимость терма)

График термов включает каждый атрибут или if-выражение, используемое в линейном выражении с частичной суммой квадратов. Это позволяет вам увидеть, какие атрибуты оказали наибольшее влияние на результаты линейной регрессии.

Каждый терм, входящий в состав регрессионной модели, частично объясняет вариативность целевого атрибута, которая измеряется квадратом его дисперсии. Вклад каждого терма определяется частью суммы квадратов, характеризующих данный терм. Часть суммы квадратов для каждой модели также отражает относительную значимость отдельных атрибутов.

И все же, использовать эти характеристики следует с осторожностью. Например, предположим, что регрессионная модель включает в себя два атрибута, А и В, которые существенно коррелируют друг с другом (хотя в случае их сильной корреляции они не могут одновременно входить в состав одной и той же модели). Тогда вариативность целевого атрибута может быть частично связана с А или В (на равных основаниях). Следовательно, если при построении модели сначала рассматривать терм А, то он будет отвечать за значительную часть вариативности целевого атрибута, и в меньшей степени вариативность будет обусловлена влиянием терма В на целевую переменную. Однако, если при построении модели сначала рассматривать терм В, его вклад в вариативность атрибута будет намного больше.

Только если все атрибуты, входящие в состав модели, имеют очень низкую взаимную корреляцию, часть суммы квадратов для каждого терма пропорциональна его F-критерию. Так как вариативность целевого атрибута может оцениваться только после извлечения его константной части в форме регрессионного свободного терма, части суммы квадратов для других коэффициентов вычисляются только после включения свободного терма в регрессионную модель.