Парная регрессия и корреляция. Регрессия в Excel: уравнение, примеры

Во время учебы студенты очень часто сталкиваются с разнообразными уравнениями. Одно из них - уравнение регрессии - рассмотрено в данной статье. Такой тип уравнения применяется специально для описания характеристики связи между математическими параметрами. Данный вид равенств используют в статистике и эконометрике.

Определение понятия регрессии

В математике под регрессией подразумевается некая величина, описывающая зависимость среднего значения совокупности данных от значений другой величины. Уравнение регрессии показывает в качестве функции определенного признака среднее значение другого признака. Функция регрессии имеет вид простого уравнения у = х, в котором у выступает зависимой переменной, а х - независимой (признак-фактор). Фактически регрессия выражаться как у = f (x).

Какие бывают типы связей между переменными

В общем, выделяется два противоположных типа взаимосвязи: корреляционная и регрессионная.

Первая характеризуется равноправностью условных переменных. В данном случае достоверно не известно, какая переменная зависит от другой.

Если же между переменными не наблюдается равноправности и в условиях сказано, какая переменная объясняющая, а какая - зависимая, то можно говорить о наличии связи второго типа. Для того чтобы построить уравнение линейной регрессии, необходимо будет выяснить, какой тип связи наблюдается.

Виды регрессий

На сегодняшний день выделяют 7 разнообразных видов регрессии: гиперболическая, линейная, множественная, нелинейная, парная, обратная, логарифмически линейная.

Гиперболическая, линейная и логарифмическая

Уравнение линейной регрессии применяют в статистике для четкого объяснения параметров уравнения. Оно выглядит как у = с+т*х+Е. Гиперболическое уравнение имеет вид правильной гиперболы у = с + т / х + Е. Логарифмически линейное уравнение выражает взаимосвязь с помощью логарифмической функции: In у = In с + т* In x + In E.

Множественная и нелинейная

Два более сложных вида регрессии - это множественная и нелинейная. Уравнение множественной регрессии выражается функцией у = f(х 1 , х 2 ...х с)+E. В данной ситуации у выступает зависимой переменной, а х - объясняющей. Переменная Е - стохастическая, она включает влияние других факторов в уравнении. Нелинейное уравнение регрессии немного противоречиво. С одной стороны, относительно учтенных показателей оно не линейное, а с другой стороны, в роли оценки показателей оно линейное.

Обратные и парные виды регрессий

Обратная - это такой вид функции, который необходимо преобразовать в линейный вид. В самых традиционных прикладных программах она имеет вид функции у = 1/с + т*х+Е. Парное уравнение регрессии демонстрирует взаимосвязь между данными в качестве функции у = f (x) + Е. Точно так же, как и в других уравнениях, у зависит от х, а Е - стохастический параметр.

Понятие корреляции

Это показатель, демонстрирующий существование взаимосвязи двух явлений или процессов. Сила взаимосвязи выражается в качестве коэффициента корреляции. Его значение колеблется в рамках интервала [-1;+1]. Отрицательный показатель говорит о наличии обратной связи, положительный - о прямой. Если коэффициент принимает значение, равное 0, то взаимосвязи нет. Чем ближе значение к 1 - тем сильнее связь между параметрами, чем ближе к 0 - тем слабее.

Методы

Корреляционные параметрические методы могут оценить тесноту взаимосвязи. Их используют на базе оценки распределения для изучения параметров, подчиняющихся закону нормального распределения.

Параметры уравнения линейной регрессии необходимы для идентификации вида зависимости, функции регрессионного уравнения и оценивания показателей избранной формулы взаимосвязи. В качестве метода идентификации связи используется поле корреляции. Для этого все существующие данные необходимо изобразить графически. В прямоугольной двухмерной системе координат необходимо нанести все известные данные. Так образуется поле корреляции. Значение описывающего фактора отмечаются вдоль оси абсцисс, в то время как значения зависимого - вдоль оси ординат. Если между параметрами есть функциональная зависимость, они выстраиваются в форме линии.

В случае если коэффициент корреляции таких данных будет менее 30 %, можно говорить о практически полном отсутствии связи. Если он находится между 30 % и 70 %, то это говорит о наличии связей средней тесноты. 100 % показатель - свидетельство функциональной связи.

Нелинейное уравнение регрессии так же, как и линейное, необходимо дополнять индексом корреляции (R).

Корреляция для множественной регрессии

Коэффициент детерминации является показателем квадрата множественной корреляции. Он говорит о тесноте взаимосвязи представленного комплекса показателей с исследуемым признаком. Он также может говорить о характере влияния параметров на результат. Уравнение множественной регрессии оценивают с помощью этого показателя.

Для того чтобы вычислить показатель множественной корреляции, необходимо рассчитать его индекс.

Метод наименьших квадратов

Данный метод является способом оценивания факторов регрессии. Его суть заключается в минимизировании суммы отклонений в квадрате, полученных вследствие зависимости фактора от функции.

Парное линейное уравнение регрессии можно оценить с помощью такого метода. Этот тип уравнений используют в случае обнаружения между показателями парной линейной зависимости.

Параметры уравнений

Каждый параметр функции линейной регрессии несет определенный смысл. Парное линейное уравнение регрессии содержит два параметра: с и т. Параметр т демонстрирует среднее изменение конечного показателя функции у, при условии уменьшения (увеличения) переменной х на одну условную единицу. Если переменная х - нулевая, то функция равняется параметру с. Если же переменная х не нулевая, то фактор с не несет в себе экономический смысл. Единственное влияние на функцию оказывает знак перед фактором с. Если там минус, то можно сказать о замедленном изменении результата по сравнению с фактором. Если там плюс, то это свидетельствует об ускоренном изменении результата.

Каждый параметр, изменяющий значение уравнения регрессии, можно выразить через уравнение. Например, фактор с имеет вид с = y - тх.

Сгруппированные данные

Бывают такие условия задачи, в которых вся информация группируется по признаку x, но при этом для определенной группы указываются соответствующие средние значения зависимого показателя. В таком случае средние значения характеризуют, каким образом изменяется показатель, зависящий от х. Таким образом, сгруппированная информация помогает найти уравнение регрессии. Ее используют в качестве анализа взаимосвязей. Однако у такого метода есть свои недостатки. К сожалению, средние показатели достаточно часто подвергаются внешним колебаниям. Данные колебания не являются отображением закономерности взаимосвязи, они всего лишь маскируют ее «шум». Средние показатели демонстрируют закономерности взаимосвязи намного хуже, чем уравнение линейной регрессии. Однако их можно применять в виде базы для поиска уравнения. Перемножая численность отдельной совокупности на соответствующую среднюю можно получить сумму у в пределах группы. Далее необходимо подбить все полученные суммы и найти конечный показатель у. Чуть сложнее производить расчеты с показателем суммы ху. В том случае если интервалы малы, можно условно взять показатель х для всех единиц (в пределах группы) одинаковым. Следует перемножить его с суммой у, чтобы узнать сумму произведений x на у. Далее все суммы подбиваются вместе и получается общая сумма ху.

Множественное парное уравнение регрессии: оценка важности связи

Как рассматривалось ранее, множественная регрессия имеет функцию вида у = f (x 1 ,x 2 ,…,x m)+E. Чаще всего такое уравнение используют для решения проблемы спроса и предложения на товар, процентного дохода по выкупленным акциям, изучения причин и вида функции издержек производства. Ее также активно применяют в самых разнообразным макроэкономических исследованиях и расчетах, а вот на уровне микроэкономики такое уравнение применяют немного реже.

Основной задачей множественной регрессии является построение модели данных, содержащих огромное количество информации, для того чтобы в дальнейшем определить, какое влияние имеет каждый из факторов по отдельности и в их общей совокупности на показатель, который необходимо смоделировать, и его коэффициенты. Уравнение регрессии может принимать самые разнообразные значения. При этом для оценки взаимосвязи обычно используется два типа функций: линейная и нелинейная.

Линейная функция изображается в форме такой взаимосвязи: у = а 0 + a 1 х 1 + а 2 х 2 ,+ ... + a m x m . При этом а2, a m , считаются коэффициентами «чистой» регрессии. Они необходимы для характеристики среднего изменения параметра у с изменением (уменьшением или увеличением) каждого соответствующего параметра х на одну единицу, с условием стабильного значения других показателей.

Нелинейные уравнения имеют, к примеру, вид степенной функции у=ах 1 b1 х 2 b2 ...x m bm . В данном случае показатели b 1 , b 2 ..... b m - называются коэффициентами эластичности, они демонстрируют, каким образом изменится результат (на сколько %) при увеличении (уменьшении) соответствующего показателя х на 1 % и при стабильном показателе остальных факторов.

Какие факторы необходимо учитывать при построении множественной регрессии

Для того чтобы правильно построить множественную регрессию, необходимо выяснить, на какие именно факторы следует обратить особое внимание.

Необходимо иметь определенное понимание природы взаимосвязей между экономическими факторами и моделируемым. Факторы, которые необходимо будет включать, обязаны отвечать следующим признакам:

  • Должны быть подвластны количественному измерению. Для того чтобы использовать фактор, описывающий качество предмета, в любом случае следует придать ему количественную форму.
  • Не должна присутствовать интеркорреляция факторов, или функциональная взаимосвязь. Такие действия чаще всего приводят к необратимым последствиям - система обыкновенных уравнений становится не обусловленной, а это влечет за собой ее ненадежность и нечеткость оценок.
  • В случае существования огромного показателя корреляции не существует способа для выяснения изолированного влияния факторов на окончательный результат показателя, следовательно, коэффициенты становятся неинтерпретируемыми.

Методы построения

Существует огромное количество методов и способов, объясняющих, каким образом можно выбрать факторы для уравнения. Однако все эти методы строятся на отборе коэффициентов с помощью показателя корреляции. Среди них выделяют:

  • Способ исключения.
  • Способ включения.
  • Пошаговый анализ регрессии.

Первый метод подразумевает отсев всех коэффициентов из совокупного набора. Второй метод включает введение множества дополнительных факторов. Ну а третий - отсев факторов, которые были ранее применены для уравнения. Каждый из этих методов имеет право на существование. У них есть свои плюсы и минусы, но они все по-своему могут решить вопрос отсева ненужных показателей. Как правило, результаты, полученные каждым отдельным методом, достаточно близки.

Методы многомерного анализа

Такие способы определения факторов базируются на рассмотрении отдельных сочетаний взаимосвязанных признаков. Они включают в себя дискриминантный анализ, распознание обликов, способ главных компонент и анализ кластеров. Кроме того, существует также факторный анализ, однако он появился вследствие развития способа компонент. Все они применяются в определенных обстоятельствах, при наличии определенных условий и факторов.

Уравнение регрессии

Уравнение регрессии - это математическая формула, определяющая, каким будет среднее значение у при том или ином значении х, если все остальные факторы, влияющие на у, не учитывать, т.е. абстрагироваться от них.

Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее точно отразить зависимость между х и у, - первая задача регрессионного анализа. Виды уравнений:

1) линейная зависимость ;

2) парабола ;

3) гипербола ;

4) показательная функция ;

5) степенная функция и т.д.

Главным основанием для выбора типа функции должен быть содержательный анализ природы изучаемого явления. Полезно отразить зависимость графически.

Метод наименьших квадратов

Далее необходимо определить параметры уравнения регрессии а 0 и а 1 , (для параболы еще и а 2 ). Для этого используют метод наименьших квадратов. В его основу положена идея минимизации суммы квадратов отклонений фактических значений у от их выравненных (теоретических) значений, т.е.

где у i - фактические значения результативного признака;

y i (x i) - значения у, найденные по уравнению регрессии.

Если регрессия линейная , то

Рассматривая сумму в качестве функции параметров а 0 и а 1 , определяют частные производные по а 0 и а 1 и приравнивают их к нулю, поскольку в точке экстремума производная функции равна нулю:

Система уравнений для разных типов зависимости между признаками

Если связь между признаками линейная, то система уравнений для нахождения параметров уравнения регрессии примет вид:

После решения системы относительно а 1 и а 1 составляют уравнение регрессии .

Если связь между признаками у их описывается уравнением параболы , то система нормальных уравнений примет вид:


Экономический смысл параметров уравнения линейной регрессии

В уравнении линейной регрессии параметр а 0 определяет среднее значение y которое складывается под влиянием всех факторов, кроме х .



Параметр а 1 называется коэффициентом регрессии, он определяет, на сколько в среднем изменится у при изменении факторного признака на единицу. Чем больше величина а 1 , тем значительнее влияние данного факторного признака на моделируемый результативный. Знак коэффициента регрессии говорит о характере влияния фактора на результативный признак.

Коэффициент эластичности показывает, на сколько процентов изменится результативный признаку при изменении факторного признака на 1%. Общая формула для расчета коэффициента эластичности выглядит следующим образом:

,

где у"(х) - первая производная уравнения регрессии у(х) по х .

При различных значениях факторного признака х коэффициент эластичности принимает различные значения.

Для линейного уравнения регрессии коэффициент эластичности примет вид:

Для параболической связи коэффициент эластичности равен:

.

Для гиперболической связи коэффициент эластичности равен:

3. Корреляционный анализ. Показатели тесноты связи между признаками

В случае линейной зависимости между признаками для оценки тесноты связи применяют линейный коэффициент корреляции :

Линейный коэффициент корреляции изменяется в пределах от -1 до +1. Если |r| <0,3, то связь слабая. Если 0,3 <|r| < 0,7, то связь средняя. Если 0,7 < |r| < 0,9, то связь выше средней или тесная. Если |r| > 0,9, то связь сильная или весьма тесная. Если , то это дает основание говорить об отсутствии линейной связи между х и у.

Федеральное государственное образовательное учреждение

высшего профессионального образования

«СИБИРСКИЙ ФЕДЕРАЛЬНЫЙ УНИВЕРСИТЕТ»

Институт управления бизнес-процессами и экономики

Кафедра теоретические основы экономики

Лабораторная работа № 2

по курсу эконометрика

(Вариант 6,7)

Руководитель _______________ Середа В.А.

подпись, дата

Студентка, УБ11-01 _______________ Ивкина В.А.

подпись, дата

Красноярск 2013

Введение……………………………………….…………………………………..3

1.Линейное уравнение регрессии 5

2.Показательное уравнение регрессии 7

3.Логарифмическое уравнение регрессии 9

Логарифмическое уравнение регрессии определяется по формуле: 9

Получим логарифмическое уравнение регрессии: 9

5.Поверка значимости уравнения регрессии и отдельных коэффициентов линейного уравнения 13

6.Построение интервального прогноза для значения x = xmax по уравнению линейной регрессии 17

7.Средний коэффициент эластичности 20

Цель работы: Закрепить навыки построения уравнений регрессии, графиков уравнений, вычисления оценок и построения доверительных интервалов для уравнений регрессии.

    Построить уравнения регрессии, включая линейную регрессию

    Вычислить индексы парной корреляции для каждого уравнения

    Проверить значимость уравнений регрессии и отдельных коэффициентов линейного уравнения

    Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации

    Построить интервальный прогноз для значения x=x max для линейного уравнения регрессии

    Определить средний коэффициент эластичности

Исходные данные:

Области и республики

Холодильники. Морозильники.(X )

Стиральные машины.(Y)

Белгородская область

Брянская область

Владимирская область

Воронежская область

Ивановская область

Калужская область

Костромская область

Курская область

Липецкая область

Московская область

Орловская область

Рязанская область

Смоленская область

Тамбовская область

Тверская область

Тульская область

Ярославская область

Республика Карелия

Республика Коми

Архангельская область

Вологодская область

Калининградская область

Ленинградская область

Мурманская область

Новгородская область

Псковская область

Краснодарский край

Ставропольский край

Астраханская область

Волгоградская область

Ростовская область

Республика Башкортостан

Республика Марий Эл

Республика Мордовия

Республика Татарстан

Удмуртская Республика

Чувашская Республика

Кировская область

Нижегородская область

Оренбургская область

Пензенская область

Пермская область

Самарская область

Саратовская область

Ульяновская область

  1. Линейное уравнение регрессии

Формула линейного уравнения регрессии (1)

x,y – переменные,

a,b – параметры.

Система нормальных уравнений (2) в общем виде:

(2)

n - количество наблюдений в совокупности.

Система нормальных уравнений с вычисленными коэффициентами:

Решение системы:

Построенное линейное уравнение регрессии:

Рис. 1 График линейного уравнения регрессии

  1. Показательное уравнение регрессии

Показательное уравнение регрессии имеет следующий вид:

,

,

x,y – то же что и в формуле (1),

Найдем b 0 и b 1:

Полечим показательное уравнение регрессии:

  1. Логарифмическое уравнение регрессии

Логарифмическое уравнение регрессии определяется по формуле:

x,y – то же что и в формуле (1),

b – то же что и в формуле (1),

,

(8),

x,y – то же что и в формуле (1),

b – то же что и в формуле (1),

n – то же что и в формуле (2).

Найдем b 0 и b 1:

Получим логарифмическое уравнение регрессии:

Рис. 1 График логарифмического уравнения регрессии

    Индекс парной корреляции для уравнений регрессии

Индекс парной корреляции исчисляется по следующей формуле:

(9)

y – то же что и в формуле (1),

–значение у из исследуемого уравнения,

Среднее значение y.

Для оценки качества построенной модели регрессии можно использовать индекс детерминации или среднюю ошибку аппроксимации. Чем выше показатель детерминации или чем ниже ошибка аппроксимации, чем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение расчетных значений от фактических, рассчитывается по формуле

(10)

y – то же что и в фотрмуле (1).

Индекс парной корреляции для линейного уравнения регрессии:

= 0,92

Средняя ошибка аппроксимации для линейного уравнения регрессии:

=6%

Индекс парной корреляции для логарифмического уравнения регрессии:

=0,95

Средняя ошибка аппроксимации для логарифмического уравнения регрессии:

=6%

Построенные уравнения считаются удовлетворительными, так как . Коэффициент детерминации достаточно высокий, а это значит, что модель точно описывает исходные данные.

  1. Поверка значимости уравнения регрессии и отдельных коэффициентов линейного уравнения

Оценка статистической значимости уравнения регрессии в целом осуществляется с помощью F -критерия Фишера.

Величина F факт определяется по формуле:

(11)

Индекс детерминации,

n – то же что и в формуле (2),

m – число параметров при переменных.

Таким образом, для

F факт = =2,26

F крит =4,08, при α =0,05

F табл >

=3,87

F крит =4,08, при α =0,05

F табл >F факт, гипотеза H 0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии применяется t- критерий Стьюдента:

Величины t b ,факт и t a , факт определяются по формулам:

a,b – то же что и в формуле (1),

r xy - коэффициент корреляции,

m b , m a , m rxy – стандартные ошибки.

Таким образом, для

    линейного уравнения регрессии:

    логарифмического уравнения регрессии:

Стандартные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:

(15)

(16)

Где, y – то же что и в формуле (1),

–то же что и в формуле (9),

То же что и в формуле (9),

Многомерный регрессионный анализ позволяет разграничить влияние факторных признаков. Параметр регрессии при каждом факторном признакедает оценку его влияния на величину результативного признака
в случае изменения на единицу при постоянстве всех остальных факторов.

Прогнозирование на основе полученной модели выполняется аналогично прогнозам парной линейной регрессии.

Точечный прогноз получается при подстановке прогнозных значений факторных признаковв уравнение регрессии. Полученное значение является точечным прогнозом результативного признака
.

Интервальный прогноз указывает нижнюю и верхнюю границу промежутка, в котором находится истинное значение прогнозируемого показателя
. Доверительный интервал определяется выражением

т.е. истинное значение прогнозируемого показателя
с вероятностью 1 -принадлежит доверительному интервалу.

Пример 3.9. По данным таблицы 3.17 записать уравнение регрессии и выполнить анализ полученной модели.

Решение. Так как инструмент «Регрессия» может выполнять только линейный регрессионный анализ, то в итоге имеем следующее уравнение многомерной линейной регрессии

Таблица 3.17. Результаты работы инструментаРегрессия

Выполним анализ полученной модели регрессии:


Следовательно, модель регрессии пригодна для принятия некоторых решений, но не для прогнозирования.

Проанализируем наличие парной корреляционной связи между факторными признаками, входящими в модель регрессии, по корреляционной матрице (рис.3.8):



Рис.3.8. Корреляционная матрица

Обозначения к корреляционной матрице: - производительность труда (среднегодовая выработка продукции на одного работника), тыс. грн.;
- трудоемкость единицы продукции;
- удельный вес рабочих в составе промышленно-производственного персонала;
-коэффициент сменности оборудования;- премии и вознаграждения на одного работника, %;
- непроизводственные расходы, %.

Следовательно, на основе исследуемой многомерной выборки можно сделать вывод, что из рассматриваемых факторных признаков на производительность труда оказывают влияние трудоемкость единицы продукции и премии. Эти факторные признаки следует включить в модель многомерной нелинейной регрессии.

Так как коэффициент детерминации сравнительно мал, то при разработке модели регрессии следует рассмотреть дополнительные неучтенные факторные признаки.

В таблице 3.18 приведены результаты работы инструмента «Регрессия» для модели регрессии без факторного признака
Выполните анализ этой модели регрессии.

Экономическая интерпретация коэффициентов регрессии в целом является завершающим этапом эконометрического моделирования на основе совокупности исходных данных. В данном случае экономическая интерпретация - это объяснение смысла, содержания полученных коэффициентов регрессии. На экономическую интерпретацию коэффициентов регрессии оказывают влияние такие факторы, как сфера экономики, для которой строится эконометрическая модель, количество исходных данных (объем совокупности) для анализа изучаемого явления и т.п. Одним из важнейших факторов интерпретации коэффициентов регрессии является вид полученной модели.

Линейное уравнение регрессии имеет вид y = bx + a + ε Здесь ε - случайная ошибка (отклонение, возмущение).

Коэффициент множественной регрессии bj показывает, на какую величину в среднем изменится результативный признак Y , если переменную Xj увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Параметр а = у, когда х = 0. Если х не может быть равен 0, то а не имеет экономического смысла. Интерпретировать можно только знак при а: если а > 0. то относительное изменение результата происходит медленнее, чем изменение фактора, т. е. вариация результата меньше вариации фактора: V < V. и наоборот.

В линейной множественной регрессии коэффициенты при хi характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменных значениях других факторов, закреплённых на среднем уровне.

При изучении вопросов потребления коэффициенты регрессии рассматриваются как характеристики предельной склонности к потреблению. Например, если функция потребления Сt имеет вид Сt = b0 + b1* Rt + b2* Rt-1 +epsilont, то потребление за t-й период времени зависит от дохода того же периода Rt и от дохода предшествующего периода Rt-1. Соответственно, коэффициент b1 характеризует эффект от единичного возрастания дохода Rt при неизменном уровне предыдущего дохода. Коэффициент b1 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на величину b = b1+b2. Коэффициент b рассматривается здесь как долгосрочная предельная склонность к потреблению.

Уравнение парной степенной модели имеет вид: у = а х^b

В уравнении парной степенной регрессии параметр b показывает: на сколько процентов изменится результативный показатель, при изменении фактора на /%, то есть является коэффициентом эластичности. Знак при коэффициенте регрессии указывает направление связи между фактором и результативным показателем: если Ь>0, следовательно, связь прямая и с увеличением значения фактора (х) возрастает и значение результативного показателя (у); если Ь<0, следовательно, связь обратная и с увеличением значения фактора (х) снижается значение результативного показателя.Таким образом, при увеличении расходов на конечное потребление на 1 %, в среднем доля расходов на питание снижается на 0,5.

Таким образом, получили, что показатели степени при переменных в мультипликативной степенной модели являются соответствующими коэффициентами эластичности. Это важное свойство степенных моделей.

Похожие публикации