Ошибка аппроксимации формула при нескольких х. Тогда средняя ошибка аппроксимации равна


Эмпирические коэффициенты регрессии b 0 , b 1 будем определять с помощью инструмента «Регрессия» надстройки «Анализ данных» табличного процессораMS Excel.

Алгоритм определения коэффициентов состоит в следующем.

1. Вводимисходные данные в табличный процессор MS Excel.

2. Вызываемнадстройку Анализ данных(рисунок 2).

3.Выбираем инструмент анализа Регрессия(рисунок 3).

4. Заполняем соответствующие позиции окна Регрессия (рисунок 4).

5. Нажимаем кнопку ОК окна Регрессия и получаем протокол решения задачи (рисунок 5)


Рисунок 3 – Выбор инструмента Регрессия




Рисунок 4 – Окно Регрессия

Рисунок 5 – Протокол решения задачи

Из рисунка 5 видно, что эмпирические коэффициенты регрессии соответственно равны

b 0 = 223,

b 1 = 0, 0088.

Тогда уравнение парной линейной регрессии, связывающая величину ежемесячной пенсии у с величиной прожиточного минимумахимеет вид

.(3.2)

Далее, в соответствии с заданием необходимо оценить тесноту статистической связи между величиной прожиточного минимума х и величиной ежемесячной пенсии у. Эту оценку можно сделать с помощью коэффициента корреляции . Величина этого коэффициента на рисунке 5 обозначена как множественный R и соответственно равна 0,038. Поскольку теоретически величина данного коэффициента находится в пределахот –1 до +1, то можно сделать вывод о не существенности статистической связимежду величиной прожиточного минимума х и величиной ежемесячной пенсии у.

Параметр «R – квадрат», представленныйна рисунке 5 представляет собой квадрат коэффициента корреляции и называется коэффициентом детерминации. Величина данного коэффициента характеризует долю дисперсии зависимой переменной у, объясненную регрессией (объясняющей переменной х). Соответственно величина 1- характеризует долю дисперсии переменной у, вызванную влиянием всех остальных, неучтенных в эконометрической модели объясняющих переменных. Из рисунка 5 видно, что доля всех неучтенных в полученной эконометрической модели объясняющих переменных приблизительно составляет 1- 0,00145 = 0,998 или 99,8%.



На следующем этапе, в соответствии с заданием необходимо определить степень связи объясняющей переменной х с зависимой переменной у, используя коэффициент эластичности. Коэффициент эластичности для модели парной линейной регрессии определяется в виде:

Следовательно, при изменении прожиточного минимума на 1% величина ежемесячной пенсии изменяется на 0,000758%.

. (3.4)

Для этого исходную таблицу 1 дополняем двумя колонками, в которых определяем значения, рассчитанные с использованием зависимости (3.2) и значения разности .

Таблица 3.2. Расчет средней ошибки аппроксимации.

Тогда средняя ошибка аппроксимации равна

.

Из практики известно, что значение средней ошибки аппроксимации не должно превышать (12…15)%

На последнем этапе выполним оценкустатистической надежности моделирования спомощью F – критерия Фишера. Для этого выполним проверку нулевой гипотезы Н 0 о статистической не значимости полученного уравнения регрессиипо условию:

если при заданном уровне значимости a = 0,05 теоретическое (расчетное) значение F-критерия больше его критического значения F крит (табличного), то нулевая гипотеза отвергается, и полученное уравнение регрессии принимается значимым.

Из рисунка 5 следует, что F расч = 0,0058. Критическое значение F-критерия определяем с помощью использования статистической функции FРАСПОБР (рисунок 6). Входными параметрами функции является уровень значимости (вероятность) и число степеней свободы 1 и 2. Для модели парной регрессии число степеней свободы соответственно равно 1 (одна объясняющая переменная) и n-2 = 6-2=4.



Рисунок 6 – Окно статистической функции FРАСПОБР

Из рисунка 6 видно, что критическое значение F-критерия равно 7,71.

Так как F расч < F крит, то нулевая гипотеза не отвергается и полученное регрессионное уравнение статистически незначимо.

13. Построение модели множественной регрессии с использованием EXCEL.

В соответствии с вариантом задания, используя статистический материал, необходимо.

1. Построить линейное уравнение множественной регрессии пояснить экономический смысл его параметров.

2. Дать сравнительную оценку тесноты связи факторов с результативным признаком с помощью средних (общих) коэффициентов эластичности.

3. Оценить статистическую значимость коэффициентов регрессии с помощью t-критерия Стьюдента и нулевую гипотезу о значимости уравнения с помощью F-критерия.

4. Оценить качество уравнения посредством определения средней ошибки аппроксимации.

Исходные данные для построения модели парной регрессии приведены в таблице 3.3.

Таблица 3.3. Исходные данные.

Чистый доход, млн. долларов США у Оборот капитала, мл. долл. США, х 1 Использованный капитал, мл. долл. США, х 2
6,6 6,9 83,6
2,7 93,6 25,4
1,6 10,0 6,4
2,4 31,5 12,5
3,3 36,7 14,3
1,8 13,8 6,5
2,4 64,8 22,7
1,6 30,4 15,8
1,4 12,1 9,3
0,9 31,3 18,9

Технология построения уравнения регрессии аналогична алгоритму, изложенному в пункте 3.1. Протокол построения уравнения регрессии показан на рисунке 7.

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,901759207
R-квадрат 0,813169667
Нормированный R-квадрат 0,759789572
Стандартная ошибка 0,789962026
Наблюдения
Дисперсионный анализ
df MS F
Регрессия 9,50635999 15,23357468
Остаток 0,624040003
Итого
Коэффициенты t-статистика
Y-пересечение 1,113140304 2,270238114
Переменная X 1 -0,000592199 -0,061275574
Переменная X 2 0,063902851 5,496523193

Рисунок 7. Вывод итогов.

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

Курсовая работа

по дисциплине «Эконометрика»

«Комплексный анализ взаимосвязи финансово-экономических показателей деятельности предприятий»

Вариант № 12

Выполнил:

студент группы ЭЭТ-312

Логунов Н.Ю.

Проверила:

доц. Ишханян М.В.

Москва 2015

Постановка задачи

1. Составление корреляционной матрицы. Отбор факторов

2. Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения

3. Коэффициент детерминации, множественный коэффициент корреляции

4.Оценка качества уравнения множественной линейной регрессии

4.1.Средняя относительная ошибка аппроксимации

4.2.Проверка статистической значимости уравнения множественной регрессии в целом с помощью F-критерия Фишера

4.3.Проверка статистической значимости параметров уравнения множественной регрессии. Интервальные оценки параметров

5.Применение регрессионной модели

5.1.Точечный прогноз

5.2.Частные коэффициенты эластичности и средние частные коэффициенты эластичности

6.Анализ остатков регрессионной модели (проверка предпосылок теоремы Гаусса-Маркова)

6.1.Оценки математического ожидания остатков

6.2.Проверка наличия автокорреляции в остатках

7.Критерий Грегори Чоу

Постановка задачи

Заданы значения 6 показателей, характеризующих экономическую деятельность 53 предприятий. Требуется:

1. Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

4.2. Проверить статистическую значимость уравнения множественной регрессии в целом с помощью F-критерия Фишера. Сделать выводы

4.3. Проверить статистическую значимость параметров уравнения множественной регрессии. Построить интервальные оценки параметров. Сделать выводы.



5. Применение регрессионной модели:

5.1. Используя построенное уравнение, дать точечный прогноз. Найти значение исследуемого параметра y, если значение первого фактора (наиболее тесно связанного с у) составит 110% от его среднего значения, значение второго фактора составит 80% от его среднего значения. Дать экономическую интерпретацию результата.

5.2. Найти частные коэффициенты эластичности и средние частные коэффициенты эластичности. Интерпретировать результаты. Сделать выводы.

6. Провести анализ остатков регрессионной модели (проверить требования теоремы Гаусса-Маркова):

6.1. Найти оценки математического ожидания остатков.

6.2. Проверить наличие автокорреляции в остатках. Сделать вывод.

7. Разделите выборку на две равные части. Рассматривая первые и последние наблюдения как независимые выборки, проверить гипотезу о возможности объединения их в единую выборку по критерию Грегори-Чоу.

Составление корреляционной матрицы. Отбор факторов

№ предприятия Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1.Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

Рассмотрим результативный признак Y3 и факторные признаки Х10, X12, Х5, Х7, Х13 .

Составим корреляционную матрицу с помощью опции «Анализ данных→Корреляция» в MS Excel:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Отбираем 2 фактора по критериям:

1) связь Y и X должна быть максимальной

2) связь между Xми должна быть наименьшей

Таким образом, в следующих пунктах работа будет производиться с факторами X10 , X5.

Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения.

2. Построить уравнение множественной линейной регрессии. Дать интерпретацию параметров уравнения.

Составим регрессионную модель с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel:

Коэффициенты
Y -20,7163
X 10 5,7169
X 5 34,9321

Уравнение регрессии будет выглядеть следующим образом:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 положительный;

2) b5 положительный;

Коэффициент детерминации, множественный коэффициент корреляции

3. Найти коэффициент детерминации, множественный коэффициент корреляции. Сделать выводы.

В регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel, найдём таблицу «Регрессионная статистика»:

Множественный R-связь между Y3 и X10,X5 слабая

R-квадрат-22,05% вариации признака Y объясняется вариацией признаков X10 и X5

Оценка качества уравнения множественной линейной регрессии

4. Оценить качество уравнения множественной линейной регрессии:

Средняя относительная ошибка аппроксимации

4.1. Найти среднюю относительную ошибку аппроксимации. Сделать выводы.

Рассчитаем прогнозные значения для каждого наблюдения или воспользуемся столбцом «Предсказанное У» в таблице «Вывод остатка» в регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel)

Вычислим относительные ошибки для каждого наблюдения по формуле:

Вычислим среднюю относительную ошибку аппроксимации по формуле:

Вывод: 20% < А < 50%, качество уравнения среднее (удовлетворительное).

5. С использованием F- критерия установлено, что полученное уравнение парной регрессии в целом является статистически незначимым, и неадекватно описывает изучаемое явление связи величины ежемесячной пенсии у с величиной прожиточного минимума х.

6. Сформирована эконометрическая модель множественной линейной регрессии, связывающая величину чистого дохода условной фирмы у с оборотом капитала х1 и использованным капиталом х2

7. Путем расчета коэффициентов эластичности показано, что при изменении оборота капитала на 1% величина чистого дохода копании изменяется на 0,0008%, а при изменении использованного капитала на 1% величина чистого дохода компании изменяется на 0,56%.

8. С использованием t-критерия выполнена оценка статистической значимости коэффициентов регрессии Установлено, что объясняющая переменная х 1 является статистически незначимой и ее можно исключить из уравнения регрессии, в тоже время объясняющая переменная х 2 является статистически значимой.

9. С использованием F-критерия установлено, что полученное уравнение парной регрессии в целом является статистически значимым, и адекватно описывает изучаемое явление связи величины чистого дохода условной фирмы у с оборотом капитала х 1 и использованным капиталом х 2 .

10. Рассчитана средняя ошибка аппроксимации статистических данных линейным уравнением множественной регрессии, которая составила 29,8%. Показано, за счет какого наблюдения в статистической базе величина данной ошибки превышает допустимое значение.

14. Построение модели парной регрессии без использования EXCEL.

Используя статистический материал, приведенный в таблице 3.5 необходимо:

2.Оценить тесноту связи с помощью показателей корреляции и детерминации.

3.Используя коэффициент эластичности, определить степень связи факторного признака с результативным.

4.Определить среднюю ошибку аппроксимации.

5.Оценить с помощью F-критерия Фишера статистическую надежность моделирования.

Таблица 3.5. Исходные данные.

Доля денежных доходов, направленных на прирост сбережений во вкладах, займах, сертификатах и на покупку валюты, в общей сумме среднедушевого денежного дохода, %

Среднемесячная начисленная заработная плата, у.д.е.

Калужская

Костромская

Орловская

Рязанская

Смоленская

Для определения неизвестных параметров b 0 , b 1 уравнения парной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид

(3.7)

Для решения этой системы вначале необходимо определить значения величин Sх 2 и Sху. Эти значения определяем из таблицы исходных данных, дополняя ее соответствующими колонками (таблица 3.6).

Таблица 3.6. К расчету коэффициентов регрессии.

Тогда система (3.7) приобретает вид

Выражая из первого уравнения b 0 и подставляя полученное выражение во второе уравнение получим:

Производя почленное умножение и раскрывая скобки, получим:

Окончательно уравнение парной линейной регрессии, связывающее величину доли денежных доходов населения, направленных на прирост сбережений у с величиной среднемесячной начисленной заработной платы х имеет вид:

Так, как построено уравнение парной линейной регрессии, то определяем линейный коэффициент корреляции по зависимости:

где- значения среднеквадратических отклонений соответствующих параметров.

Для расчета линейного коэффициента корреляции по зависимости (3.9) выполним промежуточные расчеты.

Подставляя значения найденных параметров в выражение (3.9) получим

.

Полученное значение линейного коэффициента корреляции свидетельствует о наличии слабой обратной статистической связи между величиной доли денежных доходов населения, направленных на прирост сбережений у и величины среднемесячной начисленной заработной платы х.

Коэффициент детерминации равен , что означает, что только 9,6% объясняется регрессией объясняющей переменнойх на величину у. Соответственно величина 1-равная 90,4 % характеризует долю дисперсии переменнойу, вызванную влиянием всех остальных, неучтенных в эконометрической модели объясняющих переменных.

Коэффициент эластичности равен

Следовательно, при изменении величины среднемесячной начисленной заработной платы на 1% величина доли денежных доходов населения, направленных на прирост сбережений также снижается на 1%, причем при увеличении заработной платы наблюдается снижение величины доли денежных доходов населения, направленных на прирост сбережений. Данный вывод противоречит здравому смыслу и может быть объяснен только некорректностью сформированной математической модели.

Рассчитаем среднюю ошибку аппроксимации.

Таблица 3.7. К расчету средней ошибки аппроксимации.

Полученное значение превышает (12…15)%, что свидетельствует о существенности среднего отклонения расчетных данных от фактических, по которым построена эконометрическая модель.

Надежность статистического моделирования выполним на основе F-критерия Фишера. Теоретичное значение критерия Фишера F расч определяется из соотношения значений факторной и остаточнойдисперсий, рассчитанных на одну степень свободы по формуле

где n -число наблюдений;

m-число объясняющих переменных (для рассматриваемого примераm m =1).

Критическое значение F крит определяется по статистическим таблицам и для уровня значимости a = 0, 05 равняется 10,13. Так как F расч

15. Построение модели множественной регрессии без использования EXCEL.

Используя статистический материал, приведенный в таблице 3.8 необходимо:

1. Построить линейное уравнение множественной регрессии, пояснить экономический смысл его параметров.

2. Дать сравнительную оценку тесноты связи факторов с результативным признаком с помощью средних (общих) коэффициентов эластичности.

3. Оценить статистическую значимость коэффициентов регрессии с помощью t-критерия и нулевую гипотезу о не значимости уравнения с помощью F-критерия.

4. Оценить качество уравнения посредством определения средней ошибки аппроксимации.

Таблица 3.8. Исходные данные.

Чистый доход, млн. долл. США

Оборот капитала млн. долл. США

Использованный капитал,млн. долл. США

Для определения неизвестных параметров b 0 , b 1 , b 2 уравнения множественной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид

(3.11)

Для решения этой системы вначале необходимо определить значения величин Sх 1 2 , Sх 2 2 , Sх 1 у, Sх 2 у, Sх 1 х 2 . Эти значения определяем из таблицы исходных данных, дополняя ее соответствующими колонками (таблица 3.9).

Таблица 3.9. К расчету коэффициентов регрессии.

Тогда система (3.11) приобретает вид

Для решения данной системы воспользуемся методом Гаусса, который заключается в последовательном исключении неизвестных: делим первое уравнение системы на 10, затем умножаем полученное уравнение на 370,6 и вычитаем его из второго уравнения системы, далее умножаем полученное уравнение на 158,20 и вычитаем его из третьего уравнения системы. Повторяя указанный алгоритм для преобразованных второго и третьего уравнений системы получим:

ÞÞ

Þ.

После преобразования имеем:

Тогда окончательно зависимость чистого дохода от оборота капитала и использованного капитала в виде линейного уравнения множественной регрессии имеет вид:

Из полученного эконометрического уравнения видно, что с увеличением используемого капитала чистый доход увеличивается и наоборот с увеличением оборота капитала, чистый доход уменьшается. Кроме того, чем больше величина коэффициента регрессии, тем значительнее влияние объясняющей переменной на зависимую переменную. В рассматриваемом примере величина коэффициента регрессии больше чем величина коэффициентаследовательно, используемый капитал оказывает значительно большее влияние на чистый доход, чем оборот капитала. Для количественной оценки указанного вывода определим частные коэффициенты эластичности.

Анализ полученных результатов так же показывает, что большее влияние на чистый доход оказывает используемый капитал. Так в частности, при увеличении используемого капитала на 1% чистый доход увеличиваетсяна 1,17%. В то же время с ростом оборота капитала на 1%, чистый доход снижается на 0,5%.

Теоретическое значение критерия Фишера F расч

Величина критического значения F крит, определяется по статистическим таблицам и для уровня значимости a = 0,05 равняется 4,74. Так как F расч > F крит, то нулевая гипотеза отвергается, и полученное уравнение регрессии принимается статистически значимым.

Оценка статистической значимости коэффициентов регрессии ипоt-критерию сводится к сопоставлению численного значения этих коэффициентов с величиной их случайных ошибок ипо зависимости:

Рабочая формула для расчета теоретического значения t-статистики имеет вид:

, (3.13)

где парные коэффициенты корреляции и коэффициент множественной корреляции рассчитываются по зависимостям:

Тогда теоретические (расчетные) значения t-статистик соответственно равны:

Поскольку критическое значение t-статистики, определенное по статистическим таблицам для уровня значимости a=0,05 равное t крит =2,36 больше по абсолютной величине чем = - 1,798, то нулевая гипотеза не отвергается и объясняющая переменная х 1 является статистически незначимой и ее можно исключить из уравнения регрессии. И наоборот, для второго коэффициента регрессии> t крит (3,3 >2,36),и объясняющая переменная х 2 является статистически значимой.

Рассчитаем средней ошибки аппроксимации.

Таблица 3.10. К расчету средней ошибки аппроксимации.

Тогда средняя ошибка аппроксимации равна

Полученное значение не превышает допустимого предела равного (12…15)%.

16. История развития теории измерений

Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С. Стивене основное внимание уделял шкалам измерения. Во второй половине XX в. сфера применения ТИ стремительно расширяется. Один из томов выпущенной в США в 50-х годах «Энциклопедии психологических наук» назывался «Психологические измерения». Составители этой публикации расширили сферу применения ТИ с психофизики на психологию в целом. В статье этого сборника «Основы теории измерений» , изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения. В ней упор был сделан на «гомоморфизмах эмпирических систем с отношениями в числовые» (в эти математические термины здесь вдаваться нет необходимости), и математическая сложность изложения возросла по сравнению с работами С.С. Стивенса.

В одной из первых отечественных статей по ТИ (конец 60-х годов) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, как правило, измерены в порядковой шкале. Работы, появившиеся в начале 70-х годов, привели к существенному расширению области использования ТИ. Ее применяли к педагогической квалиметрии (измерению качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

В качестве двух основных проблем ТИ наряду с установлением типа шкалы измерения конкретных данных был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования).Порядковыми шкалами в географии являются бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком) ровно в 5 раз слабее, чем землетрясение в 10 баллов (полное разрушение всего на поверхности земли).

В медицине порядковыми шкалами являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия... Иногда выделяют стадии 1а, 16 и др. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используют в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.

Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.

При оценке качества продукции и услуг, в так называемой квалиметрии (буквальный перевод - измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Аналогичный смысл имеет сортность продукции - высший сорт, первый сорт, второй сорт,...

При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует). Аналогична эколого-медицинская шкала: нет выраженного воздействия на здоровье людей - отмечается отрицательное воздействие на здоровье.

Порядковая шкала используется и в других областях. В эконометрике это прежде всего различные методы экспертных оценок.

Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков. Порядковая шкала и шкала наименований - основные шкалы качественных признаков, поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам. Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: °С = 5/9 (°F - 32), где °С - температура (в градусах) по шкале Цельсия, a °F - температура по шкале Фаренгейта.

Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями в шкале отношений являются подобные (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена, например, пересчет цен из одной валюты в другую по фиксированному курсу. Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту Китая - юани, используя фиксированный курс пересчета. Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого условия, и надо проверять, что оно выполнено. Результаты подобной проверки для средних величин описаны ниже.

В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент Рождества Христова.

Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова, например, число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы). Кроме перечисленных шести основных типов шкал, иногда используют и иные шкалы.

17. Инвариантные алгоритмы и средние величины.

Сформулируем основное требование к алгоритмам анализа данных в ТИ: выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных. Другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы.

Таким образом, одна из основных целей теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в аршинах, метрах, микронах, милях, парсеках и других единицах измерения. Массу (вес) - в пудах, килограммах, фунтах и др. Цены на товары и услуги можно указывать в юанях, рублях, тенге, гривнах, латах, кронах, марках, долларах США и других валютах (при условии заданных курсов пересчета). Подчеркнем очень важное, хотя и вполне очевидное обстоятельство: выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, когда они инвариантны относительно допустимого преобразования шкалы. Из многих алгоритмов эконометрического анализа данных этому условию удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.

Пусть Х 1 , Х 2 ,.., Х n - выборка объема n. Часто используют среднее арифметическое. Использование среднего арифметического настолько привычно, что второе слово в термине часто опускают и говорят о средней зарплате, среднем доходе и других средних для конкретных экономических данных, подразумевая под «средним» среднее арифметическое. Такая традиция может приводить к ошибочным выводам. Покажем это на примере расчета средней заработной платы (среднего дохода) работников условного предприятия. Из 100 работников лишь 5 имеют заработную плату, ее превышающую, а зарплата остальных 95 существенно меньше средней арифметической. Причина очевидна - заработная плата одного человека - генерального директора - превышает заработную плату 95 работников - низкоквалифицированных и высококвалифицированных рабочих, инженеров и служащих. Ситуация напоминает описанную в известном рассказе о больнице, в которой 10 больных, из них у 9 температура 40°С, а один уже отмучился, лежит в морге с температурой 0°С. Между тем средняя температура по больнице равна 36°С - лучше не бывает!

Таким образом, среднее арифметическое можно использовать лишь для достаточно однородных совокупностей (без больших выбросов в ту или иную сторону). А какие средние использовать для описания заработной платы? Вполне естественно использовать медиану - среднее арифметическое 50-го и 51-го работника, если их заработные платы расположены в порядке неубывания. Сначала идут зарплаты 40 низкоквалифицированных рабочих, а затем - с 41-го до 70-го работника - заработные платы высококвалифицированных рабочих. Следовательно, медиана попадает именно на них и равна 200. У 50-ти работников заработная плата не превосходит 200, и у 50-ти - не менее 200, поэтому медиана показывает «центр», около которого группируется основная масса исследуемых величин. Еще одна средняя величина - мода, наиболее часто встречающееся значение. В рассматриваемом случае это заработная плата низкоквалифицируемых рабочих, т.е. 100. Таким образом, для описания зарплаты имеем три средние величины - моду (100 единиц), медиану (200 единиц) и среднее арифметическое (400 единиц).

Для наблюдающихся в реальной жизни распределений доходов и заработной платы справедлива та же закономерность: мода меньше медианы, а медиана меньше среднего арифметического.

Для чего в экономике используются средние величины? Обычно для того, чтобы заменить совокупность чисел одним числом, чтобы сравнивать совокупности с помощью средних. Пусть, например, Y 1 , Y 2 ,..., Y n - совокупность оценок экспертов, «выставленных» одному объекту экспертизы (например, одному из вариантов стратегического развития фирмы), Z 1, Z 2 ,..., Z n -второму (другому варианту такого развития). Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.

А как вычислять средние? Известны различные виды средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое. Напомним, что общее понятие средней величины введено французским математиком первой половины XIX в. академиком О. Коши. Оно таково: средней величиной является любая функция Ф(Х 1 , Х 2 ,..., Х n) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел Х 1, Х 2 ,..., Х n , и не больше, чем максимальное из этих чисел. Все перечисленные выше виды средних являются средними по Коши.

При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в ТИ). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.

Пусть Ф(Х 1 Х 2 ,..., Х n) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности: тогда согласно ТИ для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований в соответствующей шкале было справедливо, что среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y 1 , Y 2 ,...,Y n и Z 1, Z 2 ,..., Z n и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно ТИ только такими средними можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.

С помощью математической теории, развитой в 1970-х годах, удается описать вид допустимых средних в основных шкалах. Понятно, что для данных, измеренных в шкале наименований, качестве среднего годится только мода.

18. Средние величины в порядковой шкале

Рассмотрим обработку мнений экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.

Теорема 1 . Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).

Теорема 1 справедлива при условии, что среднее Ф(Х 1 Х 2 ,..., Х n) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции Ф(Х 1 Х 2 ,..., Х n) не меняется. Это условие является вполне естественным, ибо среднюю величину мы находим для совокупности (множества), а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.

Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.

Справедлива следующая теорема.

Теорема 2 . Пусть Y 1 , Y 2 ,...,Y m - независимые одинаково распре-еленные случайные величины с функцией распределения F(x), a Z 1, Z 2 ,..., Z n - независимые одинаково распределенные случайные величины с функцией распределения Н(х), причем выборки Y 1 , Y 2 ,...,Y m и Z 1 , Z 2 ,..., Z n независимы между собой и MY X > MZ X . Для того, чтобы вероятность события стремилась к 1 при min(m, n) для любой строго возрастающей непрерывной функции g, удовлетворяющей условию |g i |>X необходимо и достаточно, чтобы при всех х выполнялось неравенство F(x) < Н(х), причем существовало число х 0 , для которого F(x 0)

Примечание. Условие с верхним пределом носит чисто внутриматематический характер. Фактически функция g - произвольное допустимое преобразование в порядковой шкале.

Согласно теореме 2 средним арифметическим можно пользоваться и в порядковой шкале, если сравниваются выборки из двух распределений, удовлетворяющих приведенному в теореме неравенству. Проще говоря, одна из функций распределения должна всегда лежать над другой. Функции распределения не могут пересекаться, им разрешается только касаться друг друга. Это условие выполнено, например, если функции распределения отличаются только сдвигом:

F(x) = Н(х + ∆)

при некотором ∆.

Последнее условие выполняется, если два значения некоторой величины измеряются с помощью одного и того же средства измерения, у которого распределение погрешностей не меняется при переходе от измерения одного значения рассматриваемой величины к измерению другого.

Средние по Колмогорову

Обобщением нескольких из перечисленных выше средних является среднее по Колмогорову. Для чисел Х 1, Х 2 ,..., Х n среднее по Колмогорову вычисляется по формуле

G{(F(X l) + F(X 2)+...F(X n))/n},

где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая),

G - функция, обратная к F.

Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = х, то среднее по Колмогорову - это среднее арифметическое, если F(x) = lnx, то среднее геометрическое, если F(x) = 1/х, то среднее гармоническое, если F(x) = х 2 , то среднее квадратическое, и т.д. Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В монографии доказаны следующие утверждения.

Теорема 3 . При справедливости некоторых внутриматематических условий регулярности в шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое. Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.

Теорема 4 . При справедливости некоторых внутриматематических условий регулярности в шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = х с, и среднее геометрическое.

Замечание. Среднее геометрическое является пределом степенных средних при с > 0.

Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например F(x) = е х.

Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. . Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в пиале интервалов, как и отношение дисперсий, дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.

Приведенные выше результаты о средних величинах широко применяются, причем не только в экономике, менеджменте, теории экспертных оценок или социологии, но и в инженерном деле, например, для анализа методов агрегирования датчиков в АСУ ТП доменных печей. Велико прикладное значение ТИ в задачах стандартизации и управления качеством, в частности в квалиметрии, где получены интересные теоретические результаты. Так, например, любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю (эта теорема доказана проф. В.В. Подиновским). Следовательно приведенные выше краткие сведения о ТИ и ее методах объединяют в некотором смысле экономику, социологию и инженерные науки и являются адекватным аппаратом для решения сложнейших проблем, не поддававшихся ранее эффективному анализу, более того т.о. открывается путь к построению реалистических моделей и решению задачи прогноза.

22. Парная линейная регрессия

Обратимся теперь к более подробному изучению простейшего случая парной линейной регрессии. Линейная регрессия описывается простейшей функциональной зависимостью в виде уравнения прямой линии и характеризуется прозрачной интерпретацией параметров модели (коэффициентов уравнения). Правая часть уравнения позволяет по заданным значениям регрессора (объясняющей переменной) получить теоретические (расчетные) значения результативного (объясняемого) переменного. Эти значения иногда называют также прогнозируемыми (все в том же смысле), т.е. получаемыми по теоретическим формулам. Однако при выдвижении гипотезы о характере зависимости еще остаютсянеизвестными коэффициенты уравнения. Вообще говоря, получение приближенных значений этих коэффициентов возможно различными методами.

Но наиболее важным и распространенным из них является метод наименьших квадратов (МНК). Он основан (как уже объяснялось) на требовании минимизации суммы квадратов отклонений фактических значений результативного признака от расчетных (теоретических). Вместо теоретических значений (для их получения) подставляют правые части уравнения регрессии в сумму квадратов отклонений, а затем находят частные производные от этой функции (суммы квадратов отклонений фактических значений результативного признака от теоретических). Эти частные производные берутся не по переменным х и у, а по параметрам а и b. Частные производные приравнивают к нулю и после несложных, но громоздких преобразований получают систему нормальных уравнений для определения параметров. Коэффициент припеременном х, т.е. b называется коэффициентом регрессии, он показывает среднее изменение результата с изменением фактора на одну единицу. Параметр а может не иметь экономической интерпретации, особенно, если знак этого коэффициента отрицателен.

Парная линейная регрессия используется для изучения функции потребления. Коэффициент регрессии в функции потребления используется для расчета мультипликатора. Практически всегда уравнение регрессии дополняется показателем тесноты связи. Для простейшего случая линейной регрессии этим показателем тесноты связи является линейный коэффициент корреляции. Но так как линейный коэффициент корреляции характеризует тесноту связи признаков в линейной форме, то близость абсолютной величины линейного коэффициента корреляции к нулю еще не служит показателем отсутствия связи между признаками.

Именно при другом выборе спецификации модели и следовательно виде зависимости фактическая связь может оказаться довольно близкой к единице. А вот качество подбора линейной функции определяется с помощью квадрата линейного коэффициента корреляции - коэффициент детерминации. Он характеризует долю дисперсии результативного признака у, объясняемую регрессией в общей дисперсии результативного признака. Величина, дополняющая коэффициент детерминации до 1 характеризует долю дисперсии, вызванную влиянием остальных факторов, не учтенных в модели (остаточной дисперсии).

Парная регрессия представляется уравнением связи двух переменных у и х следующего вида:

где у – зависимая переменная (результативный признак), а х – независимая переменная (объясняющая переменная, или признак-фактор). Бывает линейная регрессия и нелинейная регрессия. Линейная регрессия описывается уравнением вида:

y = a+ bx + .

Нелинейная регрессия в свою очередь может быть нелинейной относительно включенных в анализ объясняющих переменных, но линейной по оцениваемым параметрам. А может быть регрессия нелинейная по оцениваемым параметрам. В качестве примеров регрессии, нелинейной по объясняющим переменным, но линейной по оцениваемым параметрам можно указать полиномиальные зависимости различных степеней (многочлены) и равностороннюю гиперболу.

Нелинейной регрессией по оцениваемым параметрам является степенная относительно параметра (параметр стоит в показателе степени) зависимость, показательная зависимость, где параметр стоит в основании степени и экспоненциальная зависимость, когда вся линейная зависимость целиком находится в показателе экспоненты. Отметим, что во всех этих трех случаях случайный компонент (случайный остаток)  входит в правую часть уравнения в виде сомножителя, а не в виде слагаемого, т.е. мультипликативно! Среднее отклонение расчетных значений результативного признака от фактических характеризуется средней ошибкой аппроксимации. Она выражается в процентах и не должна превышать 7-8%. Эта средняя ошибка аппроксимации является просто выраженной в процентах средней относительных величин разностей фактических и расчетных значений.

Важное значение имеет средний коэффициент эластичности, который служит важной характеристикой многих экономических явлений и процессов. Он вычисляется как произведение значения производной данной функциональной зависимости на отношение средней величины х к средней величине у. Коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора х на 1% от его (фактора х) среднего значения.

С парной регрессией и с множественной регрессией (когда имеется множество факторов) и с остаточной дисперсией тесно связаны задачи дисперсионного анализа. Дисперсионный анализ исследует дисперсию зависимой переменной. При этом общая сумма квадратов отклонений разбивается на две части. Первое слагаемое это сумма квадратов отклонений, обусловленная регрессией, или объясненная (факторная). Второе слагаемое это остаточная сумма квадратов отклонений, необъясненная факторной регрессией.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации, который есть не что иное как отношение суммы квадратов отклонений, обусловленной регрессией к общей сумме квадратов отклонений (первого слагаемого ко всей сумме).

Когда параметры модели (коэффициенты при неизвестных) определяются с помощью метода наименьших квадратов, то, по существу, находятся (в процессе получения оценок) некоторые случайные величины. Особую важность представляет оценка коэффициента регрессии, который является некоторой особой формой случайной величины. Свойства этой случайной величины зависят от свойств остаточного члена в уравнении(в модели). Рассмотрим для модели парной линейной регрессии объясняющую переменную х как неслучайную экзогенную переменную. Это всего лишь означает, что значения переменной х во всех наблюдениях можно считать заранее заданными и никак не связанными с исследуемой зависимостью. Таким образом, фактическая величина объясняемой переменной состоит из двух составляющих: неслучайной и случайной составляющей (остаточного члена).

С другой стороны коэффициент регрессии, определяемый по методу наименьших квадратов (МНК) равен частному от деления ковариации переменных х и у на дисперсию переменной х. Поэтому он также содержит случайную составляющую. Ведь ковариация зависит от значений переменной у, где значения переменной у зависят от значений случайного остаточного члена . Далее нетрудно показать, что ковариация переменных х и у равна произведению оцениваемого коэффициента регрессии бета () на дисперсию переменного х, сложенному с ковариацией переменных х и . Таким образом оценка коэффициента регрессии бета равна самому этому неизвестному коэффициенту регрессии, сложенному с частным от деления ковариации переменных х и  на дисперсию переменного х. Т.е. оценка коэффициента регрессии bполученная по любой выборке представляется в виде суммы двух слагаемых: постоянной величины, равной истинному значению коэффициента  (бета), и из случайной составляющей, зависящей от ковариации переменных х и .

23. Математические условия Гаусса-Маркова и их применение.

Чтобы регрессионный анализ, основанный на обычном МНК давал наилучшие результаты, случайный член должен удовлетворять четырем условиям Гаусса-Маркова.

Математическое ожидание случайного члена равняется нулю, т.е. он является несмещенным. Если уравнение регрессии включает постоянное слагаемое, то естественно считать выполненным такое требование, поскольку это постоянное слагаемое и должно учитывать любую систематическую тенденцию в значениях переменной у, которую напротив не должны содержать объясняющие переменные уравнения регрессии.

Дисперсия случайного члена постоянна для всех наблюдений.

Ковариация значений случайных величин, образующих выборку должна быть равна нулю, т.е. отсутствует систематическая связь между значениями случайного члена в любых двух конкретных наблюдениях. Случайные члены должны быть независимы друг от друга.

Закон распределения случайного члена должен быть независим от объясняющих переменных.

Более того, во многих применениях объясняющие переменные не являются стохастическими, т.е. не имеют случайной составляющей. Значение любой независимой переменной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрессии.

Вместе с указанными условиями Гаусса-Маркова предполагают также, что случайный член имеет нормальное распределение. Оно справедливо при весьма широких условиях и основывается на так называемой центральной предельной теореме (ЦПТ). Суть этой теоремы в том, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не оказывает преобладающего влияния на поведение этого общего результата, то такая результирующая случайная величина будет описываться приблизительно нормальным распределением. Эта близость к нормальному распределению позволяет использовать для получения оценок нормальное распределение и являющееся в известном смысле его обобщением распределение Стьюдента, которое отличается заметно от нормального главным образом на так называемых «хвостах», т.е. при малых значениях объема выборки. Важно также, что если случайный член будет распределен нормально, то и коэффициенты регрессии также будут распределены по нормальному закону.

Установленная регрессионная кривая (уравнение регрессии) позволяет решить задачу так называемого точечного прогноза. В таких расчетах берется некоторое значение х вне исследованного интервала наблюдений и подставляется в правую часть уравнения регрессии (процедура экстраполяции). Т.к. уже известны оценки для коэффициентов регрессии, то можно рассчитать соответствующее взятому значению величины х значение объясняемой переменной у. Естественно, что в соответствии со смыслом предсказания (прогноза) расчеты проводятся вперед (в область будущих значений).

Однако поскольку коэффициенты были определены с определенной погрешностью, то интерес представляет не точечная оценка (точечный прогноз) для результативного признака, а знание того в каких пределах с определенной вероятностью будут лежать значения результативного признака, соответствующее взятому значению фактора х.

Для этого рассчитывается величина стандартной ошибки (среднеквадратичного отклонения). Она может быть получена в духе уже только что сказанного следующим образом. В уравнение линейной регрессии подставляется выражение свободного члена a из оценок через средние величины. Тогда получается, что стандартная ошибка зависит от ошибки средней результативного фактора у и аддитивно от ошибки коэффициента регрессии b. Попросту квадрат этой стандартной ошибки равен сумме квадрата ошибки среднего величины у и произведения квадрата ошибки коэффициента регрессии на квадрат отклонения величины фактора х и его среднего. Далее первое слагаемое согласно законам статистики равно частному от деления дисперсии генеральной совокупности на величину (объем) выборки.

Вместо неизвестной дисперсии в качестве оценки используется выборочная дисперсия. Соответственно ошибка коэффициента регрессии определяется как частное от деления выборочной дисперсии на дисперсию фактора х. Можно получить величину стандартной ошибки (среднего квадратичного отклонения) и изиных соображений, более независимых от модели линейной регрессии. Для этого используется понятие средней ошибки и предельной ошибки и связь между ними.

Но и после получения стандартной ошибки остается вопрос о границах, в которых будет лежать прогнозное значение. Иначе говоря об интервале погрешности измерения, в естественном во многих случаях предположении, что середина этого интервала дается рассчитанным (средним) значением результативного фактора у. Здесь на помощь приходит центральная предельная теорема, которая как раз и указывает с какой вероятностью неизвестная величина находится в пределах этого доверительного интервала.

По существу формула стандартной ошибки независимо от того каким образом и в каком виде она получена характеризует ошибку положения линии регрессии. Величина стандартной ошибки достигает минимума при совпадении значения фактора х со средним значением фактора.

24. Статистическая проверка гипотез и оценка значимости линейной регрессии по критерию Фишера.

После того как найдено уравнение линейной регрессии, производится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом может выполняться с помощью различных критериев. Достаточно распространенным и эффективным является применение F-критерия Фишера. При этом выдвигается нулевая гипотеза Н о, что коэффициент регрессии равен нулю, т.е. b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную»:

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества факторов.

Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси ОХ и у=у. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности или с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(у 1 -у),(у 2 -у),...{у n -у)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов ∑(у-у ср) 2 требуется (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) число отклонений. При расчете объясненной или факторной суммы квадратов ∑(у-у ср) 2 используются теоретические (расчетные) значения результативного признака у*, найденные по линии регрессии: у(х)=а+bх.

Вернемся теперь к разложению общей суммы квадратов отклонений результативного фактора от среднего этой величины. Эта сумма содержит две уже определенные выше части: сумму квадратов отклонений, объясненную регрессией и другую сумму, которая называется остаточная сумма квадратов отклонений. С таким разложением связан анализ дисперсии, который прямо отвечает на принципиальный вопрос: как оценить значимость уравнения регрессии в целом и его отдельных параметров? Оно же в значительной мере и определяет смысл этого вопроса. Для оценки значимости уравнения регрессии в целом используется критерий Фишера (F-критерий). Согласно подходу, предложенному Фишером, выдвигается нулевая гипотеза : коэффициент регрессии равен нулю, т.е. величинаb=0. Это означает, что фактор Х не оказывает влияния на результат Y.

Вспомним, что практически всегда полученные в результате статистического исследования точки не ложатся точно на линию регрессии. Они рассеяны, будучи удалены более или менее сильно от линии регрессии. Такое рассеяние обусловлено влиянием прочих, отличных от объясняющего фактора Х, факторов, не учитываемых в уравнении регрессии. При расчете объясненной, или факторной суммы квадратов отклонений используются теоретические значения результативного признака, найденные по линии регрессии.

Для заданного набора значений переменных Y и Х расчетное значение среднего величины Y является в линейной регрессии функцией только одного параметра – коэффициента регрессии. В соответствии с этим факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. А число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно n-2.

Следовательно, разделив каждую сумму квадратов отклонений в исходном разложении на свое число степеней свободы получаем средний квадрат отклонений (дисперсию на одну степень свободы). Далее разделив факторную дисперсию наодну степень свободы на остаточную дисперсию на одну степень свободы получаем критерий для проверки нулевой гипотезы так называемое F-отношение, или одноименный критерий. Именно, при справедливости нулевой гипотезы факторная и остаточная дисперии оказываются просто равны друг другу.

Для отклонения нулевой гипотезы, т.е. принятия противоположной гипотезы, которая выражает факт значимости (наличия) исследуемой зависимости, а не просто случайного совпадения факторов, имитирующего зависимость, которая фактически не существует необходимо использовать таблицы критических значений указанного отношения. По таблицам выясняют критическую (пороговую) величину критерия Фишера. Она называется также теоретической. Затем проверяют, сравнивая ее с вычисленным по данным наблюдений соответствующим эмпирическим (фактическим) значением критерия, превосходит ли фактическая величина отношения критическую величину из таблиц.

Более подробно это делается так. Выбирают данный уровень вероятности наличия нулевой гипотезы и находят по таблицам критическое значение F-критерия, при котором еще может происходить случайное расхождение дисперсий на 1 степень свободы, т.е. максимальное такое значение. Затем вычисленное значение отношения F-признается достоверным (т.е. выражающим различие фактической и остаточной дисперсий), если это отношение больше табличного. Тогда нулевая гипотеза отклоняется (неверно, что отсутствуют признаки связи) и напротив приходим к заключению, что связь имеется и является существенной (носит неслучайный, значимый характер).

В случае, если величина отношения оказывается меньше табличного, то вероятность нулевой гипотезы оказывается выше заданного уровня(который выбирался изначально) и нулевая гипотеза не может быть отклонена без заметной опасности получить неверный вывод о наличии связи. Соответственно уравнение регрессии считается при этом незначимым.

Сама величина F-критерия связана с коэффициентом детерминации. Помимо оценки значимости уравнения регрессии в целом оценивают также значимость отдельных параметров уравнения регрессии. При этом определяют стандартную ошибкукоэффициента регрессии с помощью эмпирического фактического среднеквадратичного отклонения и эмпирической дисперсии на одну степень свободы. После этого используют распределение Стьюдента для проверки существенности коэффициента регрессии для расчета его доверительных интервалов.

Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента выполняется посредством сопоставления значений этих величин и величины стандартной ошибки. Величинаошибки параметров линейной регрессии и коэффициента корреляции определяется по следующим формулам:

где S – среднеквадратичноеостаточное выборочное отклонение,

r xy – коэффициент корреляции.

Соответственно величина стандартной ошибки, предсказываемой по линии регрессии, дается формулой:

Соответствующие отношения значений величин коэффициентов регрессии и корреляции к их стандартной ошибке образуют так называемую t-статистику, а сравнение соответствующего табличного (критического) значения ее и ее фактического значения позволяет принять или отвергнуть нулевую гипотезу. Нo далее для расчета доверительного интервала находится предельная ошибка для каждого показателя как произведение табличного значения статистики t на среднюю случайную ошибку соответствующего показателя. По сути чуть иначе мы уже фактически записали ее только что выше. Затем получают границы доверительных интервалов: нижнюю границу вычитанием из соответствующих коэффициентов (фактически средних) соответствующей предельной ошибки, а верхнюю границу – сложением (прибавлением).

В линейной регрессии ∑(y x -y ср) 2 =b 2 ∑(x-x ср) 2 . В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции: r 2 ху = b 2 *σ 2 x /σ 2 y

где σ 2 y - общая дисперсия признака у;

σ 2 x - дисперсия признака у обусловленная фактором х. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:

∑(y x -y ср) 2 =b 2 ∑(x-x ср) 2 .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. Рассмотрим содержательную сторону расчетного значения признака у т.е. у х. Величина у х определяется по уравнению линейной регрессии: у х =а+bх.

Параметр а можно определить, как а=у-bх. Подставив выражение параметра а в линейную модель, получим: y x =y-bx+bx ср =y-b(x-x ср).

При заданном наборе переменных у и х расчетное значение у х является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. (n-1). Итак, имеем два равенства: для сумм и для числа степеней свободы. А это в свою очередь возвращает нас опять к сопоставимым дисперсиям на одну степень свободы, отношение которых и дает критерий Фишера.

25. Оценка значимости отдельных параметров уравнения регрессии и коэффициентов по критерию Стьюдента.

27. Линейная и нелинейная регрессии и методы их исследования.

Линейная регрессия и методы ее исследования и оценки не имели бы столь важного значения, если бы помимо этого весьма важного, но все же простейшего случая, мы не получали с их помощью инструмента анализа более сложных нелинейных зависимостей. Нелинейные регрессии могут быть разделены на два существенно различных класса. Первым и более простым является класс нелинейных зависимостей, в которых имеется нелинейность относительно объясняющих переменных, но которые остаются линейными по входящим в них и подлежащим оценке параметрам. Сюда входят полиномы различных степеней и равносторонняя гипербола.

Такая нелинейная регрессия по включенным в объяснение переменным простым преобразованием (заменой) переменных легко сводится к обычной линейной регрессии для новых переменных. Поэтому оценка параметров в этом случае выполняется просто по МНК, поскольку зависимости линейны по параметрам. Так, важную роль в экономике играет нелинейная зависимость, описываемая равносторонней гиперболой:

Ее параметры хорошо оцениваются по МНК и сама такая зависимость характеризует связь удельных расходов сырья, топлива, материалов с объемом выпускаемой продукции, временем обращением товаров и всех этих факторов с величиной товарооборота. Например, кривая Филипса характеризует нелинейное соотношение между нормой безработицы и процентом прироста заработной платы.

Совершенно по-другому обстоит дело с регрессией, нелинейной по оцениваемым параметрам, например, представляемой степенной функцией, в которой сама степень (ее показатель) является параметром, или зависит от параметра. Также это может быть показательная функция, где основанием степени является параметр и экспоненциальная функция, в которой опять же показатель содержит параметр или комбинацию параметров. Этот класс, в свою очередь, делится на два подкласса: к одному относятся внешне нелинейные, но по существу внутренне линейные. В этом случае можно привести модель к линейному виду с помощью преобразований. Однако, если модель внутренне нелинейна, то она не может быть сведена к линейной функции.

Таким образом, только модели внутренне нелинейные в регрессионном анализе считаются действительно нелинейными. Все прочие, сводящиеся к линейным посредством преобразований, таковыми не считаются и именно они и рассматриваются чаще всего в эконометрических исследованиях. В то же время это не означает невозможности исследования в эконометрике существенно нелинейных зависимостей. Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнения особенностей применяемого итеративного метода.

Вернемся к зависимостям, приводимым к линейным. Если они нелинейны и по параметрам и по переменным, например, вида у = а умноженному на степень Х, показатель которой и есть параметр –  (бета):

Очевидно, такое соотношение легко преобразуется в линейное уравнение простым логарифмированием.

После введения новых переменных, обозначающих логарифмы, получается линейное уравнение. Тогда процедура оценивания регрессии состоит в вычислении новых переменных для каждого наблюдения путем взятия логарифмов от исходных значений. Затем оценивается регрессионная зависимость новых переменных. Для перехода к исходным переменным следует взять антилогарифм, т.е фактически вернуться к самим степеням вместо их показателей (ведь логарифм это и есть показатель степени). Аналогично может рассматриваться случай показательных или экспоненциальных функций.

Для существенно нелинейной регрессии невозможно применение обычной процедуры оценивания регрессии, поскольку соответствующая зависимость не может быть преобразована в линейную. Общая схема действий при этом такова:

1. Принимаются некоторые правдоподобные исходные значения параметров;

2. Вычисляются предсказанные значения Y по фактическим значениям Х с использованием этих значений параметров;

3. Вычисляются остатки для всех наблюдений в выборке и затем сумма квадратов остатков;

4. Вносятся небольшие изменения в одну или более оценку параметров;

5. Вычисляются новые предсказанные значения Y, остатки и сумма квадратов остатков;

6. Если сумма квадратов остатков меньше, чем прежде, то новые оценки параметров лучше прежних и их следует использовать в качестве новой отправной точки;

7. Шаги 4, 5 и 6 повторяются вновь до тех пор, пока не окажется невозможным внести такие изменения в оценки параметров, которые привели бы к изменению суммы остатков квадратов;

8. Делается вывод о том, что величина суммы квадратов остатков минимизирована и конечные оценки параметров являются оценками по методу наименьших квадратов.

Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрике широко используется степенная функция. Параметр b в ней имеет четкое истолкование, являясь коэффициентом эластичности. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Практическое применение логарифмирования и соответственно экспоненты возможно тогда, когда результативный признак не имеет отрицательных значений. При исследовании взаимосвязей среди функций, использующих логарифм результативного признака, в эконометрике преобладают степенные зависимости (кривые спроса и предложения, производственные функции, кривые освоения для характеристики связи между трудоемкостью продукции, масштабами производства, зависимость ВНД от уровня занятости, кривые Энгеля).

28. Обратная модель и ее использование

Иногда используется так называемая обратная модель, являющаяся внутренне нелинейной, но в ней, в отличие от равносторонней гиперболы, преобразованию подвергается не объясняющая переменная, а результативный признак Y. Поэтому обратная модель оказывается внутренне нелинейной и требование МНК выполняется не для фактических значений результативного признака Y, а для их обратных значений. Особого внимания заслуживает исследование корреляции для нелинейной регрессии. В общем случае парабола второй степени так же как и полиномы более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции.

Если преобразования уравнения регрессии в линейную форму связаны с зависимой переменной (результативным признаком), то линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку связи и численно не совпадает с индексом корреляции. Следует иметь в виду, что при расчете индекса корреляции используются суммы квадратов отклонений результативного признака Y, а не их логарифмов. Оценка значимости индекса корреляции выполняется так же как и оценка надежности (значимости) коэффициента корреляции. Сам индекс корреляции, как и индекс детерминации, используется для проверки значимости в целом уравнения нелинейной регрессии по F-критерию Фишера.

Отметим, что возможность построения нелинейных моделей, как посредством приведения их к линейному виду, так и путем использования нелинейной регрессии, с одной стороны повышает универсальность регрессионного анализа. А с другой – существенно усложняет задачи исследователя. Если ограничиваться парным регрессионным анализом, то можно построить график наблюдений Y и Х как диаграмму разброса. Часто несколько различных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. Но в случае множественного регрессионного анализа такой график построить невозможно.

При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной процедура выбора сравнительно проста. Можно оценивать регрессию на основе всех вероятных функций, которые можно вообразить и выбирать функцию, в наибольшей степени объясняющую изменения зависимой переменной. Понятно, что когда линейная функция объясняет примерно 64% дисперсии у, а гиперболическая – 99,9%, очевидно следует выбирать последнюю. Но когда разные модели используют разные функциональные формы, проблема выбора модели существенно осложняется.

29. Использование теста Бокса-Кокса.

Более общим образом при рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной выбор прост. Разумнее всего оценивать регрессию на основе всех вероятных функций, останавливаясь на функции, в наибольшей степени объясняющей изменения зависимой переменной. Если коэффициент детерминации измеряет в одном случае объясненную регрессией долю дисперсии, а в другом – объясненную регрессией долю дисперсии логарифма этой зависимой переменной, то выбор делается без затруднений. Другое дело, когда эти значения для двух моделей весьма близки и проблема выбора существенно осложняется.

Тогда следует применять стандартную процедуру в виде теста Бокса-Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки. В нем предлагается преобразование масштаба наблюдений Y, при котором обеспечивается возможность непосредственного сравнения среднеквадратичной ошибки (СКО) в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги:

    Вычисляется среднее геометрическое значений Y в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от Y;

    Пересчитываются наблюдения Y таким образом, что они делятся на полученное на первом шаге значение;

    Оценивается регрессия для линейной модели с использованием пересчитанных значений Y вместо исходных значений Y и для логарифмической модели с использованием логарифма от пересчитанных значений Y. Теперь значения СКО для двух регрессий сравнимы и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений;

    Для проверки того, что одна из моделей не обеспечивает значимо лучшее соответствие, можно использовать произведение половины числа наблюдений на логарифм отношения значений СКО в пересчитанных регрессиях с последующим взятием абсолютного значения этой величины.

30. Поняти интеркорреляции и мультиколлинеарности факоров.

34. Основы МНК и обоснованность его применения.

Обратимся теперь к основам МНК, обоснованности его применения (в том числе к задачам множественной регрессии) и важнейшим свойствам оценок, получаемых с помощью МНК. Начнем с того, что наряду с аналитической зависимостью в правой части регрессионного уравнения важную роль играет еще случайный член. Эта случайная компонента является ненаблюдаемой величиной. Сами статистические проверки параметров регрессии и показателей корреляции основаны на непроверяемых предпосылках о распределении этой случайной составляющей множественной регрессии. Эти предположения носят всего лишь предварительный характер. Только после построения уравнения регрессии производят проверку наличия у оценок случайных остатков (эмпирические аналоги случайной составляющей) предполагавшихся априори свойств. По существу, когда оценены параметры модели, то рассчитывают разности теоретических и фактических значений результативного признака, чтобы таким образом оценить саму случайную составляющую. Важно иметь в виду, что это всего лишь выборочная реализация неизвестного остатка заданного уравнения.

Коэффициенты регрессии, полученные из системы нормальных уравнений, это выборочные оценки силы связи. Понятно, что практическое значение они имеют только тогда, когда являются несмещенными. Напомним, что в этом случае среднее остатков равно нулю, или, что то же самое, среднее оценки равно самому оцениваемому параметру. Тогда остатки не будут накапливаться при большом числе выборочных оцениваний, а сам найденный параметр регрессии можно рассматривать в качестве среднего из большого количества несмещенных оценок.

Кроме того, оценки должны иметь наименьшую дисперсию, т.е. являться эффективными и тогда появляется возможность перехода от практически малопригодных точечных оценок к интервальному оцениванию. Наконец, доверительные интервалы применимы с большой степенью эффективности, когда вероятность получения оценки на заданном расстоянии от истинного (неизвестного) значения параметра близка к единице. Такие оценки называются состоятельными и свойство состоятельности характеризуется увеличением их точности с увеличением объема выборки.

Однако условие состоятельности не выполняется автоматически и существенно зависит от выполнения следующих двух важных требований. Во-первых, сами остатки должны быть стохастическими с максимально выраженной случайностью, т.е. все явно функциональные зависимости должны быть включены именно в аналитическую компоненту множественной регрессии, и к тому же значения остатков должны быть распределены независимо друг от друга для различных выборок (отсутствие автокорреляции остатков). Второе, не менее важное требование заключается в одинаковости дисперсии каждого отклонения (остатка) для всех значений переменных Х (гомоскедастичность). Т.е. гомоскедастичность выражается постоянством дисперсии для всех наблюдений:

Напротив, гетероскедастичность заключается в нарушении такого постоянства дисперсии для различных наблюдений. В этом случае априорная (до наблюдений) вероятность получения сильно отклоненных величин с различным теоретическим распределением случайного члена для различных наблюдений в выборке будет относительно высока.

Автокорреляция остатков, или наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений усматривается по величине обычного линейного коэффициента корреляции. Если он существенно отличается от нуля, то остатки автокоррелированы и, следовательно, функция плотности вероятности (распределения остатков) зависит от точки наблюдения и от распределения значений остатков в других точках наблюдения. Удобно определять автокорреляцию остатков по имеющейся статистической информации при наличии упорядоченности наблюдений по фактору Х. Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

35. Гомоскедастичность и гетероскедастичность, автокорреляция остатков, обобщенный метод наименьших квадратов (ОМНК).

Одинаковость дисперсий остатков для всех значений переменных Х, или гомоскедастичность также совершенно необходима для получения по МНК состоятельных оценок параметров регрессии. Невыполнение условия гомоскедастичности приводит к так называемой гетероскедастичности. Она может приводить к смещенности оценок коэффициентов регрессии. Гетероскедастичность будет главным образом сказываться на уменьшении эффективности оценок коэффициентов регрессии. Особенно затруднительно становится при этом пользоваться формулой стандартной ошибки коэффициента регрессии, использование которой предполагает единую дисперсию остатков для любых значений фактора. Что касается несмещенности оценок коэффициентов регрессии, то она, прежде всего, зависит от независимости остатков и самих величин факторов.

Довольно наглядным, правда нестрогим и требующим навыка способом проверки гомоскедастичности является графическое изучение характера зависимости остатков от среднего вычисленного (теоретического) результативного признака, или соответствующих полей корреляции. Более строгими являются аналитические методы исследования и оценки гетероскедастичности. При значимом наличии гетероскедастичности целесообразно вместо МНК использовать обобщенный МНК (ОМНК).

Помимо требований к множественной регрессии, вытекающих из применения МНК, необходимо соблюдать также условия на переменные, включаемые в модель. К таковым, прежде всего, относятся требования относительно числа факторов модели по заданному объему наблюдений (1 к 7). В противном случае параметры регрессии окажутся статистически незначимыми. С точки зрения эффективности применения соответствующих численных методов при реализации МНК необходимо, чтобы число наблюдений превышало число оцениваемых параметров (в системе уравнений число уравнений более числа разыскиваемых переменных).

Наиболее существенным достижением эконометрики является значительное развитие самих методов оценивания неизвестных параметров и усовершенствование критериев выявления статической значимости рассматриваемых эффектов. В этом плане невозможность или нецелесообразность использования традиционного МНК по причине проявляющейся в той или иной степени гетероскедастичности привела к разработке обобщенного МНК (ОМНК). Фактически при этом корректируется модель, производится изменение ее спецификации, преобразуются исходные данные для обеспечения несмещенности, эффективности и состоятельности оценок коэффициентов регрессии.

Предполагается, что среднее остатков равно нулю, но их дисперсия уже не является постоянной, а пропорциональна величинам К i , где эти величины представляют собой коэффициенты пропорциональности, различные для различных значений фактора х. Таким образом, именно эти коэффициенты (величины К i) характеризуют неоднородность дисперсии. Естественно считается, что сама величина дисперсии, входящая общим множителем при этих коэффициентах пропорциональности, неизвестна.

Исходная модель после введения этих коэффициентов в уравнение множественной регрессии продолжает оставаться гетероскедастичной (точнее говоря, таковыми являются остаточные величины модели). Пусть эти остаточные величины (остатки) не являются автокоррелированными. Введем новые переменные, получающиеся делением исходных переменных модели, зафиксированных в результате i-го наблюдения, на корень квадратный из коэффициентов пропорциональности К i . Тогда получим новое уравнение в преобразованных переменных, в котором уже остатки будут гомоскедастичны. Сами новые переменные – это взвешенные старые (исходные) переменные.

Поэтому оценка параметров полученного таким образом нового уравнения с гомоскедастичными остатками будет сводиться к взвешенному МНК (по существу это и есть ОМНК). При использовании вместо самих переменных регрессии их отклонения от средних выражения для коэффициентов регрессии приобретают простой и стандартизированный (единообраззный) вид, незначительно различающийся для МНК и ОМНК поправочным множителем 1/К в числителе и знаменателе дроби, дающей коэффициент регрессии.

Следует иметь в виду, что параметры преобразованной (скорректированной) модели существенно зависят от того, какая концепция положена за основу для коэффициентов пропорциональности К i . Часто считают, что остатки просто пропорциональны значениям фактора. Наиболее простой вид модель принимает в случае, когда принимается гипотеза о том, что ошибки пропорциональны значениям последнего по порядку фактора. Тогда ОМНК позволяет повысить вес наблюдений с меньшими значениями преобразованных переменных при определении параметров регрессии по сравнению с работой стандартного МНК с первоначальными исходными переменными. Но эти новые переменные уже получают иное экономическое содержание.

Гипотеза о пропорциональности остатков величине фактора вполне может иметь под собой реальное обоснование. Пусть обрабатывается некая недостаточно однородная совокупность данных, например, включающая крупные и мелкие предприятия одновременно. Тогда большим объемным значениям фактора может соответствовать и большая дисперсия результативного признака и большая дисперсия остаточных величин. Далее использование ОМНК и соответствующий переход к относительным величинам не просто снижает вариацию фактора, но и уменьшает дисперсию ошибки. Тем самым реализуется наиболее простой случай учета и коррекции гетероскедастичности в регрессионных моделях посредством применения ОМНК.

Изложенный выше подход к реализации ОМНК в виде взвешенного МНК является достаточно практичным – он просто реализуется и имеет прозрачную экономическую интерпретацию. Конечно, это не самый общий подход и в контексте математической статистики, служащей теоретической основой эконометрики, нам предлагается значительно более строгий метод, реализующий ОМНК в самом общем виде. В нем необходимо знать ковариационную матрицу вектора ошибок (столбца остатков). А это в практических ситуациях как правило несправедливо, и отыскать эту матрицу как таковую бывает невозможно. Поэтому приходится, вообще говоря, каким-то образом оценивать искомую матрицу, чтобы использовать вместо самой матрицы такую оценку в соответствующих формулах. Тем самым описанный вариант реализации ОМНК представляет одну из таких оценок. Иногда его называют доступный обобщенный МНК.

Надо учитывать также, что коэффициент детерминации не может служить удовлетворительной мерой качества подгонки при использовании ОМНК. Возвращаясь к применению ОМНК отметим также, что достаточную общность имеет метод использования стандартных отклонений (стандартных ошибок) в форме Уайта (так называемые состоятельные стандартные ошибки при наличии гетероскедастичности). Этот метод применим при условии диагональности матрицы ковариаций вектора ошибок. Если же присутствует автокорреляция остатков (ошибок), когда в матрице ковариаций и вне главной диагонали имеются ненулевые элементы (коэффициенты), то следует применять более общий метод стандартных ошибок в форме Невье-Веста. При этом имеется существенное ограничение: ненулевые элементы помимо главной диагонали находятся только на соседних диагоналях, отстоящих от главной диагонали не более чем на определенную величину.

Из сказанного ясно, что необходимо иметь возможность проверять данные на гетероскедастичность. Этой цели служат приводимые ниже тесты. В них проверяется основная гипотеза о равенстве дисперсий остатков против альтернативной гипотезы (о неравенстве этих гипотез). Кроме того, имеются априорные структурные ограничения по поводу характера гетероскедастичности. В тесте Голдфелда-Куандта как правило используется предположение о прямой зависимости дисперсии ошибки (остатка) от величины некоторой независимой переменной. Схема применения этого теста такова. Сначала данные упорядочиваются по убыванию той независимой переменной, относительно которой имеется подозрение на гетероскедастичность. Затем в этом упорядоченном наборе данных исключаются несколько средних наблюдений, где слово «несколько» означает примерно четверть (25%) от общего количества всех наблюдений. Далее проводятся две независимые регрессии для первых из оставшихся (после выполненного исключения) средних наблюдений и двух последних из этих оставшихся средних наблюдений. После этого строятся два соответствующих остатка. Наконец, составляется F-статистика Фишера и если верна исследуемая гипотеза, то F действительно является распределением Фишера с соответствующими степенями свободы. Тогда большая величина этой статистики означает, что проверяемую гипотезу необходимо отвергнуть. Без шага исключения наблюдений мощность данного теста уменьшается.

Тест Бреуша-Пагана применяется в тех случаях, когда априорно предполагается, что дисперсии зависят от некоторых дополнительных переменных. Сначала проводится обычная (стандартная) регрессия и получается вектор остатков. Затем строится оценка дисперсии. Далее проводится регрессия квадрата вектора остатков деленного на эмпирическую дисперсию (оценку дисперсии). Для нее (регрессии) находят объясненную часть вариации. А для этой объясненной части вариации, деленной пополам, строится статистика. Если верна нулевая гипотеза, (справедливо отсутствие гетероскедастичности), то эта величина имеет распределение хи -квадрат. Если же тест, напротив, выявил гетероскедастичность, то исходная модель преобразуется делением компонентов вектора остатков на соответствующие компоненты вектора наблюдаемых независимых переменных.

36. Метод стандартных отклонений в форме Уайта.

Можно сделать следующие выводы. Применение ОМНК при наличии гетероскедастичности сводится к минимизации суммы взвешенных квадратов отклонений. Использование доступного ОМНК связано с необходимостью наличия большого количества наблюдений, превышающего количество оцениваемых параметров. Наиболее благоприятным для применения ОМНК является тот случай, когда ошибка (остатки) пропорциональна одной из независимых переменных и получаемые оценки являются состоятельными. Если все же в модели с гетероскедастичностью приходится применять не ОМНК, а стандартный МНК, то для получения состоятельных оценок можно использовать оценки ошибок в формеУайта или Невье-Веста.

При анализе временных рядов часто приходится учитывать статистическую зависимость наблюдений в различные моменты времени. В этом случае предположение о некоррелированности ошибок не выполняется. Рассмотрим простую модель, в которой ошибки образуют авторегрессионный процесс первого порядка. В этом случае ошибки удовлетворяют простому рекуррентному соотношению, в правой части которого одно из слагаемых это последовательность независимых нормально распределенных случайных величин с нулевым средним и постоянной дисперсией. Второе слагаемое это произведение параметра (коэффициента авторегрессии) на значения остатков в предыдущий момент времени. Сама последовательность значений ошибок (остатков) образует стационарный случайный процесс. Стационарный случайный процесс характеризуется постоянством своих характристик во времени, в частности, средней и дисперсии. При этом интересующая нас ковариационная матрица (ее члены) легко выписывается с помощью степеней параметра.

Оценивание модели с авторегрессией для известного параметра выполняется с помощью ОМНК. В этом случае достаточно просто свести исходную модель нехитрым преобразованием к модели, ошибки которой удовлетворяют условиям стандартной регрессионной модели. Весьма редко, но все же встречается ситуация, в которой параметр авторегрессии известен. Следовательно, вообще необходимо выполнять оценивание при неизвестном параметре авторегрессии. Существуют три наиболее употребительные процедуры такого оценивания. Метод Кохрейна-Оркатта, процедура Хилдрета-Лу и метод Дарбина.

В целом справедливы следующие выводы. Анализ временных рядов требует коррекции обычного МНК, поскольку ошибки в этом случае, как правило, коррелированы. Часто эти ошибки образуют стационарный авторегрессионный процесс первого порядка. МНК-оценки для авторегрессии первого порядка несмещены, состоятельны, но неэффективны. При известном коэффициенте авторегрессии ОМНК сводится к простым преобразованиям (коррекции) исходной системы и затем к применению стандартного МНК. Если, что чаще имеет место, коэффициент авторегрессии неизвестен, то имеются несколько процедур доступного ОМНК, которые заключаются в оценивании неизвестного параметра (коэффициента), после чего применяют те же преобразования, что и в предыдущем случае известного параметра.

37. Понятие о тесте Бреуша-Пагана, тесте Гольдфельдта-Квандта

Для общей оценки качества построенной эконометрической определяются такие характеристики как коэффициент детерминации, индекс корреляции, средняя относительная ошибка аппроксимации, а также проверяется значимость уравнения регрессии с помощью F -критерия Фишера. Перечисленные характеристики являются достаточно универсальными и могут применяться как для линейных, так и для нелинейных моделей, а также моделей с двумя и более факторными переменными. Определяющее значение при вычислении всех перечисленных характеристик качества играет ряд остатков ε i , который вычисляется путем вычитания из фактических (полученных по наблюдениям) значений исследуемого признака y i значений, рассчитанных по уравнению модели y рi .

Коэффициент детерминации

показывает, какая доля изменения исследуемого признака учтена в модели. Другими словами коэффициент детерминации показывает, какая часть изменения исследуемой переменной может быть вычислена, исходя из изменений включённых в модель факторных переменных с помощью выбранного типа функции, связывающей факторные переменные и исследуемый признак в уравнении модели.

Коэффициент детерминации R 2 может принимать значения от 0 до 1. Чем ближе коэффициент детерминации R 2 к единице, тем лучше качество модели.

Индекс корреляции можно легко вычислить, зная коэффициент детерминации:

Индекс корреляции R характеризует тесноту выбранного при построении модели типа связи между учтёнными в модели факторами и исследуемой переменной. В случае линейной парной регрессии его значение по абсолютной величине совпадает с коэффициентом парной корреляции r (x, y) , который мы рассмотрели ранее, и характеризует тесноту линейной связи между x и y . Значения индекса корреляции, очевидно, также лежат в интервале от 0 до 1. Чем ближе величина R к единице, тем теснее выбранный вид функции связывает между собой факторные переменные и исследуемый признак, тем лучше качество модели.

(2.11)

выражается в процентах и характеризует точность модели. Приемлимая точность модели при решении практических задач может определяться, исходя из соображений экономической целесообразности с учётом конкретной ситуации. Широко применяется критерий, в соответствии с которым точность считается удовлетворительной, если средняя относительная погрешность меньше 15%. Если E отн.ср. меньше 5%, то говорят, что модель имеет высокую точность. Не рекомендуется применять для анализа и прогноза модели с неудовлетворительной точностью, то есть, когда E отн.ср. больше 15%.

F-критерий Фишера используется для оценки значимости уравнения регрессии. Расчётное значение F-критерия определяется из соотношения:

. (2.12)

Критическое значение F -критерия определяется по таблицам при заданном уровне значимости α и степенях свободы (можно использовать функцию FРАСПОБР в Excel). Здесь, по-прежнему, m – число факторов, учтённых в модели, n – количество наблюдений. Если расчётное значение больше критического, то уравнение модели признаётся значимым. Чем больше расчётное значение F -критерия, тем лучше качество модели.

Определим характеристики качества построенной нами линейной модели для Примера 1 . Воспользуемся данными Таблицы 2. Коэффициент детерминации :

Следовательно, в рамках линейной модели изменение объёма продаж на 90,1% объясняется изменением температуры воздуха.

Индекс корреляции

.

Значение индекса корреляции в случае парной линейной модели как мы видим, действительно по модулю равно коэффициенту корреляции между соответствующими переменными (объём продаж и температура). Поскольку полученное значение достаточно близко к единице, то можно сделать вывод о наличии тесной линейной связи между исследуемой переменной (объём продаж) и факторной переменноё (температура).

F-критерий Фишера

Критическое значение F кр при α = 0,1; ν 1 =1; ν 2 =7-1-1=5 равно 4,06. Расчётное значение F -критерия больше табличного, следовательно, уравнение модели является значимым.

Средняя относительная ошибка аппроксимации

Построенная линейная модель парной регрессии имеет неудовлетворительную точность (>15%), и её не рекомендуется использовать для анализа и прогнозирования.

В итоге, несмотря на то, что большинство статистических характеристик удовлетворяют предъявляемым к ним критериям, линейная модель парной регрессии непригодна для прогнозирования объёма продаж в зависимости от температуры воздуха. Нелинейный характер зависимости между указанными переменными по данным наблюдений достаточно хорошо виден на Рис.1. Проведённый анализ это подтвердил.

Похожие публикации