Средняя ошибка аппроксимации определяется по формуле. Тогда средняя ошибка аппроксимации равна

Среди различных методов прогнозирования нельзя не выделить аппроксимацию. С её помощью можно производить приблизительные подсчеты и вычислять планируемые показатели, путем замены исходных объектов на более простые. В Экселе тоже существует возможность использования данного метода для прогнозирования и анализа. Давайте рассмотрим, как этот метод можно применить в указанной программе встроенными инструментами.

Наименование данного метода происходит от латинского слова proxima – «ближайшая» Именно приближение путем упрощения и сглаживания известных показателей, выстраивание их в тенденцию и является его основой. Но данный метод можно использовать не только для прогнозирования, но и для исследования уже имеющихся результатов. Ведь аппроксимация является, по сути, упрощением исходных данных, а упрощенный вариант исследовать легче.

Главный инструмент, с помощью которого проводится сглаживания в Excel – это построение линии тренда. Суть состоит в том, что на основе уже имеющихся показателей достраивается график функции на будущие периоды. Основное предназначение линии тренда, как не трудно догадаться, это составление прогнозов или выявление общей тенденции.

Но она может быть построена с применением одного из пяти видов аппроксимации:

Линейной;
Экспоненциальной;
Логарифмической;
Полиномиальной;
Степенной.

Рассмотрим каждый из вариантов более подробно в отдельности.

Способ 1: линейное сглаживание

Прежде всего, давайте рассмотрим самый простой вариант аппроксимации, а именно с помощью линейной функции. На нем мы остановимся подробнее всего, так как изложим общие моменты характерные и для других способов, а именно построение графика и некоторые другие нюансы, на которых при рассмотрении последующих вариантов уже останавливаться не будем.

Прежде всего, построим график, на основании которого будем проводить процедуру сглаживания. Для построения графика возьмем таблицу, в которой помесячно указана себестоимость единицы продукции, производимой предприятием, и соответствующая прибыль в данном периоде. Графическая функция, которую мы построим, будет отображать зависимость увеличения прибыли от уменьшения себестоимости продукции.

Сглаживание, которое используется в данном случае, описывается следующей формулой:

В конкретно нашем случае формула принимает такой вид:

y=-0,1156x+72,255

Величина достоверности аппроксимации у нас равна 0,9418 , что является довольно приемлемым итогом, характеризующим сглаживание, как достоверное.

Способ 2: экспоненциальная аппроксимация

Теперь давайте рассмотрим экспоненциальный тип аппроксимации в Эксель.

Общий вид функции сглаживания при этом такой:

где e – это основание натурального логарифма.

В конкретно нашем случае формула приняла следующую форму:

y=6282,7*e^(-0,012*x)

Способ 3: логарифмическое сглаживание

Теперь настала очередь рассмотреть метод логарифмической аппроксимации.

В общем виде формула сглаживания выглядит так:

где ln – это величина натурального логарифма. Отсюда и наименование метода.

В нашем случае формула принимает следующий вид:

y=-62,81ln(x)+404,96

Способ 4: полиномиальное сглаживание

Настал черед рассмотреть метод полиномиального сглаживания.

Формула, которая описывает данный тип сглаживания, приняла следующий вид:

y=8E-08x^6-0,0003x^5+0,3725x^4-269,33x^3+109525x^2-2E+07x+2E+09

Способ 5: степенное сглаживание

В завершении рассмотрим метод степенной аппроксимации в Excel.

Данный способ эффективно используется в случаях интенсивного изменения данных функции. Важно учесть, что этот вариант применим только при условии, что функция и аргумент не принимают отрицательных или нулевых значений.

Общая формула, описывающая данный метод имеет такой вид:

В конкретно нашем случае она выглядит так:

y = 6E+18x^(-6,512)

Как видим, при использовании конкретных данных, которые мы применяли для примера, наибольший уровень достоверности показал метод полиномиальной аппроксимации с полиномом в шестой степени (0,9844 ), наименьший уровень достоверности у линейного метода (0,9418 ). Но это совсем не значит, что такая же тенденция будет при использовании других примеров. Нет, уровень эффективности у приведенных выше методов может значительно отличаться, в зависимости от конкретного вида функции, для которой будет строиться линия тренда. Поэтому, если для этой функции выбранный метод наиболее эффективен, то это совсем не означает, что он также будет оптимальным и в другой ситуации.

Если вы пока не можете сразу определить, основываясь на вышеприведенных рекомендациях, какой вид аппроксимации подойдет конкретно в вашем случае, то есть смысл попробовать все методы. После построения линии тренда и просмотра её уровня достоверности можно будет выбрать оптимальный вариант.

Фактические значения интересующей нас величины отличаются от рассчитанных по уравнению регрессии. Чем меньше это отличие, чем ближе рассчитанные значения подходят к эмпирическим данным, тем лучше качество модели. Величина отклонений фактических и расчетных значений переменной величины по каждому наблюдению представляет собой ошибку аппроксимации. Так как отклонение может быть величиной как положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.

Отклонения () рассматриваются как абсолютная ошибка аппроксимации, тогда – относительная ошибка аппроксимации.

Средняя ошибка аппроксимации определяется как среднее арифметическое: . Иногда пользуются определением средней ошибки аппроксимации, имеющим вид .

Конец работы -

Эта тема принадлежит разделу:

Эконометрика

На сайте сайт читайте: экономических специальностей..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Состав исходной информации
Основной базой исходной информации для эконометрических исследований служат данные статистики либо данные бухгалтерского учета. Исследуемые эконометрикой взаимосвязи стохастичны по своей природе, т

Интерполяционный полином Лагранжа
Пусть имеется зависимость y = f(x) между величинами x и y, для которой нам известны отдельные точки (xi,yi), i = 0,1,2,…,

Случай 1.
Через одну точку (x0, y0) можно провести пучок прямых y = y0+b(x-x0) (2.1) (а также вертикальную пря

Случай 2.
Через две различные точки (x0,y0), (x1,y1) проходит одна и только одна прямая. Если x0 ¹

Случай 3.
Многочлен второй степени (квадратичная функция), график которой проходит через три точки (x0,y0), (x1,y1), (x2

Случай n.
Теперь ясно, что интерполяционный полином Лагранжа n-ой степени, график которого проходит через n+1 точку (xi,yi), i=0,1,2,…,n, можно записать в ви

Парная линейная регрессия. Метод наименьших квадратов
Пусть имеется n пар чисел (xi, yi), i=1,2,…,n, относительно которых предполагается, что они отвечают линейной зависимости между величинами x и y:

Множественная линейная регрессия
Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Но, существует обычно нескол

Нелинейные модели
Мы изучили применение метода наименьших квадратов для определения параметров, которые входят в функциональные зависимости линейно. Поэтому для них в параграфах 3 и 4 получились сист

Системы одновременных эконометрических уравнений
Объектом статистического изучения в социально-экономических науках являются сложные системы. Измерение тесноты связей между переменными, построение изолированных уравнений регрессии

Составляющие временного ряда
Временной ряд x(t) – это множество значений величины x, отвечающих последовательности моментов времени t, т.е. это функция t®x(t), которая обычно считает

Определение составляющих временного ряда
Одним из наиболее распространенных способов моделирования тенденции временного ряда является построение аналитической функции, характеризующей зависимость последовательных значений

При этом коэффициенты ak, bk будут равны
Если функция x (t) четная, т.е. выполняется равенство x (-t) = x (t), то в

Временной ряд как случайный процесс
Пусть значение экономического показателя x(t) в любой момент времени t представляет собой случайную величину X (t). Предположим, что слу

Модели ARIMA
В эконометрике анализ временных рядов с использованием оценки спектральной плотности (спектральный анализ) играет, как правило, вспомогательную роль, помогая установить периоды хара

Учет сезонных составляющих
Обобщение модели ARIMA, позволяющие учесть периодические (сезонные) составляющие временного ряда было предложено Дж. Боксом и Г. Дженкинсом . Этот метод реализован в систе

Анализ погрешностей исходной информации
Значения экономических показателей обычно известны неточно, с некоторой погрешностью. Рассмотрим основные правила обработки данных, содержащих погрешности, или ошибки измерений. Пус

Доверительные интервалы
Введем случайную величину. (13.1) Нетрудно проверить, что xÎN(0,1), вследствие ч

Расчет погрешностей
Эмпирические данные часто подвергаются математической обработке – над ними выполняются арифметические операции сложения, вычитания, умножения и деления, в некоторых случаях

Коэффициент детерминации
Коэффициент детерминации характеризует качество регрессионной модели. Значения различных величин, получ

Принцип максимального правдоподобия. Построение регрессионных моделей при гетероскедастичности ошибок
Для нахождения неизвестных величин по результатам измерений, содержащих случайные погрешности, служит метод наименьших квадратов (МНК). Определяемые величины обычно связаны уравнениями, образующими

Статистические гипотезы
В предыдущих параграфах рассматривалась методика моделирования взаимосвязей экономических показателей и процессов. С помощью полученных уравнений регрессии моделировалась эта связь.

F – статистика
Значимость регрессионной модели определяется с помощью F-критерия Фишера. Для этого вычисляется отношение

T – статистика
Для оценки значимости отдельных параметров регрессионной модели y=a+bx+e их величина сравнивается с их стандартной ошибкой. При этом рассчитывается так называемый

5. С использованием F- критерия установлено, что полученное уравнение парной регрессии в целом является статистически незначимым, и неадекватно описывает изучаемое явление связи величины ежемесячной пенсии у с величиной прожиточного минимума х.

6. Сформирована эконометрическая модель множественной линейной регрессии, связывающая величину чистого дохода условной фирмы у с оборотом капитала х1 и использованным капиталом х2

7. Путем расчета коэффициентов эластичности показано, что при изменении оборота капитала на 1% величина чистого дохода копании изменяется на 0,0008%, а при изменении использованного капитала на 1% величина чистого дохода компании изменяется на 0,56%.

8. С использованием t-критерия выполнена оценка статистической значимости коэффициентов регрессии Установлено, что объясняющая переменная х 1 является статистически незначимой и ее можно исключить из уравнения регрессии, в тоже время объясняющая переменная х 2 является статистически значимой.

9. С использованием F-критерия установлено, что полученное уравнение парной регрессии в целом является статистически значимым, и адекватно описывает изучаемое явление связи величины чистого дохода условной фирмы у с оборотом капитала х 1 и использованным капиталом х 2 .

10. Рассчитана средняя ошибка аппроксимации статистических данных линейным уравнением множественной регрессии, которая составила 29,8%. Показано, за счет какого наблюдения в статистической базе величина данной ошибки превышает допустимое значение.

14. Построение модели парной регрессии без использования EXCEL.

Используя статистический материал, приведенный в таблице 3.5 необходимо:

2.Оценить тесноту связи с помощью показателей корреляции и детерминации.

3.Используя коэффициент эластичности, определить степень связи факторного признака с результативным.

4.Определить среднюю ошибку аппроксимации.

5.Оценить с помощью F-критерия Фишера статистическую надежность моделирования.

Таблица 3.5. Исходные данные.

	Доля денежных доходов, направленных на прирост сбережений во вкладах, займах, сертификатах и на покупку валюты, в общей сумме среднедушевого денежного дохода, %	Среднемесячная начисленная заработная плата, у.д.е.

Калужская
Костромская
Орловская
Рязанская
Смоленская

Для определения неизвестных параметров b 0 , b 1 уравнения парной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид

(3.7)

Для решения этой системы вначале необходимо определить значения величин Sх 2 и Sху. Эти значения определяем из таблицы исходных данных, дополняя ее соответствующими колонками (таблица 3.6).

Таблица 3.6. К расчету коэффициентов регрессии.

Тогда система (3.7) приобретает вид

Выражая из первого уравнения b 0 и подставляя полученное выражение во второе уравнение получим:

Производя почленное умножение и раскрывая скобки, получим:

Окончательно уравнение парной линейной регрессии, связывающее величину доли денежных доходов населения, направленных на прирост сбережений у с величиной среднемесячной начисленной заработной платы х имеет вид:

Так, как построено уравнение парной линейной регрессии, то определяем линейный коэффициент корреляции по зависимости:

где- значения среднеквадратических отклонений соответствующих параметров.

Для расчета линейного коэффициента корреляции по зависимости (3.9) выполним промежуточные расчеты.

Подставляя значения найденных параметров в выражение (3.9) получим

Полученное значение линейного коэффициента корреляции свидетельствует о наличии слабой обратной статистической связи между величиной доли денежных доходов населения, направленных на прирост сбережений у и величины среднемесячной начисленной заработной платы х.

Коэффициент детерминации равен , что означает, что только 9,6% объясняется регрессией объясняющей переменнойх на величину у. Соответственно величина 1-равная 90,4 % характеризует долю дисперсии переменнойу, вызванную влиянием всех остальных, неучтенных в эконометрической модели объясняющих переменных.

Коэффициент эластичности равен

Следовательно, при изменении величины среднемесячной начисленной заработной платы на 1% величина доли денежных доходов населения, направленных на прирост сбережений также снижается на 1%, причем при увеличении заработной платы наблюдается снижение величины доли денежных доходов населения, направленных на прирост сбережений. Данный вывод противоречит здравому смыслу и может быть объяснен только некорректностью сформированной математической модели.

Рассчитаем среднюю ошибку аппроксимации.

Таблица 3.7. К расчету средней ошибки аппроксимации.

Полученное значение превышает (12…15)%, что свидетельствует о существенности среднего отклонения расчетных данных от фактических, по которым построена эконометрическая модель.

Надежность статистического моделирования выполним на основе F-критерия Фишера. Теоретичное значение критерия Фишера F расч определяется из соотношения значений факторной и остаточнойдисперсий, рассчитанных на одну степень свободы по формуле

где n -число наблюдений;

m-число объясняющих переменных (для рассматриваемого примераm m =1).

Критическое значение F крит определяется по статистическим таблицам и для уровня значимости a = 0, 05 равняется 10,13. Так как F расч

15. Построение модели множественной регрессии без использования EXCEL.

Используя статистический материал, приведенный в таблице 3.8 необходимо:

1. Построить линейное уравнение множественной регрессии, пояснить экономический смысл его параметров.

2. Дать сравнительную оценку тесноты связи факторов с результативным признаком с помощью средних (общих) коэффициентов эластичности.

3. Оценить статистическую значимость коэффициентов регрессии с помощью t-критерия и нулевую гипотезу о не значимости уравнения с помощью F-критерия.

4. Оценить качество уравнения посредством определения средней ошибки аппроксимации.

Таблица 3.8. Исходные данные.

Чистый доход, млн. долл. США	Оборот капитала млн. долл. США	Использованный капитал,млн. долл. США

Для определения неизвестных параметров b 0 , b 1 , b 2 уравнения множественной линейной регрессии используем стандартную систему нормальных уравнений, которая имеет вид

(3.11)

Для решения этой системы вначале необходимо определить значения величин Sх 1 2 , Sх 2 2 , Sх 1 у, Sх 2 у, Sх 1 х 2 . Эти значения определяем из таблицы исходных данных, дополняя ее соответствующими колонками (таблица 3.9).

Таблица 3.9. К расчету коэффициентов регрессии.

Тогда система (3.11) приобретает вид

Для решения данной системы воспользуемся методом Гаусса, который заключается в последовательном исключении неизвестных: делим первое уравнение системы на 10, затем умножаем полученное уравнение на 370,6 и вычитаем его из второго уравнения системы, далее умножаем полученное уравнение на 158,20 и вычитаем его из третьего уравнения системы. Повторяя указанный алгоритм для преобразованных второго и третьего уравнений системы получим:

ÞÞ

Þ.

После преобразования имеем:

Тогда окончательно зависимость чистого дохода от оборота капитала и использованного капитала в виде линейного уравнения множественной регрессии имеет вид:

Из полученного эконометрического уравнения видно, что с увеличением используемого капитала чистый доход увеличивается и наоборот с увеличением оборота капитала, чистый доход уменьшается. Кроме того, чем больше величина коэффициента регрессии, тем значительнее влияние объясняющей переменной на зависимую переменную. В рассматриваемом примере величина коэффициента регрессии больше чем величина коэффициентаследовательно, используемый капитал оказывает значительно большее влияние на чистый доход, чем оборот капитала. Для количественной оценки указанного вывода определим частные коэффициенты эластичности.

Анализ полученных результатов так же показывает, что большее влияние на чистый доход оказывает используемый капитал. Так в частности, при увеличении используемого капитала на 1% чистый доход увеличиваетсяна 1,17%. В то же время с ростом оборота капитала на 1%, чистый доход снижается на 0,5%.

Теоретическое значение критерия Фишера F расч

Величина критического значения F крит, определяется по статистическим таблицам и для уровня значимости a = 0,05 равняется 4,74. Так как F расч > F крит, то нулевая гипотеза отвергается, и полученное уравнение регрессии принимается статистически значимым.

Оценка статистической значимости коэффициентов регрессии ипоt-критерию сводится к сопоставлению численного значения этих коэффициентов с величиной их случайных ошибок ипо зависимости:

Рабочая формула для расчета теоретического значения t-статистики имеет вид:

, (3.13)

где парные коэффициенты корреляции и коэффициент множественной корреляции рассчитываются по зависимостям:

Тогда теоретические (расчетные) значения t-статистик соответственно равны:

Поскольку критическое значение t-статистики, определенное по статистическим таблицам для уровня значимости a=0,05 равное t крит =2,36 больше по абсолютной величине чем = - 1,798, то нулевая гипотеза не отвергается и объясняющая переменная х 1 является статистически незначимой и ее можно исключить из уравнения регрессии. И наоборот, для второго коэффициента регрессии> t крит (3,3 >2,36),и объясняющая переменная х 2 является статистически значимой.

Рассчитаем средней ошибки аппроксимации.

Таблица 3.10. К расчету средней ошибки аппроксимации.

Тогда средняя ошибка аппроксимации равна

Полученное значение не превышает допустимого предела равного (12…15)%.

16. История развития теории измерений

Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С. Стивене основное внимание уделял шкалам измерения. Во второй половине XX в. сфера применения ТИ стремительно расширяется. Один из томов выпущенной в США в 50-х годах «Энциклопедии психологических наук» назывался «Психологические измерения». Составители этой публикации расширили сферу применения ТИ с психофизики на психологию в целом. В статье этого сборника «Основы теории измерений» , изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения. В ней упор был сделан на «гомоморфизмах эмпирических систем с отношениями в числовые» (в эти математические термины здесь вдаваться нет необходимости), и математическая сложность изложения возросла по сравнению с работами С.С. Стивенса.

В одной из первых отечественных статей по ТИ (конец 60-х годов) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, как правило, измерены в порядковой шкале. Работы, появившиеся в начале 70-х годов, привели к существенному расширению области использования ТИ. Ее применяли к педагогической квалиметрии (измерению качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

В качестве двух основных проблем ТИ наряду с установлением типа шкалы измерения конкретных данных был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования).Порядковыми шкалами в географии являются бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком) ровно в 5 раз слабее, чем землетрясение в 10 баллов (полное разрушение всего на поверхности земли).

В медицине порядковыми шкалами являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия... Иногда выделяют стадии 1а, 16 и др. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используют в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.

Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.

При оценке качества продукции и услуг, в так называемой квалиметрии (буквальный перевод - измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Аналогичный смысл имеет сортность продукции - высший сорт, первый сорт, второй сорт,...

При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует). Аналогична эколого-медицинская шкала: нет выраженного воздействия на здоровье людей - отмечается отрицательное воздействие на здоровье.

Порядковая шкала используется и в других областях. В эконометрике это прежде всего различные методы экспертных оценок.

Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков. Порядковая шкала и шкала наименований - основные шкалы качественных признаков, поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам. Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: °С = 5/9 (°F - 32), где °С - температура (в градусах) по шкале Цельсия, a °F - температура по шкале Фаренгейта.

Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями в шкале отношений являются подобные (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена, например, пересчет цен из одной валюты в другую по фиксированному курсу. Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту Китая - юани, используя фиксированный курс пересчета. Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого условия, и надо проверять, что оно выполнено. Результаты подобной проверки для средних величин описаны ниже.

В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент Рождества Христова.

Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова, например, число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы). Кроме перечисленных шести основных типов шкал, иногда используют и иные шкалы.

17. Инвариантные алгоритмы и средние величины.

Сформулируем основное требование к алгоритмам анализа данных в ТИ: выводы, сделанные на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных. Другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы.

Таким образом, одна из основных целей теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в аршинах, метрах, микронах, милях, парсеках и других единицах измерения. Массу (вес) - в пудах, килограммах, фунтах и др. Цены на товары и услуги можно указывать в юанях, рублях, тенге, гривнах, латах, кронах, марках, долларах США и других валютах (при условии заданных курсов пересчета). Подчеркнем очень важное, хотя и вполне очевидное обстоятельство: выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, когда они инвариантны относительно допустимого преобразования шкалы. Из многих алгоритмов эконометрического анализа данных этому условию удовлетворяют лишь некоторые. Покажем это на примере сравнения средних величин.

Пусть Х 1 , Х 2 ,.., Х n - выборка объема n. Часто используют среднее арифметическое. Использование среднего арифметического настолько привычно, что второе слово в термине часто опускают и говорят о средней зарплате, среднем доходе и других средних для конкретных экономических данных, подразумевая под «средним» среднее арифметическое. Такая традиция может приводить к ошибочным выводам. Покажем это на примере расчета средней заработной платы (среднего дохода) работников условного предприятия. Из 100 работников лишь 5 имеют заработную плату, ее превышающую, а зарплата остальных 95 существенно меньше средней арифметической. Причина очевидна - заработная плата одного человека - генерального директора - превышает заработную плату 95 работников - низкоквалифицированных и высококвалифицированных рабочих, инженеров и служащих. Ситуация напоминает описанную в известном рассказе о больнице, в которой 10 больных, из них у 9 температура 40°С, а один уже отмучился, лежит в морге с температурой 0°С. Между тем средняя температура по больнице равна 36°С - лучше не бывает!

Таким образом, среднее арифметическое можно использовать лишь для достаточно однородных совокупностей (без больших выбросов в ту или иную сторону). А какие средние использовать для описания заработной платы? Вполне естественно использовать медиану - среднее арифметическое 50-го и 51-го работника, если их заработные платы расположены в порядке неубывания. Сначала идут зарплаты 40 низкоквалифицированных рабочих, а затем - с 41-го до 70-го работника - заработные платы высококвалифицированных рабочих. Следовательно, медиана попадает именно на них и равна 200. У 50-ти работников заработная плата не превосходит 200, и у 50-ти - не менее 200, поэтому медиана показывает «центр», около которого группируется основная масса исследуемых величин. Еще одна средняя величина - мода, наиболее часто встречающееся значение. В рассматриваемом случае это заработная плата низкоквалифицируемых рабочих, т.е. 100. Таким образом, для описания зарплаты имеем три средние величины - моду (100 единиц), медиану (200 единиц) и среднее арифметическое (400 единиц).

Для наблюдающихся в реальной жизни распределений доходов и заработной платы справедлива та же закономерность: мода меньше медианы, а медиана меньше среднего арифметического.

Для чего в экономике используются средние величины? Обычно для того, чтобы заменить совокупность чисел одним числом, чтобы сравнивать совокупности с помощью средних. Пусть, например, Y 1 , Y 2 ,..., Y n - совокупность оценок экспертов, «выставленных» одному объекту экспертизы (например, одному из вариантов стратегического развития фирмы), Z 1, Z 2 ,..., Z n -второму (другому варианту такого развития). Как сравнивать эти совокупности? Очевидно, самый простой способ - по средним значениям.

А как вычислять средние? Известны различные виды средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое. Напомним, что общее понятие средней величины введено французским математиком первой половины XIX в. академиком О. Коши. Оно таково: средней величиной является любая функция Ф(Х 1 , Х 2 ,..., Х n) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел Х 1, Х 2 ,..., Х n , и не больше, чем максимальное из этих чисел. Все перечисленные выше виды средних являются средними по Коши.

При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом как основное требование в ТИ). Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы.

Пусть Ф(Х 1 Х 2 ,..., Х n) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности: тогда согласно ТИ для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований в соответствующей шкале было справедливо, что среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y 1 , Y 2 ,...,Y n и Z 1, Z 2 ,..., Z n и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, назовем допустимыми (в соответствующей шкале). Согласно ТИ только такими средними можно пользоваться при анализе мнений экспертов и иных данных, измеренных в рассматриваемой шкале.

С помощью математической теории, развитой в 1970-х годах, удается описать вид допустимых средних в основных шкалах. Понятно, что для данных, измеренных в шкале наименований, качестве среднего годится только мода.

18. Средние величины в порядковой шкале

Рассмотрим обработку мнений экспертов, измеренных в порядковой шкале. Справедливо следующее утверждение.

Теорема 1 . Из всех средних по Коши допустимыми средними в порядковой шкале являются только члены вариационного ряда (порядковые статистики).

Теорема 1 справедлива при условии, что среднее Ф(Х 1 Х 2 ,..., Х n) является непрерывной (по совокупности переменных) и симметрической функцией. Последнее означает, что при перестановке аргументов значение функции Ф(Х 1 Х 2 ,..., Х n) не меняется. Это условие является вполне естественным, ибо среднюю величину мы находим для совокупности (множества), а не для последовательности. Множество не меняется в зависимости от того, в какой последовательности мы перечисляем его элементы.

Согласно теореме 1 в качестве среднего для данных, измеренных в порядковой шкале, можно использовать, в частности медиану (при нечетном объеме выборки). При четном же объеме следует применять один из двух центральных членов вариационного ряда - как их иногда называют, левую медиану или правую медиану. Моду тоже можно использовать - она всегда является членом вариационного ряда. Но никогда нельзя рассчитывать среднее арифметическое, среднее геометрическое и т.д.

Справедлива следующая теорема.

Теорема 2 . Пусть Y 1 , Y 2 ,...,Y m - независимые одинаково распре-еленные случайные величины с функцией распределения F(x), a Z 1, Z 2 ,..., Z n - независимые одинаково распределенные случайные величины с функцией распределения Н(х), причем выборки Y 1 , Y 2 ,...,Y m и Z 1 , Z 2 ,..., Z n независимы между собой и MY X > MZ X . Для того, чтобы вероятность события стремилась к 1 при min(m, n) для любой строго возрастающей непрерывной функции g, удовлетворяющей условию |g i |>X необходимо и достаточно, чтобы при всех х выполнялось неравенство F(x) < Н(х), причем существовало число х 0 , для которого F(x 0)

Примечание. Условие с верхним пределом носит чисто внутриматематический характер. Фактически функция g - произвольное допустимое преобразование в порядковой шкале.

Согласно теореме 2 средним арифметическим можно пользоваться и в порядковой шкале, если сравниваются выборки из двух распределений, удовлетворяющих приведенному в теореме неравенству. Проще говоря, одна из функций распределения должна всегда лежать над другой. Функции распределения не могут пересекаться, им разрешается только касаться друг друга. Это условие выполнено, например, если функции распределения отличаются только сдвигом:

F(x) = Н(х + ∆)

при некотором ∆.

Последнее условие выполняется, если два значения некоторой величины измеряются с помощью одного и того же средства измерения, у которого распределение погрешностей не меняется при переходе от измерения одного значения рассматриваемой величины к измерению другого.

Средние по Колмогорову

Обобщением нескольких из перечисленных выше средних является среднее по Колмогорову. Для чисел Х 1, Х 2 ,..., Х n среднее по Колмогорову вычисляется по формуле

G{(F(X l) + F(X 2)+...F(X n))/n},

где F - строго монотонная функция (т.е. строго возрастающая или строго убывающая),

G - функция, обратная к F.

Среди средних по Колмогорову - много хорошо известных персонажей. Так, если F(x) = х, то среднее по Колмогорову - это среднее арифметическое, если F(x) = lnx, то среднее геометрическое, если F(x) = 1/х, то среднее гармоническое, если F(x) = х 2 , то среднее квадратическое, и т.д. Среднее по Колмогорову - частный случай среднего по Коши. С другой стороны, такие популярные средние, как медиана и мода, нельзя представить в виде средних по Колмогорову. В монографии доказаны следующие утверждения.

Теорема 3 . При справедливости некоторых внутриматематических условий регулярности в шкале интервалов из всех средних по Колмогорову допустимым является только среднее арифметическое. Таким образом, среднее геометрическое или среднее квадратическое температур (в шкале Цельсия) или расстояний не имеют смысла. В качестве среднего надо применять среднее арифметическое. А также можно использовать медиану или моду.

Теорема 4 . При справедливости некоторых внутриматематических условий регулярности в шкале отношений из всех средних по Колмогорову допустимыми являются только степенные средние с F(x) = х с, и среднее геометрическое.

Замечание. Среднее геометрическое является пределом степенных средних при с > 0.

Есть ли средние по Колмогорову, которыми нельзя пользоваться в шкале отношений? Конечно, есть. Например F(x) = е х.

Аналогично средним величинам могут быть изучены и другие статистические характеристики - показатели разброса, связи, расстояния и др. . Нетрудно показать, например, что коэффициент корреляции не меняется при любом допустимом преобразовании в пиале интервалов, как и отношение дисперсий, дисперсия не меняется в шкале разностей, коэффициент вариации - в шкале отношений, и т.д.

Приведенные выше результаты о средних величинах широко применяются, причем не только в экономике, менеджменте, теории экспертных оценок или социологии, но и в инженерном деле, например, для анализа методов агрегирования датчиков в АСУ ТП доменных печей. Велико прикладное значение ТИ в задачах стандартизации и управления качеством, в частности в квалиметрии, где получены интересные теоретические результаты. Так, например, любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю (эта теорема доказана проф. В.В. Подиновским). Следовательно приведенные выше краткие сведения о ТИ и ее методах объединяют в некотором смысле экономику, социологию и инженерные науки и являются адекватным аппаратом для решения сложнейших проблем, не поддававшихся ранее эффективному анализу, более того т.о. открывается путь к построению реалистических моделей и решению задачи прогноза.

22. Парная линейная регрессия

Обратимся теперь к более подробному изучению простейшего случая парной линейной регрессии. Линейная регрессия описывается простейшей функциональной зависимостью в виде уравнения прямой линии и характеризуется прозрачной интерпретацией параметров модели (коэффициентов уравнения). Правая часть уравнения позволяет по заданным значениям регрессора (объясняющей переменной) получить теоретические (расчетные) значения результативного (объясняемого) переменного. Эти значения иногда называют также прогнозируемыми (все в том же смысле), т.е. получаемыми по теоретическим формулам. Однако при выдвижении гипотезы о характере зависимости еще остаютсянеизвестными коэффициенты уравнения. Вообще говоря, получение приближенных значений этих коэффициентов возможно различными методами.

Но наиболее важным и распространенным из них является метод наименьших квадратов (МНК). Он основан (как уже объяснялось) на требовании минимизации суммы квадратов отклонений фактических значений результативного признака от расчетных (теоретических). Вместо теоретических значений (для их получения) подставляют правые части уравнения регрессии в сумму квадратов отклонений, а затем находят частные производные от этой функции (суммы квадратов отклонений фактических значений результативного признака от теоретических). Эти частные производные берутся не по переменным х и у, а по параметрам а и b. Частные производные приравнивают к нулю и после несложных, но громоздких преобразований получают систему нормальных уравнений для определения параметров. Коэффициент припеременном х, т.е. b называется коэффициентом регрессии, он показывает среднее изменение результата с изменением фактора на одну единицу. Параметр а может не иметь экономической интерпретации, особенно, если знак этого коэффициента отрицателен.

Парная линейная регрессия используется для изучения функции потребления. Коэффициент регрессии в функции потребления используется для расчета мультипликатора. Практически всегда уравнение регрессии дополняется показателем тесноты связи. Для простейшего случая линейной регрессии этим показателем тесноты связи является линейный коэффициент корреляции. Но так как линейный коэффициент корреляции характеризует тесноту связи признаков в линейной форме, то близость абсолютной величины линейного коэффициента корреляции к нулю еще не служит показателем отсутствия связи между признаками.

Именно при другом выборе спецификации модели и следовательно виде зависимости фактическая связь может оказаться довольно близкой к единице. А вот качество подбора линейной функции определяется с помощью квадрата линейного коэффициента корреляции - коэффициент детерминации. Он характеризует долю дисперсии результативного признака у, объясняемую регрессией в общей дисперсии результативного признака. Величина, дополняющая коэффициент детерминации до 1 характеризует долю дисперсии, вызванную влиянием остальных факторов, не учтенных в модели (остаточной дисперсии).

Парная регрессия представляется уравнением связи двух переменных у и х следующего вида:

где у – зависимая переменная (результативный признак), а х – независимая переменная (объясняющая переменная, или признак-фактор). Бывает линейная регрессия и нелинейная регрессия. Линейная регрессия описывается уравнением вида:

y = a+ bx + .

Нелинейная регрессия в свою очередь может быть нелинейной относительно включенных в анализ объясняющих переменных, но линейной по оцениваемым параметрам. А может быть регрессия нелинейная по оцениваемым параметрам. В качестве примеров регрессии, нелинейной по объясняющим переменным, но линейной по оцениваемым параметрам можно указать полиномиальные зависимости различных степеней (многочлены) и равностороннюю гиперболу.

Нелинейной регрессией по оцениваемым параметрам является степенная относительно параметра (параметр стоит в показателе степени) зависимость, показательная зависимость, где параметр стоит в основании степени и экспоненциальная зависимость, когда вся линейная зависимость целиком находится в показателе экспоненты. Отметим, что во всех этих трех случаях случайный компонент (случайный остаток)  входит в правую часть уравнения в виде сомножителя, а не в виде слагаемого, т.е. мультипликативно! Среднее отклонение расчетных значений результативного признака от фактических характеризуется средней ошибкой аппроксимации. Она выражается в процентах и не должна превышать 7-8%. Эта средняя ошибка аппроксимации является просто выраженной в процентах средней относительных величин разностей фактических и расчетных значений.

Важное значение имеет средний коэффициент эластичности, который служит важной характеристикой многих экономических явлений и процессов. Он вычисляется как произведение значения производной данной функциональной зависимости на отношение средней величины х к средней величине у. Коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора х на 1% от его (фактора х) среднего значения.

С парной регрессией и с множественной регрессией (когда имеется множество факторов) и с остаточной дисперсией тесно связаны задачи дисперсионного анализа. Дисперсионный анализ исследует дисперсию зависимой переменной. При этом общая сумма квадратов отклонений разбивается на две части. Первое слагаемое это сумма квадратов отклонений, обусловленная регрессией, или объясненная (факторная). Второе слагаемое это остаточная сумма квадратов отклонений, необъясненная факторной регрессией.

Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации, который есть не что иное как отношение суммы квадратов отклонений, обусловленной регрессией к общей сумме квадратов отклонений (первого слагаемого ко всей сумме).

Когда параметры модели (коэффициенты при неизвестных) определяются с помощью метода наименьших квадратов, то, по существу, находятся (в процессе получения оценок) некоторые случайные величины. Особую важность представляет оценка коэффициента регрессии, который является некоторой особой формой случайной величины. Свойства этой случайной величины зависят от свойств остаточного члена в уравнении(в модели). Рассмотрим для модели парной линейной регрессии объясняющую переменную х как неслучайную экзогенную переменную. Это всего лишь означает, что значения переменной х во всех наблюдениях можно считать заранее заданными и никак не связанными с исследуемой зависимостью. Таким образом, фактическая величина объясняемой переменной состоит из двух составляющих: неслучайной и случайной составляющей (остаточного члена).

С другой стороны коэффициент регрессии, определяемый по методу наименьших квадратов (МНК) равен частному от деления ковариации переменных х и у на дисперсию переменной х. Поэтому он также содержит случайную составляющую. Ведь ковариация зависит от значений переменной у, где значения переменной у зависят от значений случайного остаточного члена . Далее нетрудно показать, что ковариация переменных х и у равна произведению оцениваемого коэффициента регрессии бета () на дисперсию переменного х, сложенному с ковариацией переменных х и . Таким образом оценка коэффициента регрессии бета равна самому этому неизвестному коэффициенту регрессии, сложенному с частным от деления ковариации переменных х и  на дисперсию переменного х. Т.е. оценка коэффициента регрессии bполученная по любой выборке представляется в виде суммы двух слагаемых: постоянной величины, равной истинному значению коэффициента  (бета), и из случайной составляющей, зависящей от ковариации переменных х и .

23. Математические условия Гаусса-Маркова и их применение.

Чтобы регрессионный анализ, основанный на обычном МНК давал наилучшие результаты, случайный член должен удовлетворять четырем условиям Гаусса-Маркова.

Математическое ожидание случайного члена равняется нулю, т.е. он является несмещенным. Если уравнение регрессии включает постоянное слагаемое, то естественно считать выполненным такое требование, поскольку это постоянное слагаемое и должно учитывать любую систематическую тенденцию в значениях переменной у, которую напротив не должны содержать объясняющие переменные уравнения регрессии.

Дисперсия случайного члена постоянна для всех наблюдений.

Ковариация значений случайных величин, образующих выборку должна быть равна нулю, т.е. отсутствует систематическая связь между значениями случайного члена в любых двух конкретных наблюдениях. Случайные члены должны быть независимы друг от друга.

Закон распределения случайного члена должен быть независим от объясняющих переменных.

Более того, во многих применениях объясняющие переменные не являются стохастическими, т.е. не имеют случайной составляющей. Значение любой независимой переменной в каждом наблюдении должно считаться экзогенным, полностью определяемым внешними причинами, не учитываемыми в уравнении регрессии.

Вместе с указанными условиями Гаусса-Маркова предполагают также, что случайный член имеет нормальное распределение. Оно справедливо при весьма широких условиях и основывается на так называемой центральной предельной теореме (ЦПТ). Суть этой теоремы в том, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не оказывает преобладающего влияния на поведение этого общего результата, то такая результирующая случайная величина будет описываться приблизительно нормальным распределением. Эта близость к нормальному распределению позволяет использовать для получения оценок нормальное распределение и являющееся в известном смысле его обобщением распределение Стьюдента, которое отличается заметно от нормального главным образом на так называемых «хвостах», т.е. при малых значениях объема выборки. Важно также, что если случайный член будет распределен нормально, то и коэффициенты регрессии также будут распределены по нормальному закону.

Установленная регрессионная кривая (уравнение регрессии) позволяет решить задачу так называемого точечного прогноза. В таких расчетах берется некоторое значение х вне исследованного интервала наблюдений и подставляется в правую часть уравнения регрессии (процедура экстраполяции). Т.к. уже известны оценки для коэффициентов регрессии, то можно рассчитать соответствующее взятому значению величины х значение объясняемой переменной у. Естественно, что в соответствии со смыслом предсказания (прогноза) расчеты проводятся вперед (в область будущих значений).

Однако поскольку коэффициенты были определены с определенной погрешностью, то интерес представляет не точечная оценка (точечный прогноз) для результативного признака, а знание того в каких пределах с определенной вероятностью будут лежать значения результативного признака, соответствующее взятому значению фактора х.

Для этого рассчитывается величина стандартной ошибки (среднеквадратичного отклонения). Она может быть получена в духе уже только что сказанного следующим образом. В уравнение линейной регрессии подставляется выражение свободного члена a из оценок через средние величины. Тогда получается, что стандартная ошибка зависит от ошибки средней результативного фактора у и аддитивно от ошибки коэффициента регрессии b. Попросту квадрат этой стандартной ошибки равен сумме квадрата ошибки среднего величины у и произведения квадрата ошибки коэффициента регрессии на квадрат отклонения величины фактора х и его среднего. Далее первое слагаемое согласно законам статистики равно частному от деления дисперсии генеральной совокупности на величину (объем) выборки.

Вместо неизвестной дисперсии в качестве оценки используется выборочная дисперсия. Соответственно ошибка коэффициента регрессии определяется как частное от деления выборочной дисперсии на дисперсию фактора х. Можно получить величину стандартной ошибки (среднего квадратичного отклонения) и изиных соображений, более независимых от модели линейной регрессии. Для этого используется понятие средней ошибки и предельной ошибки и связь между ними.

Но и после получения стандартной ошибки остается вопрос о границах, в которых будет лежать прогнозное значение. Иначе говоря об интервале погрешности измерения, в естественном во многих случаях предположении, что середина этого интервала дается рассчитанным (средним) значением результативного фактора у. Здесь на помощь приходит центральная предельная теорема, которая как раз и указывает с какой вероятностью неизвестная величина находится в пределах этого доверительного интервала.

По существу формула стандартной ошибки независимо от того каким образом и в каком виде она получена характеризует ошибку положения линии регрессии. Величина стандартной ошибки достигает минимума при совпадении значения фактора х со средним значением фактора.

24. Статистическая проверка гипотез и оценка значимости линейной регрессии по критерию Фишера.

После того как найдено уравнение линейной регрессии, производится оценка значимости как уравнения в целом, так и отдельных его параметров. Оценка значимости уравнения регрессии в целом может выполняться с помощью различных критериев. Достаточно распространенным и эффективным является применение F-критерия Фишера. При этом выдвигается нулевая гипотеза Н о, что коэффициент регрессии равен нулю, т.е. b=0, и, следовательно, фактор х не оказывает влияния на результат у. Непосредственному расчету F-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на две части - «объясненную» и «необъясненную»:

Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения у вызвана влиянием множества факторов.

Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси ОХ и у=у. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию.

Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации будет приближаться к единице. Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности или с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных [(у 1 -у),(у 2 -у),...{у n -у)] требуется для образования данной суммы квадратов. Так, для общей суммы квадратов ∑(у-у ср) 2 требуется (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) число отклонений. При расчете объясненной или факторной суммы квадратов ∑(у-у ср) 2 используются теоретические (расчетные) значения результативного признака у*, найденные по линии регрессии: у(х)=а+bх.

Вернемся теперь к разложению общей суммы квадратов отклонений результативного фактора от среднего этой величины. Эта сумма содержит две уже определенные выше части: сумму квадратов отклонений, объясненную регрессией и другую сумму, которая называется остаточная сумма квадратов отклонений. С таким разложением связан анализ дисперсии, который прямо отвечает на принципиальный вопрос: как оценить значимость уравнения регрессии в целом и его отдельных параметров? Оно же в значительной мере и определяет смысл этого вопроса. Для оценки значимости уравнения регрессии в целом используется критерий Фишера (F-критерий). Согласно подходу, предложенному Фишером, выдвигается нулевая гипотеза : коэффициент регрессии равен нулю, т.е. величинаb=0. Это означает, что фактор Х не оказывает влияния на результат Y.

Вспомним, что практически всегда полученные в результате статистического исследования точки не ложатся точно на линию регрессии. Они рассеяны, будучи удалены более или менее сильно от линии регрессии. Такое рассеяние обусловлено влиянием прочих, отличных от объясняющего фактора Х, факторов, не учитываемых в уравнении регрессии. При расчете объясненной, или факторной суммы квадратов отклонений используются теоретические значения результативного признака, найденные по линии регрессии.

Для заданного набора значений переменных Y и Х расчетное значение среднего величины Y является в линейной регрессии функцией только одного параметра – коэффициента регрессии. В соответствии с этим факторная сумма квадратов отклонений имеет число степеней свободы, равное 1. А число степеней свободы остаточной суммы квадратов отклонений при линейной регрессии равно n-2.

Следовательно, разделив каждую сумму квадратов отклонений в исходном разложении на свое число степеней свободы получаем средний квадрат отклонений (дисперсию на одну степень свободы). Далее разделив факторную дисперсию наодну степень свободы на остаточную дисперсию на одну степень свободы получаем критерий для проверки нулевой гипотезы так называемое F-отношение, или одноименный критерий. Именно, при справедливости нулевой гипотезы факторная и остаточная дисперии оказываются просто равны друг другу.

Для отклонения нулевой гипотезы, т.е. принятия противоположной гипотезы, которая выражает факт значимости (наличия) исследуемой зависимости, а не просто случайного совпадения факторов, имитирующего зависимость, которая фактически не существует необходимо использовать таблицы критических значений указанного отношения. По таблицам выясняют критическую (пороговую) величину критерия Фишера. Она называется также теоретической. Затем проверяют, сравнивая ее с вычисленным по данным наблюдений соответствующим эмпирическим (фактическим) значением критерия, превосходит ли фактическая величина отношения критическую величину из таблиц.

Более подробно это делается так. Выбирают данный уровень вероятности наличия нулевой гипотезы и находят по таблицам критическое значение F-критерия, при котором еще может происходить случайное расхождение дисперсий на 1 степень свободы, т.е. максимальное такое значение. Затем вычисленное значение отношения F-признается достоверным (т.е. выражающим различие фактической и остаточной дисперсий), если это отношение больше табличного. Тогда нулевая гипотеза отклоняется (неверно, что отсутствуют признаки связи) и напротив приходим к заключению, что связь имеется и является существенной (носит неслучайный, значимый характер).

В случае, если величина отношения оказывается меньше табличного, то вероятность нулевой гипотезы оказывается выше заданного уровня(который выбирался изначально) и нулевая гипотеза не может быть отклонена без заметной опасности получить неверный вывод о наличии связи. Соответственно уравнение регрессии считается при этом незначимым.

Сама величина F-критерия связана с коэффициентом детерминации. Помимо оценки значимости уравнения регрессии в целом оценивают также значимость отдельных параметров уравнения регрессии. При этом определяют стандартную ошибкукоэффициента регрессии с помощью эмпирического фактического среднеквадратичного отклонения и эмпирической дисперсии на одну степень свободы. После этого используют распределение Стьюдента для проверки существенности коэффициента регрессии для расчета его доверительных интервалов.

Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента выполняется посредством сопоставления значений этих величин и величины стандартной ошибки. Величинаошибки параметров линейной регрессии и коэффициента корреляции определяется по следующим формулам:

где S – среднеквадратичноеостаточное выборочное отклонение,

r xy – коэффициент корреляции.

Соответственно величина стандартной ошибки, предсказываемой по линии регрессии, дается формулой:

Соответствующие отношения значений величин коэффициентов регрессии и корреляции к их стандартной ошибке образуют так называемую t-статистику, а сравнение соответствующего табличного (критического) значения ее и ее фактического значения позволяет принять или отвергнуть нулевую гипотезу. Нo далее для расчета доверительного интервала находится предельная ошибка для каждого показателя как произведение табличного значения статистики t на среднюю случайную ошибку соответствующего показателя. По сути чуть иначе мы уже фактически записали ее только что выше. Затем получают границы доверительных интервалов: нижнюю границу вычитанием из соответствующих коэффициентов (фактически средних) соответствующей предельной ошибки, а верхнюю границу – сложением (прибавлением).

В линейной регрессии ∑(y x -y ср) 2 =b 2 ∑(x-x ср) 2 . В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции: r 2 ху = b 2 *σ 2 x /σ 2 y

где σ 2 y - общая дисперсия признака у;

σ 2 x - дисперсия признака у обусловленная фактором х. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит:

∑(y x -y ср) 2 =b 2 ∑(x-x ср) 2 .

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. Рассмотрим содержательную сторону расчетного значения признака у т.е. у х. Величина у х определяется по уравнению линейной регрессии: у х =а+bх.

Параметр а можно определить, как а=у-bх. Подставив выражение параметра а в линейную модель, получим: y x =y-bx+bx ср =y-b(x-x ср).

При заданном наборе переменных у и х расчетное значение у х является в линейной регрессии функцией только одного параметра - коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т.е. (n-1). Итак, имеем два равенства: для сумм и для числа степеней свободы. А это в свою очередь возвращает нас опять к сопоставимым дисперсиям на одну степень свободы, отношение которых и дает критерий Фишера.

25. Оценка значимости отдельных параметров уравнения регрессии и коэффициентов по критерию Стьюдента.

27. Линейная и нелинейная регрессии и методы их исследования.

Линейная регрессия и методы ее исследования и оценки не имели бы столь важного значения, если бы помимо этого весьма важного, но все же простейшего случая, мы не получали с их помощью инструмента анализа более сложных нелинейных зависимостей. Нелинейные регрессии могут быть разделены на два существенно различных класса. Первым и более простым является класс нелинейных зависимостей, в которых имеется нелинейность относительно объясняющих переменных, но которые остаются линейными по входящим в них и подлежащим оценке параметрам. Сюда входят полиномы различных степеней и равносторонняя гипербола.

Такая нелинейная регрессия по включенным в объяснение переменным простым преобразованием (заменой) переменных легко сводится к обычной линейной регрессии для новых переменных. Поэтому оценка параметров в этом случае выполняется просто по МНК, поскольку зависимости линейны по параметрам. Так, важную роль в экономике играет нелинейная зависимость, описываемая равносторонней гиперболой:

Ее параметры хорошо оцениваются по МНК и сама такая зависимость характеризует связь удельных расходов сырья, топлива, материалов с объемом выпускаемой продукции, временем обращением товаров и всех этих факторов с величиной товарооборота. Например, кривая Филипса характеризует нелинейное соотношение между нормой безработицы и процентом прироста заработной платы.

Совершенно по-другому обстоит дело с регрессией, нелинейной по оцениваемым параметрам, например, представляемой степенной функцией, в которой сама степень (ее показатель) является параметром, или зависит от параметра. Также это может быть показательная функция, где основанием степени является параметр и экспоненциальная функция, в которой опять же показатель содержит параметр или комбинацию параметров. Этот класс, в свою очередь, делится на два подкласса: к одному относятся внешне нелинейные, но по существу внутренне линейные. В этом случае можно привести модель к линейному виду с помощью преобразований. Однако, если модель внутренне нелинейна, то она не может быть сведена к линейной функции.

Таким образом, только модели внутренне нелинейные в регрессионном анализе считаются действительно нелинейными. Все прочие, сводящиеся к линейным посредством преобразований, таковыми не считаются и именно они и рассматриваются чаще всего в эконометрических исследованиях. В то же время это не означает невозможности исследования в эконометрике существенно нелинейных зависимостей. Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнения особенностей применяемого итеративного метода.

Вернемся к зависимостям, приводимым к линейным. Если они нелинейны и по параметрам и по переменным, например, вида у = а умноженному на степень Х, показатель которой и есть параметр –  (бета):

Очевидно, такое соотношение легко преобразуется в линейное уравнение простым логарифмированием.

После введения новых переменных, обозначающих логарифмы, получается линейное уравнение. Тогда процедура оценивания регрессии состоит в вычислении новых переменных для каждого наблюдения путем взятия логарифмов от исходных значений. Затем оценивается регрессионная зависимость новых переменных. Для перехода к исходным переменным следует взять антилогарифм, т.е фактически вернуться к самим степеням вместо их показателей (ведь логарифм это и есть показатель степени). Аналогично может рассматриваться случай показательных или экспоненциальных функций.

Для существенно нелинейной регрессии невозможно применение обычной процедуры оценивания регрессии, поскольку соответствующая зависимость не может быть преобразована в линейную. Общая схема действий при этом такова:

1. Принимаются некоторые правдоподобные исходные значения параметров;

2. Вычисляются предсказанные значения Y по фактическим значениям Х с использованием этих значений параметров;

3. Вычисляются остатки для всех наблюдений в выборке и затем сумма квадратов остатков;

4. Вносятся небольшие изменения в одну или более оценку параметров;

5. Вычисляются новые предсказанные значения Y, остатки и сумма квадратов остатков;

6. Если сумма квадратов остатков меньше, чем прежде, то новые оценки параметров лучше прежних и их следует использовать в качестве новой отправной точки;

7. Шаги 4, 5 и 6 повторяются вновь до тех пор, пока не окажется невозможным внести такие изменения в оценки параметров, которые привели бы к изменению суммы остатков квадратов;

8. Делается вывод о том, что величина суммы квадратов остатков минимизирована и конечные оценки параметров являются оценками по методу наименьших квадратов.

Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрике широко используется степенная функция. Параметр b в ней имеет четкое истолкование, являясь коэффициентом эластичности. В моделях, нелинейных по оцениваемым параметрам, но приводимых к линейному виду, МНК применяется к преобразованным уравнениям. Практическое применение логарифмирования и соответственно экспоненты возможно тогда, когда результативный признак не имеет отрицательных значений. При исследовании взаимосвязей среди функций, использующих логарифм результативного признака, в эконометрике преобладают степенные зависимости (кривые спроса и предложения, производственные функции, кривые освоения для характеристики связи между трудоемкостью продукции, масштабами производства, зависимость ВНД от уровня занятости, кривые Энгеля).

28. Обратная модель и ее использование

Иногда используется так называемая обратная модель, являющаяся внутренне нелинейной, но в ней, в отличие от равносторонней гиперболы, преобразованию подвергается не объясняющая переменная, а результативный признак Y. Поэтому обратная модель оказывается внутренне нелинейной и требование МНК выполняется не для фактических значений результативного признака Y, а для их обратных значений. Особого внимания заслуживает исследование корреляции для нелинейной регрессии. В общем случае парабола второй степени так же как и полиномы более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение регрессии при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции.

Если преобразования уравнения регрессии в линейную форму связаны с зависимой переменной (результативным признаком), то линейный коэффициент корреляции по преобразованным значениям признаков дает лишь приближенную оценку связи и численно не совпадает с индексом корреляции. Следует иметь в виду, что при расчете индекса корреляции используются суммы квадратов отклонений результативного признака Y, а не их логарифмов. Оценка значимости индекса корреляции выполняется так же как и оценка надежности (значимости) коэффициента корреляции. Сам индекс корреляции, как и индекс детерминации, используется для проверки значимости в целом уравнения нелинейной регрессии по F-критерию Фишера.

Отметим, что возможность построения нелинейных моделей, как посредством приведения их к линейному виду, так и путем использования нелинейной регрессии, с одной стороны повышает универсальность регрессионного анализа. А с другой – существенно усложняет задачи исследователя. Если ограничиваться парным регрессионным анализом, то можно построить график наблюдений Y и Х как диаграмму разброса. Часто несколько различных нелинейных функций приблизительно соответствуют наблюдениям, если они лежат на некоторой кривой. Но в случае множественного регрессионного анализа такой график построить невозможно.

При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной процедура выбора сравнительно проста. Можно оценивать регрессию на основе всех вероятных функций, которые можно вообразить и выбирать функцию, в наибольшей степени объясняющую изменения зависимой переменной. Понятно, что когда линейная функция объясняет примерно 64% дисперсии у, а гиперболическая – 99,9%, очевидно следует выбирать последнюю. Но когда разные модели используют разные функциональные формы, проблема выбора модели существенно осложняется.

29. Использование теста Бокса-Кокса.

Более общим образом при рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной выбор прост. Разумнее всего оценивать регрессию на основе всех вероятных функций, останавливаясь на функции, в наибольшей степени объясняющей изменения зависимой переменной. Если коэффициент детерминации измеряет в одном случае объясненную регрессией долю дисперсии, а в другом – объясненную регрессией долю дисперсии логарифма этой зависимой переменной, то выбор делается без затруднений. Другое дело, когда эти значения для двух моделей весьма близки и проблема выбора существенно осложняется.

Тогда следует применять стандартную процедуру в виде теста Бокса-Кокса. Если нужно всего лишь сравнить модели с использованием результативного фактора и его логарифма в виде варианта зависимой переменой, то применяют вариант теста Зарембки. В нем предлагается преобразование масштаба наблюдений Y, при котором обеспечивается возможность непосредственного сравнения среднеквадратичной ошибки (СКО) в линейной и логарифмической моделях. Соответствующая процедура включает следующие шаги:

Вычисляется среднее геометрическое значений Y в выборке, совпадающее с экспонентой среднего арифметического значений логарифма от Y;

Пересчитываются наблюдения Y таким образом, что они делятся на полученное на первом шаге значение;

Оценивается регрессия для линейной модели с использованием пересчитанных значений Y вместо исходных значений Y и для логарифмической модели с использованием логарифма от пересчитанных значений Y. Теперь значения СКО для двух регрессий сравнимы и поэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшее соответствие с истинной зависимостью наблюденных значений;

Для проверки того, что одна из моделей не обеспечивает значимо лучшее соответствие, можно использовать произведение половины числа наблюдений на логарифм отношения значений СКО в пересчитанных регрессиях с последующим взятием абсолютного значения этой величины.

30. Поняти интеркорреляции и мультиколлинеарности факоров.

34. Основы МНК и обоснованность его применения.

Обратимся теперь к основам МНК, обоснованности его применения (в том числе к задачам множественной регрессии) и важнейшим свойствам оценок, получаемых с помощью МНК. Начнем с того, что наряду с аналитической зависимостью в правой части регрессионного уравнения важную роль играет еще случайный член. Эта случайная компонента является ненаблюдаемой величиной. Сами статистические проверки параметров регрессии и показателей корреляции основаны на непроверяемых предпосылках о распределении этой случайной составляющей множественной регрессии. Эти предположения носят всего лишь предварительный характер. Только после построения уравнения регрессии производят проверку наличия у оценок случайных остатков (эмпирические аналоги случайной составляющей) предполагавшихся априори свойств. По существу, когда оценены параметры модели, то рассчитывают разности теоретических и фактических значений результативного признака, чтобы таким образом оценить саму случайную составляющую. Важно иметь в виду, что это всего лишь выборочная реализация неизвестного остатка заданного уравнения.

Коэффициенты регрессии, полученные из системы нормальных уравнений, это выборочные оценки силы связи. Понятно, что практическое значение они имеют только тогда, когда являются несмещенными. Напомним, что в этом случае среднее остатков равно нулю, или, что то же самое, среднее оценки равно самому оцениваемому параметру. Тогда остатки не будут накапливаться при большом числе выборочных оцениваний, а сам найденный параметр регрессии можно рассматривать в качестве среднего из большого количества несмещенных оценок.

Кроме того, оценки должны иметь наименьшую дисперсию, т.е. являться эффективными и тогда появляется возможность перехода от практически малопригодных точечных оценок к интервальному оцениванию. Наконец, доверительные интервалы применимы с большой степенью эффективности, когда вероятность получения оценки на заданном расстоянии от истинного (неизвестного) значения параметра близка к единице. Такие оценки называются состоятельными и свойство состоятельности характеризуется увеличением их точности с увеличением объема выборки.

Однако условие состоятельности не выполняется автоматически и существенно зависит от выполнения следующих двух важных требований. Во-первых, сами остатки должны быть стохастическими с максимально выраженной случайностью, т.е. все явно функциональные зависимости должны быть включены именно в аналитическую компоненту множественной регрессии, и к тому же значения остатков должны быть распределены независимо друг от друга для различных выборок (отсутствие автокорреляции остатков). Второе, не менее важное требование заключается в одинаковости дисперсии каждого отклонения (остатка) для всех значений переменных Х (гомоскедастичность). Т.е. гомоскедастичность выражается постоянством дисперсии для всех наблюдений:

Напротив, гетероскедастичность заключается в нарушении такого постоянства дисперсии для различных наблюдений. В этом случае априорная (до наблюдений) вероятность получения сильно отклоненных величин с различным теоретическим распределением случайного члена для различных наблюдений в выборке будет относительно высока.

Автокорреляция остатков, или наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений усматривается по величине обычного линейного коэффициента корреляции. Если он существенно отличается от нуля, то остатки автокоррелированы и, следовательно, функция плотности вероятности (распределения остатков) зависит от точки наблюдения и от распределения значений остатков в других точках наблюдения. Удобно определять автокорреляцию остатков по имеющейся статистической информации при наличии упорядоченности наблюдений по фактору Х. Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

35. Гомоскедастичность и гетероскедастичность, автокорреляция остатков, обобщенный метод наименьших квадратов (ОМНК).

Одинаковость дисперсий остатков для всех значений переменных Х, или гомоскедастичность также совершенно необходима для получения по МНК состоятельных оценок параметров регрессии. Невыполнение условия гомоскедастичности приводит к так называемой гетероскедастичности. Она может приводить к смещенности оценок коэффициентов регрессии. Гетероскедастичность будет главным образом сказываться на уменьшении эффективности оценок коэффициентов регрессии. Особенно затруднительно становится при этом пользоваться формулой стандартной ошибки коэффициента регрессии, использование которой предполагает единую дисперсию остатков для любых значений фактора. Что касается несмещенности оценок коэффициентов регрессии, то она, прежде всего, зависит от независимости остатков и самих величин факторов.

Довольно наглядным, правда нестрогим и требующим навыка способом проверки гомоскедастичности является графическое изучение характера зависимости остатков от среднего вычисленного (теоретического) результативного признака, или соответствующих полей корреляции. Более строгими являются аналитические методы исследования и оценки гетероскедастичности. При значимом наличии гетероскедастичности целесообразно вместо МНК использовать обобщенный МНК (ОМНК).

Помимо требований к множественной регрессии, вытекающих из применения МНК, необходимо соблюдать также условия на переменные, включаемые в модель. К таковым, прежде всего, относятся требования относительно числа факторов модели по заданному объему наблюдений (1 к 7). В противном случае параметры регрессии окажутся статистически незначимыми. С точки зрения эффективности применения соответствующих численных методов при реализации МНК необходимо, чтобы число наблюдений превышало число оцениваемых параметров (в системе уравнений число уравнений более числа разыскиваемых переменных).

Наиболее существенным достижением эконометрики является значительное развитие самих методов оценивания неизвестных параметров и усовершенствование критериев выявления статической значимости рассматриваемых эффектов. В этом плане невозможность или нецелесообразность использования традиционного МНК по причине проявляющейся в той или иной степени гетероскедастичности привела к разработке обобщенного МНК (ОМНК). Фактически при этом корректируется модель, производится изменение ее спецификации, преобразуются исходные данные для обеспечения несмещенности, эффективности и состоятельности оценок коэффициентов регрессии.

Предполагается, что среднее остатков равно нулю, но их дисперсия уже не является постоянной, а пропорциональна величинам К i , где эти величины представляют собой коэффициенты пропорциональности, различные для различных значений фактора х. Таким образом, именно эти коэффициенты (величины К i) характеризуют неоднородность дисперсии. Естественно считается, что сама величина дисперсии, входящая общим множителем при этих коэффициентах пропорциональности, неизвестна.

Исходная модель после введения этих коэффициентов в уравнение множественной регрессии продолжает оставаться гетероскедастичной (точнее говоря, таковыми являются остаточные величины модели). Пусть эти остаточные величины (остатки) не являются автокоррелированными. Введем новые переменные, получающиеся делением исходных переменных модели, зафиксированных в результате i-го наблюдения, на корень квадратный из коэффициентов пропорциональности К i . Тогда получим новое уравнение в преобразованных переменных, в котором уже остатки будут гомоскедастичны. Сами новые переменные – это взвешенные старые (исходные) переменные.

Поэтому оценка параметров полученного таким образом нового уравнения с гомоскедастичными остатками будет сводиться к взвешенному МНК (по существу это и есть ОМНК). При использовании вместо самих переменных регрессии их отклонения от средних выражения для коэффициентов регрессии приобретают простой и стандартизированный (единообраззный) вид, незначительно различающийся для МНК и ОМНК поправочным множителем 1/К в числителе и знаменателе дроби, дающей коэффициент регрессии.

Следует иметь в виду, что параметры преобразованной (скорректированной) модели существенно зависят от того, какая концепция положена за основу для коэффициентов пропорциональности К i . Часто считают, что остатки просто пропорциональны значениям фактора. Наиболее простой вид модель принимает в случае, когда принимается гипотеза о том, что ошибки пропорциональны значениям последнего по порядку фактора. Тогда ОМНК позволяет повысить вес наблюдений с меньшими значениями преобразованных переменных при определении параметров регрессии по сравнению с работой стандартного МНК с первоначальными исходными переменными. Но эти новые переменные уже получают иное экономическое содержание.

Гипотеза о пропорциональности остатков величине фактора вполне может иметь под собой реальное обоснование. Пусть обрабатывается некая недостаточно однородная совокупность данных, например, включающая крупные и мелкие предприятия одновременно. Тогда большим объемным значениям фактора может соответствовать и большая дисперсия результативного признака и большая дисперсия остаточных величин. Далее использование ОМНК и соответствующий переход к относительным величинам не просто снижает вариацию фактора, но и уменьшает дисперсию ошибки. Тем самым реализуется наиболее простой случай учета и коррекции гетероскедастичности в регрессионных моделях посредством применения ОМНК.

Изложенный выше подход к реализации ОМНК в виде взвешенного МНК является достаточно практичным – он просто реализуется и имеет прозрачную экономическую интерпретацию. Конечно, это не самый общий подход и в контексте математической статистики, служащей теоретической основой эконометрики, нам предлагается значительно более строгий метод, реализующий ОМНК в самом общем виде. В нем необходимо знать ковариационную матрицу вектора ошибок (столбца остатков). А это в практических ситуациях как правило несправедливо, и отыскать эту матрицу как таковую бывает невозможно. Поэтому приходится, вообще говоря, каким-то образом оценивать искомую матрицу, чтобы использовать вместо самой матрицы такую оценку в соответствующих формулах. Тем самым описанный вариант реализации ОМНК представляет одну из таких оценок. Иногда его называют доступный обобщенный МНК.

Надо учитывать также, что коэффициент детерминации не может служить удовлетворительной мерой качества подгонки при использовании ОМНК. Возвращаясь к применению ОМНК отметим также, что достаточную общность имеет метод использования стандартных отклонений (стандартных ошибок) в форме Уайта (так называемые состоятельные стандартные ошибки при наличии гетероскедастичности). Этот метод применим при условии диагональности матрицы ковариаций вектора ошибок. Если же присутствует автокорреляция остатков (ошибок), когда в матрице ковариаций и вне главной диагонали имеются ненулевые элементы (коэффициенты), то следует применять более общий метод стандартных ошибок в форме Невье-Веста. При этом имеется существенное ограничение: ненулевые элементы помимо главной диагонали находятся только на соседних диагоналях, отстоящих от главной диагонали не более чем на определенную величину.

Из сказанного ясно, что необходимо иметь возможность проверять данные на гетероскедастичность. Этой цели служат приводимые ниже тесты. В них проверяется основная гипотеза о равенстве дисперсий остатков против альтернативной гипотезы (о неравенстве этих гипотез). Кроме того, имеются априорные структурные ограничения по поводу характера гетероскедастичности. В тесте Голдфелда-Куандта как правило используется предположение о прямой зависимости дисперсии ошибки (остатка) от величины некоторой независимой переменной. Схема применения этого теста такова. Сначала данные упорядочиваются по убыванию той независимой переменной, относительно которой имеется подозрение на гетероскедастичность. Затем в этом упорядоченном наборе данных исключаются несколько средних наблюдений, где слово «несколько» означает примерно четверть (25%) от общего количества всех наблюдений. Далее проводятся две независимые регрессии для первых из оставшихся (после выполненного исключения) средних наблюдений и двух последних из этих оставшихся средних наблюдений. После этого строятся два соответствующих остатка. Наконец, составляется F-статистика Фишера и если верна исследуемая гипотеза, то F действительно является распределением Фишера с соответствующими степенями свободы. Тогда большая величина этой статистики означает, что проверяемую гипотезу необходимо отвергнуть. Без шага исключения наблюдений мощность данного теста уменьшается.

Тест Бреуша-Пагана применяется в тех случаях, когда априорно предполагается, что дисперсии зависят от некоторых дополнительных переменных. Сначала проводится обычная (стандартная) регрессия и получается вектор остатков. Затем строится оценка дисперсии. Далее проводится регрессия квадрата вектора остатков деленного на эмпирическую дисперсию (оценку дисперсии). Для нее (регрессии) находят объясненную часть вариации. А для этой объясненной части вариации, деленной пополам, строится статистика. Если верна нулевая гипотеза, (справедливо отсутствие гетероскедастичности), то эта величина имеет распределение хи -квадрат. Если же тест, напротив, выявил гетероскедастичность, то исходная модель преобразуется делением компонентов вектора остатков на соответствующие компоненты вектора наблюдаемых независимых переменных.

36. Метод стандартных отклонений в форме Уайта.

Можно сделать следующие выводы. Применение ОМНК при наличии гетероскедастичности сводится к минимизации суммы взвешенных квадратов отклонений. Использование доступного ОМНК связано с необходимостью наличия большого количества наблюдений, превышающего количество оцениваемых параметров. Наиболее благоприятным для применения ОМНК является тот случай, когда ошибка (остатки) пропорциональна одной из независимых переменных и получаемые оценки являются состоятельными. Если все же в модели с гетероскедастичностью приходится применять не ОМНК, а стандартный МНК, то для получения состоятельных оценок можно использовать оценки ошибок в формеУайта или Невье-Веста.

При анализе временных рядов часто приходится учитывать статистическую зависимость наблюдений в различные моменты времени. В этом случае предположение о некоррелированности ошибок не выполняется. Рассмотрим простую модель, в которой ошибки образуют авторегрессионный процесс первого порядка. В этом случае ошибки удовлетворяют простому рекуррентному соотношению, в правой части которого одно из слагаемых это последовательность независимых нормально распределенных случайных величин с нулевым средним и постоянной дисперсией. Второе слагаемое это произведение параметра (коэффициента авторегрессии) на значения остатков в предыдущий момент времени. Сама последовательность значений ошибок (остатков) образует стационарный случайный процесс. Стационарный случайный процесс характеризуется постоянством своих характристик во времени, в частности, средней и дисперсии. При этом интересующая нас ковариационная матрица (ее члены) легко выписывается с помощью степеней параметра.

Оценивание модели с авторегрессией для известного параметра выполняется с помощью ОМНК. В этом случае достаточно просто свести исходную модель нехитрым преобразованием к модели, ошибки которой удовлетворяют условиям стандартной регрессионной модели. Весьма редко, но все же встречается ситуация, в которой параметр авторегрессии известен. Следовательно, вообще необходимо выполнять оценивание при неизвестном параметре авторегрессии. Существуют три наиболее употребительные процедуры такого оценивания. Метод Кохрейна-Оркатта, процедура Хилдрета-Лу и метод Дарбина.

В целом справедливы следующие выводы. Анализ временных рядов требует коррекции обычного МНК, поскольку ошибки в этом случае, как правило, коррелированы. Часто эти ошибки образуют стационарный авторегрессионный процесс первого порядка. МНК-оценки для авторегрессии первого порядка несмещены, состоятельны, но неэффективны. При известном коэффициенте авторегрессии ОМНК сводится к простым преобразованиям (коррекции) исходной системы и затем к применению стандартного МНК. Если, что чаще имеет место, коэффициент авторегрессии неизвестен, то имеются несколько процедур доступного ОМНК, которые заключаются в оценивании неизвестного параметра (коэффициента), после чего применяют те же преобразования, что и в предыдущем случае известного параметра.

37. Понятие о тесте Бреуша-Пагана, тесте Гольдфельдта-Квандта

Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Где y x - расчетное значение по уравнению.

Значение средней ошибки аппроксимации до 15% свидетельствует о хорошо подобранной модели уравнения.

По семи территориям Уральского района за 199Х г. известны значения двух признаков.

Требуется:
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной;
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации А ср и F-критерий Фишера.

Решение проводим при помощь онлайн калькулятора Линейное уравнение регрессии .
а) линейное уравнение регрессии;
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции .

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε - случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям x i и y i можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

Получаем b = -0.35, a = 76.88
Уравнение регрессии:
y = -0.35 x + 76.88

x	y	x 2	y 2	x y	y(x)	(y i -y cp) 2	(y-y(x)) 2	\|y - y x \|:y
45,1	68,8	2034,01	4733,44	3102,88	61,28	119,12	56,61	0,1094
59	61,2	3481	3745,44	3610,8	56,47	10,98	22,4	0,0773
57,2	59,9	3271,84	3588,01	3426,28	57,09	4,06	7,9	0,0469
61,8	56,7	3819,24	3214,89	3504,06	55,5	1,41	1,44	0,0212
58,8	55	3457,44	3025	3234	56,54	8,33	2,36	0,0279
47,2	54,3	2227,84	2948,49	2562,96	60,55	12,86	39,05	0,1151
55,2	49,3	3047,04	2430,49	2721,36	57,78	73,71	71,94	0,172
384,3	405,2	21338,41	23685,76	22162,34	405,2	230,47	201,71	0,5699

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(45.1) = -0.35*45.1 + 76.88 = 61.28
y(59) = -0.35*59 + 76.88 = 56.47
... ... ...

Ошибка аппроксимации
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

F-статистики. Критерий Фишера.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

< Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

б) степенная регрессия ;
Решение проводится с помощью сервиса Нелинейная регрессия . При выборе укажите Степенная y = ax b
в) показательная регрессия;
г) модель равносторонней гиперболы.
Система нормальных уравнений.

Для наших данных система уравнений имеет вид
7a + 0.1291b = 405.2
0.1291a + 0.0024b = 7.51
Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 1054.67, a = 38.44
Уравнение регрессии:
y = 1054.67 / x + 38.44
Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.

Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.

Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.
Табличное значение критерия со степенями свободы k1=1 и k2=5, Fkp = 6.61
Поскольку фактическое значение F < Fkp, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

По территориям региона приводятся данные за 200Х г.

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b	Значение коэффициента a
Стандартная ошибка b	Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер региона	Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х	Среднедневная заработная плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173