Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
НВУЗ АНО
«Региональный финансово-экономический институт»
ЭКОНОМЕТРИКА
(Вторая лекция)
________________________________
http://elearning.rfei.ru
1
Содержание
РАЗДЕЛ 1. НЕЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ
ПЕРЕМЕННЫМИ.............................................................................3
Глава 1.1. Нелинейная регрессия ..................................................3
Глава 1.2. Корреляция и средняя ошибка аппроксимации .......29
РАЗДЕЛ 2. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И
КОРРЕЛЯЦИЯ................................................................................33
Глава 2.1. Спецификация модели................................................33
Глава 2.2. Отбор факторов при построении множественной
регрессии........................................................................................35
Глава 2.3. Выбор формы уравнения регрессии..........................39
Глава 2.4. Оценка параметров уравнения множественной
регрессии........................................................................................44
Глава 2.5. Частные уравнения регрессии....................................49
Глава 2.6. Множественная корреляция.......................................53
РАЗДЕЛ 3. ПРОГНОЗИРОВАНИЕ ЭКОНОМИЧЕСКИХ
ПРОЦЕССОВ...................................................................................65
Глава 3.1. Виды временных рядов...............................................65
Глава 3.2. Прогнозирование экономических процессов...........71
ПРИЛОЖЕНИЕ ................................................................................75
2
РАЗДЕЛ 1. НЕЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ
ПЕРЕМЕННЫМИ
Глава 1.1. Нелинейная регрессия
Если между экономическими явлениями существуют
нелинейные соотношения, то они выражаются с помощью
соответствующих
нелинейных
функций:
например,
b
равносторонней гиперболы y =a ε , параболы второй
x
2
степени y =ab⋅xc⋅x ε и др.
Различают два класса нелинейных регрессий:
•регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
•регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включаемым в нее
объясняющим переменным могут служить следующие функции:
•полиномы (многочлены разных степеней
y =ab⋅xc⋅x 2ε
y =ab⋅xc⋅x 2d⋅x 3ε ;
b
•равносторонняя гипербола, т.е y =a ε .
x
К нелинейным регрессиям по оцениваемым параметрам
относятся функции:
•степенная, т.е. y=a⋅x b⋅ε ;
•показательная, т.е. y=a⋅b x⋅ε ;
•экспоненциальная, т. е. y=b abx⋅ε .
Нелинейная регрессия по включенным переменным не таит
каких-либо сложностей в оценке ее параметров. Она
определяется, как и в линейной регрессии, методом наименьших
квадратов (МНК), ибо эти функции линейны по параметрам.
Дело в том, что, полином любого порядка сводится к
линейной регрессии с ее методами оценивания параметров и
3
проверки гипотез. Как показывает опыт большинства
исследователей, среди нелинейной полиномиальной регрессии
чаще всего используется парабола второй степени; в отдельных
случаях — полином третьего порядка. Ограничения в
использовании полиномов более высоких степеней связаны с
требованием однородности исследуемой совокупности: чем выше
порядок полинома, тем больше изгибов имеет кривая и
соответственно
менее
однородна
совокупность
по
результативному признаку.
Парабола второй степени целесообразна к применению,
если для определенного интервала значений фактора меняется
характер связи рассматриваемых признаков: прямая связь
меняется на обратную или обратная на прямую. В этом случае
определяется значение фактора, при котором достигается
максимальное (или минимальное) значение результативного
признака: приравниваем к нулю первую производную параболы
второй степени:
y x =ab⋅xc⋅x 2 , т.е.
b
,
b2⋅c⋅x =0 и x=−
2⋅c
Если же исходные данные не обнаруживают изменения
направленности связи, то параметры параболы второго порядка
становятся трудно интерпретируемыми, а форма связи часто
заменяется другими нелинейными моделями.
Применение МНК для оценки параметров параболы второй
степени приводит к следующей системе нормальных уравнений:
{
∑ y=n⋅ab⋅∑ xc⋅∑ x ,
∑ y⋅x=a⋅∑ xb⋅∑ x 2c⋅∑ x3 , (1.1)
∑ y⋅x =a⋅∑ x b⋅∑ x c⋅∑ x .
2
2
2
3
4
Решение ее возможно методом определителей:
Δa ;
Δb
Δc
a=
b=
; c=
, (1.2)
Δ
Δ
Δ
где Δa — определитель системы;
Δa , Δb Δc — частные (вспомогательные) определители для
каждого из параметров.
4
При b0 и c0 кривая симметрична относительно
высшей точки, т. е. точки перелома кривой, изменяющей
направление связи, а именно рост на падение.
Такого рода функцию можно наблюдать в экономике труда
при изучении зависимости заработной платы работников
физического труда от возраста — с увеличением возраста
повышается заработная плата ввиду одновременного увеличения
опыта и повышения квалификации работника.
Однако с определенного возраста ввиду старения организма
и снижения производительности труда дальнейшее повышение
возраста может приводить к снижению заработной платы
работника. Если параболическая форма связи демонстрирует
сначала рост, затем снижение уровня значений результативного
признака, то определяется значение фактора, при котором
достигается максимум.
Например, предполагая, что потребление товара A
(единиц) в зависимости от уровня дохода семьи (тыс. руб.)
2
характеризуется уравнением вида y x =560 x−x .
Приравнивая
к
нулю
первую
производную
'
y x= 560 x− x 2 ' =060−2x=60−2x , найдем величину дохода,
при котором потребление максимально, т.е. при 60−2x=0, x=30
тыс. руб.
При b0 и c0 парабола второго порядка симметрична
относительно своей низшей точки, что позволяет определять
минимум функции в точке, меняющей направление связи, т.е.
снижение на рост. Так, если в зависимости от объема выпуска
продукции затраты на производство характеризуются уравнением
y x =1200−60 x2x 2 ,
то наименьшие затраты достигаются при выпуске
продукции x =15 ед. Как мы это получили? Мы снова взяли
производную от алгебраической суммы функций, т.е.
'
y x= 1200−60 x 2x 2 ' =0−604x ;
4x−60=0 ; x=15.
5
В этом можно убедиться, подставляя в уравнение значения
x из промежутка от 10 до 17. Мы продемонстрируем это с
помощью табл. 1.1.
Таблица 1.1
Зависимость затрат на производство от объема
х
у
10
800
11
782
12
768
13
758
14
752
15
750
16
752
17
758
Ввиду симметричности кривой парабола второй степени
далеко не всегда пригодна в конкретных исследованиях. Чаще
исследователь имеет дело лишь с отдельными сегментами
параболы, а не с полной параболической формой. Кроме того,
параметры параболической связи не всегда могут быть логически
истолкованы.
Поэтому
если
график
зависимости
не
демонстрирует четко выраженной параболы второго порядка (нет
смены направленности связи признаков), то она может быть
заменена другой нелинейной функцией, например степенной. В
этой связи имеет смысл привести такой пример – зависимость
урожайности от количества внесенных удобрений.
Многие из нас имеют приусадебные участки, кто-то
дачные, а кто-то серьезно занимается фермерством. Так вот,
данная форма связи мотивируется тем, что с увеличением
количества внесенных удобрений урожайность растет лишь до
достижения
оптимальной
дозы
вносимых
удобрений.
Дальнейший же рост их дозы оказывается вредным для растения,
и урожайность снижается. Несмотря на несомненную
справедливость данного утверждения, следует отметить, что
внесение в почву минеральных удобрений производится на
основе учета достижений агробиологической науки. Поэтому на
практике часто данная зависимость представлена лишь
сегментом параболы, что и позволяет использовать другие
нелинейные функции. В качестве примера рассмотрим табл. 1.2.
6
Таблица 1.2
Зависимость урожайности озимой пшеницы от количества внесенных
удобрений
Внесено
минеральных
удобрений,
ц на 1 га,
1
1
2
3
4
5
Урожайность,
ц на 1 га y ,
x2
x3
x4
yx
yx 3
yx
2
6
9
10
12
13
50
3
1
4
9
16
25
55
4
1
8
27
64
125
225
5
1
16
81
256
625
979
6
6
18
30
48
65
167
7
6
36
90
192
325
649
8
6,2
8,5
10,4
11,9
13,0
50,0
Мы уже не останавливаемся на подробном рассмотрении
таблицы 1.2. Думаем, что Вы поняли, что изначально таблица
задавалась лишь двумя первыми столбцами. Столбцы 3-7 мы
достраиваем исходя из общего вида уравнения – параболы второй
степени, вид которой
y=ab⋅xc⋅x 2 ε ,
мы его уже указывали в начале этой главы.
Последний столбец этой таблицы мы уже заполнили, но
подробнее о том, как мы его вычисляли, скажем позднее.
Теперь мы составляем систему нормальных уравнений в
соответствии с формулой (1.1) и теми данными, которые у нас
уже есть в таблице 1.2.
5⋅a15⋅b55⋅c=50,
15⋅a55⋅b225⋅c=167,
55⋅a225⋅b979⋅c=649.
Решим систему методом определителей. Это означает, что
мы составим главный определитель третьего порядка, т.к. в нем
три строки и три столбца. Этот определитель составляется из
коэффициентов при параметрах a и b . Получим:
{
7
∣
∣
5 15
55
55
Δ= 15 55
225 =5⋅
225
55 225 979
∣
∣
∣ ∣
225 −15⋅ 15
979
55
∣
∣
225
979
55⋅ 15 55 =5⋅ 55⋅979−225⋅225 −
55 225
−15⋅ 15⋅979−55⋅225 55⋅ 15⋅225−55⋅55=700 .
Несколько слов следует сказать о процедуре вычисления
этого определителя.
Мы его вычисляем разложением по элементам первой
строки. Что это означает? Мысленно «зачеркиваем» первую
строку, а затем попеременно «зачеркиваем» столбцы. Что
означает попеременно?
Зачеркиваем первую строку и первый столбец или первую
строку и второй столбец, или первую строку и третий столбец.
В результате такого окаймления (зачеркивания) у нас
получается на пересечении «зачеркнутых» рядов (строк и
столбцов) некоторое число, которое умножается на оставшийся
определитель второго порядка. Числа, которые получаются на
пересечении «зачеркнутых» рядов 5; 15; 55. Но обращаем ваше
внимание на тот факт, что когда мы зачеркиваем второй столбец,
получающееся число мы берем с противоположным знаком (вот
почему перед числом 15 стоит знак минус).
Как мы вычисляли каждый их трех определителей второго
порядка, точнее оставшихся от «зачеркивания» рядов?
По расписанной схеме вычисления главного определителя,
Вы, вероятно уже поняли, что определитель второго порядка
равен разности произведений элементов главной (из верхнего
левого угла в правый нижний угол) и вспомогательной (из
нижнего левого угла в правый верхний угол) диагоналей.
Главный определитель вычислен. Переходим к вычислению
вспомогательных определителей. Выясним, как их получить?
Если мы говорим об определителе при параметре a , то он
находится в первом столбце исходной системы и, значит, этот
столбец полностью заменяется столбцом свободных членов, т.е.
числами, стоящими за знаками равенства в системе и не
8
содержащими при себе параметров. Так как мы будем определять
его символом Δ a , то в результате сказанного получим, что
∣
∣
50
15
55
Δ a= 167 55
225 =2380 .
649 225 979
Аналогично составим определитель при параметре b . Мы
заменяем в главном определителе второй столбец столбцом
свободных членов и получаем:
∣
∣
∣
∣
5 50
55
Δ b= 15 167 225 =2090.
55 649 979
При составлении третьего вспомогательного определителя
мы третий столбец главного определителя заменяли столбцом
свободных членов, а первые два столбца остаются неизменными.
5 15
50
Δ c= 15 55
167 =−150 .
55 225 649
Процедуру
вычисления
трех
вспомогательных
определителей мы не расписываем подробно, потому что она
абсолютна такая же, как и вычисления главного определителя,
что мы очень подробно прописали и рассмотрели.
Но снова нельзя уйти от того факта, что эту очень
трудоемкую работу мгновенно выполнят за вас электронные
таблицы Excel. Для этого на любой лист книги Excel введите
∣
∣
5 15
50
значения, например для определителя Δ c= 15 55
167 ,
55 225 649
выделите любую пустую ячейку книги (в нее будет занесен
результат вычисления этого определителя), рис. 1.3.
9
Рисунок 1.1 – Ввод значений определителя
По рисунку значение определителя будет содержаться в
ячейке D5. Далее войдите в меню Мастера функций, выберите
категорию Математические, а в ней функцию МОПРЕД (рис. 1.2).
Рисунок 1.2 – Окно выбора функции МОПРЕД
Подтвердив свой выбор, нажатием на Ok, в этом окне
получаем окно ввода аргументов, рис. 1.3.
В строку Массив этого окна достаточно ввести диапазон
А2:С4 (не забудьте переключиться на английский, ведь названия
столбцов задаются на английском языке). Этот же диапазон
можно задать и таким образом: установив курсор в строку
Массив, при нажатой левой кнопке мыши выполните
протаскивание по массиву, адрес диапазона сам будет вписан в
эту строку. Еще не подтверждая ввод массива, т.е. не нажав на
10
кнопку Ok, Вы уже видите, что определитель вычислен и равен (150). Это записано в строке Значение. Подтвердив свой выбор,
нажатием на Ok, этот результат будет отображен в ячейке D4,
которую Вы резервировали для этого числа.
Рисунок 1.3 – Окно ввода аргументов функции МОПРЕД
Можете проверить результаты своих вычислений и
остальных определителей с помощью функции МОПРЕД.
Итак, мы получили:
Δ =700, Δ a=2380, Δ b=2090, Δ c=−150.
Откуда по формулам (1.2) параметры искомого уравнения
составят:
a =3,4 ;b=2,986 ;c=−0,214 ,
а уравнение параболы второй степени примет вид
y x =3,42, 986⋅x−0, 214 x 2 .
Подставляя в это уравнение последовательно значения x ,
из первого столбца таблицы 1.2 найдем теоретические значения
y x (табл. 1.2. столбец 8). Вот теперь этот столбец у нас
отработан. Вся информация из таблицы 1.2 вам понятна.
Как видно из табл. 1.3, уравнение параболы второго
порядка хорошо описывает рассматриваемую зависимость.
Сумма
квадратов
отклонений
остаточных
величин
2
∑ y− y x =0, 46 . Ввиду того, что данные таблицы 1.2
демонстрируют лишь сегмент параболы второго порядка, то
рассматриваемая зависимость может быть охарактеризована и
другой функцией. Используя, в частности, степенную функцию
y x =a⋅x b , было получено уравнение регрессии y x =6,136⋅x 0, 474 .
11
2
Для него ∑ y− y x =0, 43 , что означает еще лучшую
сходимость фактических и расчетных значений y . Как мы
получили этот результат, выясним чуть позднее, а сейчас
рассмотрим другие нелинейные регрессии.
Среди класса нелинейных функций, параметры которых без
особых затруднений оцениваются МНК, следует назвать хорошо
известную в эконометрике равностороннюю гиперболу:
b
y x =a .
x
Она может быть использована не только для характеристики
связи удельных расходов сырья, материалов, топлива с объемом
выпускаемой продукции, времени обращения товаров от величины
товарооборота, т.е. на микроуровне, но и на макроуровне.
Классическим ее примером является кривая Филлипса,
характеризующая нелинейное соотношение между нормой
безработицы x и процентом прироста заработной платы y :
b
y =a ε .
x
Английский экономист А.В. Филлипс, анализируя данные
более чем за 100-летний период, в конце 50-х гг. XX в. установил
обратную зависимость процента прироста заработной платы от
уровня безработицы.
b
Для равносторонней гиперболы вида y =a ε заменив
x
1
на z , получим линейное уравнение регрессии y =ab⋅ze
x
оценка параметров которого может быть дана МНК. Система
нормальных уравнений составит:
∑ y=n⋅ab⋅∑ 1x ,
(1.3)
y
1
1
∑ x =a⋅∑ x b⋅∑ x 2 .
{
При b0 имеем обратную зависимость, которая при
x ∞ . характеризуется нижней асимптотой, т.е. минимальным
предельным значением y , оценкой которого служит параметр a .
12
1
y x =0, 006790,1842⋅
величина
x
параметра a равная 0,00679, означает, что с ростом уровня
безработицы темп прироста заработной платы в пределе стремится
к нулю. Соответственно можно определить тот уровень
безработицы, при котором заработная плата оказывается
стабильной и темп ее прироста равен нулю.
При b0 имеем медленно повышающуюся функцию с
верхней асимптотой при x ∞ . , т.е. с максимальным
b
предельным уровнем у, оценку которого в уравнении y x =a
x
дает параметр a .
Примером может служить взаимосвязь доли расходов на
товары длительного пользования и общих сумм расходов (или
доходов).
Математическое
описание
подобного
рода
взаимосвязей получило название кривых Энгеля.
В 1857 г. немецкий статистик Э. Энгель на основе
исследования
семейных
расходов
сформулировал
закономерность — с ростом дохода доля расходов на
продовольствие уменьшается. Соответственно с увеличением
дохода доля расходов на непродовольственные товары, будет
возрастать. Однако это увеличение не беспредельно, ибо на все
товары сумма долей не может быть больше единицы, или 100%, а
на отдельные непродовольственные товары этот предел может
характеризоваться величиной параметра a для уравнения вида
b
y x =a− ,
x
где y — доля расходов на непродовольственные товары;
x — доходы (или общая сумма расходов как индикатор
дохода).
Правомерность использования равносторонней гиперболы
b
y x =a− для кривой Энгеля довольно легко доказывается.
x
Соответственно можно определить границу величины
дохода, дальнейшее увеличение которого не приводит к росту
доли расходов на отдельные непродовольственные товары.
Так, для кривой Филлипса
13
b
не
x
является единственно возможной функцией для описания
кривой Энгеля.
В 1943 г. Уоркинг и в 1964 г. Лизер для этих целей
использовали полулогарифмическую кривую y =ab⋅ln xε .
Заменив ln x на z , опять получим линейное уравнение:
y =ab⋅zε . Данная функция, как и предыдущая, линейна по
параметрам и нелинейная по объясняющей переменной x .
Оценка параметров a и b может быть найдена МНК. Система
нормальных уравнений при этом окажется следующей:
y x =a−
Вместе с тем равносторонняя гипербола
{
∑ y=n⋅ab⋅∑ ln x ,
∑ y⋅ln x=a⋅∑ ln xb⋅∑ ln x .
(1.4)
2
Применим полулогарифмическую функцию зависимости доли
расходов на товары длительного пользования в общих расходах
семьи от дохода семьи, которые представлены таблицей 1.3.
Таблица 1.3
Доля расходов на товары длительного пользования в зависимости от
дохода семьи
Среднемесячный доход семьи,
( тыс. долл. США, x )
Процент расходов на товары
длительного пользования,( Y )
1
2
3
4
5
6
10
13,4
15,4
16,5
18,6
19,1
Суммы, необходимые для расчета, составили:
∑ ln x=6,579251 ; ∑ y=93; ∑ ln x 2=9,40991;
∑ y⋅ln x=113,23881 .
Остановимся более подробно на рассмотрении процедуры
вычислений. Например, для определения первой из записанных
сумм, мы поступаем так:
∑ ln x=ln 1ln 2ln 3ln 4ln 5ln 6=
=ln 1⋅2⋅3⋅4⋅5⋅6 =ln 720=6, 579251 .
В этом случае мы воспользовались свойствами логарифма:
сумма логарифмов по одному и тому же основанию, равна
логарифму произведения по этому же основанию. Натуральный
14
логарифм 720 вычислили с помощью электронных таблиц Excel,
можно его вычислить и с помощью инженерного калькулятора.
Для этого вводите на калькуляторе число 720, а затем нажимаете
на клавишу ln, изображенную на калькуляторе. Результат будет
совпадать с записанным выше.
Сумму значений y найдете, просуммировав данные
второй строки.
Далее вычислите сумму логарифмов в квадрате, т.е. ,
∑ ln x 2= ln1 2ln 2 2ln 32 ln 4 2 ln 5 2 ln 6 2=9, 40991 .
Сумма произведений y на ln x будет вычислена таким
образом:
∑ y⋅ln x=10⋅ln 113,4⋅ln 215 ,4⋅ln 3
16 ,5⋅ln 418 ,6⋅ln 519 ,1⋅ln 6=113 , 23881.
Мы вычисляли те значения, которые нам необходимы для
подстановки в систему (1.4) для определения ее параметров.
Решая систему нормальных уравнений
{6⋅a6,57925⋅b=93,
6,57925⋅a9,40991⋅b=113,23881 ,
мы получили уравнение регрессии
y=9, 8765,129⋅ln x ,
которое достаточно хорошо описывает исходные соотношения
дохода семьи и доли расходов на товары длительного
пользования, что видно из сравнения фактических и
теоретических значений y в таблице 1.4.
Но прежде несколько слов по поводу определения
параметров a и b предыдущей системы. Это система двух
линейных уравнений с двумя неизвестными, поэтому ее можно
решать вручную. Например, методом подстановки, а можно с
помощью электронных таблиц Excel и функции МОПРЕД в
категории Математические.
С помощью функции МОПРЕД мы решали систему трех
линейных уравнений с тремя неизвестными ранее. Аналогично
можно решать системы и с двумя неизвестными, вычислив
главный, и два вспомогательных определителя. Предлагаем вам
15
проверить свои вычисления: Δ=13 ,17293 ; Δa=130 , 0952 ;
Δb=67 , 56261 .
Из найденных определителей Вы находите значения
параметров a и b .
Δa 130 , 0952
Δb 67 ,56261
a= =
=9, 876 ; b= =
=5, 129 .
Δ 13 ,17293
Δ 13 , 17293
Итак, возвращаемся к заполнению таблицы 1.4. Первая
строка этой таблицы – подсчет значений y x , который
осуществляется подстановкой в полученное уравнение регрессии
y=9, 8765,129⋅ln x значения x , взятого из первой строки
таблицы 1.3.
Например,
для
x=1
получаем
y=9, 8765,129⋅ln 1=9, 8760=9,9 , т.к. логарифм по любому
основанию от числа 1 равен нулю. Аналогично будем заполнять и
все остальные столбцы первой строки таблицы 1.4.
Вторая строка таблицы 1.4 будет определяться разностью
фактического и теоретического значения y . А именно, берем
значение y=10 , которое соответствует x=1 из таблицы 1.3 и
вычитаем из него значение y x =9,9 – расчетное. Получившийся
результат 0,1 записываем в соответствующий столбец второй
строки таблицы 1.4. Подобным образом проводим заполнение
всех остальных столбцов второй строки.
Что касается третьей строки, то ее заполняем, возводя
значения второй строки в квадрат.
Таблица 1.4
Сравнение фактических и теоретических значений таблицы 1.3
yx
y − yx
( y − yx )
2
9,9
13,4
15,5
17,0
18,1
19,1
Сумма
0,1
0,0
-0,1
-0,5
0,5
0,0
0,0
0,01
0,0
0,01
0,25
0.25
0,0
*При более точном подсчете y x эта величина составит 0,4864.
0,52*
Иначе обстоит дело с регрессией, нелинейной по
оцениваемым параметрам. Данный класс нелинейных моделей
подразделяется на два типа: нелинейные модели внутренне
линейные и нелинейные модели внутренне нелинейные. Если
16
нелинейная модель внутренне линейна, то она с помощью
соответствующих преобразований может быть приведена к
линейному виду. Если же нелинейная модель внутренне нелинейна,
то она не может быть сведена к линейной функции. Например, в
эконометрических исследованиях при изучении эластичности
спроса от цен широко используется степенная функция:
y =a⋅x b⋅ε ,
где y — спрашиваемое количество;
x — цена;
ε — случайная ошибка.
Данная модель нелинейна относительно оцениваемых
параметров, ибо включает параметры a и b неаддитивно.
Однако ее можно считать внутренне линейной, ибо
логарифмирование данного уравнения по основанию e приводит
его к линейному виду:
ln y =ln ab⋅ln xε
Соответственно оценки параметров a и b могут быть
найдены МНК. В рассматриваемой степенной функции
предполагается, что случайная ошибка ε мультипликативно
связана с объясняющей переменной x . Если же модель
представить в виде y =a⋅x b ε , то она становится внутренне
нелинейной, ибо ее невозможно превратить в линейный вид.
Внутренне нелинейной будет и модель вида
y =ab⋅x b ε
или модель
1
y =a⋅ 1−
ε ,
1− x b
ибо эти уравнения не могут быть преобразованы в уравнения,
линейные по коэффициентам.
В специальных исследованиях по регрессионному анализу
часто к нелинейным относят модели, только внутренне
нелинейные по оцениваемым параметрам, а все другие модели,
которые внешне нелинейны, но путем преобразований
параметров могут быть приведены к линейному виду, относятся к
классу линейных моделей. В этом плане к линейным относят
17
например,
экспоненциальную
модель
ибо
y =e ab⋅x⋅ε ,
логарифмируя ее по натуральному основанию, получим
линейную форму модели
ln y =ab⋅xln ε .
Если модель внутренне нелинейна по параметрам, то для
оценки параметров используются итеративные процедуры,
успешность которых зависит от вида уравнений и особенностей
применяемого итеративного подхода. Модели внутренне
нелинейные
по
параметрам
могут
иметь
место
в
эконометрических исследованиях. Однако гораздо большее
распространение получили модели, приводимые к линейному
виду. Решение такого типа моделей реализовано в стандартных
пакетах прикладных программ, что мы с вами уже успешно
применяли с помощью электронных таблиц Excel. Среди них, в
частности, можно назвать и обратную модель вида
1
y=
.
ab⋅xε
Обращая обе части равенства, получим линейную форму
1
модели для переменной
:
y
1
=ab⋅xε .
y
Приводима к линейному виду и логистическая функция
a
y=
.
−c⋅x ε
1b⋅e
Обращая обе части равенства, получим:
a
1b⋅e−c⋅x ε = .
y
a
−c⋅x ε
= −1 .
Вычитая 1, имеем: b⋅e
y
Прологарифмировав обе части по натуральному логарифму,
получим уравнение линейной формы:
a
ln b−c⋅xε=ln −1
y
или
18
a
−1 и B=ln b .
y
Среди нелинейных функций, которые могут быть приведены
к линейному виду, в эконометрических исследованиях очень
широко используется степенная функция y =a⋅x b⋅ε . Связано это с
тем, что параметр b в ней имеет четкое экономическое
истолкование, т.е. он является коэффициентом эластичности.
Это значит, что величина коэффициента b показывает, на
сколько процентов изменится в среднем результат, если фактор
изменится на 1%. Так, если зависимость спроса от цен
y x =105,56⋅x−1,12
характеризуется уравнением вида
то,
следовательно, с увеличением цен на 1% спрос снижается в
среднем на 1,12%.
О правомерности подобного истолкования параметра b
b
для степенной функции y x =a⋅x
можно судить, если
рассмотреть формулу расчета коэффициента эластичности
x
Э= f ' x , (1.5)
y
где f ' x — первая производная, характеризующая
соотношение
приростов
результата
и
фактора
для
соответствующей формы связи.
Для степенной функции она составит: f ' x =a⋅b⋅x b−1 .
Соответственно коэффициент эластичности окажется равным:
x
a⋅b⋅x b
b−1
Э=a⋅b⋅x ⋅ b =
=b.
a⋅x
a⋅x b
Коэффициент
эластичности,
естественно,
можно
определять и при наличии других форм связи, но только для
степенной функции он представляет собой постоянную величину,
равную параметру b .
В других функциях коэффициент эластичности зависит от
b
значений фактора x . Так, для линейной регрессии y x =ab⋅x
функция и эластичность следующие:
x
. (1.6)
f ' x =b и Э=b⋅
ab⋅x
z =B−c⋅xε , где z=ln
19
В силу того что коэффициент эластичности для линейной
функции не является величиной постоянной, а зависит от
соответствующего значения x , то обычно рассчитывается
средний показатель эластичности по формуле
=b⋅x . (1.7)
Э
y
Для оценки параметров степенной функции y =a⋅x b⋅ε
применяется МНК к линеаризованному уравнению
ln y=ln ab⋅ln xln ε ,
т.е. решается система нормальных уравнений:
{
∑ ln y=n⋅ln ab⋅∑ ln x ,
∑ ln y⋅ln x=ln a⋅∑ ln xb⋅∑ ln x .
2
Параметр b определяется непосредственно из системы, а
параметр a — косвенным путем после потенцирования
величины ln a . Так, решая систему нормальных уравнений
зависимости спроса от цен, было получено уравнение
ln y=4,6593−1,1214⋅ln x . Если потенцировать его, т.е.
e 4, 6593
4, 6593
1, 1214
ln y=ln e
−ln x
=ln 1, 1214 , то
x
4,6593
e
4,6593 −1,1214
⋅x
,
получим ln y=ln 1,1214 =ln e
x
или
y=e 4,6593⋅x −1,1214 =105 , 56⋅x −1, 1214 .
Поскольку параметр a экономически не интерпретируется,
то нередко зависимость записывается в виде логарифмически
линейной функции, т.е. ln y=4,6593−1,1214⋅ln x .
В виде степенной функции изучается не только
эластичность спроса, но и предложения. При этом обычно
эластичность спроса характеризуется параметром b 0 , а
эластичность предложения параметром b 0 .
Вы уже убедились в том, что мощным исследовательским
инструментом в эконометрике является математика. Поэтому
некоторые сложности в усвоении эконометрики возможны
ввиду недостаточной математической подготовки. Если с
20
математикой все в порядке, эконометрика не будет для вас
непреодолимой преградой.
Поскольку коэффициенты эластичности представляют
экономический интерес, а виды моделей не ограничиваются
только степенной функцией, приведем формулы расчета
коэффициентов эластичности для наиболее распространенных
типов уравнений регрессии (табл. 1.5).
Таблица 1.5
Коэффициенты эластичности для ряда математических функций
Вид функции y ,
Первая производная,
y'
x
Линейная
y=a⋅b⋅xε
Парабола второго порядка
y=ab⋅xc⋅x 2ε
Гипербола
b
y=a ε
x
Показательная
b
b2⋅c⋅x
−b
x2
Э=
x
x
ln b⋅a⋅b
b
a⋅b⋅x b−1
y =a⋅b ⋅ε
Степенная
y =a⋅x ⋅ε
Полулогарифмическая
y=ab⋅ln xε
Логистическая
a
y=
−cxε
1b⋅e
Обратная
1
y=
ab⋅xε
Коэффициенты
эластичности,
x
Э= y ' ⋅
x y
b⋅x
Э=
ab⋅x
b2⋅c⋅x ⋅x
Э=
ab⋅xc⋅x 2
b
x
a⋅b⋅c⋅e−cx
1b⋅e−cx 2
−b
ab⋅x 2
−b
a⋅xb
Э=x⋅ln b
Э=b
b
ab⋅ln x
c⋅x
Э=
1 cx
⋅e 1
b
Э=
Э=
−b⋅x
ab⋅x
Чтобы вникнуть в суть понятия коэффициента
эластичности, рассмотрим такую ситуацию.
В Орле группа предприятий производит офисную мебель.
Известно, что оптовая цена за 1 т. энергоносителя, измеряемая в
21
1,6281
млн. руб., задается зависимостью y x =11 ,75⋅x
, x =1, 503 —
среднее значение фактора (цены).
Определим коэффициент эластичности. Мы не случайно вам
предложили таблицу 1.5. Она позволит вам извлечь из нее нужную
формулу для коэффициента эластичности. Вы только должны
разобраться, о какой функции в вашей ситуации идет речь.
Для этого внимательно соотносите ту функцию, которая
вам предложена, с функциями первого столбца таблицы 1.5.
Выяснили, что в вашей ситуации речь идет о степенной функции,
а значит, коэффициент ее эластичности Э=b .
Так как по условию показатель степенной функции,
=1,63 %
b=1, 6281 округлим его до сотых. Получили, что Э
Этот показатель говорит о том, что оптовая цена на
офисную мебель в среднем возрастет на 1,63% при увеличении
стоимости на энергоносители на 1%.
Несмотря на широкое использование в эконометрике
коэффициентов эластичности, возможны случаи, когда их расчет
экономического смысла не имеет. Это происходит тогда, когда
для рассматриваемых признаков бессмысленно определение
изменения значений в процентах. Например, вряд ли кто будет
определять, на сколько процентов может измениться заработная
плата с ростом стажа работы на 1%. Или, например, на сколько
процентов изменится урожайность пшеницы, если качество
почвы, измеряемое в баллах, изменится на 1%.
В такой ситуации степенная функция, даже если она
оказывается наилучшей по формальным соображениям (исходя
из наименьшего значения остаточной вариации), не может быть
экономически интерпретирована.
Например, изучая соотношение ставок межбанковского
кредита y (в процентах годовых) и срока его предоставления x
0,352
(в днях), было получено уравнение регрессии y x =11 ,684⋅x
с
очень высоким показателем корреляции (0,9895).
Коэффициент эластичности 0,352% (мы же выяснили, что в
этом случае он будет равен b=0, 352 ) лишен смысла, ибо срок
предоставления кредита не измеряется в процентах.
22
Значительно больший интерес для этой зависимости может
представить линейная функция y x =21,10, 403⋅x , имеющая
более низкий показатель корреляции 0,85. Коэффициент регрессии
0,403 показывает в процентных пунктах изменение ставок кредита
с увеличением срока их предоставления на один день.
В моделях, нелинейных по оцениваемым параметрам, но
приводимых к линейному виду, МНК применяется к
преобразованным уравнениям.
Так в линейной зависимости y x =ab⋅x при x =0
параметр
∑ y = y ,
a=
n
т.е. является средней арифметической.
Поскольку из статистики вам известно, что средняя
геометрическая всегда меньше средней арифметической, то и
оценки параметров, полученные из минимизации среднего
квадратического отклонения будут несколько смещены (занижены).
Практическое применение экспоненты возможно, если
результативный признак не имеет отрицательных значений.
Поэтому если исследуется, например, финансовый результат
деятельности предприятий, среди которых наряду с
прибыльными есть и убыточные, то данная функция не может
быть использована. Если экспонента строится как функция
выравнивания по динамическому ряду для характеристики
тенденции с постоянным темпом, то y=a⋅bt , где y — уровни
динамического ряда; t — хронологические даты, параметр b
означает средний за период коэффициент роста.
В уравнении y=e ab⋅x этот смысл приобретает величина
антилогарифма параметра b .
При исследовании взаимосвязей среди функций,
использующих ln y , в эконометрике преобладают степенные
зависимости — это и кривые спроса и предложения, и кривые
Энгеля, и производственные функции, и кривые освоения для
характеристики связи между трудоемкостью продукции и
масштабами производства в период освоения выпуска нового
23
вида изделий, и зависимость валового национального дохода от
уровня занятости.
В отдельных случаях может использоваться и нелинейная
модель вида
1
y=
,
ab⋅xε
так называемая обратная модель, являющаяся разновидностью
b
гиперболы. Но если в равносторонней гиперболе y=a ε
x
1
преобразованию подвергается объясняющая переменная =z и
x
y=ab⋅xε , , то для получения линейной формы зависимости
1
=z и
в обратной модели преобразовывается y , а именно:
y
z=abxε . В результате обратная модель оказывается
внутренне нелинейной и требование МНК выполняется не для
1
фактических значений признака у, а для их обратных величин
y
2
а именно: ∑ z− z x min .
1
=∑ z x , но ∑ y ≠∑ y x .
y
В качестве примера, рассмотрим ситуацию, описываемую
обратной моделью.
В Курске существует множество фирм, занимающихся
установкой стеклопакетов. Рассмотрим и проанализируем
зависимость рентабельности продукции от ее трудоемкости по
данным семи предприятий (табл. 1.6). Первоначально мы
располагаем данными, содержащимися в двух первых столбцах
таблицы, далее мы ее наполняем исходя из того, модель какого
вида мы собираемся строить. Мы будем давать комментарии по
заполнению таблицы 1.6 после того, как Вы увидите эту таблицу
уже сформированной. Так удобнее ввиду экономии времени.
Соответственно
∑
24
Итак, для оценки параметров исследуемой функции
1
y=
по МНК система нормальных уравнений примет
ab⋅xε
вид:
∑ 1y =n⋅ab⋅∑ x ,
(1.8)
x
1
∑ y =a⋅∑ xb⋅∑ x2 .
{
Таблица 1.6
Зависимость рентабельности продукции (%) y от ее трудоемкости
(ч/ед.)
№
x
y
1
=z
y
x
y
x2
zx
yx
z −z x
y− y x
1
2
3
1,0
1,2
1,5
32
28
22
0,03
0,0357
0,0455
0,0312
0,0428
0,0682
1,00
1,44
2,25
0,0285
0,0341
0,0424
35,1
29,3
23,6
0,0027
0,0016
0,0031
-3,1
-1,3
-1,6
4
2
20
0,0500
0,1000
4,00
0,0563
17,7
-0,0063
2,3
5
2,5
16
0,0625
0,1563
6,25
0,0703
14,2
-0,0063
1,8
6
2,7
15
0,0667
0,1800
7,29
0,0758
13,2
-0,0091
1,8
7
3,0
13,9
10
143
0,1000
0,3916
0,3000
0,8785
9,00
31,23
0,0842
0,3936
11,9
145,0
0,0158
0,0000
-1,9
-2,0
Итого:
Исходя из системы (1.8) нам необходимо знать сумму
величин, обратных y , а значит, нам необходим в таблице
четвертый столбец, в котором мы и будем вычислять обратные
значения третьего столбца. Просуммировав их, получим
∑ 1y =0, 3916 . Далее в системе необходимо знать n , но так как
в задаче идет речь о семи предприятиях, то n=7 . ∑ x=13,9 —
сумма значений второго столбца. Итак, с первой строкой
системы разобрались.
Переходим к формированию второй строки системы и
доработке таблицы 1.6.
25
Так как во втором уравнении системы необходима сумма
отношения x к y , то вводим в таблицу пятый столбец отношения
x к y . Обратите внимание на то, как мы его получаем?
В четвертом столбце у нас вычислены значения, обратные
y , тогда, умножив их на значения элементов второго столбца,
получим нужные отношения. Просуммировав их, получим
∑ xy =0, 8785 .
Сумма значений x нами уже вычислена. Далее по системе
2
(1.8) нам необходимо знать ∑ x . Значит, возникает
необходимость во введении в таблицу 1.6 шестого столбца, в
котором
будут
определяться
квадраты
трудоемкости,
2
просуммировав которые получим, что ∑ x =31 , 23 .
Вторую строку системы мы сформировали, теперь запишем
саму систему.
7⋅a13,9⋅b=0,3916 ,
13,9⋅a31,23⋅b=0,8785.
Решить эту систему можно, воспользовавшись формулами
(2.5) и (2.6). Но это гораздо дольше, чем решить ее в приложении
MS Excel. Что мы и сделаем.
Δ=25,4 ; Δa=0, 018518 ; Δb=0, 70626 .
Откуда по формулам (1.2) параметры искомого уравнения
составят:
a=0, 0007 и b=0, 0278 .
Обращаем ваше внимание на применение формулы (1.2).
Там шла речь о системе трех линейных уравнений с тремя
неизвестными, а в этом случае мы решаем систему двух
линейных уравнений с двумя неизвестными. Потому мы и
вычисляем только два параметра.
Соответственно уравнение регрессии составит:
1
y x=
.
0,00070, 0278⋅x
Составив уравнение регрессии, мы снова возвращаемся к
работе над заполнением таблицы 1.6.
{
26
В этой таблице нам необходимо заполнить седьмой
столбец, воспользовавшись равенством
z x=abx , подставляя в это выражение найденные
значения параметров a и b и значения трудоемкости x . Так по
первой строке седьмого столбца нами будет получен следующий
результат z x=0, 00070, 0278⋅1=0, 0285.
Аналогично заполняем все остальные шесть строк этого
столбца, не забудем просуммировать получившиеся результаты
седьмого столбца. Восьмой столбец таблицы посвящен
вычислениям y x исходя из уравнения регрессии
1
y x=
,
0, 00070, 0278⋅x
и подстановки в это уравнение значения трудоемкости x для
каждого из семи предприятий. Так для первого предприятия
получим
1
1
y x=
=
=35,1 .
0,00070, 0278⋅1 0, 0285
Выполнив вычисления по всем оставшимся шести
предприятиям этого столбца, просуммируем все расчетные
значения этого столбца. Два последних столбца таблицы 1.6
посвящены вычислению разностей теоретических и расчетных
значений z и y , которые нам еще пригодятся для расчетов.
Сравним последние две графы (столбца) таблицы 1.6,
получим ∑ y− y x ≠0 , тогда как для обратных значений эта
величина равна нулю. Кроме того, заметим, что положительные
отклонения фактических и теоретических обратных значений
сменяются на отрицательные значения для аналогичных
показателей по исходным данным. Уравнение отражает обратную
связь рассматриваемых признаков: чем выше трудоемкость тем
ниже рентабельность. Поскольку данное уравнение линейно
1
1
относительно величин
, то если обратные значения
имеют
y
y
b
экономический
смысл,
коэффициент
регрессии
интерпретируется, так же как в линейном уравнении регрессии.
Если, например, под y подразумеваются затраты на 1 руб.
продукции, а под x — производительность труда (выработка
27
продукции на одного работника), то обратная величина
характеризует затратоотдачу и параметр b имеет экономическое
содержание — средний прирост продукции в стоимостном
измерении на 1 руб. затрат с ростом производительности труда на
единицу своего измерения.
1
y x=
Уравнение вида
характеризует прямую
a−bx
зависимость результативного признака от фактора. Оно
целесообразно при очень медленном повышении уровней
результативного признака с ростом значений фактора.
Возможно
и
одновременное
использование
логарифмирования, и преобразование в обратные величины:
b
b
a− ε
ln
y
=a−
ε . Далее
x
.
Прологарифмировав
получим:
y =e
x
1
заменим
на z , и тогда для оценки параметров к линейному
x
уравнению ln y =a−b⋅zε может быть применен МНК.
При всех положительных значениях x функция возрастает;
b
при x= кривая имеет точку перегиба, так как ускоренный рост
2
b
b
при x
сменяется на замедленный рост при x .
2
2
Подобного типа функции используются при анализе
статистических данных о бюджетах потребителей, где
выдвигается гипотеза о существовании асимптотического уровня
расходов, об изменении предельной склонности к потреблению
товара, о существовании «порогового уровня дохода». В этом
случае при x ∞ y e a (рис. 1.3).
28
y
a
e
b/2
Рисунок 1.3 - Функция насыщения
Для нелинейных моделей, как и для линейных имеет смысл
говорить о корреляции и аппроксимации. Этому мы и посвятим
следующую главу.
Глава 1.2. Корреляция и средняя ошибка
аппроксимации
Уравнение нелинейной регрессии, так же как и в линейной
зависимости, дополняется показателем корреляции, а именно
индексом корреляции R :
1/2
2
σ
R = 1−
ост
σ
, (1.9)
2
y
2
где σ — общая дисперсия результативного признака y ;
y
σ
2
ост
— остаточная дисперсия, определяемая исходя из
уравнения регрессии y x = f x .
Воспользовавшись известными соотношениями дисперсии,
получим, что индекс корреляции можно выразить как
R=
∑ y−y
1−
2
x
− 2
∑ y− y
. (1.10)
Величина данного показателя находится в границах:
0 R1 ,
чем ближе к единице, тем теснее связь
29
рассматриваемых признаков, тем более надежно найденное
уравнение регрессии.
Во втором разделе мы вычисляли индекс корреляции для
линейной регрессии. Пользуясь формулой (1.10) вычислим
индекс корреляции для задачи, задаваемой таблицей 1.2.
По данным табл. 1.2. для уравнения регрессии
y x =3,42, 986 x−0, 214 x 2 индекс корреляции составил:
0,46
=0,9609 , свидетельствуя о достаточно
2
530 :5−10
тесной связи рассматриваемых явлений.
Напоминаем, что и в этом случае вычисление индекса
корреляции можно осуществить с помощью функции КОРРЕЛ
категории Статистические приложения Excel. Но компьютерный
вариант будет несколько отличаться от ручных вычислений и
объясняется это погрешностями приближений.
Парабола второй степени, как и полином более высокого
порядка, при линеаризации принимает вид уравнения
множественной регрессии. Если же нелинейное относительно
объясняемой переменной уравнение при линеаризации принимает
форму линейного уравнения парной регрессии, то для оценки
тесноты связи может быть использован линейный коэффициент
корреляции, величина которого в этом случае совпадет с индексом
корреляции R yx =r yz где z — преобразованная величина
1
признака-фактора, например z =
или z =ln x .
x
Поскольку в расчете индекса корреляции используется
соотношение факторной и общей суммы квадратов отклонений,
то R 2 имеет тот же смысл, что и коэффициент детерминации. В
специальных исследованиях величину R 2 для нелинейных связей
называют индексом детерминации.
Индекс детерминации используется для проверки
существенности в целом уравнения нелинейной регрессии по Fкритерию Фишера:
R 2 n−m−1
F=
⋅
, (1.11)
m
1−R 2
где R2 — индекс детерминации;
1−
30
n — число наблюдений;
m — число параметров при переменных x .
Величина m характеризует число степеней свободы для
факторной суммы квадратов, а n−m−1 — число степеней
свободы для остаточной суммы квадратов.
Составляя модели линейных и нелинейных регрессий, Вы
заметили, что фактические значения результативного признака
отличаются от теоретических, рассчитанных по уравнению
регрессии, т. е. y От y x .
Чем меньше это отличие, тем ближе теоретические
значения подходят к эмпирическим данным, лучше качество
модели. Величина отклонений фактических и расчетных
значений результативного признака y− y x
по каждому
наблюдению представляет собой ошибку аппроксимации. Их
число соответствует объему совокупности. В отдельных случаях
ошибка аппроксимации может оказаться равной нулю.
Отклонения y− y x несравнимы между собой, исключая
величину, равную нулю. Так, если для одного наблюдения
y− y x =5 , а для другого она равна 10, то это не означает, что во
втором случае модель дает вдвое худший результат.
Для сравнения используются величины отклонений,
выраженные в процентах к фактическим значениям. Так, если
для первого наблюдения y =20 , а для второго y =50 , ошибка
аппроксимации составит 25% для первого наблюдения и 20% —
для второго.
y− y x
Поскольку
может быть как величиной
положительной,
так
и
отрицательной,
то
ошибки
аппроксимации для каждого наблюдения принято определять в
процентах по модулю.
Отклонения y− y x можно рассматривать как абсолютную
ошибку аппроксимации, а
y− y x
⋅100 %
—
как
относительную
ошибку
y
аппроксимации.
Чтобы иметь общее суждение о качестве модели из
относительных
отклонений
по
каждому
наблюдению,
∣ ∣
31
определяют среднюю ошибку аппроксимации как среднюю
арифметическую простую:
y− y x
1
A= ⋅∑
⋅100 % . (1.12)
n
y
Во втором разделе мы вычисляли среднюю ошибку
аппроксимации, не вдаваясь в теорию этого вопроса.
Сейчас мы вычислим среднюю ошибку аппроксимации для
задачи, задаваемой таблицей 1.6.
Напоминаем, что последняя строка таблицы 1.6 —
суммирование по каждому из столбцов. Тогда внимательно
посмотрев на те столбцы, которые нам необходимы для расчета
средней ошибки аппроксимации, выясняем, что нам нужен
последний и второй столбцы. Извлекаем те данные, которые
содержатся в последней строке таблицы 1.6 второго и последнего
столбцов, и вводим их в формулу 1.12.
1 2
200
A= ⋅ ⋅100 %=
=0,20 %.
7 143
7⋅143
Считается, что качество уравнения регрессии хорошее, если
ошибка аппроксимации находится в пределах 5—7%. Т.е. это
свидетельствует о хорошем подборе модели к исходным данным.
Так как определенная нами ошибка аппроксимации не попала в
этот промежуток, то значит, подобранная модель не совсем удачна.
Итак, в этом разделе мы выяснили, что между
экономическими
явлениями
могут
существовать
связи,
описываемые нелинейными регрессиями. Мы рассмотрели виды
таких регрессий, вычисляли основные характеристики нелинейных
моделей. Еще раз убедились, что знания математики и статистики и
в этом разделе эконометрики играют ведущую роль.
При работе с различными моделями мы заметили, что чем
меньше фактические значения результативного признака
отличаются от теоретических, рассчитанных по уравнению
регрессии, тем лучше качество модели. Для нелинейных моделей,
как и для линейных, мы определяли ошибку аппроксимации.
Рассмотрение следующего раздела еще раз является
подтверждением того, что статистика и эконометрика неразрывны.
∣ ∣
32
РАЗДЕЛ 2. МНОЖЕСТВЕННАЯ РЕГРЕССИЯ И
КОРРЕЛЯЦИЯ
Глава 2.1. Спецификация модели
В предыдущем разделе мы рассматривали парную
регрессию. Но она может и дает хороший результат при
моделировании,
если
влиянием
других
факторов,
воздействующих на объект исследования, можно пренебречь.
Например, при построении модели потребления того или
иного товара от дохода исследователь (тот, кто строит модель)
предполагает, что в каждой группе дохода одинаково влияние на
потребление таких факторов, как цена товара, размер семьи, ее
состав. Вместе с тем исследователь никогда не может быть
уверен в справедливости данного предположения.
Для того чтобы иметь правильное представление о влиянии
дохода на потребление, необходимо изучить их корреляцию при
неизменном уровне других факторов. Как это можно сделать?
Отобрать те единицы, у которых все значения других факторов,
кроме дохода, одинаковы. Т.е. исследователь начинает
планировать эксперимент. Но этот метод не применим для
экономиста. «Почему?», — спросите Вы. Да дело в том, что
экономист в отличие от экспериментатора-естественника
принимает ситуацию такой, какая она есть. Это биолог или химик
в исследовательской лаборатории получает препарат, проверив его
на определенное свойство, и затем выпускает его для общего
использования, лишен возможности регулировать другие факторы.
Поведение же отдельных экономических переменных
контролировать нельзя, т.е. не удается обеспечить равенство всех
прочих условий для оценки влияния одного исследуемого
фактора. В этом случае следует попытаться выявить влияние
других факторов, введя их в модель, т.е. построить уравнение
множественной регрессии
y=ab 1 x 1b 2 x 2 . ..b p x p ε . (2.1)
33
Если внимательно отнестись к этой формуле, то легко
заметить, что результативный признак y зависит от нескольких
влияющих факторов x .
Такого рода уравнение может использоваться при изучении
потребления. Тогда коэффициенты b j — частные производные
потребления y по соответствующим факторам x i :
dy
dy
dy
b1=
, b2=
,..., b 2 =
dx 1
dx2
dx p
в предположении, что все остальные x , постоянны.
Если на уровне обывателя говорить о потребительской
функции, то можно сразу сказать, что она зависит от вашего
дохода, от тех цен, которые предлагает нам сегодня рынок и
супермаркеты и тех наличных средств и других ценностей,
которыми Вы располагаете. А теперь попытаемся все сказанное
представить в виде некоторой функции, т.е. модели
потребительской функции. Если потребительскую функцию
обозначить символом C , а все остальные факторы так как
предложено ниже, то построенная нами модель будет иметь вид
формулы (2.2).
C= j y , P , M , Z , (2.2)
где C — потребление;
y — доход;
P — цена, индекс стоимости жизни;
M — наличные деньги;
Z — ликвидные активы.
При этом
dC
0
1 .
dx
Множественная регрессия широко используется в решении
проблем спроса, доходности акций, при изучении функции
издержек производства, в макроэкономических расчетах и целого
ряда других вопросов эконометрики. В настоящее время
множественная регрессия — один из наиболее распространенных
методов в эконометрике.
Основная цель множественной регрессии — построить
модель с большим числом факторов, определив при этом влияние
34
каждого из них в отдельности, а также совокупное их
воздействие на моделируемый показатель.
Построение
уравнения
множественной
регрессии
начинается с решения вопроса о спецификации модели. Суть
проблемы спецификации мы уже рассматривали. Она включает в
себя два круга вопросов: отбор факторов и выбор вида уравнения
регрессии. Когда велась речь о парной регрессии, там ключевым
вопросом был вопрос построения модели.
В случае же множественной регрессии на первое место
встает вопрос отбора факторов и только потом — построение
модели.
Итак, разобрались с понятием множественной регрессии,
идем дальше.
Глава 2.2. Отбор факторов при построении
множественной регрессии
В предыдущей главе мы отметили, что ключевым
моментом для множественной регрессии является отбор
факторов. Дело в том, что включение в уравнение множественной
регрессии того или иного набора факторов связано, прежде всего,
с представлением исследователя о природе взаимосвязи
моделируемого показателя с другими экономическими
явлениями. Факторы, включаемые во множественную регрессию,
должны отвечать следующим требованиям:
•они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную
определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы
могут быть проранжированы);
•факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.
35
Например, себестоимость единицы продукции (руб., у) от
заработной платы работника (руб., х) и производительности его
труда (единиц в час, z) задается регрессией:
y=22600−5⋅x−10⋅zε .
Коэффициент регрессии при переменной z показывает,
что с ростом производительности труда на 1 ед. себестоимость
единицы продукции снижается в среднем на 10 руб. при
постоянном уровне оплаты труда. Вместе с тем параметр при
x
нельзя интерпретировать как снижение себестоимости
единицы продукции за счет роста заработной платы.
Отрицательное значение коэффициента регрессии при
переменной x в данном r xz =0,95 случае обусловлено
высокой корреляцией между x и z . Этот результат Вы
можете получить, воспользовавшись формулой (2.7).
К какому же выводу мы приходим? Оказывается роста
заработной платы при неизменности производительности труда
(если не брать во внимание проблемы инфляции) быть не может.
Включаемые во множественную регрессию факторы
должны объяснить вариацию независимой переменной.
Например, строится модель с набором p факторов, то для нее
рассчитывается показатель детерминации R2 . Вспомните, в
предыдущем разделе мы говорили об индексе корреляции,
задаваемом формулой (1.9).
1/2
σ
R = 1−
2
ост
σ2
y
А показатель детерминации получим, возведя эту формулу
в квадрат. Тогда
R2 = 1 −
2
σ ост
.
σ y2
Что фиксирует показатель детерминации? Он как раз и
фиксирует долю объясненной вариации результативного
признака за счет рассматриваемых в регрессии p факторов. Ведь
σ 2y — общая дисперсия результативного признака.
36
Если вернуться к потребительской функции, то факторов
мы брали в рассмотрение 4.
Влияние других, не учтенных в модели факторов
оценивается как 1−R 2 с соответствующей остаточной
2
дисперсией σ ост . Если мы пытаемся дополнительно включать в
регрессию факторы, коэффициент детерминации должен
возрастать, а остаточная дисперсия уменьшаться.
Если же этого не происходит и данные показатели
практически мало отличаются друг от друга, то включаемый в
анализ фактор не улучшает модель и практически является
лишним фактором.
Например, для регрессии, включающей пять факторов,
коэффициент детерминации составил 0,857, и включение шестого
фактора дало коэффициент детерминации 0,858, то вряд ли
целесообразно дополнительно включать в модель этот фактор.
Насыщение модели лишними факторами не только не
снижает величину остаточной дисперсии и не увеличивает
показатель детерминации, но и приводит к статистической
незначимости параметров регрессии по t -критерию Стьюдента.
Таким образом, хотя теоретически регрессионная модель
позволяет учесть любое число факторов, практически в этом нет
необходимости. Отбор факторов производится на основе
качественного теоретико-экономического анализа. Однако
теоретический анализ часто не позволяет однозначно ответить на
вопрос о количественной взаимосвязи рассматриваемых
признаков и целесообразности включения фактора в модель.
Поэтому отбор факторов обычно осуществляется в две стадии: на
первой подбираются факторы исходя из сущности проблемы; на
второй — на основе матрицы показателей корреляции
определяют t -статистики для параметров регрессии.
Считается, что две переменные находятся между собой в
линейной зависимости, если коэффициент парной корреляции
r xi x j 0, 7 .
Пусть, например, при изучении зависимости y= f x , z , v
матрица парных коэффициентов корреляции оказалась следующей:
37
Таблица 2.1
Матрица парных коэффициентов корреляции
y
1
0,8
0,7
0,6
x
z
ν
1
0,8
0,5
1
0,2
1
Что можно заметить по этой таблице? Два одинаковых
значения. Это число 0,8. Давайте разберемся, как эта таблица
читается.
Первой читается строка (горизонталь), второй читается
столбец (вертикаль). Что мы тогда замечаем из таблицы?
Коэффициент корреляции r xy =0,8 и коэффициент r zx =0,8 .
Значит, факторы x и z
дублируют друг друга. Что мы
должны предпринять? Вероятно, избавиться от какого-либо из
этих факторов.
Теперь рассуждаем, от какого фактора нам лучше
избавиться?
В анализ целесообразно включить фактор z , а не x , так
как корреляция z с результатом y слабее, чем корреляция
фактора x с
y r yz r yx , но зато слабее межфакторная
корреляция r zν r xν .
Поэтому в данном случае в уравнение множественной
регрессии включаются факторы z, v .
Чтобы более основательно разобраться с тем, о чем только
что шел разговор, рассмотрим еще такую ситуацию. Для
некоторой модели – зависимости стоимости изделия от
стоимости ткани, стоимости фурнитуры, стоимости работ –
задана таблица парных коэффициентов. Видим как влияет
каждый их этих трех факторов на стоимость.
38
Таблица 2.2
Матрица парных коэффициентов корреляции
y
y
x1
x2
x3
1
-
x1
0,6
1
-
x2
0,5
0,04
1
-
x3
0,7
0,03
0,1
1
Проанализируем эту таблицу. На основании парных
коэффициентов корреляции можно сделать вывод о том, что
связь факторов x 1 , x 2 , x 3 с фактором y существенная
(коэффициенты корреляции соответственно равны 0,6; 0,5; 0,7).
x1 ,
x2 ,
x3
Теснота связи между факторами
незначительная (коэффициенты корреляции соответственно
равны 0,04; 0,03; 0,1).
А значит, в уравнение модели нецелесообразно включить
тот фактор, коэффициент парной корреляции которого мал.
Итак, об отборе факторов модели мы поговорили.
Следующая часть разговора — построение модели.
Глава 2.3. Выбор формы уравнения регрессии
При рассмотрении парной зависимости мы говорили о
разных видах уравнений – линейных и нелинейных. Для
множественной регрессии ситуация аналогична, т.е. для нее также
возможны разные виды уравнений — линейные и нелинейные.
Но вместе с тем наиболее широко используются линейная и
степенная функции. В линейной множественной регрессии
y x =ab 1 x 1b 2 x 2 . ..b p x p (2.3)
параметры при
x
называются коэффициентами
«чистой» регрессии. Вспомните парную регрессию, там мы
говорили только о двух параметрах a и b . Во множественной
регрессии это число в общем виде равно p1 . Каким образом
мы это определили?
39
Так как ровно p параметров будет за счет того, что они
являются коэффициентами чистой регрессии, да еще один
параметр a .
Выясним, что характеризуют коэффициенты чистой
регрессии.
Они характеризуют среднее изменение результата с
изменением соответствующего фактора на единицу при
неизмененном значении других факторов, закрепленных на
среднем уровне. Аналогично было с параметром b в случае
парной регрессии.
Например, зависимость расходов на продукты питания по
совокупности отдельной семьей характеризуется следующим
уравнением:
y x =0,50, 35 x 1 0, 73 x 2 ,
где y — расходы семьи за месяц на продукты питания,
тыс. руб.;
x 1 — месячный доход на одного члена семьи, тыс. руб.;
x 2 — размер семьи, человек.
Анализ данного уравнения позволяет сделать выводы: с
ростом дохода на одного члена семьи на 1 тыс. руб. расходы на
питание возрастут в среднем на 350 руб., при том же среднем
размере семьи.
Иными словами, 35% дополнительных семейных расходов
тратится на питание. Увеличение размера семьи при тех же ее
доходах предполагает дополнительный рост расходов на питание
на 730 руб. Параметр a не подлежит экономической
интерпретации.
При изучении вопросов потребления коэффициенты
регрессии рассматриваются как характеристики предельной
склонности к потреблению. Например, если функция
потребления C t имеет вид
C t =ab 0⋅R t b1⋅R t −1 ε ,
то потребление в период времени t зависит от дохода того же
периода R t и от дохода предшествующего периода R t −1 .
40
Соответственно коэффициент b 0 характеризует эффект
единичного возрастания дохода R t при неизменном уровне
предыдущего дохода. Коэффициент b 0 обычно называют
краткосрочной предельной склонностью к потреблению. Общим
эффектом возрастания как текущего, так и предыдущего дохода
будет рост потребления на b =b0 b1 . Коэффициент b
рассматривается здесь как долгосрочная склонность к
потреблению. Так как коэффициенты b0 и b 10 , то
долгосрочная склонность к потреблению должна превосходить
краткосрочную b 0 .
Например, за период 1905—1951 гг. (за исключением
военных лет) американский экономист М. Фридман построил для
США
следующую
функцию
потребления:
C t =530,58⋅Rt 0,32⋅R t−1
с
краткосрочной
предельной
склонностью к потреблению 0,58 и с долгосрочной склонностью
к потреблению 0,9.
Функция потребления может рассматриваться также в
зависимости от прошлых привычек потребления, т.е. от
предыдущего уровня потребления C t−1 :
C t =ab 0⋅R t b1⋅C t −1 ε .
В этом уравнении параметр b 0 также характеризует
краткосрочную предельную склонность к потреблению, т.е.
влияние на потребление единичного роста доходов того же
R t . Долгосрочную предельную склонность к
периода
потреблению здесь измеряет выражение b 0 /1−b 1 .
Так, если уравнение регрессии составило
C t =23,40,46⋅Rt 0,20⋅C t −1 ε ,
то краткосрочная склонность к потреблению равна 0,46, а
долгосрочная — 0,575 (0,46/0,8).
Итак, мы выяснили, что множественная регрессия, как и
парная, может задаваться линейной функцией. Но с числом
параметров в общем виде равном p1 . Причем, те параметры,
которые являются коэффициентами при факторах – коэффициенты
чистой регрессии имеют экономический смысл. Т.е. они
характеризуют среднее изменение результата с изменением
41
соответствующего фактора на единицу при неизмененном значении
других факторов, закрепленных на среднем уровне.
Но мы же сказали, что множественная регрессия также
часто может задаваться и степенной функцией.
Для множественной регрессии степенная функция будет
иметь вид:
b
b
b
y x =a⋅x 11⋅x 22 .. . x pp . . (2.4)
Как и для парной регрессии, в случае множественной
регрессии, в степенной функции коэффициенты b j являются
коэффициентами эластичности. Они показывают, на сколько
процентов изменяется в среднем результат с изменением
соответствующего фактора на 1% при неизменности действия
других факторов. Если вспомнить парную регрессию, то там этот
коэффициент имел аналогичный экономический смысл.
Именно вид уравнения в форме степенной функции –
наиболее часто используется при составлении моделей
множественных
регрессий.
Он
получил
наибольшее
распространение в производственных функциях, в исследованиях
спроса и потребления.
Биологи утверждают, что самым энергетическим
продуктом является мясо. Так вот, при исследовании спроса на
мясо получено уравнение
63
y x =0, 82⋅x −2,
⋅x 1,11
1
2 . ,
где y — количество спрашиваемого мяса;
x 1 — цена;
x 2 — доход.
Что можно сказать по поводу этого уравнения, исходя из
экономического смыла коэффициентов эластичности?
Так как коэффициент b 1 =−2, 63 , то рост цен на 1% при
том же доходе вызывает снижение спроса в среднем на 2,63%.
Обращаем ваше внимание, что здесь мы говорим о снижении
ввиду отрицательного значения этого коэффициента.
Увеличение дохода на 1% обусловливает при неизменных
ценах рост спроса на 1,11%, так как b 2 =1, 11 .
42
Если рассматривать производственную функцию, то
количество произведенного продукта будет зависеть от целого
комплекса производственных факторов. И в общем виде ее
можно задать формулой (2.5).
b
b
b
P=a⋅F 1 ⋅F 2 ... F m ⋅ε , (2.5)
где P — количество продукта, изготавливаемого с
помощью m производственных факторов F 1 , F 2 ,... , F m ;
b — параметр, являющийся эластичностью количества
продукции по отношению к количеству соответствующих
производственных факторов.
В этом случае экономический смысл имеют не только
коэффициенты b каждого фактора, но и их сумма, т.е. сумма
эластичностей: B=b 1b 2 ...b m . Эта величина фиксирует
обобщенную характеристику эластичности производства.
Например, задана производственная функция следующим
видом
0,2
0,5
P=2⋅F 0,3
1 ⋅F 2 ⋅F 3 ⋅ε ,
где P — выпуск продукции;
F 1 — стоимость основных производственных фондов;
F 2 — отработано человеко-дней;
F 3 — затраты на производство.
Анализируем эту функцию. Эластичность выпуска по
отдельным факторам производства составляет в среднем 0,3% с
ростом F 1 а 1% при неизменном уровне других факторов; 0,2%
— с ростом F 2 на 1% также при неизменности других факторов
производства и 0,5% с ростом F 3 на 1% при неизменном уровне
факторов F 1 и F 2 .
Для данного уравнения B =b 1b 2 b 3 =1 . Следовательно, в
целом, с ростом каждого фактора производства на 1%
коэффициент эластичности выпуска продукции составляет 1%,
т.е. выпуск продукции увеличивается на 1%, что в
микроэкономике соответствует постоянной отдаче на масштаб.
При практических расчетах не всегда сумма показателей
степеней равна 1, т.е. не всегда
1
2
43
m
n
∑ b j =1 .
j =1
Она может быть как больше, так и меньше единицы. В этом
случае величина
B
фиксирует приближенную оценку
эластичности выпуска с ростом каждого фактора производства на
1% в условиях увеличивающейся B1 или уменьшающейся
B1 отдачи на масштаб.
0,3
0,7
0,2
Так, если P=2,4⋅F 1 ⋅F 2 ⋅F 3 , то с ростом значений
каждого фактора производства на 1% выпуск продукции в
целом возрастает приблизительно на 1,2% (мы суммируем
показатели степеней).
Мы рассмотрели наиболее часто используемые уравнения
для моделирования множественных регрессий.
В прежних разделах мы использовали возможности
приложения MS Excel для оценки параметров регрессии,
корреляции,
стандартного
отклонения,
коэффициента
детерминации. Что касается множественных регрессий, то и к ним
на помощь приходит это же приложение. Более того, стандартные
компьютерные программы обработки регрессионного анализа
позволяют перебирать различные функции и выбрать ту из них,
для которой остаточная дисперсия и ошибка аппроксимации
минимальны, а коэффициент детерминации максимален, что мы с
вами и рассмотрим позднее.
Глава 2.4. Оценка параметров уравнения
множественной регрессии
Глава, к рассмотрению которой мы приступаем, вам своим
названием известна. Речь пойдет об оценке коэффициентов
чистой регрессии и параметра a .
Параметры
уравнения
множественной
регрессии
оцениваются, как и в парной регрессии, методом наименьших
квадратов (МНК). При его применении строится система
нормальных уравнений, решение которой и позволяет получить
оценки параметров регрессии. Но если для парной регрессии
44
уравнений было два и параметров два, то для множественной
регрессии в общем виде их число будет равно p1.
Так для уравнения
y =ab 1⋅x 1 b 2 x 2.. .b p x p ε
система нормальных уравнений составит
{
∑ y=n⋅ab1⋅∑ x 1b 2⋅∑ x2 ...b p⋅∑ x p ,
∑ y⋅x 1=a⋅∑ x1 b1⋅∑ x 12b2⋅∑ x 1⋅x2 ...b p⋅∑ x p⋅x1 ,
(2.6)
............................................................................................. ,
∑ y⋅x p =a⋅∑ x p b1⋅∑ x1⋅x pb2⋅∑ x 2⋅x p ...b p⋅∑ x 2p .
Своим мощным и величественным видом система вас,
вероятно, испугала. Но смеем вас заверить, что ничего
«страшного» в ней нет.
Решать эту систему можно методом последовательного
исключения неизвестных или методом определителей. Методом
определителей мы решали систему и вручную и на компьютере
в приложении MS Excel c помощью функции МОПРЕД
категории
Математические.
Только
в
этом
случае
вспомогательных определителей будет не два, а по числу
уравнений системы (в общем виде p ).
При решении системы методом определителей:
Δa
Δb
Δb
a = 1 , b1= 1 , b p= p ,
Δ
Δ
Δ
где
Δ — определитель системы;
Δa, Δb1 , .. ., Δb p — частные определители.
При этом
∣
n
∑ x1
Δ= ∑ x 2
∑ x1
∑x
∑ x2
∑ x 2 x1
...
...
∑ xp
∑ x p x1
∑ x1 x 2
∑x
...
∑ x p x2
2
1
2
2
...
...
...
...
∑ xp
∑ x1 x p
∑ x2 x p
...
45
...
∑ x2
p
∣
(2.7)
Δa, Δb1 , .. ., Δb p
a
получаются
путем
замены
соответствующего столбца матрицы определителя системы
данными левой части системы.
Возможен и иной подход к определению параметров
множественной регрессии, когда на основе матрицы парных
коэффициентов корреляции строится уравнение регрессии в
стандартизованном масштабе:
t y = β 1⋅t x β 2⋅t x .. . β p⋅t x ε , (2.8)
1
1
p
где t y , t x1 , . . .. , t x p , — стандартизованные переменные:
t y=
y− y t = x i − xi
, xi
σx ,
σy
i
для которых среднее значение равно нулю:
ty =tx , а среднее квадратическое отклонение равно
i
единице:
σ t =σ t =1 ;
y
x
β — стандартизованные коэффициенты регрессии.
Применяя МНК к уравнению множественной регрессии в
стандартизованном
масштабе,
после
соответствующих
преобразований получим систему нормальных уравнений вида:
{
R yx = β 1 β 2⋅R x x β 3⋅R x x ... β p⋅R x x ,
R yx = β 1⋅R x x β 2 β 3⋅R x x ... β p⋅R x x ,
.................................................................. ,
R yx = β 1⋅R x x β 2⋅R x x β 3⋅R x x ... β p .
1
2
2
2
1
p
p
1
1
p
2
3
1
p
1
3
2
p
2
3
p
Решая ее методом определителей, найдем параметры —
стандартизованные коэффициенты регрессии ( β -коэффициенты).
Стандартизованные коэффициенты регрессии показывают,
на сколько сигм изменится в среднем результат, если
соответствующий фактор x i изменится на одну сигму при
неизменном среднем уровне других факторов.
βi
Стандартизованные
коэффициенты
регрессии
сравнимы между собой.
Сравнивая их друг с другом, можно ранжировать факторы
по силе их воздействия на результат. В этом основное
46
достоинство стандартизованных коэффициентов регрессии в
отличие от коэффициентов «чистой» регрессии, которые
несравнимы между собой.
Например, функция издержек производства y (тыс. руб.)
характеризуется уравнением вида
y =2001,2⋅x 11,1⋅x 2 ε ,
где x 1 — основные производственные фонды (тыс. руб.);
x 2 — численность занятых в производстве (чел.).
Анализируя его, мы видим, что при той же занятости
дополнительный рост стоимости основных производственных
фондов на 1 тыс. руб. влечет за собой увеличение затрат в
среднем на 1,2 тыс. руб.
А увеличение численности занятых на одного человека
способствует при той же технической оснащенности
предприятий росту затрат в среднем на 1,1 тыс. руб.
Однако это не означает, что фактор x 1 оказывает более
сильное влияние на издержки производства по сравнению с
фактором x 2 . Такое сравнение возможно, если обратиться к
уравнению
регрессии
в
стандартизованном
масштабе.
Предположим, оно выглядит так:
t y =0,5⋅t x 0,8⋅t x .
1
2
Это означает, что с ростом фактора x 1 на одну сигму при
неизменной численности занятых затраты на продукцию
увеличиваются в среднем на 0,5 сигмы.
Так как β 1 β 2 0,50,8 , то можно заключить, что
большее влияние оказывает на производство продукции фактор
x 2 а не x 1 , как кажется из уравнения регрессии в натуральном
масштабе.
В парной зависимости стандартизованный коэффициент
регрессии есть не что иное, как линейный коэффициент
корреляции r xy . Подобно тому, как в парной зависимости
коэффициенты регрессии и корреляции связаны между собой, так
и во множественной регрессии коэффициенты «чистой»
регрессии b i связаны со стандартизованными коэффициентами
регрессии β i а именно:
47
bi = βi
σy
σ x . (2.8)
i
Это позволяет от уравнения регрессии в стандартизованном
масштабе (2.6) переходить к уравнению регрессии в натуральном
масштабе переменных (2.3).
Параметр a определяется как
a= y −b 1⋅x 1−b2⋅x 2−...−b p⋅x p (2.9)
Рассмотренный смысл стандартизованных коэффициентов
регрессии позволяет их использовать при отсеве факторов — из
модели исключаются факторы с наименьшим значением β i .
Необходимо заметить, что компьютерные программы
построения уравнения множественной регрессии в зависимости
от использованного в них алгоритма решения позволяют
получить либо только уравнение регрессии для исходных
данных, либо, кроме того, уравнение регрессии в
стандартизованном масштабе.
При нелинейной зависимости признаков, приводимой к
линейному виду, параметры множественной регрессии также
определяются МНК с той лишь разницей, что он используется не
к исходной информации, а к преобразованным данным. Так,
рассматривая степенную функцию
b
b
b
y=a⋅x 1 ⋅x 2 ...⋅x p⋅ε ,
мы преобразовываем ее в линейный вид:
lg y=lg ab1⋅lg x 1b 2⋅lg x 2...b p⋅lg x plg ε ,
где переменные выражены в логарифмах.
Далее обработка МНК та же, что и описана выше: строится
система нормальных уравнений и определяются параметры
lg a⋅b 1⋅b 2⋅.. .. b p , . Потенцируя значение lg a , найдем
параметр a и соответственно общий вид уравнения степенной
функции.
Поскольку параметры степенной функции представляют
собой коэффициенты эластичности, то они сравнимы по разным
факторам.
Например, исследуя спрос на масло в одном из районов
Курской области, получено следующее уравнение:
1
2
p
48
lg y =−1,25−0,858⋅lg x 11,126⋅lg x 2ε ,
где y — количество масла на душу населения (кг);
x 1 -—цена (руб.);
x 2 — доход на душу населения (тыс. руб.).
Требуется представить данное уравнение в естественной
форме.
Приводим это уравнение к естественной форме (не в
логарифмах), потенцируя его, т.е.
858
y=10−1, 25⋅x −0,
⋅x 1,126
.
1
2
Далее вычисляем с помощью калькулятора или на
компьютере степень 10−1,25=0, 056 . После этого перепишем
−0,858
1,126
уравнение в виде степенной функции y=0, 056⋅x 1 ⋅x 2 ⋅ε .
Анализируя уравнение, видим, что с ростом цены на I% при
том же доходе спрос снижается в среднем на 0,858%, а рост
дохода на 1% при неизменных ценах вызывает увеличение спроса
в среднем на 1,126%.
При других нелинейных функциях методика оценки
параметров МНК осуществляется так же. В отличие от
предыдущих функций параметры более сложных моделей не
имеют четкой экономической интерпретации: они не являются
показателями силы связи и ее эластичности. Это не исключает
возможности их применения, но делает их менее
привлекательными в практических расчетах.
Глава 2.5. Частные уравнения регрессии
На основе линейного уравнения множественной регрессии
(2.1) могут быть найдены частные уравнения регрессии: т.е.
уравнения регрессии, которые связывают результативный
признак с соответствующими факторами x при закреплении
других учитываемых во множественной регрессии факторов на
среднем уровне.
Не вдаваясь подробно в теорию этого вопроса, следует
заметить, что частные уравнения регрессии характеризуют
изолированное влияние фактора на результат, ибо другие
49
факторы закреплены на неизменном уровне. Эффекты влияния
других факторов присоединены в них к свободному члену
уравнения множественной регрессии. Это позволяет на основе
частных
уравнений
регрессии
определять
частные
коэффициенты эластичности
xi
Э y x =b i
, (2.10)
i
y x i⋅x 1⋅x 2⋅... . x p
где b i — коэффициенты регрессии для фактора x i в
уравнении множественной регрессии;
y x i⋅x1⋅x2⋅. . . . x p , — частное уравнение регрессии.
Например, по ряду регионов множественная регрессия
величины импорта на определенный товар (автомобили) y
относительно отечественного его производства x 1 изменения
запасов x 2 и потребления на внутреннем рынке x 3 оказалась
следующей:
y x =−66 , 0280, 135⋅x 1 0, 476⋅x 20, 343 x 3 .
При этом средние значения для рассматриваемых
признаков составили
y =31,5 ; x1=245,7 ; x2 =3,7; x3=182,5 ;
На основе данной информации могут быть найдены
средние по совокупности показатели эластичности:
x
y =bi⋅ i . (2.11)
Э
xi
yx i
Для данного примера они окажутся равными:
−
245 ,7
Э yx1 =0, 135⋅
=1, 053 %,
31,5
т.е. с ростом величины отечественного производства на 1%
размер импорта в среднем по совокупности регионов возрастет
на 1,053% при неизменных запасах и потреблении семей.
Пользуясь формулой (2.11) найдем коэффициент
эластичности для второй переменной:
y =0, 476⋅ 3,7 =0, 056 %,
Э
x2
31 ,5
50
т.е. с ростом изменения запасов на 1% при неизменном
производстве и внутреннем потреблении величина импорта
увеличивается в среднем на 0,056%.
Для третьей переменной коэффициент эластичности
составляет:
y =0, 343⋅182 ,5 =1, 987 %,
Э
x2
31 ,5
т.е. при неизменном объеме производства и величины запасов с
увеличением внутреннего потребления на 1% импорт товара
возрастает в среднем по совокупности регионов на 1,987%.
Средние показатели эластичности можно сравнивать друг с
другом и соответственно ранжировать факторы по силе их
воздействия на результат. В рассматриваемом примере наибольшее
воздействие на величину импорта оказывает размер внутреннего
потребления товара x 3 , а наименьшее — изменение запасов x 2 .
Наряду со средними показателями эластичности в целом по
совокупности регионов на основе частных уравнений регрессии
могут быть определены частные коэффициенты эластичности для
каждого региона. Частные уравнения регрессии в нашем случае
составят y x1⋅x 2 x3 =ab 1 x 1b 2 x 2b 3 x3 , т. е.
y x1⋅x 2 x3 =−66 , 0280, 135 x 10, 476⋅3,70, 343⋅182,5=−1, 6690,135 x 1 ;
y x2⋅x1 x3 =ab 1 x1b 2 x 2b 3 x3 , т. е.
y x2⋅x1 x3 =−66 , 0280, 135⋅245 ,70, 476⋅x 2 0,343⋅182 ,5=29 , 7390, 476 x 2 ;
y x3⋅x 1 x2 =ab 1 x1b 2 x2b 3 x3 ,
y x3⋅x 1 x2 =−66 , 0280, 135⋅245 ,70, 476⋅3,70,343 x 3 =−31 , 0970,343 x 3 .
Обращаем ваше внимание на процедуру составления
частных уравнений. Тот фактор, который в частном уравнении
стоит первым, он в это уравнение входит как неизвестная, а
остальные факторы заменяются их средними значениями.
Поэтому мы получали линейные уравнения с одной неизвестной,
т.е. фактором, который берется в качестве первого нижнего
индекса в частном уравнении регрессии.
Подставляя в данные уравнения фактические значения по
отдельным регионам соответствующих факторов, получим
51
значения моделируемого показателя y x при заданном уровне
одного фактора и средних значениях других факторов. Эти
расчетные значения результативного признака используются для
определения частных коэффициентов эластичности по
приведенной формуле (2.10).
Вернемся к примеру с поставками иномарок в один из
регионов. Пусть показатели измеряются в тыс. штук.
x 3=190,5 , то
Так, если в регионе x 1=160,2 ; x 2 =4,0 ;
частные коэффициенты эластичности составят:
x1
Э y x =b 2
.
y x1⋅x2 , x3
1
160 ,2
Э y x =0, 135⋅
=1,084 % .
−1, 6690,135⋅160 ,2
Обращаем ваше внимание на процедуру вычислений по
формуле частного коэффициента эластичности. Коэффициент b 1
мы берем из условия, т.е. это то число, которое стоит перед
первым фактором x 1 в исходном уравнении регрессии
y x =−66 , 0280, 135⋅x 1 0, 476⋅x 20, 343 x 3 .
Далее это число будем умножать на дробь, числитель
которой для данного региона дан, он равен 160,2, а со
знаменателем не надо торопиться. Обратите внимание, он
представляет собой частное уравнение регрессии, которое мы с
вами получили, но в нем не был определен фактор х 1 .
Сейчас значение этого фактора мы знаем, оно равно
x 1=160,2 .
Подставляя это значение в частное уравнение регрессии,
увидим, что знаменатель будет представлен видом
−1, 6690, 135⋅160 ,2 .
Аналогично вычислим остальные частные коэффициенты
эластичности.
x2
Э y x =b 2
.
y x 2⋅x1 , x 3
1
2
4,0
Э y x =0, 476⋅
=0,060 % .
29 ,7390, 476⋅4,0
2
52
Э y x =b 3
3
x3
y x 3⋅x 1 , x 2
.
190 ,5
Э y x =0, 343⋅
=1, 908% .
−31 ,0970, 343⋅190 ,5
Как видим, частные коэффициенты эластичности для
региона несколько отличаются от аналогичных средних
показателей по совокупности регионов. Они могут быть
использованы при принятии решений относительно развития
конкретных регионов, т.е. эти данные дают толчок для развития
региона по конкретному показателю.
Итак, в этой главе мы выяснили, что на основе линейного
уравнения регрессии могут быть составлены частные уравнения
регрессии. При подстановке в них конкретных факторов можно
выявить тенденции, которые затем используются для принятия
конкретных мер изменения ситуации в ту или другую сторону.
3
Глава 2.6. Множественная корреляция
Как и в случае парной регрессии, практическая значимость
уравнения множественной регрессии оценивается с помощью
показателя множественной корреляции и его квадрата —
коэффициента детерминации.
Показатель множественной корреляции характеризует
тесноту связи рассматриваемого набора факторов с исследуемым
признаком, или, иначе, оценивает тесноту совместного влияния
факторов на результат.
Вернемся к рассмотрению примера о зависимости стоимости
изделия от стоимости ткани, фурнитуры и работы. Показатель
множественной корреляции будет характеризовать тесноту связи
этого набора факторов с исследуемым признаком – стоимостью.
В главе 2.2 мы уже рассматривали формулу индекса
корреляции для множественной регрессии. Независимо от формы
связи, показатель множественной корреляции может быть найден
как индекс множественной корреляции:
53
2
R yx 1 x 2 . .. x p = 1−
2
σ ост
σ 2y
, (2.12)
где σ y — общая дисперсия результативного признака;
σ 2ост
остаточная
дисперсия
для
уравнения
y= f x 1 , x 2 ,. .. . x p .
Методика построения индекса множественной корреляции
аналогична построению индекса корреляции для парной
зависимости. Границы его изменения те же: от 0 до 1. Чем ближе
его значение к 1, тем теснее связь результативного признака со
всем набором исследуемых факторов. Величина индекса
множественной корреляции должна быть больше или равна
максимальному парному индексу корреляции.
Если R=0 , то линейной корреляционной связи между
признаком и факторами нет. Если
R=1 , то связь
функциональная.
Выражение, по которому вычисляется коэффициент
корреляции в общем виде, таково:
a 1 r yx 1 σ x a 2 r yx 2 σ x . . .a p r yx p σ x
, (2.13)
R=
2
1
p
σy
где a i — коэффициенты регрессии уравнения частной
корреляции;
r yx i — парные коэффициенты корреляции;
σ x — среднее квадратическое отклонение фактора x i ;
σ y — среднее квадратическое отклонение y .
При правильном включении факторов в регрессионный
анализ величина индекса множественной корреляции будет
существенно отличаться от индекса корреляции парной
зависимости. Если же дополнительно включенные в уравнение
множественной регрессии факторы третьестепенны, то индекс
множественной корреляции может практически совпадать с
индексом парной корреляции (различия в третьем, четвертом
знаках).
Отсюда ясно, что, сравнивая индексы множественной и
парной корреляции, можно сделать вывод о целесообразности
i
54
включения в уравнение регрессии того или иного фактора. Так,
если y рассматривается как функция x и z и получен индекс
множественной корреляции R xyz=0,85 , а индексы парной
корреляции при этом были R yx =0,82 и R yz =0,75 , то
совершенно ясно, что уравнение парной регрессии y= f x
охватывало 67,2% колеблемости результативного признака под
влиянием фактора x , а дополнительное включение в анализ
фактора z увеличило долю объясненной вариации до 72,3%, т.е.
уменьшилась доля остаточной вариации на 5,1 проц. пункта (с
32,8 до 27,7%).
Обычно
интерпретируется
не
сам
коэффициент
корреляции, а его квадрат, который, как известно из предыдущих
разделов, называется коэффициентом множественной (общей)
детерминации.
Он показывает, какая часть общей дисперсии объясняется
за счет вариации линейной комбинации аргументов (факторов)
при данных значениях коэффициентов регрессии.
Например, коэффициент множественной корреляции
R=0,7 , тогда коэффициент детерминации R 2 =0,7 2 =0, 49 , т.е.
49% вариаций объясняется факторами, включенными в
уравнение регрессии, а 51% — прочими факторами.
Существенность
отличия
от
нуля
выборочного
коэффициента корреляции множественной регрессии проверяется
на основе F-критерия (критерия Фишера). Существует таблица
критических точек распределения для уровня значимости
α=0, 01 и α=0, 05 .
И величина критерия
R2⋅ n− p−1
F=
, (2.14)
1−R 2 ⋅p
где R — коэффициент корреляции,
p — число факторов (признаков),
n — число наблюдений.
Найденное значение критерия F при числе степеней
свободы v 1=p, v 2 =n− p−1 и заданном уровне значимости α .
Если расчетное значение F F табл превышает табличное, то
55
гипотеза о равенстве коэффициента множественной корреляции
нулю отвергается и связь считается существенной.
Например,
R=0, 75 ,
p=4 ,
n=16 ,
определить
существенность связи.
Вычисляем критерий F по формуле (2.14).
0, 75 2⋅ 16−4−1
F=
=3, 53 .
1−0, 752 ⋅4
F табл =3, 36
Табличное
значение
при
v 1=4; v 2=n− p−1=11 и α=0, 05 .
Расчетное значение F -критерия превышает табличное,
поэтому можно сделать вывод о существенности связи.
Мы говорили, что для множественной регрессии, как и для
парной, естественно расчеты производить в приложении,
например, MS Excel.
Например, по 20 предприятиям региона (табл. 2.3)
изучается зависимость выработки продукции на одного
работника y (тыс. руб.) от ввода в действие новых основных
фондов x 1 (% от стоимости фондов на конец года) и от
удельного веса рабочих высокой квалификации в общей
численности рабочих x 2 (%).
Таблица 2.3
Показатели выработки продукции на одного работника 20 предприятий
региона
Номер
предприятия
1
1
2
3
4
5
6
7
8
9
Выработка продукции
на одного работника
y , (тыс. руб.)
Основные
фонды
x 1 , (%)
Удельный вес
рабочих высокой
квалификации
x 2 , (%)
2
3
4
7,0
7,0
7,0
7,0
7,0
7,0
8,0
8,0
8,0
3,9
3,9
3,7
4,0
3,8
4,8
5,4
4,4
5,3
10,0
14,0
15,0
16,0
17,0
19,0
19,0
20,0
20,0
56
Номер
предприятия
1
10
11
12
13
14
15
16
17
18
19
20
Выработка продукции
на одного работника
y , (тыс. руб.)
Основные
фонды
x1 , (%)
Удельный вес
рабочих высокой
квалификации
x2 , (%)
2
3
4
10,0
9,0
11,0
9,0
11,0
12,0
12,0
12,0
12,0
14,0
14,0
6,8
6,0
6,4
6,8
7,2
8,0
8,2
8,1
8,5
9,6
9,0
20,0
21,0
22,0
22,0
25,0
28,0
29,0
30,0
31,0
32,0
36,0
Требуется:
•оценить показатели вариации каждого признака и сделать
вывод о возможностях применения МНК для их изучения;
•проанализировать линейные коэффициенты парной
корреляции;
•написать уравнение множественной регрессии.
Введем данные таблицы на лист Excel. Сводную таблицу
основных статистических характеристик для одного или
нескольких массивов данных можно получить с помощью
инструмента анализа данных Описательная статистика. Для
этого выполните следующее: на открытом листе книги Excel (с
введенными табличными данными) в главном меню выберите
последовательно
пункты
Сервис,
Анализ
данных,
Описательная статистика, после чего щелкните по кнопке Оk.
Если, открыв меню Сервис, Вы не обнаружили команды Анализ
данных, ее необходимо установить. Делается это таким образом.
В меню Сервис, выбираем команду Надстройки, далее
выбираем в открывшемся окне команду Пакет анализа,
подтвердив свой выбор нажатием на кнопку Оk. Теперь Анализ
данных будет содержаться в меню Сервис и каждый раз
загружать его уже будет не надо.
Мы расположили данные в окне Excel, как на рисунке 2.1.
57
Рисунок 2.1 − Показатели 20 предприятий региона
После заполнения окна, как на рисунке 2.2 и подтверждения этого выбора параметров на кнопке Оk, получите диалоговое
окно «Описательная статистика», см. рис. 2.2.
Рисунок 2.2 – Диалоговое окно «Описательная статистика»
58
Обратите внимание на диалоговое окно (рис. 2.2). Для автоматического заполнения строки Входной интервал, установите в
эту строку курсор и протащите при нажатой левой кнопке мыши
по данным исходной таблицы (рис. 2.1), не включая столбец А с
номерами предприятий.
В строку Выходной интервал достаточно внести адрес одной начальной ячейки, начиная с которой будет внесена вся описательная статистика. Выставите нужные флажки, как на рис. 2.2.
диалогового окна. Результат описательной статистики, полученный в окне приложения Excel, мы представляем в виде отдельной
таблицы (табл. 2.4). Из этой таблицы мы получаем всю информацию относительно предприятий региона.
Таблица 2.4
Описательная статистика показателей выработки продукции на одного
работника 20 предприятий региона
Выработка продукции на
одного работника
y (тыс. руб.)
Среднее
9,6
Стандартная
ошибка
0,549641031
Медиана
9
Мода
7
Стандартное
отклонение
2,458069418
Дисперсия
выборки
6,042105263
Эксцесс
-1,196054269
Асимметричность
0,45
Интервал
7
Минимум
7
Максимум
14
Сумма
192
Счет
20
Основные фонды,
x1 (%)
Среднее
Стандартная
ошибка
Медиана
Мода
Стандартное
отклонение
Дисперсия
выборки
Эксцесс
Асимметричность
Интервал
Минимум
Максимум
Сумма
Счет
6,19
0,433523
6,2
3,9
1,938773
3,758842
-1,33143
0,188101
5,9
3,7
9,6
123,8
20
Удельный вес рабочих
высокой квалификации
x2 (%)
Среднее
Стандартная
ошибка
Медиана
Мода
Стандартное
отклонение
Дисперсия
выборки
Эксцесс
Асимметрич
ность
Интервал
Минимум
Максимум
Сумма
Счет
22,3
1,523673
20,5
20
6,814072
46,43158
-0,53653
0,327801
26
10
36
446
20
Сравнивая значения средних квадратических отклонений и
средних величин и определяя коэффициенты вариации для всех
трех показателей, получим:
59
σ y 2, 45807
=
⋅100 %=25,6 % ;
9,6
y
σ x 1, 93877
v x1= 1 =
⋅100 %=31,3 % ;
x1
6, 19
σ 6, 81407
v x 2= x =
⋅100 %=30,6 % .
x2 22 ,3
По результатам приходим к выводу, что уровни варьирования признаков повышены, хотя не превышают 35%. Следовательно, совокупность предприятий однородна, и для ее изучения
можно использовать МНК.
Для ответа на второй поставленный вопрос необходимо знать
значения линейных коэффициентов парной корреляции, которые
определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии. Линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных,
представленных в уравнении множественной регрессии.
К сожалению, в MS Excel нет специального инструмента
для расчета линейных коэффициентов частной корреляции.
Матрицу парных коэффициентов корреляции переменных можно
рассчитать, используя инструмент анализа данных Корреляция.
Для этого в главном меню последовательно выберите
пункты Сервис, Анализ данных, Корреляция, щелкните по
кнопке ОК и заполните диалоговое окно ввода данных и
параметров вывода (см. рис. 2.3).
Заполнение этого окна аналогично заполнению окна на рис.
2.2. Поэтому мы уже не рассматриваем этот вопрос подробно.
v y=
2
60
Рисунок 2.3 – Диалоговое окно «Корреляция»
Результаты вычислений — матрица коэффициентов парной
корреляции — представлены в таблице 2.5.
Таблица 2.5
Матрица коэффициентов парной корреляции
y
x1
x2
y
1
x1
0,969881436
1,0000
0,940800036
0,942838898
x2
1
Проанализируем результаты таблицы 2.5.
Значения коэффициентов парной корреляции указывают на
весьма тесную связь выработки y как с коэффициентом
обновления основных фондов — x 1 , так и с долей рабочих
высокой квалификации — x 2 . Так как значения парной
корреляции соответственно равны r yx 1 =0, 9699 и r yx 2=0, 9408 ,
но в то же время межфакторная связь между ними r x1 x 2=0, 9428
весьма тесная и превышает тесноту связи x 2 с y , то для
улучшения данной модели можно исключить из нее фактор x 2
как малоинформативный, недостаточно статистически надежный.
Итак, мы проанализировали значения коэффициентов
парной корреляции и сделали вывод о возможности исключения
61
из данной модели фактора x 2 как малоинформативного,
недостаточно статистически надежного.
Для ответа на третий вопрос нашего задания написать
уравнение множественной регрессии, необходимо вспомнить,
как мы работали с парной регрессией. Эта операция проводится
с помощью инструмента анализа данных Регрессия. Она
аналогична расчету параметров парной линейной регрессии,
только в отличие от парной регрессии в диалоговом окне при
заполнении параметра Входной интервал следует указать не
один столбец, а все столбцы, содержащие значения факторных
признаков. Пусть на вашем листе книги Excel табличные
данные расположены как на рис. 2.1. Тогда, выбрав в меню
Сервис, Анализ данных, Регрессия, заполняете диалоговое
окно, как на рисунке 2.4. Результаты анализа, которые Вы
получите, мы оформили в виде трех отдельных таблиц 2.6 —
2.8. Еще раз обращаем ваше внимание на тот факт, что таблицы
2.6 - 2.8 — это те таблицы, которые мы получили в результате
команды Регрессия.
Рисунок 2.4 – Диалоговое окно «Регрессия»
62
Таблица 2.6
Регрессионная статистика
Регрессионная статистика
Множественный R
0,973101182
R-квадрат
0,94692591
Нормированный R-квадрат
0,9406819
Стандартная ошибка
0,598670364
Наблюдения
20
Таблица 2.7
Дисперсионный анализ
Дисперсионный
анализ
Регрессия
Остаток
Итого:
df
SS
MS
F
Значимость F
2
17
19
108,7070945
6,092905478
114,8
54,35355
0,358406
-
151,6535
-
1,45045E-11
-
Таблица 2.8
Вывод результатов регрессии
Коэффициенты
Стандартная
ошибка
Tстатистика
Yпересечение
1,84
0,4711
3,8961
x1
0,9459
0,2126
4,4499
x2
0,0856
0,0605
1,4156
PЗначение
Нижние
95%
Верхние
95%
Нижние
95,0%
Верхние
95,0%
0,8414
2,8292
0,8414
2,8292
0,4975
1,3944
0,4975
1,3944
-0,0420
0,2132
-0,0420
0,2132
0,001
2
0,000
4
0,175
Обращаем ваше внимание на те результаты, которые мы
видим в таблице 2.8. Компьютер выдает результат с большей
точностью вычислений. Мы же выполнили округление лишь до 4
63
знаков после запятой (в отличие от предыдущих таблиц) с целью
экономии места и времени.
Для записи уравнения множественной регрессии вам
необходимо знать все его коэффициенты. По таблице 2.8 легко
сообразить, что они представляют собой второй столбец таблицы.
Теперь осталось только подставить их значение в уравнение
множественной регрессии
y x =a 0 b 1 x 1 b 2 x 2
и получить искомое уравнение
y x =1, 83530, 9459 x 10, 0856 x 2 .
Итак, в этой главе мы выяснили, что показатель множественной корреляции оценивает тесноту совместного влияния факторов на результат, и чем ближе его значение к 1, тем теснее связь
результативного признака со всем набором исследуемых факторов. Как и для парной регрессии разобрались с понятием коэффициента детерминации. Выяснили, что все задачи множественной
регрессии можно реализовывать с помощью компьютера, облегчая
себе работу. В завершении курса переходим к рассмотрению вопроса прогнозирования экономических процессов.
64
РАЗДЕЛ 3. ПРОГНОЗИРОВАНИЕ
ЭКОНОМИЧЕСКИХ ПРОЦЕССОВ
Глава 3.1. Виды временных рядов
Прочитав название этой главы, Вы, вероятно, вспомнили, что
когда-то похожее Вы уже слышали. Да, вам частично этот материал
знаком из статистики. Там под временными (динамическими)
рядами понимают экономические величины, зависящие от времени.
При этом время предполагается дискретным, в противном случае
говорят о случайных процессах, а не о временных рядах. В
эконометрике все остается также справедливым.
Во введении мы говорили, что каким бы видом
производства или бизнеса ни занималась организация, ей
приходится планировать предпринимательскую деятельность на
будущий период. При разработке краткосрочных и долгосрочных
планов менеджеры вынуждены прогнозировать будущие
значения таких важнейших показателей, как, например, объем
продаж, издержки производства, ставки процента и т.д. Как Вы
уже имели возможность убедиться, величайшим помощником на
пути решения этих задач являются информационные технологии.
Давайте выясним, что такое прогноз? Мы утром и вечером
слушаем прогноз гидрометеослужбы. При большой беде – кто-то
близкий оказался в больнице, мы идем к лечащему доктору и
слышим от него фразу: «К сожалению, прогноз неутешительный,
или, к счастью, прогноз хороший». Да, здесь все вроде бы
понятно. А вот относительно экономики. Что это означает?
Под прогнозом понимается научно обоснованное описание
возможных состояний системы в будущем и сроков достижения
этих состояний, а процесс разработки прогнозов называют
прогнозированием.
Словарь методических терминов под прогнозом понимает
упреждение – вероятностное прогнозирование.
В зависимости от объектов прогнозирования прогнозы
разделяют на научно-технические, экономические, социальные и т.д.
65
В зависимости от масштабности объекта прогнозирования
экономические прогнозы охватывают все уровни: от прогнозов
отдельных предприятий и производств (микроуровни) до
прогнозов развития отрасли в масштабе страны (макроуровень)
или закономерностей мирового масштаба (глобальный уровень).
Временем упреждения при прогнозировании называют
отрезок времени от момента, для которого имеются последние
данные об изучаемом объекте, до момента, к которому
относится прогноз.
По длительности времени упреждения различают
следующие виды прогнозов:
•оперативные — с периодом упреждения до одного месяца;
•краткосрочные — до одного года;
•среднесрочные — от одного года до пяти лет;
•долгосрочные — с периодом упреждения более пяти лет.
Наибольший практический интерес представляют оперативные и краткосрочные прогнозы.
Прогнозирование экономических процессов состоит из
следующих этапов:
•постановка задачи и сбор необходимой для прогнозирования
информации;
•первичная обработка исходной информации;
•определение возможных моделей прогнозирования;
•оценка параметров рассматриваемых моделей;
•проверка адекватности выбранных моделей;
•расчет характеристик моделей;
•анализ полученных результатов прогноза.
Вы, вероятно, вспомнили, что в курсе статистики по
аналогичной схеме осуществляется статистическое наблюдение.
Происходящие в экономических системах процессы в
основном
проявляются
как
ряд
расположенных
в
хронологическом порядке значений определенного показателя,
который в своем изменении несет определенную информацию о
динамике изучаемого явления.
66
Как и в статистике, ряд наблюдений за значениями
определенного показателя, упорядоченный в зависимости от
возрастающих или убывающих значений другого показателя,
называют динамическим рядом, временным рядом, рядом
динамики.
Отдельные наблюдения временного ряда называются
уровнями этого ряда.
В статистике Вы слышали о двух типах рядов: моментных
и интервальных. В эконометрике мы узнаем еще об одном типе
временного
ряда
–
производном.
Напомним,
чем
характеризуются эти типы рядов.
Моментные ряды характеризуют значения показателя на
определенные моменты времени; пример такого ряда
представлен в таблице 3.1.
Интервальные ряды характеризуют значения показателя
за определенные интервалы времени, примером такого ряда
является ряд, представленный в таблице 3.2.
Производные ряды получаются из средних или
относительных величин показателя, пример ряда представлен в
таблице 3.3.
Таблица 3.1
Численность работников фирмы
Дата
1 января 1 февраля 1 марта 1 апреля
Численность
работников,
283
287
295
298
чел.
1 мая
1 июня
308
312
Таблица 3.2
Фонд заработной платы работников фирмы
Месяц
Фонд
заработной
платы (долл. США)
Январь Февраль
1520
1590
67
Март
Апрель
Май
Июнь
1650
1710
1780
1890
Таблица 3.3
Среднемесячная заработная плата работников фирмы
Месяц
Январь Февраль
Средняя заработная
5400
5440
плата, руб.
Март
Апрель
Май
Июнь
5430
5470
5475
5500
Уровни ряда могут иметь детерминированные или
случайные значения. Ряд последовательных данных о количестве
дней в месяце, квартале, году являются примерами рядов с
детерминированными значениями.
Прогнозированию подвергаются ряды со случайными
значениями уровней. Каждый показатель таких рядов может
иметь дискретную или непрерывную величину.
Важное значение для прогнозирования имеет выбор
интервалов между соседними уровнями ряда. При слишком
большом интервале времени могут быть упущены некоторые
закономерности в динамике показателя. При слишком малом —
увеличивается
объем
вычислений,
могут
появляться
несущественные детали в динамике процесса.
Выбор интервала времени между уровнями ряда должен
решаться конкретно для каждого процесса, причем удобнее иметь
равноотстоящие друг от друга уровни.
Важным условием правильного отражения временным
рядом реального процесса развития является сопоставимость (и
снова термин из статистики) уровней ряда. Несопоставимость
чаще всего встречается в стоимостных характеристиках,
изменениях цен, территориальных изменениях, укрупнении
предприятий и др. Для несопоставимых величин показателя
неправомерно проводить его прогнозирование.
Для успешного изучения динамики процесса необходимо,
чтобы информация была полной на принятом уровне
наблюдений, временной ряд имел достаточную длину,
отсутствовали пропущенные наблюдения.
Уровни временных рядов могут иметь аномальные
значения. Выясним, с чем связано появление таких значений?
68
Появление таких значений может быть вызвано ошибками
при сборе, записи или передаче информации — это ошибки
технического порядка, или ошибки первого рода. Однако
аномальные значения могут отражать реальные процессы,
например, скачок курса доллара или падение курса ценных бумаг
на фондовом рынке и др.; такие аномальные значения относят к
ошибкам второго рода, они не подлежат устранению.
Для выявления аномальных уровней временных рядов
можно использовать метод Ирвина.
Пусть имеется временной ряд
y 1 , y 2 , .. . , y n ,
соответствующий моментам времени
t 1 , t 2 ,. .. ,t n .
Метод Ирвина предполагает использование следующей
формулы:
∣y − y t−1∣
λt= t
, (3.1)
σy
где σ y — среднеквадратическое отклонение временного
ряда.
Для вычисления среднего квадратического отклонения
необходимо знать дисперсию временного ряда, а она вычисляется
по формуле 3.2. Исходя из формулы дисперсии временного ряда,
∑ yi − y
2
=
2
. (3.2)
n−1
Извлекая из полученного числа квадратный корень,
получаем величину дисперсии.
λ 1 , λ 2 , .. . , λn
Расчетные значения
сравниваются с
табличными значениями критерия Ирвина λ α ; если какое-либо
из них оказывается больше табличного, то соответствующее
значение y t уровня ряда считается аномальным.
Значения критерия Ирвина для уровня значимости α=0, 05
приведены в таблице 3.4.
σy
69
Таблица 3.4
Табличные значения критерия Ирвина для уровня значимости α = 0,05
n
2
3
10
20
30
50
100
λα
2,8
2,3
1,5
1,3
1,2
1,1
1,0
После выявления аномальных уровней необходимо
определить причины их возникновения. Если они вызваны
ошибками технического порядка, то они устраняются чаще всего
заменой уровней средней арифметической двух соседних
уровней ряда.
Ошибки, возникающие из-за воздействия факторов,
имеющих объективный характер, устранению не подлежат.
Например, процент дефектных изделий, допускаемых
фирмой, занимающейся изготовлением облицовочной плитки
задан таблицей 3.5 (два первых столбца). Поставим задачу
исследовать на аномальные значения точки t =2 и t=5 данного
временного ряда.
Для этого найдем сумму значений второго столбца. Она
будет равна 29,1. Для вычисления среднего значения процента
дефектной плитки получившуюся сумму делим на сумму всех
временных интервалов (в нашем случае их 10):
∑ y t = 29,1 =2, 91 ;
y =
n
10
2
∑ y − y =
7, 66
=0, 92 .
n−1
9
Для исследования на аномальные значения в двух уже
названных точках находим
∣y − y ∣ 1,9−1,6
λ2= 2 1 =
=0, 32 .
σy
0, 92
σ y=
i
70
Таблица 3.5
Исследование временного ряда
Процент дефектных
изделий, yt
y t − y
y t − y
1
2
3
4
5
6
7
8
9
10
1,6
1,9
2,1
2,4
4,5
2,8
3,1
3,3
3,6
3,8
-1,31
-1,01
-0,81
-0,51
1,59
-0,11
0,19
0,39
0,69
0,89
1,72
1,02
0,66
0,26
2,53
0,01
0,04
0,15
0,48
0,79
∑
29,1
-
7,66
Период времени, t
2
В таблице 3.4 находим значение λ табл =1,5 при n=10 . Так
как расчетное значение оказалось меньше табличного, то уровень
t =2 считается нормальным.
Аналогично исследуем точку t=5 на аномальность.
Снова, обратившись к таблице 3.4, найдем табличное
значение λ табл =1,5 при n=10 .
Так как расчетное значение больше табличного, то ряд
является аномальным.
Если уровень t=5 относится к ошибкам 1-го рода, то его
2,44,5
=3, 45.
можно заменить на среднее арифметическое y 5 =
2
Что, к примеру, можно использовать при оценке работы
или в других ситуациях, связанных с оценкой показателей.
Глава 3.2. Прогнозирование экономических процессов
Если во временном ряду проявляется длительная тенденция
изменения экономического показателя (например, растет процент
дефектной плитки), то в этом случае говорят, что имеет место
тренд. Это понятие тоже вам известно. Но напомним его еще раз.
71
Под трендом понимают изменение, определяющее общее
направление развития или основную тенденцию временного ряда.
Тренд относят к систематической составляющей долговременного
действия. Во временных рядах часто происходят регулярные
колебания, которые относятся к периодическим составляющим
рядов экономических процессов.
Считают, что значения уровней временных рядов
экономических показателей складываются из следующих
составляющих (компонентов): тренда, сезонной, циклической и
случайной.
Если период колебаний не превышает года, то их называют
сезонными, более года — циклическими составляющими. Чаще всего
причиной сезонных колебаний являются природные, климатические
условия, циклических — демографические циклы др.
Тренд, сезонная и циклическая составляющие называются
регулярными, или систематическими, компонентами временного
ряда. Если из временного ряда удалить регулярный компонент, то
останется случайный компонент.
Прогнозирование
временных
рядов
целесообразно
начинать с построения графика исследуемого показателя. Это
построение можно сделать с помощью приложения Excel,
выделив столбец исходных данных, и выбрав в Мастере
диаграмм, Графики.
Однако в нем не всегда прослеживается присутствие тренда
(тенденции возрастания или убывания). Поэтому в этих случаях
необходимо выяснить, существует ли тенденция во временном
ряду или она отсутствует. Следовательно, лучше определить
прогноз численно, выполнив определенные вычисления.
Например, изменение ежеквартальной динамики фонда
заработной платы фирмы происходило примерно с постоянным
темпом роста в течение 5 кварталов. Фонд заработной платы в
1-м квартале составлял 252 долл. США, а в 5-м квартале —
256,5 долл. США.
Надо определить прогноз фонда заработной платы
работников фирмы в 6-м квартале, используя средний темп роста.
72
По условию задачи изменение фонда заработной платы
происходило примерно с постоянным темпом роста в течение 5
кварталов. Поэтому правомерно использовать средний темп роста
для расчета прогноза фонда в 6-м квартале. И снова мы прибегаем
к понятию – средний темп роста, известный вам из статистики.
Средний темп роста составит:
y
T = n
y1
1
n−1
⋅100 % .
Для нашего примера средний темп роста
1
256 ,5 5−1
T =
⋅100 %=100,44 %.
252
Таким образом, прогноз величины фонда заработной платы
сотрудников фирмы составит:
y 6 = y 5⋅T =256 ,5⋅100 , 44=257 ,6 долл. США.
Важно
владеть
такой
информацией
менеджеру,
руководителю фирмы? Естественно, ведь это ваше завтра.
Мы не будем еще раз напоминать, ведя разговор о рядах
динамики, о тех статистических показателях, которыми
приходится пользоваться для количественной оценки ряда. Они
рассмотрены подробно в курсе статистики.
Но в той задаче, прогноз которой мы только что строили,
кроится не только понятие среднего темпа роста, но и тех
закономерностей, которым подчиняются ряды динамики с
постоянным темпом роста. Т.е., сказанное можно отразить
формулой
y n1 = y n⋅Ti . (3.3)
Но этот метод прогнозирования обладает недостатком.
Давайте разберемся, каким недостатком.
Если посмотреть на расчеты с использованием среднего
прироста и среднего темпа роста, то они учитывают лишь
начальный и конечный уровни ряда, исключая влияния
промежуточных уровней. Тем не менее, они используются как
простейшие, приближенные способы прогнозирования.
Более точные прогнозы строятся с помощью специальных
приложений.
73
Если факты вещь упрямая, то те знания, которые Вы
получили в этом курсе, помогут вам сознательно выбирать,
формировать уровни, определяя тем самым наиболее
рациональную тенденцию развития вашего бизнеса.
В заключение курса желаем вам, выражаясь терминами
эконометрики, иметь самый высокий коэффициент детерминации
не только при выполнении экзаменационного тестирования, но в
во всех жизненных ситуациях.
Пусть средняя ошибка аппроксимации во всех ваших делах
и поступках имеет самый низкий процент.
Ну и, конечно же, построив уравнение множественной
регрессии своих дел в бизнесе (в любой форме – линейной,
степенной, и т.д.) постарайтесь добиться, чтобы частные
коэффициенты корреляции всех составляющих факторов вашего
бизнеса не вышли за пределы отрезка от -1 до 1.
А теперь, для подтверждения этой мысли вам предстоит
выполнить практикум, завершив его выполнением контрольной
работы, и сдать итоговый зачет в форме контрольно-тестовых
заданий. Желаем вам успехов!
Конец курса
Все замечания и предложения отсылайте по адресу:feedback@rfei.ru
74
ПРИЛОЖЕНИЕ
Критические точки распределения Фишера—Снедекора
(
k1
— число степеней свободы большей дисперсии;
k2
— число степеней свободы меньшей
дисперсии)
Уровень значимости
k2
α=0,01
k1
1
2
3
4
5
6
7
8
9
10
11
12
6022
6056
6082
6106
1
4052 4999 5403 5625 5764
2
98,49 99,01 90,17 99,25 99,33 99,30 99,34
99,36 99,36
99,40 99,41 99,42
3
34,12 30,81 29,46 28,71 28,24 27,91 27,67
27,49 27,34
27,23 27,13 27,05
4
21,20 18,00 16,69 15,98 15,52 15,21 14,98
14,80 14,66
14,54 14,45 14,37
5
16,26 13,27 12,06 11,39 10,97 10,67 10,45
10,27 10,15
10,05 9,96
9,89
6
13,74 10,92 9,78
9,15 8,75
8,47
8,26
8,10
7,98
7,87
7,79
7,72
7
12,25 9,55
8,45
7,85 7,46
7,19
7,00
6,84
6,71
6,62
6,54
6,47
8
11,26 8,65
7,59
7,01 6,63
6,37
6,19
6,03
5,91
5,82
5,74
5,67
9
10,56 8,02
6,99
6,42 6,06
5,80
5,62
5,47
5,35
5,26
5,18
5,11
10
10,04 7,56
6,55
5,99 5,64
5,39
5,21
5,06
4,95
4,85
4,78
4,71
11
9,86
7,20
6,22
5,67 5,32
5,07
4,88
4,74
4,63
4,54
4,46
4,40
12
9,33
6,93
5,95
5,41 5,06
4,82
4,65
4,50
4,39
4,30
4,22
4,16
13
9,07
6,70
5,74
5,20 4,86
4,62
4,44
4,30
4,19
4,10
4,02
3,96
14
8,86
6,51
5,56
5,03 4,69
4,46
4,28
4,14
4,03
3,94
3,86
3,80
15
8,68
6,36
5,42
4,89 4,56
4,32
4,14
4,00
3,89
3,80
3,73
3,67
16
8,53
6,23
5,29
4,77 4,44
4,20
4,03
3,89
3,78
3,69
3,61
3,55
17
8,40
6,11
5,18
4,67 4,44
4,10
3,93
3,79
3,68
3,59
3,52
3,45
5989
75
5928
5981
ПРИЛОЖЕНИЕ (продолжение)
Критические точки распределения Фишера—Снедекора
( k 1 — число степеней свободы большей дисперсии;
k 2 — число степеней свободы меньшей дисперсии)
Уровень значимости α=0,05
k2
k1
1
2
3
4
5
6
7
8
9
200
216
225
230
234
237
239
241
10
11
12
1
10
2
18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,38 19,39 19,40 19,41
3
10,13 9,55
9,28
9,12
9,01
8,94
8,88
8,84
8,81
8,78
8,76
8,74
4
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5,93
5,91
5
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,78
4,74
4,70
4,68
6
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
4,03
4,00
7
8
9
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,63
3,60
3,57
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,34
3,31
3,28
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,13
3,10
3,07
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,97
2,94
2,91
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,86
2,82
2,79
12
4,75
3,88
3,49
3,26
3,11
3,00
2,92
2,85
2,80
2,76
2,72
2,69
13
4,67
3,80
3,41
3,18
3,02
2,92
2,84
2,77
2,72
2,67
2,63
2,60
14
4,60
3,74
3,34
3,11
2,96
2,85
2,77
2,70
2,65
2,60
2,56
2,53
15
4,54
3,68
3,29
3,06
2,90
2,79
2,70
2,64
2,59
2,55
2,51
2,48
16
17
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
2,45
2,42
4,45
3,59
3,20
2,96
2,81
2,70
2,62
2,55
2,50
2,45
2,41
2,38
76
242
243
244