Выбери формат для чтения
Загружаем конспект в формате doc
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Глава 1.1. Центральная проблема эконометрики
Знакомство с новым курсом мы начнем с истории, которая действительно имела место. Начало 80-х годов ХХ века. В школах изучается курс экономической географии. И вот один из хороших учеников, который готовился поступать в авиационный институт, на одном из уроков заявляет учителю географии, что он не собирается быть экономистом и знать экономическую географию ему совсем не обязательно. Он говорит, что географию он знает и этих знаний ему будет вполне достаточно. На что очень опытный педагог с большим стажем работы ему ответила: «Мне приятно, Юра, что ты знаешь географию и что собираешься стать настоящим авиаконструктором. Но я тебе расскажу ситуацию из своей жизни. Во время войны я с мамой и братом была эвакуирована из Москвы в Казахстан, отец воевал на фронте. И я в новой школе отказалась учить немецкий – язык нашего врага. Учителем немецкого был уже достаточно старый человек, который мне тогда сказал, что для того чтобы врага победить, необходимо его хорошо знать!»
Вероятно, возникнет вопрос: «С кем мы теперь сражаемся, и кого мы должны победить?»
Да, время, в которое мы живем, к великому счастью – мирное. Но оно должно быть еще и счастливым и светлым. Счастливым для каждого отдельного человека, тогда будет все общество счастливо. Успешным должен быть каждый отдельный человек, тогда и страна будет развивающейся, успешной. Но для всего этого необходимо, чтобы на любом месте находился профессионал. Если это доктор – то это человек, которому Вы спокойно можете доверить и себя, и своего ребенка. Если это строитель, то это человек, работой которого мы гордимся. Но а что же в экономике?
К сожалению, мы почему-то больше учимся у американских, западных и японских компаний. Мы пытаемся перенимать их опыт организации производства, их экономику. А все, видимо, объясняется очень просто. Экономика, как никакая другая отрасль требует от специалиста применения современных методов работы, знания достижений мировой экономической мысли, понимания научного языка. Дело в том, что большинство новых методов основано на эконометрических моделях, концепциях, приемах. Без глубоких знаний эконометрики использовать их невозможно.
В чем специфика деятельности экономиста?
А она в том, что экономисту приходится работать в условиях недостатка информации и неполноты исходных данных. Анализ такой информации требует специальных методов, которые составляют один из аспектов эконометрики.
Какова же центральная проблема эконометрики?
Это построение эконометрической модели и определение возможностей ее использования для описания, анализа и прогнозирования реальных экономических процессов.
Итак, мы сталкиваемся с понятием модели. Вам известно даже из школьного курса понятие геометрической модели, например, куба, цилиндра. Т.е. это то, что вы можете реально ощутить рукой. А вот что же это такое применительно к экономике?
Специалист в области теории информации и кибернетики К. Шеннон писал: «Модель – это представление объекта, системы или идеи в некоторой форме, отличной от самой целостности»
Модели делят на физические, аналоговые, математические, экономические и др.
Начнем с рассмотрения физической модели. Наиболее известным примером является копия конструируемого самолета, выполненная с полным соблюдением пропорций, скажем 1:50 . На одном из этапов разработки самолета новой конструкции возникает необходимость проверить его основные аэродинамические параметры. С этой целью подготовленную копию продувают в специальной (аэродинамической) трубе, а полученные показания затем тщательно исследуют. Выгодность такого подхода совершенно очевидна. И потому все ведущие самолетостроительные компании используют физические модели подобного рода при разработке каждого нового летательного аппарата.
Часто в аэродинамическую трубу помещают уменьшенные копии многоэтажных зданий, имитируя при этом розу ветров, характерную для той местности, где предполагается их строительство. Пользуются физическими моделями и в кораблестроении.
Что же такое аналоговые модели?
Так называют модели, представляющие исследуемый объект аналогом, который ведет себя как реальный объект, но не выглядит как таковой.
Приведем два достаточно характерных примера.
Вы изучаете новый курс. Естественно, что количество времени, отведенное на подготовку студентом к экзамену, влияет на его результат. Эта зависимость не всегда является прямо пропорциональной, но Вы четко знаете, чем больше Вы работаете над курсом, тем выше качество его усвоения и выше результат экзамена.
Следующий пример такой. Предположим, что нужно найти наиболее экономичный способ для регулярных известных поставок товаров в три города, построив для этого только один склад. Основное требование: место для склада должно быть таким, чтобы полные транспортные расходы были наименьшими (считается, что стоимость каждой перевозки равна произведению расстояния от склада до пункта назначения на общий вес перевозимых товаров и измеряется в тонна-километрах).
Наклеим карту местности на лист фанеры. Затем в месте нахождения каждого города пропилим сквозные отверстия, пропустим через них нити и привяжем к ним грузики, пропорциональные запросам товаров в этот город (рис. 1.1).
Рисунок 1.1 − Иллюстрация аналоговой модели (исходная)
Свяжем свободные концы нитей в один узел и отпустим. Под действием силы тяжести система придет в состояние равновесия. То место на листе фанеры, которое при этом займет узел, и будет соответствовать оптимальному расположению склада (рис. 1.2). Следует отметить, что стоимость дорог, которые придется построить заново, мы для простоты рассуждений в расчет не принимаем.
Рисунок 1.2 − Иллюстрация аналоговой модели (результирующая)
Следующий тип моделей – математические. Вот с этими моделями Вы уж точно встречались. Как только в курсе алгебры Вы приступали к рассмотрению решения систем линейных уравнений, вам учитель непременно говорил: «А теперь составим математическую модель задачи».
Так называют модели, использующие для описания свойств и характеристик объекта или события математические символы и методы.
Если некоторую проблему удается перенести на язык формул, то она сильно упрощается. Математический подход прост еще и потому, что он подчиняется вполне определенным жестким правилам, которые нельзя отменить указом или иным способом. Сложность нашей жизни как раз и состоит в том, что многое, что в ней случается, нередко свободно от некоторых условностей.
Математика имеет дело с упрощенным описанием явлений. По существу, любая формула (или совокупность формул) представляет собой определенный этап в построении математической модели. Опыт показывает, что построить модель (написать уравнение) довольно легко. Трудно в этой модельной и, следовательно, упрощенной форме суметь передать суть изучаемого явления.
«Для нахождения приемлемого или оптимального решения задачи полезно знать, в чем она состоит. Как ни просто и прозрачно данное утверждение, чересчур многие игнорируют очевидное», – писал К.Шеннон. Среди математических моделей мы постараемся рассмотреть динамические, на основании которых можно делать прогнозы на будущее и по-новому заглядывать в прошлое. А Вы помните, что в курсе статистики Вы сталкивались с рядами динамики.
Итак, мы рассматриваем модели, в которые входят изменяющиеся во времени величины, уделяя основное внимание простейшим из них. Дело в том, что сами модельные уравнения (модели) строятся на основе простых и зачастую почти очевидных соображений. Именно анализ предлагаемых уравнений позволяет как-то оценить степень их адекватности описываемым ими обстоятельствам.
Интересно, что построить математическую модель часто совсем нетрудно. Нередко для этого используются самые простые и легкообъяснимые предположения.
Докажем, как это можно сделать на одном почти реальном примере.
Представим себе следующую картину. Середина XVIII в., Центральная Европа. Приход в глубинке. Церковь. Прихожане - жители окрестных деревень. Приходский священник замечает, что храм стал тесноват для богослужений: возросло число прихожан. Священник размышляет: если число прихожан будет увеличиваться и в будущем, то придется строить новую церковь, для чего понадобятся средства, и немалые.
Священник понимает, что срок, за который должен быть построен храм, и его размеры во многом зависят от того, как именно будет изменяться число окрестных жителей. И он решает попытаться рассчитать это.
Попробуем и мы изложить возможный ход его рассуждений, пользуясь современными обозначениями и языком.
Обозначим через количество прихожан к концу n -го года. Их численность через год, т.е. к концу (n+1)-го года, естественно обозначить через . Тогда изменение численности за этот год можно описать разностью – из численности последующего года вычитаем численность предыдущего года - . Обозначим эту разность символом дэльта, т.е.
. (1.1)
С таким способом обозначения приращения Вы встречались в математике, статистике, и теперь встретились в эконометрике.
Рассуждаем, по какой причине происходит изменение численности населения прихода.
Оно происходит по двум естественным причинам — люди рождаются и умирают (для простоты будем считать, что вирус миграций эту местность тогда еще не поразил). Определить число родившихся и число умерших за год по приходским книгам особого труда не составляет. Подсчитывая число родившихся и умерших в разные годы, священник решает сопоставить полученные числа и с общим числом прихожан за эти годы и замечает, что отношения
год от года различаются весьма мало. То же касается и отношений
.
Для простоты расчетов будем считать эти отношения постоянными и обозначим их через α и β соответственно.
Тем самым число родившихся в n-м году оказывается равным α · , число умерших составит β· , а изменение численности по естественным причинам составляет α xn - β· xn.
В результате мы приходим к соотношению , или подробнее по формуле (1.1) выразим :
В последнем равенстве вынесем за скобки общий множитель , в результате получим:
=·(1+ α-β) (1.2)
Положим в последней формуле γ=(1+α-β) Символ γ - читается «гамма».
Тогда формула (1.2) примет вид:
= γ· (1.3)
Модель построена.
Попробуем теперь разобраться с тем, что же получилось, т.е. проанализировать построенную модель.
Возможны три случая:
1. γ>1 , но γ=(1+α-β). Получается, что 1+α-β>1 , а, значит, α-β>0 , т.е. α>β — рождается больше, чем умирает и численность прихожан растет год от года;
2. γ=1 , тогда 1+α-β=1 и 1+α-β=1 , т. е. α=β — умирает столько же, сколько рождается и численность прихожан год от года остается неизменной;
3. γ<1 , тогда 1+α-β<1 и α-β<0 , т.е. α<β — умирает больше, чем рождается и численность прихожан неуклонно снижается.
Так как побудительным мотивом для построения модели было желание узнать, как быстро будет расти число прихожан, начнем с рассмотрения случая 1.
Случай 1. Итак, численность прихожан растет. Но как, насколько быстро?
Здесь самое время кратко вспомнить поучительную историю (печальную притчу) о безвестном изобретателе шахмат.
Говорят, что игра очень понравилась богатому и всесильному магарадже, который тут же решил наградить изобретателя и щедро предложил выбрать вознаграждение ему самому. Тот, как рассказывают, смахнув фигуры с шахматной доски, положил на 1-ю клетку одно пшеничное зернышко, на 2-ю — два зернышка, на 3-ю — четыре зернышка, на 4-ю — восемь зернышек и предложил магарадже, чтобы тот отдал распоряжение слугам выкладывать зерна пшеницы на другие клетки шахматной доски по предложенному закону, т.е. Так: .
Магараджу эта простая просьба почти обидела, и он согласился выполнить ее далеко не сразу. Но изобретатель настаивал. Магараджа приказал. И слуги тут же кинулись исполнять это «легкое» задание. Нужно ли говорить, что выполнить распоряжение магараджи им не удалось. Дело в том, что общее количество зерен пшеницы на шахматной доске должно было быть равным числу ,
что намного превышало выращиваемое во всем мире зерно за год.
Закончим притчу совсем коротко: магараджа оказался в непривычном для себя положении — он прилюдно дал обещание и не смог его выполнить. Виновного, впрочем, тут же и нашли. Возможно, именно поэтому история и не сохранила имени изобретателя шахмат.
Попробуем, однако, изобразить на графике, как быстро растет число зерен в каждой следующей клетке, для большей наглядности соединяя соседние точки (рис. 1.3).
Рисунок 1.3 – Рост числа зерен на шахматной доске
Правило, предложенное изобретателем шахмат, в соответствии с формулой (1.3) имеет вид =2· и является частным случаем формулы (1.3) при γ=2 и, так же как и она, описывает закон, следуя которому мы получаем последовательность чисел, образующих геометрическую прогрессию. А геометрической прогрессией называют такую числовую последовательность, каждый член которой, начиная со второго, равен предыдущему, умноженному на одно и то же число, не равное нулю. (Это вам известно из школьного курса математики).
При любом γ>1 картинка, иллюстрирующая изменение , имеет вид, похожий на рис. 1.3 — будет расти экспоненциально. (Из курса математики график функции вида γ= называют экспонентой).
В 1820 г. в Лондоне Т. Р. Мальтусом была опубликована работа «Опыт о законе народонаселения» (русский перевод). В которой, в частности, говорилось о том, что в силу биологических особенностей людей население имеет тенденцию размножаться по закону геометрической прогрессии: =γ· ; γ >1 ,
в то время как средства существования могут увеличиваться лишь по закону арифметической прогрессии: ; d>0 .
Такое различие в скорости изменения величин, непосредственно связанных с проблемами выживаемости популяции, не могло остаться незамеченным и вызвало довольно жесткую критику и сильно политизированную полемику в соответствующих кругах.
Попробуем извлечь из самого факта критики полезный для нас вывод об адекватности построенной модели.
Разумеется, при попытке упрощенного описания ситуации некоторыми обстоятельствами приходится пренебрегать, считая их несущественными. Однако единого взгляда на то, что именно существенно, а что не очень, по-видимому, нет. Можно, например, не обращать внимания на то, что начался дождик. Но согласитесь, что одно дело пробежать под накрапывающим дождем сотню метров, и совсем другое — часовая прогулка под таким дождем без зонта.
Нечто аналогичное мы наблюдаем и здесь: при расчете на 3-4 года вперед формула (1.3) работает достаточно хорошо, но долгосрочный прогноз, основанный на ней, оказывается ошибочным. Какой же напрашивается вывод?
Предлагая построенную или выбранную вами модель, Вы непременно должны указать пределы, в которых ею можно пользоваться, и предупредить о том, что нарушение этих ограничений может привести (и, скорее всего, приведет) к серьезным ошибкам. Коротко говоря, у каждой модели есть свой ресурс.
Покупая блузку или рубашку, мы привыкли к наличию меток, на которых указаны максимально допустимая температура глажения, дозволенные виды стирки и т.п. Это, конечно, ни в коей мере не означает, что вам запрещается, взяв докрасна раскаленный утюг, пройтись им раз-другой по ткани. Такое вы сделать можете. Но вот захотите ли вы носить блузку или рубашку после такого глажения?
Случай 2. Численность населения не изменяется (рис. 1.4).
Рисунок 1.4 –Неизменность численности населения
Случай 3. Население вымирает. Графически это иллюстрируется с помощью кривой, которая задает обратную зависимость, ведь из формулы (1.3) Тогда график будет иметь вид:
Рисунок 1.5 – Изменение численности населения при γ<1
Мы умышленно весьма подробно остановились на описании модели народонаселения, во-первых, потому, что она является одной из первых моделей подобного рода, и, во-вторых, чтобы на ее примере показать, через какие основные этапы проходит решение задачи построения математической модели.
Очень часто, описывая эту модель народонаселения, привлекают ее дифференциальный вариант, т.е. берут производную от функции по времени. А из математического анализа известно, что производная по времени t от функции x (зависящая от времени численность популяции) может быть записана в виде
. (1.4)
В этой формуле δ — постоянная величина.
При больших значениях x конкурентная борьба за средства существования приводит к уменьшению δ , и эта жесткая модель должна быть заменена более мягкой моделью:
, (1.5)
в которой коэффициент δ зависит от численности населения. В простейшем случае эта зависимость описывается так:
δ(x)=a-bx , (1.6)
где a и b — постоянные числа.
Подставив значение δ(x)=a-bx в уравнение (1.5), получим:
. (1.7)
И мы приходим к более сложной, так называемой логистической модели, которая описывает динамику популяции уже достаточно хорошо. Анализ логистической кривой весьма поучителен.
Рисунок 1.6 – Логистическая кривая
Эта кривая характеризует развитие показателя во времени, когда ускоренный рост в начале периода сменяется замедляющимся темпом роста вплоть до полной остановки, что на графике соответствует отрезку кривой, почти параллельному оси абсцисс. Используется для описания развития производства новых товаров, роста численности населения и т. д.
Логистическая модель хорошо описывает и другие процессы, например, эффективность рекламы.
Рассмотрим пример еще одной модели – модели мобилизации.
Под термином политическая, или социальная, мобилизация понимается вовлечение людей в партию или в число ее сторонников, в какое-либо общественное движение и т. п.
Вследствие того, что текущий уровень мобилизации тесно связан с прошлым ее уровнем, а будущая мобилизация зависит от сегодняшних успехов пропагандистской кампании, ясно, что при построении соответствующей модели необходимо учитывать временной фактор. Иными словами, нужно понимать, что искомая модель должна быть динамической.
Итак, осуществим постановку задачи. Т.е. мы должны выявить суть. А она состоит в том, чтобы отразить логику изменения уровня мобилизации в данном регионе между двумя соседними моментами времени, скажем, за месяц (за год, неделю, день и т.п.).
Построим модель. Примем за единицу ту часть населения, для которой мобилизация данного типа имеет смысл. Пусть - доля мобилизованного населения в момент времени . Тогда доля немобилизованного населения будет равна 1- - (рис. 1.7).
Рисунок 1.7 – Иллюстрация модели мобилизации
За месяц уровень мобилизации может измениться по двум основным причинам:
• часть населения удалось привлечь дополнительно; ясно, что эта величина тем больше, чем выше доля еще несагитированного населения на момент , и поэтому можно считать ее равной a·1- ,(здесь a>0 — коэффициент агитируемости, постоянный для данного региона);
• часть населения убыла (по разным причинам); ясно, что это уменьшает долю сагитированного населения тем больше, чем выше была эта доля на момент , и поэтому потери, связанные с выбытием, можно считать равными β· (здесь β>0 — постоянный коэффициент выбытия).
Подчеркнем, что числовые параметры a и β отражают пропорциональное изменение интересов, взглядов и намерений соответствующих частей населения рассматриваемого региона.
Таким образом, изменение уровня мобилизации за единицу времени по аналогии с формулой (1.1)
(1.8)
равно разности между долей населения, привлеченного дополнительно, и долей выбывшего сагитированного населения:
. (1.9)
Это и есть уравнение процесса мобилизации. Модель мобилизации построена.
Последнее соотношение легко преобразуется. Для этого переносим из левой части в правую часть, раскрываем скобки в правой части равенства (1.9) и выносим за скобки общий множитель :
Если ввести обозначение γ=1-α-β , то получим выражение для .
=a+ γ· . (1.10)
Следует заметить, что введенный вспомогательный параметр γ не может быть больше 1 вследствие того, что исходные параметры a и β положительны.
Полученное уравнение (1.10) называется линейным разностным уравнением с постоянными коэффициентами.
С уравнениями подобного рода Вы не раз встречались в курсе математики.
Снова проведем исследование этого уравнения.
Если γ=1 , то уравнение (1.10) принимает вид =a+ и описывает правило, по которому каждый член последовательности, начиная со второго, получается из предыдущего путем сложения с некоторым постоянным числом a , т.е. задает арифметическую прогрессию.
Рассмотрим случай, когда a=0 , тогда равенство (1.10) примет вид = γ· и описывает правило, по которому каждый член последовательности, начиная со второго, получается из предыдущего путем умножения на некоторое постоянное число γ , т.е. задает геометрическую прогрессию.
Мы думаем, что рассмотренных примеров достаточно, чтобы понять, что такое модель и какие типы моделей существуют.
Глава 1.2. Эконометрика и ее связь с экономической теорией
Но если вспомнить начало нашего разговора об этом курсе, то в нем мы говорили о стремлении к победе над своим желанием быть во всем успешными. Что чаще всего мешает нам быть такими?
Причин множество, но наиболее важной, на наш взгляд, является отсутствие стремления быть первым, лидером. А ведь это не только одно желание, но и огромное, необъятное море вложенного труда, который обязательно перерастет в новую категорию – качество сделанного или продукта. Ведь рассматривая в качестве аналоговой модели зависимость затраченного времени студентом и его успеваемости, мы заключали, что с увеличением времени работы над курсом, увеличивается и результат (оценка).
Другой причиной нашего отставания, вероятно, является и то, что мы не так часто делаем науку помощницей производства. Пытаемся чаще всего рассуждать на уровне начала ХХ века. А современные технологии столь быстро развиваются и помогают в анализе экономических ситуаций на западе, а мы все еще находимся на стадии догоняющих и пытающихся догнать.
Например, в США – только в области статистического контроля качества полученная прибыль от использования таких методов оценивается в 20 миллиардов долларов ежегодно.
В 2013 г. затраты на статистический анализ данных в нашей стране оценивались в 8 миллиардов рублей ежегодно. По расчетам сравнительной стоимости валют на основе потребительских паритетов эту величину можно сопоставить с 8 миллиардами долларов США?
Следовательно, объем отечественного «рынка статистических и эконометрических услуг» был на порядок меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.
Итак, мы приближаемся к мысли о том, что эконометрика не только своей главной задачей ставит построение эконометрической модели и определение возможностей ее использования для описания, анализа и прогнозирования реальных экономических процессов, но и выдвижение своих – эконометрических методов.
При помощи этих методов можно выявлять новые, ранее не известные связи, уточнять или отвергать гипотезы о существовании определенных связей между экономическими показателями, предлагаемые экономической теорией.
Вот мы и подошли к выяснению того, что же такое эконометрика?
Эконометрика — это наука об экономических измерениях. Действительно, термин «эконометрика» состоит из двух частей: «эконо» — от «экономика» и «метрика» — от «измерение».
Он был введен лауреатом Нобелевской премии по экономике норвежским ученым Р. Фришем.
Как уже отмечалось, в эконометрике широко используются методы статистики. Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика, прежде всего, связана с методами регрессии и корреляции.
В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.
Простая регрессия представляет собой регрессию между двумя переменными — y и x , т.е. модель вида y=f(x) , где y — зависимая переменная (результативный признак);
x — независимая, или объясняющая, переменная (признак-фактор).
Множественная регрессия соответственно представляет собой регрессию результативного признака с двумя и большим числом факторов, т.е. модель вида y=f (x1, x2, …, xk).
Любое эконометрическое исследование начинается со спецификации модели, т.е. с формулировки вида модели, исходя из соответствующей теории связи между переменными. Иными cловами, исследование начинается с теории, устанавливающей связь между явлениями.
Прежде всего, из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Предположим, что выдвигается гипотеза о том, что величина спроса y на товар А находится в обратной зависимости от цены x , т. е. y=a-bx.
В этом случае необходимо знать, какие остальные факторы предполагаются неизменными, возможно, в дальнейшем их придется учесть в модели и от простой регрессии перейти к множественной.
Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. Так, если зависимость спроса y от цены x характеризуется, например, уравнением y=5000-2x, то это означает, что с ростом цены на 1 д.е. спрос в среднем уменьшается на 2 д.е. В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией.
Практически, в каждом отдельном случае величина y складывается из двух слагаемых: теоретического значения результативного признака, найденного исходя из соответствующей математической функции связи y и x , т.е. из уравнения регрессии, и случайной величины, характеризующей отклонение реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Поэтому приведенное ранее уравнение зависимости спроса y от цены x точнее следует записывать как y=5000-2x+ε
Случайная величина ε называется также возмущением. Она включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
Обратная зависимость спроса от цены не обязательно характеризуется линейной функцией y=a-bx , возможны и другие соотношения, например: y = ax−b, .
Поэтому от правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным y.
К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции для , но и недоучет в уравнении регрессии какого-либо существенного фактора, т.е. использование парной регрессии вместо множественной. Так, спрос на конкретный товар может определяться не только ценой, но и доходом на душу населения.
Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего имеет дело с выборочными данными при установлении закономерной связи между признаками. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики.
Эконометрика входит в обширное семейство дисциплин, посвященных измерениям и применению статистических методов в различных областях науки и практики. К этому семейству относятся, в частности, биометрика (или биометрия), технометрика, наукометрия, психометрика, хемометрика (наука об измерениях и применении статистических методов в химии).
Эконометрика, как и другие «метрики», посвящена развитию и применению статистических методов в конкретной области науки и практики — в экономике, прежде всего в теории и практике менеджмента. Но что же является инструментом исследования в этой предметной области?
Из уже рассмотренных примеров построения моделей легко отметить, что это статистика, математика и теория вероятностей.
Возвращаясь к мысли о том, что при помощи эконометрических методов можно выявлять новые, ранее не известные связи, рассмотрим пример.
Пусть мы имеем данные о размерах располагаемого дохода x расходов на личное потребление y для n семейных хозяйств, так что xi и yi, соответственно, представляют располагаемый доход и расходы на личное потребление i -го семейного хозяйства.
Простейшей моделью связи между x и y является линейная модель связи
y=a+b·x, (1.11)
где b — некоторая постоянная величина, 00, то 0≤rxy≤1 , и, наоборот, при b<0, -1≤rxy≤0 .
По данным табл. 2.1 величина линейного коэффициента корреляции составила 0,991(5), что достаточно близко к 1 и означает наличие очень тесной зависимости затрат на производство от величины объема выпущенной продукции.
Следует иметь в виду, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.
Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции r2xy называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака y , объясняемую регрессией, в общей дисперсии результативного признака:
. (2.8)
Соответственно величина 1- характеризует долю дисперсии , вызванную влиянием остальных неучтенных в модели факторов.
В нашем примере .
Следовательно, уравнением регрессии объясняется 99,0% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,0% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака.
Мы говорили, что решение этой же задачи можно реализовывать по формулам (2.5) и (2.6). Снова строим таблицу, исходя из данных таблицы 2.1 и тех значений, которые нам понадобятся, если мы будем использовать для определения параметров a и b формулы (2.5) и (2.6).
Таблица 2.4
Расчетная таблица
Например, для вычисления (y) поступаем так:
Тогда
Аналогично вычисляем эти же характеристики и для выпуска продукции. Далее предлагаем вам самостоятельно вычислить параметры a и b, но уже воспользовавшись формулами (2.5) и (2.6).
Мы ранее говорили, что коэффициент корреляции можно вычислять не только вручную, но и с помощью электронных таблиц, рис. 2.3.
Рисунок 2.3 – Вычисление коэффициента корреляции
Обращаем ваше внимание, что при вычислении по формулам (2.5) и (2.6) значения параметров a и b будут незначительно отличаться от тех, которые мы получили, решая систему аналитическим способом, т.е. методом подстановки. Эти различия связаны с теми округлениями, которые мы применяли (ведь результаты мы округляли до сотых).
Глава 2.2. Оценка существенности параметров линейной регрессии и корреляции
Вопрос, к рассмотрению которого мы приступаем, заключается в том, чтобы построенное уравнение линейной регрессии оценить по двум направлениям:
1.насколько оно статистически надежно;
2.выяснить значимость как уравнения в целом, так и отдельных его параметров.
Напомним, что в предыдущей главе мы рассматривали построение уравнений линейной регрессии, т. е. в ней шла речь о способах определения параметров a и b уравнения линейной регрессии. Там же мы для оценки качества подбора линейной модели рассчитывали коэффициент детерминации. Этот коэффициент помогал определить, что при некотором уровне α полученное уравнение регрессии - статистически надежно.
В последнем примере предыдущей главы коэффициент детерминации оказался равным 0,990, что означает следующее: 99,0% дисперсии результативного признака объясняется уравнением регрессии, а лишь 1,0% ее дисперсии приходится на долю прочих факторов. Это дает нам повод для утверждения статистической надежности полученного уравнения регрессии.
Таким образом, для ответа на первый вопрос сколь статистически надежно полученное уравнение, необходимо определить коэффициент детерминации.
Исходя из формулы 2.8 предыдущей главы, определяющей значение коэффициента детерминации, чем больше доля объясненной вариации (числитель дроби в формуле 2.8), тем меньше доля прочих факторов, модель статистически надежна и ее можно использовать для прогнозов.
Далее попытаемся разобраться с тем, как же определить значимость составленного линейного уравнения и отдельных его параметров.
В начале обратимся к истории этого вопроса.
Английский ученый-статистик Рональд Фишер в 1925 году разработал и предложил к использованию статистический метод, позволяющий анализировать влияние различных факторов (признаков) на исследуемую (зависимую) переменную. Этот метод был назван дисперсионным анализом. В переводе с латинского dispersio рассеивание. В курсе статистики рассматривалось понятие дисперсии и способы ее вычислений.
Р. Фишер родился в 1890 г. в семье состоятельных торговцев предметами изящного искусства. И в его жизни все складывалось здорово, но в возрасте 14 лет умерла мама. Несчастье, случившееся в многодетной семье Рональда, не сломило его, он упорно занимался интересовавшей его математикой — царицей всех наук. Имея плохое зрение, он старался решать задачи не на листе бумаги, а в воображении. Его увлекала не только математика, математическая статистика, но и биология. Увлеченность этими науками и привела его к разработке статистического метода.
В настоящее время этот метод, часто называемый F‑ критерием Фишера, очень широко применяется в прикладной статистике, эконометрике. Первоначально он применялся для оценки экспериментов в растениеводстве, затем в психологии, педагогике, медицине, экономике и др.
Интерсен тот факт, что именно Р. Фишер сформулировал идею, что «конфликт сам по себе не есть проблема, проблема в том, что нам делать с нашими различиями. Лучший способ предупредить конфликт - не допустить его».
А теперь снова возвратимся к сути дисперсионного анализа.
Все заключается в разложении (дисперсии) измеряемого признака на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.
При этом особую роль играет анализ средних значений (отклонение от которых и называют дисперсией).
Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.
Итак, как работает дисперсионный анализ?
Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной y от среднего значения y на две части — «объясненную» и «необъясненную»:
Общая сумма квадратов отклонений (левая часть равенства 2.9) индивидуальных значений результативного признака y от среднего значения вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор x и прочие факторы. Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси Ох и y¯=yx. Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов, и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то y связан с x функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.
Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс как обусловленный влиянием фактора x, т.е. pегрессией y по x, так и вызванный действием прочих причин (необъясненная вариация).
Чтобы утверждать о пригодности линии регрессии для прогноза, необходимо выяснить, какая часть общей вариации признака y приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией (первое слагаемое правой части записанного равенства), будет больше остаточной суммы квадратов (второго слагаемого правой части записанного равенства), то уравнение регрессии статистически значимо и фактор x оказывает существенное воздействие на результат y. Это равносильно тому, что коэффициент детерминации r2yx будет приближаться к единице.
Если внимательно посмотреть на правую часть предыдущего равенства (формулу 2.9), то легко сообразить, что и первое и второе слагаемое правой части зависят от числа степеней свободы т.е. числа свободы независимого варьирования признака. А число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант.
Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов.
Так, для общей суммы квадратов требуется n-1 независимых отклонений, ибо по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь n число отклонений.
Например, имеем ряд значений y:1, 2, 3, 4, 5.
Среднее из них равно 3, и тогда n отклонений от среднего (разность конкретного значения данного ряда и его среднего значения) составят: —2; — 1; 0; 1; 2.
Сложив отклонения получим, что эта сумма будет равна нулю, иными словами: так как , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.
При расчете объясненной или факторной суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по линии регрессии: =a+b·x.
В линейной регрессии выполняется равенство:
.
В этом нетрудно убедиться, обратившись к формуле линейного коэффициента корреляции:
,
которая известна вам как формула (2.7).
Из формулы (2.7) видно, что
. (2.10)
где — общая дисперсия признака y;
— дисперсия признака y, обусловленная фактором x.
Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит
Поскольку при заданном объеме наблюдений по x и y факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы. К этому же выводу придем, если рассмотрим содержательную сторону расчетного значения признака y, т. е. . Величина определяется по уравнению линейной регрессии: =a+bx . Параметр a можно определить как a=-b . Подставив выражение параметра a в линейную модель, получим:
Отсюда видно, что при заданном наборе переменных y и x расчетное значение является в линейной регрессии функцией только одного параметра — коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.
Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет n-2. Число степеней свободы для общей суммы квадратов определяется числом единиц, и поскольку мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, т. е. .
Итак, имеем два равенства:
n-1=1+(n-2). (2.11)
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или, что то же самое, дисперсию на одну степень свободы D.
Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-отношения (F-критерий):
, (2.12)
где F— критерий для проверки нулевой гипотезы
Суть нулевой гипотезы H0 такова: выдвигается предположение, что коэффициент регрессии равен нулю, т.е b=0, и, следовательно, фактор x не оказывает влияния на результат y.
Из преположения следует, если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга.
Для Ho необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.
Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия — это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется, и делается вывод о существенности этой связи: и отклоняется.
Если же величина окажется меньше табличной , то вероятность нулевой гипотезы выше заданного уровня значимости α, и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым и не отклоняется.
Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.
Рассмотрим пример, позволяющий вычислить F-критерий Фишера.
При прохождении диспансеризации у студентов определяется объем вдыхаемого воздуха, результаты тут же выдает компьютер с помощью специализированной программы.
В нашем институте в опытной n1=10 и контрольной n2=10 группах студентов были получены соответственно следующие величины дисперсий — Dфакт=161,3 и Dост=88,4.
Значение критерия F найдем по формуле 2.12, разделив число 161,3 на число 88,4. Получим, округлив до сотых, F = 1,82.
Далее найденное значение F-критерия сравнивается с уровнем значимости α. Этот уровень значимости означает вероятность не принять гипотезу, при условии, что она верна. Как правило, α принимается равным 0,05 или 0,01. (Таблицы представлены в Приложении 1).
Если Fтабл> Fфакт, то признается статистическая незначимость модели, ненадежность уравнения регрессии.
Разберемся с тем, как определить Fтабл? Напоминаем, что таблицы значений F-критерия мы вставили в Приложении 1.
В Приложении 1 критические (табличные) значения критерия Фишера находятся по величинам k1 (верхняя строчка таблицы) и k2 (левый столбец таблицы).
В общем случае значения k1 и k2 определяются так:
k1 =m; k2 =n-m-1 , (2.13)
где где m – число факторов в модели, n – число наблюдений.
Например, в однофакторной модели (модели парной регрессии) k1 = 1, а в двухфакторной модели k1 = 2.
На пересечении значений верхней строки и левого столбца определяется табличное значение.
Если Fтабл> Fфакт, то признается статистическая незначимость модели, ненадежность уравнения регрессии.
Возвратимся к тому примеру, который мы приводили при определении медицинского показателя (объем вдыхаемого воздуха) . В нашем случае количество факторов равно k1 = 1, а k2 = 10-2 = 8.
Обратившись к таблице Фишера, находим значение на пересечении первого столбца и восьмой строки. Оно будет равно 5,32 при α =0,05 . А фактическое значение мы определили и оно у нас равно 1,82. Следовательно, Fтабл> Fфакт и различие в изменчивости исследуемого показателя в опытной и контрольной группах студентов можно считать несущественным. Получили, что найденная оценка уравнения регрессии статистически надежна.
Еще раз обратим ваше внимание на определяемое по таблице Фишера значение Fтабл . Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α.
Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Сейчас мы возвратимся к примеру, задаваемому таблицей 2.1, и рассчитаем в нем Fтабл на основе рассмотренных выше формул 2.10-2.12.
- общая сумма квадратов;
- факторная сумма квадратов;
— остаточная сумма квадратов;
; F=14735:53=278
Поскольку фактическое значение критерия больше табличного как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана). Величина F—критерия связана с коэффициентом детерминации .
Факторную сумму квадратов отклонений можно представить как
а остаточную сумму квадратов — как
.
Тогда значение F - критерия можно выразить как
(2.14)
В нашем примере =0,982 компьютерный результат, тогда (некоторое несовпадение с предыдущим результатом объясняется ошибками округления).
В линейных уравнениях регрессии обычно оценивают не только значимость уравнения в целом, но и отдельных ее параметров. В частности, величина средней ошибки аппроксимации (среднего отклонения расчетных значений от фактических) Ā вычисляется по формуле
. (2.15).
Вычислим ее для задачи, реализуемой с помощью таблицы 2.1. А для этого дополним таблицу 2.4 еще двумя столбцами: разностью исходных данных и расчетных значений и аппроксимацией для каждого предприятия, получим таблицу 2.5.
Таблица 2.5
Расчет средней ошибки аппроксимации
Например, для первого предприятия разность . Аналогично заполняем этот столбец по остальным шести предприятиям. Для вычисления ошибки аппроксимации по каждому отдельному предприятию поступаем так: . Для оставшихся шести предприятий рассуждаем аналогично. Тогда средняя ошибка аппроксимации в целом по всем предприятиям равна
О чем говорит этот показатель?
Он указывает, что в среднем расчетные значения отклоняются от фактических на 4,6%.
Мы достаточно подробно рассмотрели все этапы выполнения работы вручную, но снова необходимо сказать, что при наличии на вашем компьютере приложения MS Excel, Вы можете существенно облегчить себе жизнь. За вас будет работать это приложение. Теперь вопрос только во внимании с вашей стороны. Итак, Вы можете скопировать еще на один свободный лист данные таблицы 2.1, начиная с ячейки А1. В отличие от всех предыдущих случаев (когда мы выделяли только одну ячейку для ввода расчетных данных) вам необходимо зарезервировать область, в которую будут помещены все результаты регрессионной статистики линейной функции 5х2 или область 1х2 – для получения только оценок коэффициентов регрессии. Например, выделяете область пустых ячеек 5х2 (5 строк, 2 столбца).
Далее, войдя в меню Мастера функций, выбираете категорию Статистические, а в ней функцию ЛИНЕЙН, подтвердив свой выбор, вы получите окно ввода аргументов, рис. 2.4. Первой строкой ввода аргументов будет диапазон С3:С9, а второй строкой – диапазон В3:В9. В строку Конст (константа) введем значение 1, подчеркнув тем самым, что свободный член рассчитывается в линейном уравнении обычным образом.
Если Вы введете в эту строку 0, то тем самым закажите значение свободного члена равным нулю. В строку Статистика введем значение 1, подчеркнув тем самым необходимость вывода дополнительной информации. Если Вы в эту строку введете значение 0, то выводятся только оценки параметров уравнения. Щелкнув на кнопку Ok, Вы в левой верхней ячейке выделенной области получите первый элемент итоговой таблицы.
Рисунок 2.4 – Окно ввода аргументов линейной функции
Но вам необходимо заполнить всю таблицу значениями. Поэтому, нажав на клавишу F2, нажимаете на комбинацию клавиш CTRL+Shift+Enter. Получите рис. 2.5. Обращаем ваше внимание, что мы резервировали диапазон F8:G12.
Рисунок 2.5 – Результат вычисления функции ЛИНЕЙН
По замыслу авторов этого приложения дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме (таблица 2.6).
Таблица 2.6
Регрессионная статистика линейной функции
Да, как все-таки здорово, если у вас есть возможность эту огромную трудоемкую работу на компьютере выполнить буквально за несколько минут.
Округлив результаты до необходимого разряда, Вы видите все необходимые значения. А именно:
b=36,84; a=-5,79; ;
=0,982; F=280 ; n-2=5;
и кроме этого заданы среднеквадратические отклонения параметров a, b и результативного признака y.
Итак, подведем итоги по этой главе.
В ней мы разобрались с тем, как выяснить статистическую надежность построенного уравнения регрессии, и определить значимость уравнения и отдельных его параметров.
Вычислив коэффициент детерминации, мы решали вопрос о статистической надежности полученного уравнения регрессии.
Для определения значимости уравнения и отдельных его параметров мы вычисляли F-критерий фактический и табличный.
Если выяснялось, что фактическое значение критерия больше табличного ( как при 1%-ном, так и при 5%-ном уровне значимости), то делали вывод о значимости уравнения регрессии.
В противном случае о не значимости построенного уравнения регрессии,т. е. о не возможности использования этого уравнения для прогнозов.
Наряду с этим мы выяснили, как получить регрессионную статистику линейной функции с помощью встроенной в Мастер функций программного пакета MS Excel, функции ЛИНЕЙН.
На конкретном примере мы выяснили, как определить величину среднего отклонения расчетных значений от фактических, т. е. величину средней ошибки аппроксимации.
Надеемся, что вы успешно разобрались с материалом в этой главе. Перейдем к рассмотрению понятия фиктивной линейной связи.
Глава 2.3. Примеры подбора линейных моделей связи между двумя факторами. Фиктивная линейная связь
В этой главе мы рассмотрим примеры подбора линейных моделей связи для конкретных данных, пользуясь только возможностями электронных таблиц, и выясним что такое фиктивная линейная связь? При отсутствии такой возможности проверьте результаты построения линейных моделей вручную, как мы это рассматривали в предыдущей главе.
Пример 1. В таблице 2.7 приведены данные об изменении потребительского спроса на куриные яйца семи семейных хозяйств, в зависимости от цены на этот продукт в течение 15 недель. Пользуясь возможностями электронных таблиц, построим диаграмму рассеяния (рис. 2.6) и построим линейную модель спроса на данный продукт.
Таблица 2.7
Данные об изменении потребительского спроса
Рисунок 2.6 – Диаграмма рассеяния
Предполагая, что модель наблюдений имеет вид ,i=1,…,n, где — спрос в i-ю неделю, а — цена в i-ю неделю, мы получаем следующие оценки для неизвестных параметров a и b модели линейной связи между ценой и спросом: a=21,100; b=-18,559 . Таким образом, подобранная модель линейной связи имеет вид y=21,100-18,559x
При этом, регрессионная сумма квадратов отклонений равна 9,038, а остаточная сумма квадратов отклонений равна 8,562, так что коэффициент детерминации оказывается равным =0,514 т.е. изменчивость цен объясняет 51,4% изменчивости спроса на куриные яйца.
О том, как мы это выполнили говорит скриншот, указанный ниже и справочная информация, заданная таблицей 2.6 предыдущей главы.
Рисунок 2.7 – Расчет параметров линейной функции
Пример 2. В таблице 2.8 приведены данные о годовом потреблении молочных продуктов (y) на душу населения в одном из регионов России (в литрах) и оптовых ценах (x) на молочные продукты (в усл. ед. за литр) за период с 2001 г. по 2012 г. Построим по этим данным диаграмму рассеяния (рис. 2.8) и линейную модель.
Таблица 2.8
Данные о годовом потреблении молочных продуктов
Рисунок 2.8 – Диаграмма рассеяния
Предполагая, что модель наблюдений имеет вид , где — потребление молочных продуктов в i-й год, а — цена в i-й год за один литр молочных продуктов, мы получаем следующие оценки для неизвестных параметров a и b модели линейной связи между ценой и потреблением а=837,95; b=-418,05.
Таким образом, подобранная модель линейной связи имеет вид у=837,95-418,05х.
Коэффициент детерминации здесь оказывается равным r2=0,395. Изменчивость цены объясняет здесь 39,5% изменчивости потребления молочных продуктов.
Пример 3. Рассмотрим динамику изменений в период с 1957 по 1966 годы трех совершенно различных по природе показателей: E — суммарного производства электроэнергии в США (в млрд. кВт./час), C — совокупных потребительских расходов в Тайланде (в млрд. бат) и H — мирового рекорда на конец года в прыжках в высоту с шестом среди мужчин (в см). Значения этих показателей приведены в таблице 2.9. Обращаем ваше внимание на период времени, в который эти события отображаются. Для нас, живущих уже в XXI веке, — это исторические события. Если учесть, что эконометрика свое существование как научное направление под таким названием начала с введения его норвежским математиком Рагнаром Фришем в 1930, то мы как бы отправляемся в начало эконометрики. Что же, такие данные знать иногда очень интересно, не правда ли? Вам предлагаем самостоятельно построить диаграммы рассеяния. А мы рассмотрим модели линейной зависимости каждого из трех показателей от каждого из остальных показателей.
Таблица 2.9
Динамика изменения показателей
Подчеркиваем, что по этим данным мы формально подбираем линейные модели и строим их с помощью электронных таблиц Excel.
Следующий скриншот демонстрирует результат нашей работы:
Рисунок 2.9 – Расчет параметров линейной функции
Обращаем ваше внимание на предыдущий скриншот, устанавливающий регрессию между потреблением в Таиланде и мировыми рекордами за один и тот же исторический промежуток времени. Рассмотрим, как получено то уравнение, которое обозначено в скриншоте видом
С=-129,30+0,350H.
Мы создаем в Excel таблицу как таблица 2.9. Далее выделяем диапазон, например, F1:G5. В нем будут содержаться все сведения функции ЛИНЕЙН (т.е. не только значения коэффициентов а и b уравнения линейной регрессии, но и дополнительная регрессионная статистика), которые будут выводиться в порядке, указанном в следующей схеме (таблица 2.6).
Т. к. мы хотим составить уравнение линейной регрессии между потреблением в Таиланде и мировыми рекордами, то после выделения диапазона F1:G5, обращаемся к Мастеру функций. В категории Статистические, выбираем функцию ЛИНЕЙН, откроется диалоговое окно. В первой строке открытого диалогового окна, которя называется «Известные значения «у»», проводим с помощью нажатой левой кнопке мыши по диапазону В2:В11. Этот диапазон будет вписан в первую строку диалогового окна функции ЛИНЕЙН.
Устанавливаем курсор во вторую строку диалогового окна, которая называется «известные значения х» и проводим с помощью нажатой левой кнопке мыши по диапазону D2:D11. Этот диапазон будет вписан во вторую строку диалогового окна функции ЛИНЕЙН. Не забываем заполнить строки Конст и Статистика этого диалогового окна, введением в них единицы.
Чтобы все десять ячеек выделенного диапазона F1:G5 сразу заполнились значениями, нажав на клавишу F2, нажимаете на комбинацию клавиш CTRL+Shift+Enter.
Можно заполнить диапазон и иначе: нажимаем на клавиатуре одновременно клавиши CTRL+Shift, а в диалоговом открытом окне кликаем на кнопку ОK.
Теперь разбираемся с коэффициентами, которые мы получили в диапазоне F1:G5. В соответствии с таблицей 2.6 получим, округлив значения, что а = -19,30; b = 0,350; r2=0,871.
С учетом обозначений, введенных нами в начале примера 3, получаем уравнение
С=-129,30+0,350H.
Далее, предлагаем вам попеременно, выделяя различные пары столбцов, и пользуясь услугами функции ЛИНЕЙН категории Статистические, самостоятельно составить и другие модели.
Ваши действия вы сможете проверить с результами моделей, полученных нами.
Заметим, кстати, что значения коэффициента детерминации в двух последних подобранных моделях совпадают.
Мы видим, что во всех подобранных моделях значения коэффициента детерминации весьма высоки, и это формально означает, что изменчивость «объясняющих» переменных в этих моделях составляет значительный процент от изменчивости «объясняемой» переменной, стоящей в левой части уравнения. Однако, вряд ли мы всерьез можем полагать, что динамика роста суммарного производства электроэнергии в США действительно объясняется динамикой роста мирового рекорда по прыжкам в высоту с шестом, несмотря на высокое значение 0,9 коэффициента детерминации в первом из четырех уравнений.
В ситуациях, подобных последнему примеру, принято говорить о фиктивной (ложной, паразитной — spurious) линейной связи между соответствующими показателями. И такие ситуации часто встречаются при рассмотрении показателей, динамика изменений которых обнаруживает заметный тренд (убывание или возрастание) — именно такой характер имеют исследуемые показатели в последнем примере.
Близость к единице наблюдаемого значения коэффициента детерминации не обязательно означает наличие причинной связи между двумя рассматриваемыми переменными, а может являться лишь следствием тренда значений обеих переменных.
Итак, в этом разделе мы рассмотрели, каким уравнением задается линейная регрессия. Выяснили: как задать это уравнение, если известен признак фактор; т.е. построить линейную модель. Как определить коэффициент корреляции, ошибку аппроксимации. Далее мы перейдем к рассмотрению нелинейных моделей.
Глава 1.1. Нелинейная регрессия
Начиная знакомство с курсом эконометрики, мы говорили о том, что математика в нем является инструментарием, как например, скальпель для хирурга. И в этом множественном инструментарии, такие инструменты, как функции, играют для нее важную роль. В этом вы смогли убедиться, рассматривая возможности построения линейных моделей, т. е. моделей, в которых между экономическими явлениями существуют линейные связи.
Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций. О нелинейных функциях вы вели речь еще в школе. Это степенные функции (и вы вспоминаете их графики: парабола, кубическая парабола, гипербола и т.д.), показательные, логарифмические и др. Например, гипербола в математике задавалась уравнением у=b/х, а квадратичная функция задавалась уравнением у=сх2+bx+а.
В эконометрике к уравнениям, задающим нелинейные функции аналитически, т.е. с помощью формул- добавляется слагаемое ε. Это слагаемое мы назвали ранее случайной величиной, или возмущением. Она включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения.
А теперь, воспользовавшись инструментарием, в нашем случае нелинейными функциями, мы можем говорить о нелинейных эконометрических уравнениях, например, равносторонней гиперболы , параболы второй степени и др.
Различают два класса нелинейных регрессий:
• регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
• регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:
• полиномы (многочлены разных степеней)
;
• равносторонняя гипербола, т.е .
К нелинейным регрессиям по оцениваемым параметрам относятся функции:
• степенная, т.е. ;
• показательная, т.е. ;
• экспоненциальная, т. е. .
Нелинейная регрессия по включенным переменным не таит каких-либо сложностей в оценке ее параметров. Она определяется, как и в линейной регрессии, методом наименьших квадратов (МНК), ибо эти функции линейны по параметрам.
Дело в том, что, полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез. Как правило, среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях — полином третьего порядка.
Почему не используют многочлены более высоких степеней?
Это объясняется видом кривой: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.
Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени:
,
т.е.
и
Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.
Применение МНК для оценки параметров параболы второй степени приводит к следующей системе нормальных уравнений:
(1.1)
Если для линейной функции мы подробно останавливались на получении системы нормальных уравнений, то для оценки параметров параболы (нелинейной модели) мы предлагаем вам формулу 1.1 без вывода.
Напомним, что символ Σ («сигма») — означает суммирование. А если, например, записано выражение Σух2, то оно означает суммирование произведения значений у на значения х2. Решение такой системы возможно по формулам Крамера (методом определителей):
; (1.2)
где Δa — определитель системы;
Δa, Δb, Δc — частные (вспомогательные) определители для каждого из параметров.
В разделе «Линейная алгебра» курса математики мы рассматривали различные способы решения систем линейных уравнений. Один из способов — по формулам Крамера.
Решение систем по формулам Крамера предполагает вычисление определителей. Мы это выполняли вручную (разложением по элементам любого ряда) или с помощью функции МОПРЕД в Excel. Но к этому мы еще вернемся при рассмотрении практического задания.
А сейчас еще раз посмотрим на выражение x=−b2⋅c — это абсцисса вершины параболы.
При b>0 и c<0 кривая симметрична относительно высшей точки, т. е. точки перелома кривой, изменяющей направление связи, а именно рост на падение.
Такого рода функцию можно наблюдать в экономике труда при изучении зависимости заработной платы работников физического труда от возраста — с увеличением возраста повышается заработная плата ввиду одновременного увеличения опыта и повышения квалификации работника.
Однако с определенного возраста ввиду старения организма и снижения производительности труда дальнейшее повышение возраста может приводить к снижению заработной платы работника. Если параболическая форма связи демонстрирует сначала рост, затем снижение уровня значений результативного признака, то определяется значение фактора, при котором достигается максимум.
Например, предполагая, что потребление товара A (единиц) в зависимости от уровня дохода семьи (тыс. руб.) характеризуется уравнением вида .
Приравнивая к нулю первую производную y′x=(5+60x−x2)′=0+60−2x=60−2x, найдем величину дохода, при котором потребление максимально, т.е. при 60-2x=0, x=30 тыс. руб.
И снова убеждаемся в том, что математика (в данном случае исследование функции на экстремум с помощью производной) является инструментарием эконометрического исследования.
При b<0 и c>0 парабола второго порядка симметрична относительно своей низшей точки, что позволяет определять минимум функции в точке, меняющей направление связи, т.е. снижение на рост. Так, если в зависимости от объема выпуска продукции затраты на производство характеризуются уравнением yx=1200−60x+2x2, то наименьшие затраты достигаются при выпуске продукции x=15 ед. Как мы это получили? Мы снова взяли производную от алгебраической суммы функций, т. е.
y′x=(1200−60x+2x2)′=0−60+4x;4x−60=0;x=15.
В этом можно убедиться, подставляя в уравнение значения x из промежутка от 10 до 17. Мы продемонстрируем это с помощью табл. 1.1.
Таблица 1.1
Зависимость затрат на производство от объема
Если напомнить график параболы, то это симметричная относительно своей вершины кривая. И эта симметричность придает графику особую красоту, которая в эконометрике иногда является пагубной (как часто бывает и в жизни), т.е. не всегда пригодной в конкретных исследованиях. Поэтому чаще всего исследуется не вся парабола, а лишь ее отдельные сегменты.
Кроме того, параметры параболической связи не всегда могут быть логически истолкованы. Поэтому если график зависимости не демонстрирует четко выраженной параболы второго порядка (нет смены направленности связи признаков), то она может быть заменена другой нелинейной функцией, например степенной. В этой связи имеет смысл привести такой пример – зависимость урожайности от количества внесенных удобрений.
Многие из нас имеют приусадебные участки, кто-то дачные, а кто-то серьезно занимается фермерством. Так вот, данная форма связи мотивируется тем, что с увеличением количества внесенных удобрений урожайность растет лишь до достижения оптимальной дозы вносимых удобрений. Дальнейший же рост их дозы оказывается вредным для растения, и урожайность снижается. Несмотря на несомненную справедливость данного утверждения, следует отметить, что внесение в почву минеральных удобрений производится на основе учета достижений агробиологической науки. Поэтому на практике часто данная зависимость представлена лишь сегментом параболы, что и позволяет использовать другие нелинейные функции. В качестве примера рассмотрим табл. 1.2.
Таблица 1.2
Зависимость урожайности озимой пшеницы от количества внесенных удобрений
Остановимся на подробном рассмотрении таблицы 1.2. Думаем, что Вы поняли, что изначально таблица задавалась лишь двумя первыми столбцами. Столбцы 3-7 мы достраиваем исходя из общего вида уравнения – параболы второй степени, вид которой
мы его уже указывали в начале этой главы.
Итак, как мы это делали?
Третий столбец таблицы получен возведением значений первого столбца в квадрат, а потому он и имеет такое название. Аналогично со столбцами четвертым и пятым. Они получены возведением соответственно в третью и четвертую степени значений первого столбца. Шестой столбец получен в результате произведения соответствующих значений первого и второго столбцов. Седьмой столбец получен в результате произведения соответствующих значений второго и четвертого столбцов.
Последний столбец этой таблицы мы уже заполнили, но подробнее о том, как мы его вычисляли, скажем позднее.
Теперь мы составляем систему нормальных уравнений в соответствии с формулой (1.1) и теми данными, которые у нас уже есть в таблице 1.2.
В нашем случае пять весовых видов внесенных удобрений, значит n=5. Сумма значений по первому столбцу равна 15. Сумма значений по третьему столбцу равна 55, а сумма значений по столбцу «У» равна 50. Итак, мы сформировали первое уравнение системы. Аналогично предлагаем разобраться с тем, как сформированы второе и третье уравнения системы. В итоге система будет иметь вид, представленный ниже.
Надеемся, вы поняли, что число 50 в правой части первого уравнения — это сумма значений по у в таблице 1.2. Число 167 в правой части второго уравнения — это сумма произведений ух. Остальные значения внимательно проанализируйте сами на основе формулы (1.1) и данных в таблице 1.2.
Решим систему по формулам Крамера (методом определителей). Это означает, что мы составим главный определитель третьего порядка, т.к. в нем три строки и три столбца. Этот определитель составляется из коэффициентов при параметрах a и b — они у нас являются неизвестными. Получим:
Несколько слов следует сказать о процедуре вычисления этого определителя.
Мы его вычисляем разложением по элементам первой строки. Что это означает? Мысленно «зачеркиваем» первую строку, а затем попеременно «зачеркиваем» столбцы. Что означает попеременно?
Зачеркиваем первую строку и первый столбец или первую строку и второй столбец, или первую строку и третий столбец.
В результате такого окаймления (зачеркивания) у нас получается на пересечении «зачеркнутых» рядов (строк и столбцов) некоторое число, которое умножается на оставшийся определитель второго порядка.В нашем случае числами, которые получаются на пересечении «зачеркнутых» рядов, будут 5; 15; 55. Но обращаем ваше внимание на тот факт, что когда мы зачеркиваем второй столбец, получающееся число мы берем с противоположным знаком (вот почему перед числом 15 стоит знак минус). Более подробно еще раз вспомните о процедуре вычисления определителей третьего порядка, обратившись в раздел «Линейная алгебра» курса математики.
Такой способ вычисления определителей еще называют методом окаймления миноров, т.е. мы снижаем порядок определителя, вычеркивая в нем строку и столбец, и от определителя третьего порядка приходим к вычислению определителя второго порядка. Для вычисления определителя второго порядка существует строгое правило — одно во всем мире (для Ливии, Кореи, России и т.д.). Заключается оно в том, что определитель второго порядка равен разности произведений элементов главной (из верхнего левого угла в правый нижний угол) и вспомогательной (из нижнего левого угла в правый верхний угол) диагоналей.
Так, вычисляя получившийся первый определитель второго порядка , мы получаем, что он равен =55∙979-225∙225. Вычислив разность этих произведений, получим результат — 3220. Затем вы это число умножаете на 5.
Аналогично вычисляете второй определитель второго порядка (=15∙979-55∙225), не забыв потом получившийся результат умножить на число (-15).
Переходите к вычислению третьего определителя второго порядка (=15∙225-55∙55), не забыв потом получившийся результат умножить на число 55.
Сложив три предыдущих результата, получим число 700, что и соответствует значению главного определителя Δ, вычисленному выше.
Итак, главный определитель вычислен.
Переходим к вычислению вспомогательных определителей. Выясним, как их получить? Если мы говорим об определителе при параметре a , то он находится в первом столбце исходной системы и, значит, этот столбец полностью заменяется столбцом свободных членов, т.е. числами, стоящими за знаками равенства в системе и не содержащими при себе параметров. Так как мы будем обозначать его символом Δa, то в результате сказанного получим, что
Предлагаем вам вычислить его самостоятельно и сверить ваш результат с тем, что определили мы.
Аналогично составим определитель при параметре b . Мы заменяем в главном определителе второй столбец столбцом свободных членов и получаем:
При составлении третьего вспомогательного определителя мы третий столбец главного определителя заменяли столбцом свободных членов, а первые два столбца остаются неизменными.
Процедуру вычисления трех вспомогательных определителей мы не расписываем подробно, потому что она абсолютна такая же, как и вычисления главного определителя, что мы очень подробно прописали и рассмотрели.
Но, как вы помните, критерием истинности является практика. Поэтому проверьте значения и двух последних определителей вашим самостоятельным решением.
Но снова нельзя уйти от того факта, что эту очень трудоемкую работу мгновенно выполнят за вас электронные таблицы Excel. Для этого на любой лист книги Excel введите значения, например для определителя , выделите любую пустую ячейку книги (рис.1.1).
Рисунок 1.1 – Ввод значений определителя
Далее войдите в меню Мастера функций, выберите категорию Математические, а в ней функцию МОПРЕД (рис. 1.2).
Рисунок 1.2 – Окно выбора функции МОПРЕД
В строку Массив этого окна достаточно ввести диапазон А2:С4 (не забудьте переключиться на английский, ведь названия столбцов задаются на английском языке). Этот же диапазон можно задать и таким образом: установив курсор в строку Массив, при нажатой левой кнопке мыши выполните протаскивание по массиву, адрес диапазона сам будет вписан в эту строку. Еще не подтверждая ввод массива, т.е. не нажав на кнопку Ok, Вы уже видите, что определитель вычислен и равен (-150). Это записано в строке Значение. Подтвердив свой выбор, нажатием на Ok, этот результат будет отображен в ячейке D5, которую Вы резервировали для этого числа.
Рисунок 1.3 – Окно ввода аргументов функции МОПРЕД
В выделенную вами ячейку будет занесен результат вычисления этого определителя, рис. 1.3.
По рисунку 1.1 значение определителя будет содержаться в ячейке D5.
Можете проверить результаты своих вычислений и остальных определителей с помощью функции МОПРЕД.
Итак, мы получили:
Δ=700, Δa=2380, Δb=2090, Δc=-150.
Откуда по формулам (1.2) параметры искомого уравнения составят:
a=3,4; b=2,986; c=-0,214,
а уравнение параболы второй степени примет вид
Подставляя в это уравнение последовательно значения x , из первого столбца таблицы 1.2 найдем теоретические значения (табл. 1.2. столбец 8). Как это делать вручную?
Значения х находятся в первом столбце таблицы 1.2. И первое значение х в этом столбце будет равно единице.
Тогда, подставляя единицу вместо х в выражение ух=3,4+2,986·1-0,214·12, получим ух=6,172.
Но, т.к. результаты в последнем столбце таблицы 1.2 мы округлили до десятых долей, получим: ух=6,2.
Для заполнения следующего значения ух в последнем столбце таблицы 1.2, соответствующего значению х=2, поступаем аналогично.
Получаем: ух=3,4+2,986·2-0,214·22 , или ух=8,516.
Округление этого числа до десятых дает нам ух=8,5.
Остальные значения по последнему столбцу таблицы 1.2 просчитайте самостоятельно, сверив ваши результаты с приведенными в таблице 1.2.
Только после ваших вычислений можно утверждать, что теперь этот столбец у нас отработан и вся информация из таблицы 1.2 вам понятна.
Итак, мы рассмотрели построение уравнения нелинейной регрессии с помощью уравнения параболы, но ранее мы сказали, что к нелинейным регрессиям относятся и другие нелинейные функции.
На этом этапе мы вам говорим, что на основе той же задачи, что и для таблицы 1.2, составленное нами уравнение регрессии степенной функции (которая в общем виде задается уравнением yx=a·xb) имеет вид: yx=6,136·x0,474.
Но вывод этого уравнения мы покажем немного позднее. Итак, одна и та же задача, но формы их представления моделями различны. А сейчас рассмотрим другие нелинейные регрессии.
Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу:
.
Она может быть использована не только для характеристики связи удельных расходов сырья, материалов, топлива с объемом выпускаемой продукции, времени обращения товаров от величины товарооборота, т.е. на микроуровне, но и на макроуровне. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y :
.
Эта кривая была названа в честь английского экономиста А.В. Филлипса, проанализировавшего экономические данные более чем за 100-летний период. В конце 50-х гг. XX в. он установил обратную зависимость процента прироста заработной платы от уровня безработицы.
Но т.к. в математике и эконометрике непременно работает закон логического следования, то получение уравнения регрессии в виде равносторонней гиперболы мы сведем к уже известному способу — линейной регрессии.
Для этого в равносторонней гиперболе вида заменив на z.
В результате получим линейное уравнение регрессии y=a+b∙z+e оценка параметров которого может быть дана МНК.
Система нормальных уравнений составит:
(1.3)
Мы снова не останавливаемся на выводе получения системы нормальных уравнений, чтобы немного упростить курс.
Если проанализировать уравнение равносторонней гиперболы, то приb>0 имеем обратную зависимость, которая при x→∞ характеризуется нижней асимптотой. Это означает, что минимальным предельным значением y, оценкой которого служит параметр a .
Например, для кривой Филлипса величина параметра a равная 0,00679.
Это означает, что с ростом уровня безработицы темп прироста заработной платы в пределе стремится к нулю.
Соответственно можно определить тот уровень безработицы, при котором заработная плата оказывается стабильной и темп ее прироста равен нулю.
При b<0 имеем медленно повышающуюся функцию с верхней асимптотой при x→∞ , т.е. с максимальным предельным уровнем у, оценку которого в уравнении дает параметр a.
Примером может служить взаимосвязь доли расходов на товары длительного пользования и общих сумм расходов (или доходов). Математическое описание подобного рода взаимосвязей получило название кривых Энгеля.
В 1857 г. немецкий статистик Э. Энгель на основе исследования семейных расходов сформулировал закономерность — с ростом дохода доля расходов на продовольствие уменьшается. Соответственно с увеличением дохода доля расходов на непродовольственные товары, будет возрастать. Однако это увеличение не беспредельно, ибо на все товары сумма долей не может быть больше единицы, или 100%, а на отдельные непродовольственные товары этот предел может характеризоваться величиной параметра a для уравнения вида
где y— доля расходов на непродовольственные товары;
x — доходы (или общая сумма расходов как индикатор дохода).
Правомерность использования равносторонней гиперболы для кривой Энгеля довольно легко доказывается.
Соответственно можно определить границу величины дохода, дальнейшее увеличение которого не приводит к росту доли расходов на отдельные непродовольственные товары.
Вместе с тем равносторонняя гипербола не является единственно возможной функцией для описания кривой Энгеля.
В 1943 г. Уоркинг и в 1964 г. Лизер для этих целей использовали полулогарифмическую кривую y=a+b∙ln x+ε .
Чтобы полулогарифмическую кривую свести к линейной зависимости, заменим ln x на z.
В результате опять получим линейное уравнение: y=a+b∙z+ε . Данная функция, как и предыдущая, линейна по параметрам и нелинейная по объясняющей переменной x . Ведь х является аргументом логарифмической функции ln x. Оценка параметров a и b может быть найдена МНК. Система нормальных уравнений при этом окажется следующей:
(1.4)
Мы снова вывод системы 1.4 не рассматриваем подробно, т.к. более важно научиться применять функцию для исследований на практике, в связи с чем перейдем к рассмотрению конкретного примера.
Рассмотрим применение полулогарифмической функции для выяснения зависимости доли расходов на товары длительного пользования в общих расходах семьи от дохода семьи. Данные представлены таблицей 1.3.
Таблица 1.3
Доля расходов на товары длительного пользования в зависимости от дохода семьи
Давайте еще раз четко сформулируем задачу.
Исходя из данных, представленных в таблице 1.3, мы должны получить уравнение вида y=a+b·ln x+ ε. А это означает, что мы должны определить значения параметров a и b.
Как мы уже выясняли в случае линейной регрессии, нелинейных регрессий (мы успели рассмотреть квадратичную функцию, обратную пропорциональность), для определения значения параметров a и b нужно решить систему нормальных уравнений.
Приступаем к решению системы 1.4.
Необходимо вычислить те суммы и произведения, которые предлагает эта система.
Если вы внимательно проанализируете систему, то заметите, что в ней несколько раз встречается Σlnx.
Т.к. в таблице 1.3 значениям х соответствуют значения первой строки таблицы, то найдем логарифмы этих значений, а затем их просуммируем. В результате получим:
В этом случае мы воспользовались свойствами логарифма: сумма логарифмов по одному и тому же основанию равна логарифму произведения по этому же основанию. Натуральный логарифм 720 вычислили с помощью электронных таблиц Excel, также его можно вычислить и с помощью инженерного калькулятора. Для этого вводите на калькуляторе число 720, а затем нажимаете на клавишу ln, изображенную на калькуляторе. Результат будет совпадать с записанным выше.
Далее вычислите сумму логарифмов в квадрате, т. е.
Сумму значений y найдете, просуммировав данные второй строки таблицы 1.3.
Сумма произведений y на ln x будет вычислена таким образом:
Таким образом, суммы, необходимые для расчета, составили:
Обращаем ваше внимание на тот факт, что в таблице 1.3 шесть показателей значений х, поэтому n=6.
Теперь у нас есть все данные, которые необходимы для подстановки в систему (1.4) и определения ее параметров.
Решая систему нормальных уравнений
мы получили уравнение регрессии y=9,876+5,129·ln x, которое достаточно хорошо описывает исходные соотношения дохода семьи и доли расходов на товары длительного пользования, что видно из сравнения фактических и теоретических значений y в таблице 1.4.
Но прежде несколько слов по поводу определения параметров a и b предыдущей системы. Это система двух линейных уравнений с двумя неизвестными, поэтому ее можно решать вручную. Например, методом подстановки, а можно с помощью электронных таблиц Excel и функции МОПРЕД в категории Математические.
С помощью функции МОПРЕД мы решали систему трех линейных уравнений с тремя неизвестными ранее. Аналогично можно решать системы и с двумя неизвестными, вычислив главный, и два вспомогательных определителя. Предлагаем вам проверить свои вычисления: Δ=13,17293; Δa=130,0952 ; Δb=67,56261 .
Из найденных определителей Вы находите значения параметров a и b .
; .
Итак, возвращаемся к заполнению таблицы 1.4. Первая строка этой таблицы – подсчет значений , который осуществляется подстановкой в полученное уравнение регрессии y=9,876+5,129·ln x значения x , взятого из первой строки таблицы 1.3.
Например, для x=1 получаем y=9,876+5,129·ln 1=9,876+0=9,9 , т.к. логарифм по любому основанию от числа 1 равен нулю. Аналогично будем заполнять и все остальные столбцы первой строки таблицы 1.4.
Вторая строка таблицы 1.4 будет определяться разностью фактического и теоретического значения y . А именно, берем значение y=10, которое соответствует x=1 из таблицы 1.3 и вычитаем из него значение =9,9 – расчетное. Получившийся результат 0,1 записываем в соответствующий столбец второй строки таблицы 1.4. Подобным образом проводим заполнение всех остальных столбцов второй строки.
Что касается третьей строки, то ее заполняем, возводя значения второй строки в квадрат.
Таблица 1.4
Сравнение фактических и теоретических значений таблицы 1.3
Завершив решение еще одной задачи, зададим себе вопрос: «Для чего мы составляем уравнения моделей?» Вероятно, для того чтобы мы смогли заставить их на нас работать. Мы с помощью модели можем составить прогноз, а значит, просчитать необходимое решение на перспективу.
В чем особенность курса, который вы сейчас изучаете?
Во-первых, его нельзя читать как увлекательное повествование о жизни изобретателей или о создателях великих компаний.
Изучение его требует от вас работы вслед за нами с карандашом на листе бумаги, а также использования программного пакета Excel для оперативных расчетов.
Мы в своих рассуждениях постарались уйти от сложных расчетов высшей математики, переведя практически весь курс на язык таблиц, реализуемых либо вычислениями на листе бумаги, либо на листах книги Excel.
Но без ваших усилий по повторению вычислений вслед за теми, которые мы приводим в курсе, положительного результата ждать не следует.
Это небольшое отступление на предмет того, что во всех финансовых структурах в настоящее время очень востребована профессия финансового аналитика. Она требует серьезных математических, экономических, финансовых и эконометрических знаний, а также умений моделировать ситуацию и прогнозировать ее.
Но, чтобы завершить рассмотрение нелинейных регрессий, вспомним об обещанном долге — рассмотрим получение степенной регрессии для таблицы 1.2. Напомним, что вид регрессии, полученной нами, такой: yx=6,136·x0,474. Мы должны теперь получить его вместе с вами. Необходимо отметить, что такие регрессии являются нелинейными по оцениваемым параметрам (параметр b является показателем степени).
Данный класс нелинейных моделей подразделяется на два типа: нелинейные модели внутренне линейные и нелинейные модели внутренне нелинейные.
Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду.
Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции.
В общем виде ,нелинейна относительно оцениваемых параметров, ибо включает параметры a и b неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию e приводит его к линейному виду:
ln y=ln a+bln x+ε
Соответственно оценки параметров a и b могут быть найдены МНК.
Для оценки параметров степенной функции применяется МНК к линеаризованному уравнению
ln y=ln a+b·ln x+ln ε
т.е. решается система нормальных уравнений:
Параметр b определяется непосредственно из системы, а параметр a — косвенным путем после потенцирования величины ln a .
Обращаем ваше внимание, что логарифмирование можно производить по любому основанию логарифма.
Сейчас мы выполнили логарифмирование по числу е≈2,718, а в задаче, которую мы решаем на основе таблицы 1.2, мы выполним логарифмирование по основанию 10, т.е. будем рассматривать десятичные логарифмы.
Из таблицы 1.2 нам будут нужны только два первых столбца: «х» и «у». Но, чтобы вычисления можно было осуществлять в Excel или с помощью калькулятора, добавим в таблицу 1.2 столбец перед первым и назовем его — «Нумерованный».
В соответствии с уравнением степенной функции нам надо найти параметры а и b.
Для этого прежде нужно выполнить линеаризацию функции. Она сводится к логарифмированию обеих частей равенства по некоторому основанию, например по основанию 10. Тогда получим: lgy=lga + b lgx.
Почему мы получили такой результат?
Правая часть уравнения степенной функции представляет собой произведение. А когда мы берем логарифм от произведения, то он (по свойствам) будет равен сумме логарифмов.
Но вы, вероятно, успели заметить, что мы не взяли в рассмотрение число ε — возмущение. Это число очень мало и здесь мы его опускаем.
Чтобы таблица 1.2 (теперь уже с тремя столбцами) приняла более простой вид, введем для получившегося уравнения (lgy=lga + b lgx) следующие обозначения:
lgx=X; lgy= Y; lga=C.
С учетом введенных обозначений уравнение
lgy=lga + b lgx примет вид: У=С+bХ.
Что мы тут обозначили при помощи С?
Числом «С» мы назвали lga. Это мы делаем для того, чтобы снова от степенной формы прийти к линейной, т.е. к виду У=С+bХ. Но еще раз обращаем ваше внимание на то, что У, С, Х— это другие значения , это десятичные логарифмы от чисел.
А раз мы пришли к линейному уравнению, то параметр b мы считаем по уже известной вам из первой части курса формуле 2.6.
Но только в ее правой части – это х и у большие, т.е. это их, как мы только что говорили, десятичные логарифмы.
Обращение к предыдущей формуле подсказывает, что еще нужно дополнить в нашу таблицу (назовем ее теперь 1.2*).
Мы переобозначаем номер таблицы, т.к. она уже отличается от таблицы 1.2 (от нее сохранились лишь два первых столбца значений).
Это будут столбцы «УХ», «Х2» и столбец «У2».
Еще в формуле для определения параметра b есть средние значения. Поэтому после последней строки таблицы введем строку «Итого», означающую сумму значений по каждому из столбцов, и ниже введем строку «Среднее значение».
Добавим в таблицу и еще одну строку для подсчета квадрата остаточной дисперсии σ (здесь в принципе она вам не нужна, но при выполнении контрольных практических работ она будет необходима).
Самой последней будет строка для подсчета знаменателя дроби в формуле определения параметра «b» .
НО ЕЩЕ РАЗ ОБРАЩАЕМ ВАШЕ ВНИМАНИЕ: МЫ РАБОТАЕМ В ЭТОЙ ФОРМУЛЕ УЖЕ С Х И У БОЛЬШИМИ, Т. Е. С ЛОГАРИФМАМИ ИМ СООТВЕТСТВУЮЩИХ МАЛЫХ ЗНАЧЕНИЙ.
Чтобы все наши рассуждения по построению таблицы 1.2* подытожить, сразу продемонстрируем ее в Excel.
Рис. 1.4. Скриншот таблицы 1.2*
Далее начинаем заполнение столбцов таблицы 1.2*. Т.к. по столбцу D у нас вычисляется lgx=X, то, установив курсор в ячейку D3, вводим в нее знак «равно» и прописываем, набирая с клавиатуры, выражение log(B3).
Внимание! Адрес ячейки B3 вы вводите в формулу, кликнув на ячейку B3. Завершаете ввод формулы нажатием на клавишу Enter на клавиатуре. Результатом ваших действий должна быть следующая картинка, рис. 1.5.
Рис. 1.5. Скриншот вычисления логарифма от числа в ячейке В3
Теперь, выделив ячейку D3 и установив указатель мыши в ее правый нижний угол, протянем по столбцу D при зажатой левой кнопке мыши до ячейки D7. Мы выполнили копирование формулы — вычисление десятичного логарифма от чисел, стоящих по столбцу B.
Аналогичным образом заполним столбец E. В нем мы будем вычислять десятичные логарифмы от значений, содержащихся в столбце С.
Рис. 1.6. Результат вычисления десятичных логарифмов
Заполняя столбец F, мы должны перемножить соответствующие значения в столбцах D и E, рис. 1.7.
Рис. 1.7. Вычисление произведения в ячейке F3
Как и при всех вычислениях в электронных таблицах, сначала в ячейке F3 вводим знак равенства, далее кликаем мышью на ячейку D3, вводим с клавиатуры знак умножения (*) и снова кликаем на ячейку Е3. Завершаем ввод формулы нажатием на клавишу Enter на клавиатуре. Далее снова выполняем уже известную вам процедуру копирования формулы (чтобы для каждого значения отдельно не выполнять вычисления).
Следующим шагом выполним вычисления по столбцу G. Это значит, что в ячейке G3 найдем квадрат значения от числа, содержащегося в ячейке D3. Квадрат выражения мы получим, умножив число на себя или прописав формулу для возведения числа в квадрат с помощью операции ^ (возведения числа в степень), рис. 1.8. На клавиатуре при английской раскладке она идет через Shift+6 (клавиша числа 6 на основной клавиатуре).
Рис. 1.8. Возведение числа в квадрат
Просмотрев содержимое скриншота 1.8, вы заметили, что по столбцу F мы вычислили произведения значений, находящихся в столбцах D и E. И показали, как возвести число в квадрат.
Воспользовавшись уже знакомой вам процедурой копирования формулы, вычислим квадраты всех остальных значений по столбцу G.
Аналогично предыдущему вычислим квадраты значений У, содержащихся по столбцу H. Если вы внимательно читаете и выполняете все действия за нами по ходу чтения курса, то у вас должна получиться такая картинка, как рис. 1.9.
Рис. 1.9. Возведение чисел в квадрат
Следующим шагом заполним 8-ую строку, которая содержит строку «Итого», означающую суммирование по столбцам. В этом случае, для нахождения суммы значений по столбцу «В» можно поступить по-разному, например, выделив значения по столбцу «В» (рис. 1.10), кликнуть на иконку «Σ» — суммирование, результат суммы отобразится в ячейке В8.
Рис. 1.10. Суммирование по столбцу значений «В»
Чтобы снова можно было скопировать формулу, в нашем случае — процедуру суммирования по 8-ой строке, выделим ячейку В8 (в ней уже определена сумма, она равна 15), установив указатель мыши в нижний правый угол ячейки В8, и протянем при нажатой левой кнопке мыши до ячейки H8. По этой строке будут просчитаны суммы значений по всем столбцам, с которыми мы работали.
Аналогично заполним 9-ую строку: в ней необходимо определить средние значения по всем столбцам (8-ая строка в этом случае не используется!).
Рис. 1.11. Определение средних значений
Для определения среднего значения для диапазона ячеек В3:В7 можно было прописать в ячейке В9 функцию, которая отображена в строке формул, т.е. = СРЗНАЧ ( а далее протянуть по диапазону В3:В7 при нажатой левой кнопке мыши), и нажать Enter на клавиатуре. Затем скопировать эту формулу (мы это уже много раз выполняли) по строке. Результат наших действий отображен на рис.1.11.
На данный момент у нас есть все, чтобы определить параметр b.
Напомним, что параметр b вычисляется по формуле:
b=y⋅x¯¯¯−y¯⋅x¯x2¯¯¯−x¯2 ,
но только в ее правой части – х и у большие, т.е. это десятичные логарифмы малых х и у.
Для расчета параметра b введем обозначение его в наш расчетный лист и в ячейке В12 пропишем саму формулу. Обратим внимание на знаменатель этой формулы. В нем прописана разность среднего значения от квадрата и квадрата от среднего значения. Эту разность мы называем квадратом остаточной дисперсии и обозначаем σ2.
Рис. 1.12. Расчет параметра «b»
Итак, в ячейке В12 мы определили параметр «b».
Но давайте вычислим еще раз отдельно знаменатель в дроби, определяющей параметр «а», т. е. квадрат остаточной дисперсии. Сделаем мы это в ячейке D11, рис. 1.13.
Как вы видите по скриншоту, при выделении ячейки D11 в строке формул отображается формула, вычисления по которой привели к указанному в ячейке D11 результату.
Рис. 1.13. Расчет σ2 в ячейке D11
Вспомним, что мы вводили обозначения У=С+bХ , только под У и Х мы понимали их средние значения.
Т.к. все средние значения у нас вычислены, то мы можем, например, в ячейке F12 найти эту разность: С= У-bХ, рис. 1.14.
Рис. 1.14. Вычисление С
Для записи линейного уравнения у нас теперь есть все данные, поэтому нами получено линейное уравнение: Ух=С+bХ. Напомним, что числом С мы назвали lga .
Итак, Yx=0,7879+0,474x. Мы произвели округление значений в ячейках F12 и B12.
Так как в силу введенных нам обозначений У=lgy, то получаем равенство lgy = 0,7879+0,474х.
Чтобы найти из этого уравнения у, необходимо прологарифмировать правую часть этого равенства по основанию 10. Тогда получим lgy = lg10 0,7879+lg100,474x .
Следует напомнить одно из свойств логарифмов — логарифм числа по такому же основанию равен 1, т.е. Lg10=1.
Применение к правой части равенства свойства — сумма логарифмов по одному и тому же основанию равна логарифму произведения — дает возможность правую часть равенства представить в виде: lgy = lg100,7879+0,474х .
Остановимся на следующем моменте: почему в показателе степени правой части равенства получили сумму?
Т.к. под знаком десятичного логарифма в правой части мы получили выражение (100,7879 · 100,474х ), то, помня о том, что при перемножении степеней с одинаковыми основаниями показатели степени складываются, основание остается прежним, получаем правую часть преобразуемого нами выражения в виде: lg10 0,7879+0,474х . Итак, возвращаемся к полученному равенству: lgy = lg10 0,7879+0,474х . Из равенства логарифмов с одинаковыми основаниями следует равенство их подлогарифмических выражений.
Тогда получаем, что у=10 0,7879+0,474х , но к этому уравнению применим свойства степеней (показатели степеней складываются, когда степени с одинаковыми основаниями перемножаются). В результате получим у=100,7879·100,474х.
Вычислим правую часть следующим образом: сначала вычислим первый сомножитель — степень 10 0,7879 .
Мы вычислили это в ячейке F13 и выделили ячейку желтым цветом. На рис. 1.15 показано в строке формул, как мы это вычисляем.
И снова о возможностях программного пакета MS Excel: выделенная ячейка F13 дает возможность в строке формул видеть, по какой формуле были произведены вычисления, рис. 1.15.
Рис. 1.15. Вычисление параметра а
Далее приступим к вычислению второго сомножителя: 100,474х. Т. к. в показателе степени стоит произведение, то это означает, что степень 10х возводится в степень числа 0,474. Тогда получаем: 100,474х=х0,474.
Теперь можно утверждать, что параметры степенной модели нами определены: а=6,136; b=0,474.
Можем записать уравнение yx=6,136·x0,474 (мы округлили значения до трех десятичных знаков). А теперь сравните полученную нами модель с той, которая записана в лекции ранее. Они абсолютно одинаковы.
Мы достаточно подробно рассматривали всю процедуру составления уравнения с акцентом на свойства функций, опираясь на математику, вычисения в Excel.
Результатом вашей работы должен стать Лист Excel, аналогичный рис. 1.15.
Глава 1.1. Нелинейная регрессия (продолжение)
При отсутствии возможности выполнения вычислений в Excel всю эту работу придется выполнять с помощью калькулятора. Это будет намного дольше.
В чем еще преимущества использования Excel?
Например, при изменении погодных условий в текущем году зависимость урожайности озимой пшеницы от количества внесенных удобрений задается таблицей 1.2**.
Таблица 1.2**
Зависимость урожайности озимой пшеницы от количества внесенных удобрений
Т.к. у вас сохранен расчетный Лист Excel, то вам достаточно только изменить данные столбцов (второго и третьего) в соответствии с таблицей 1.2**.
Рис. 1.16. Вычисления на основе таблицы 1.2**
Программа сама выполнила необходимые расчеты и выдала результат, как на рис. 1.16.
Вы сразу же можете записать уравнение степенной модели в виде: yx=6,858·x0,442.
Сообщим еще ряд особенностей степенной функции в эконометрике.
Степенная функция широко используется при изучении эластичности спроса от цен,
где y— спрашиваемое количество;
x — цена;
ε— случайная ошибка.
Такое широкое использование степенной функции связано с тем, что параметр b в ней имеет четкое экономическое истолкование, т. е. он является коэффициентом эластичности.
Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1%. Так, если зависимость спроса от цен характеризуется уравнением вида y=105,56⋅x−1,12, то, следовательно, с увеличением цен на 1% спрос снижается в среднем на 1,12%. В этом случае мы говорим о снижении спроса, т. к. показатель степени, число 1,12 в модели, задан со знаком минус.
О правомерности подобного истолкования параметра b для степенной функции можно судить, если рассмотреть формулу расчета коэффициента эластичности
, (1.5)
где — первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.
Для степенной функции она составит: . Соответственно коэффициент эластичности окажется равным:
Коэффициент эластичности, естественно, можно определять и при наличии других форм связи, но только для степенной функции он представляет собой постоянную величину, равную параметру b .
В других функциях коэффициент эластичности зависит от значений фактора x . Так, для линейной регрессии функция и эластичность следующие:
и (1.6)
В силу того что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения x , то обычно рассчитывается средний показатель эластичности по формуле
. (1.7)
Рассмотрим пример.
Так, решая систему нормальных уравнений зависимости спроса от цен, было получено уравнение ln y=4,6593-1,1214·ln x . Если потенцировать его, т.е.
, то
получим , или
.
Поскольку параметр a экономически не интерпретируется, то нередко зависимость записывается в виде логарифмически линейной функции, т.е. ln y=4,6593-1,1214·ln x .
В виде степенной функции изучается не только эластичность спроса, но и предложения. При этом обычно эластичность спроса характеризуется параметром b<0, а эластичность предложения параметром b>0 .
Вы уже убедились в том, что мощным исследовательским инструментом в эконометрике является математика. Поэтому некоторые сложности в усвоении эконометрики возможны ввиду недостаточной математической подготовки. Если с математикой все в порядке, эконометрика не будет для вас непреодолимой преградой.
Поскольку коэффициенты эластичности представляют экономический интерес, а виды моделей не ограничиваются только степенной функцией, приведем формулы расчета коэффициентов эластичности для наиболее распространенных типов уравнений регрессии (табл. 1.5).
Таблица 1.5
Коэффициенты эластичности для ряда математических функций
Чтобы вникнуть в суть понятия коэффициента эластичности, рассмотрим такую ситуацию.
В Орле группа предприятий производит офисную мебель. Известно, что оптовая цена за 1 т. энергоносителя, измеряемая в млн. руб., задается зависимостью , — среднее значение фактора (цены).
Определим коэффициент эластичности. Мы не случайно вам предложили таблицу 1.5. Она позволит вам извлечь из нее нужную формулу для коэффициента эластичности. Вы только должны разобраться, о какой функции в вашей ситуации идет речь.
Для этого внимательно соотносите ту функцию, которая вам предложена, с функциями первого столбца таблицы 1.5. Выяснили, что в вашей ситуации речь идет о степенной функции, а значит, коэффициент ее эластичности Э=b.
Так как по условию показатель степенной функции, b=1,6281 округлим его до сотых. Получили, что Э=1,63%
Этот показатель говорит о том, что оптовая цена на офисную мебель в среднем возрастет на 1,63% при увеличении стоимости на энергоносители на 1%.
Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, вряд ли кто будет определять, на сколько процентов может измениться заработная плата с ростом стажа работы на 1%. Или, например, на сколько процентов изменится урожайность пшеницы, если качество почвы, измеряемое в баллах, изменится на 1%.
В такой ситуации степенная функция, даже если она оказывается наилучшей по формальным соображениям (исходя из наименьшего значения остаточной вариации), не может быть экономически интерпретирована.
Например, изучая соотношение ставок межбанковского кредита y (в процентах годовых) и срока его предоставления x (в днях), было получено уравнение регрессии с очень высоким показателем корреляции (0,9895).
Коэффициент эластичности 0,352% (мы же выяснили, что в этом случае он будет равен b=0,352 ) лишен смысла, ибо срок предоставления кредита не измеряется в процентах.
Значительно больший интерес для этой зависимости может представить линейная функция , имеющая более низкий показатель корреляции 0,85. Коэффициент регрессии 0,403 показывает в процентных пунктах изменение ставок кредита с увеличением срока их предоставления на один день.
Для нелинейных моделей, как и для линейных имеет смысл говорить о корреляции и апГлава 1.2. Корреляция и средняя ошибка аппроксимации
Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R) :
, (1.8)
где — общая дисперсия результативного признака y ;
— остаточная дисперсия, определяемая исходя из уравнения регрессии .
Воспользовавшись известными соотношениями дисперсии, получим, что индекс корреляции можно выразить как
. (1.9)
Величина данного показателя находится в границах: чем ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.
Во втором разделе мы вычисляли индекс корреляции для линейной регрессии. Пользуясь формулой (1.9) вычислим индекс корреляции для задачи, задаваемой таблицей 1.2.
По данным табл. 1.2. для уравнения регрессии индекс корреляции составил:
свидетельствуя о достаточно тесной связи рассматриваемых явлений.
Напоминаем, что и в этом случае вычисление индекса корреляции можно осуществить с помощью функции КОРРЕЛ категории Статистические приложения Excel. Но компьютерный вариант будет несколько отличаться от ручных вычислений и объясняется это погрешностями приближений.
Парабола второй степени, как и полином более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если же нелинейное относительно объясняемой переменной уравнение при линеаризации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции, величина которого в этом случае совпадет с индексом корреляции Ryx=ryz где z — преобразованная величина признака-фактора, например z= или z=ln x .
Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину для нелинейных связей называют индексом детерминации.
Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:
(1.10)
где — индекс детерминации;
n — число наблюдений;
m— число параметров при переменных x .
Величина m характеризует число степеней свободы для факторной суммы квадратов, а (n-m-1) — число степеней свободы для остаточной суммы квадратов.
Составляя модели линейных и нелинейных регрессий, Вы заметили, что фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, т. е. y От .
Чем меньше это отличие, тем ближе теоретические значения подходят к эмпирическим данным, лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака по каждому наблюдению представляет собой ошибку аппроксимации. Их число соответствует объему совокупности. В отдельных случаях ошибка аппроксимации может оказаться равной нулю. Отклонения несравнимы между собой, исключая величину, равную нулю. Так, если для одного наблюдения =5 , а для другого она равна 10, то это не означает, что во втором случае модель дает вдвое худший результат.
Для сравнения используются величины отклонений, выраженные в процентах к фактическим значениям. Так, если для первого наблюдения y=20 , а для второго y=50 , ошибка аппроксимации составит 25% для первого наблюдения и 20% — для второго.
Поскольку может быть как величиной положительной, так и отрицательной, то ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
Отклонения можно рассматривать как абсолютную ошибку аппроксимации, а
— как относительную ошибку аппроксимации.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:
(1.11)
Во втором разделе мы вычисляли среднюю ошибку аппроксимации. Аналогично эта величина определяется и для нелинейных моделей.
Напомним, что качество уравнения регрессии считается хорошим, если ошибка аппроксимации находится в пределах 5—7%. Т.е. это свидетельствует о хорошем подборе модели к исходным данным.
Итак, в этом разделе мы выяснили, что между экономическими явлениями могут существовать связи, описываемые нелинейными регрессиями. Мы рассмотрели виды таких регрессий, вычисляли основные характеристики нелинейных моделей. Еще раз убедились, что знания математики и статистики и в этом разделе эконометрики играют ведущую роль.
При работе с различными моделями мы заметили, что чем меньше фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии, тем лучше качество модели.
проксимации. Этому мы и посвятим следующую главу.
Глава 2.1. Спецификация модели
В предыдущем разделе мы рассматривали парную регрессию. Но она может и дает хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
Например, при построении модели потребления того или иного товара от дохода исследователь (тот, кто строит модель) предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения.
Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. Как это можно сделать? Отобрать те единицы, у которых все значения других факторов, кроме дохода, одинаковы. Т.е. исследователь начинает планировать эксперимент. Но этот метод не применим для экономиста. «Почему?», — спросите Вы. Да дело в том, что экономист в отличие от экспериментатора-естественника принимает ситуацию такой, какая она есть. Это биолог или химик в исследовательской лаборатории получает препарат, проверив его на определенное свойство, и затем выпускает его для общего использования, лишен возможности регулировать другие факторы.
Поведение же отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии
(2.1)
Если внимательно отнестись к этой формуле, то легко заметить, что результативный признак y зависит от нескольких влияющих факторов x.
Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты — частные производные потребления y по соответствующим факторам :
в предположении, что все остальные x , постоянны.
Если на уровне обывателя говорить о потребительской функции, то можно сразу сказать, что она зависит от вашего дохода, от тех цен, которые предлагает нам сегодня рынок и супермаркеты и тех наличных средств и других ценностей, которыми Вы располагаете. А теперь попытаемся все сказанное представить в виде некоторой функции, т.е. модели потребительской функции. Если потребительскую функцию обозначить символом C , а все остальные факторы так как предложено ниже, то построенная нами модель будет иметь вид формулы (2.2).
C=j(y,P,M,Z), (2.2)
где C — потребление;
y — доход;
P — цена, индекс стоимости жизни;
M — наличные деньги;
Z— ликвидные активы.
При этом
Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия — один из наиболее распространенных методов в эконометрике.
Основная цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Суть проблемы спецификации мы уже рассматривали. Она включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. Когда велась речь о парной регрессии, там ключевым вопросом был вопрос построения модели.
В случае же множественной регрессии на первое место встает вопрос отбора факторов и только потом — построение модели.
Итак, разобрались с понятием множественной регрессии, идем дальше.
Глава 2.2. Отбор факторов при построении множественной регрессии
В предыдущей главе мы отметили, что ключевым моментом для множественной регрессии является отбор факторов. Дело в том, что включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
• они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости: районы могут быть проранжированы);
• факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.
Например, себестоимость единицы продукции (руб., у) от заработной платы работника (руб., х) и производительности его труда (единиц в час, z) задается регрессией:
y=22600-5·x-10·z+ε.
Коэффициент регрессии при переменной z показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается в среднем на 10 руб. при постоянном уровне оплаты труда. Вместе с тем параметр при x нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной x в данном случае обусловлено высокой корреляцией между x и z. Этот результат Вы можете получить, воспользовавшись формулой (2.7) из первой части курса.
К какому же выводу мы приходим? Оказывается роста заработной платы при неизменности производительности труда (если не брать во внимание проблемы инфляции) быть не может.
Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Например, строится модель с набором p факторов, то для нее рассчитывается показатель детерминации . Вспомните, в предыдущем разделе мы говорили об индексе корреляции, задаваемом формулой (1.8).
А показатель детерминации получим, возведя эту формулу в квадрат. Тогда
.
Что фиксирует показатель детерминации? Он как раз и фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии p факторов. Ведь — общая дисперсия результативного признака.
Если вернуться к потребительской функции, то факторов мы брали в рассмотрение 4.
Влияние других, не учтенных в модели факторов оценивается как 1- с соответствующей остаточной дисперсией . Если мы пытаемся дополнительно включать в регрессию факторы, коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться.
Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор не улучшает модель и практически является лишним фактором.
Например, для регрессии, включающей пять факторов, коэффициент детерминации составил 0,857, и включение шестого фактора дало коэффициент детерминации 0,858, то вряд ли целесообразно дополнительно включать в модель этот фактор.
Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t -критерию Стьюдента.
Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй — на основе матрицы показателей корреляции определяют t -статистики для параметров регрессии.
Считается, что две переменные находятся между собой в линейной зависимости, если коэффициент парной корреляции .
Пусть, например, при изучении зависимости y=f(x,z,v) матрица парных коэффициентов корреляции оказалась следующей:
Таблица 2.1
Матрица парных коэффициентов корреляции
Что можно заметить по этой таблице? Два одинаковых значения. Это число 0,8. Давайте разберемся, как эта таблица читается.
Первой читается строка (горизонталь), второй читается столбец (вертикаль). Что мы тогда замечаем из таблицы? Коэффициент корреляции и коэффициент . Значит, факторы x и z дублируют друг друга. Что мы должны предпринять? Вероятно, избавиться от какого-либо из этих факторов.
Теперь рассуждаем, от какого фактора нам лучше избавиться?
В анализ целесообразно включить фактор z, а не x , так как корреляция z с результатом y слабее, чем корреляция фактора x с y ryz0 и >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную .
Например, за период 1905—1951 гг. (за исключением военных лет) американский экономист М. Фридман построил для США следующую функцию потребления: Ct=53+0,58Rt+0,32Rt−1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.
Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления Ct−1 :
Ct=a+b0 Rt+b1Ct−1+ε
В этом уравнении параметр также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода . Долгосрочную предельную склонность к потреблению здесь измеряет выражение .
Так, если уравнение регрессии составило
Ct=23,4+0,46 Rt+0,201Ct−1+ε
то краткосрочная склонность к потреблению равна 0,46, а долгосрочная — 0,575 (0,46/0,8).
Итак, мы выяснили, что множественная регрессия, как и парная, может задаваться линейной функцией. Но с числом параметров в общем виде равном p+1 . Причем, те параметры, которые являются коэффициентами при факторах – коэффициенты чистой регрессии имеют экономический смысл. Т.е. они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизмененном значении других факторов, закрепленных на среднем уровне.
Но мы же сказали, что множественная регрессия также часто может задаваться и степенной функцией.
Для множественной регрессии степенная функция будет иметь вид:
(2.4)
Как и для парной регрессии, в случае множественной регрессии, в степенной функции коэффициенты являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Если вспомнить парную регрессию, то там этот коэффициент имел аналогичный экономический смысл.
Именно вид уравнения в форме степенной функции – наиболее часто используется при составлении моделей множественных регрессий. Он получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.
Биологи утверждают, что самым энергетическим продуктом является мясо. Так вот, при исследовании спроса на мясо получено уравнение
где y — количество спрашиваемого мяса;
— цена;
— доход.
Что можно сказать по поводу этого уравнения, исходя из экономического смыла коэффициентов эластичности?
Так как коэффициент =-2,63 , то рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Обращаем ваше внимание, что здесь мы говорим о снижении ввиду отрицательного значения этого коэффициента.
Увеличение дохода на 1% обусловливает при неизменных ценах рост спроса на 1,11%, так как =1,11 .
Если рассматривать производственную функцию, то количество произведенного продукта будет зависеть от целого комплекса производственных факторов. И в общем виде ее можно задать формулой (2.5).
(2.5)
где P— количество продукта, изготавливаемого с помощью m производственных факторов ;
b— параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.
В этом случае экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: . Эта величина фиксирует обобщенную характеристику эластичности производства.
Например, задана производственная функция следующим видом
где P— выпуск продукции;
— стоимость основных производственных фондов;
— отработано человеко-дней;
— затраты на производство.
Анализируем эту функцию. Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом а 1% при неизменном уровне других факторов; 0,2% — с ростом на 1% также при неизменности других факторов производства и 0,5% с ростом на 1% при неизменном уровне факторов и .
Для данного уравнения . Следовательно, в целом, с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.
При практических расчетах не всегда сумма показателей степеней равна 1, т.е. не всегда
Она может быть как больше, так и меньше единицы. В этом случае величина B фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (B>1) или уменьшающейся (B<1) отдачи на масштаб.
Так, если , то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1,2% (мы суммируем показатели степеней).
Мы рассмотрели наиболее часто используемые уравнения для моделирования множественных регрессий.
В прежних разделах мы использовали возможности приложения MS Excel для оценки параметров регрессии, корреляции, стандартного отклонения, коэффициента детерминации. Что касается множественных регрессий, то и к ним на помощь приходит это же приложение. Более того, стандартные компьютерные программы обработки регрессионного анализа позволяют перебирать различные функции и выбрать ту из них, для которой остаточная дисперсия и ошибка аппроксимации минимальны, а коэффициент детерминации максимален, что мы с вами и рассмотрим позднее.
Глава 2.4. Оценка параметров уравнения множественной регрессии и корреляция
Глава, к рассмотрению которой мы приступаем, вам своим названием известна. Речь пойдет об оценке коэффициентов чистой регрессии и параметра a .
Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.
Как и в случае парной регрессии, практическая значимость уравнения множественной регрессии оценивается с помощью показателя множественной корреляции и его квадрата — коэффициента детерминации.
Показатель множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.
Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции.
Если R=0, то линейной корреляционной связи между признаком и факторами нет. Если R=1, то связь функциональная.
Обычно интерпретируется не сам коэффициент корреляции, а его квадрат, который, как известно из предыдущих разделов, называется коэффициентом множественной (общей) детерминации.
Он показывает, какая часть общей дисперсии объясняется за счет вариации линейной комбинации аргументов (факторов) при данных значениях коэффициентов регрессии.
Например, коэффициент множественной корреляции R=0,7 , тогда коэффициент детерминации R2=0,72=0,49, т.е. 49% вариаций объясняется факторами, включенными в уравнение регрессии, а 51% — прочими факторами.
Существенность отличия от нуля выборочного коэффициента корреляции множественной регрессии проверяется на основе F-критерия (критерия Фишера). О том, как определить критерий Фишера, мы говорили в первой части курса.
Напомним, что существует таблица критических точек распределения для уровня значимости a=0,01 и a=0,05. Мы ее разместили в Приложении к курсу, которое находится в конце этой части курса.
Если расчетное значение F>Fтабл превышает табличное, то гипотеза о равенстве коэффициента множественной корреляции нулю отвергается и связь считается существенной.
Мы говорили, что для множественной регрессии, как и для парной, естественно расчеты производить в приложении, например, MS Excel.
А потому мы не станем сейчас рассматривать построение модели множественной регрессии аналитически, а предложим это сделать с помощью Excel.
Рассмотрим ситуацию.
По 20 предприятиям региона (табл. 2.3) изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).
Таблица 2.3
Показатели выработки продукции на одного работника 20 предприятий региона
Требуется:
• оценить показатели вариации каждого признака и сделать вывод о возможностях применения МНК для их изучения;
• проанализировать линейные коэффициенты парной корреляции;
• написать уравнение множественной регрессии.
Введем данные таблицы на лист Excel. Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Описательная статистика. Для этого выполните следующее: на открытом листе книги Excel (с введенными табличными данными) в главном меню выберите последовательно пункты Сервис, Анализ данных, Описательная статистика, после чего щелкните по кнопке Оk. Если, открыв меню Сервис, Вы не обнаружили команды Анализ данных, ее необходимо установить. Делается это таким образом. В меню Сервис, выбираем команду Надстройки, далее выбираем в открывшемся окне команду Пакет анализа, подтвердив свой выбор нажатием на кнопку Оk. Теперь Анализ данных будет содержаться в меню Сервис и каждый раз загружать его уже будет не надо.
Мы расположили данные в окне Excel, как на рисунке 2.1.
Рисунок 2.1 − Показатели 20 предприятий региона
После заполнения окна, как на рисунке 2.2 и подтверждения этого выбора параметров на кнопке Оk, получите диалоговое окно «Описательная статистика», см. рис. 2.2.
Рисунок 2.2 – Диалоговое окно «Описательная статистика»
Обратите внимание на диалоговое окно (рис. 2.2). Для автоматического заполнения строки Входной интервал, установите в эту строку курсор и протащите при нажатой левой кнопке мыши по данным исходной таблицы (рис. 2.1), не включая столбец А с номерами предприятий.
В строку Выходной интервал достаточно внести адрес одной начальной ячейки, начиная с которой будет внесена вся описательная статистика. Выставите нужные флажки, как на рис. 2.2. диалогового окна. Результат описательной статистики, полученный в окне приложения Excel, мы представляем в виде отдельной таблицы (табл. 2.4). Из этой таблицы мы получаем всю информацию относительно предприятий региона.
Таблица 2.4
Описательная статистика показателей выработки продукции на одного работника 20 предприятий региона
Сравнивая значения средних квадратических отклонений и средних величин и определяя коэффициенты вариации для всех трех показателей, получим:
.
По результатам приходим к выводу, что уровни варьирования признаков повышены, хотя не превышают 35%. Следовательно, совокупность предприятий однородна, и для ее изучения можно использовать МНК.
Для ответа на второй поставленный вопрос необходимо знать значения линейных коэффициентов парной корреляции, которые определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии. Линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.
К сожалению, в MS Excel нет специального инструмента для расчета линейных коэффициентов частной корреляции. Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция.
Для этого в главном меню последовательно выберите пункты Сервис, Анализ данных, Корреляция, щелкните по кнопке ОК и заполните диалоговое окно ввода данных и параметров вывода (см. рис. 2.3).
Заполнение этого окна аналогично заполнению окна на рис. 2.2. Поэтому мы уже не рассматриваем этот вопрос подробно.
Рисунок 2.3 – Диалоговое окно «Корреляция»
Результаты вычислений — матрица коэффициентов парной корреляции — представлены в таблице 2.5.
Таблица 2.5
Матрица коэффициентов парной корреляции
Проанализируем результаты таблицы 2.5.
Значения коэффициентов парной корреляции указывают на весьма тесную связь выработкиy как с коэффициентом обновления основных фондов — , так и с долей рабочих высокой квалификации — . Так как значения парной корреляции соответственно равны =0,9699 и =0,9408 , но в то же время межфакторная связь между ними =0,9428 весьма тесная и превышает тесноту связи с y , то для улучшения данной модели можно исключить из нее фактор как малоинформативный, недостаточно статистически надежный.
Итак, мы проанализировали значения коэффициентов парной корреляции и сделали вывод о возможности исключения из данной модели фактора как малоинформативного, недостаточно статистически надежного.
Для ответа на третий вопрос нашего задания написать уравнение множественной регрессии, необходимо вспомнить, как мы работали с парной регрессией. Эта операция проводится с помощью инструмента анализа данных Регрессия. Она аналогична расчету параметров парной линейной регрессии, только в отличие от парной регрессии в диалоговом окне при заполнении параметра Входной интервал следует указать не один столбец, а все столбцы, содержащие значения факторных признаков. Пусть на вашем листе книги Excel табличные данные расположены как на рис. 2.1. Тогда, выбрав в меню Сервис, Анализ данных, Регрессия, заполняете диалоговое окно, как на рисунке 2.4. Результаты анализа, которые Вы получите, мы оформили в виде трех отдельных таблиц 2.6 — 2.8. Еще раз обращаем ваше внимание на тот факт, что таблицы 2.6 - 2.8 — это те таблицы, которые мы получили в результате команды Регрессия.
Рисунок 2.4 – Диалоговое окно «Регрессия»
Таблица 2.6
Регрессионная статистика
Таблица 2.7
Дисперсионный анализ
Таблица 2.8
Вывод результатов регрессии
Обращаем ваше внимание на те результаты, которые мы видим в таблице 2.8. Компьютер выдает результатс желаемой степенью точности вычислений. Мы же выполнили округление лишь до 4 знаков после запятой (в отличие от предыдущих таблиц) с целью экономии места и времени.
Для записи уравнения множественной регрессии вам необходимо знать все его коэффициенты. По таблице 2.8 легко сообразить, что они представляют собой второй столбец таблицы. Теперь осталось только подставить их значение в уравнение множественной регрессии
и получить искомое уравнение
Учитывая то, что у некоторых студентов на личных компьютерах установлен пакет MS Office 2007, рассмотрим как там выполняется установка отдельных надстроек.
Чтобы установить функцию «Анализ данных» для пакета Office 2007 следует поступить так: нажать на кнопку Office → Параметры Excel → Надстройки → ОК, рис. 2.5.
Рис. 2.5
В открывшемся окне надстроек, выбираете «Пакет Анализа» → Перейти (команда внизу окна), рис. 2.6.
Рис. 2.6
Далее снова → Пакет анализа → Ok, рис. 2.7.
Рис. 2.7
В открывшемся окне выбираете описательную статистику, рис. 2.8.
Рис. 2.8
Зайдите теперь во вкладку Данные, здесь появится функция Анализ данных (выделена красным прямоугольником), рис. 2.9.
Рис. 2.9
И при следующем обращении к этой надстройке вам достаточно кликнуть на вкладку «Анализ данных», рис. 2.9 и в открывшемся диалоговом окне, рис. 2.8 выбирать необходимые инструменты анализа.
Итак, в этой главе мы выяснили, что показатель множественной корреляции оценивает тесноту совместного влияния факторов на результат, и чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Как и для парной регрессии разобрались с понятием коэффициента детерминации. Выяснили, что все задачи множественной регрессии можно реализовывать с помощью компьютера, облегчая себе работу. Далее переходим к рассмотрению вопроса о прогнозировании экономических процессов.
Глава 3.1. Виды временных рядов
Прочитав название этой главы, Вы, вероятно, вспомнили, что когда-то похожее Вы уже слышали. Да, вам частично этот материал знаком из статистики. Там под временными (динамическими) рядами понимают экономические величины, зависящие от времени. При этом время предполагается дискретным, в противном случае говорят о случайных процессах, а не о временных рядах. В эконометрике все остается также справедливым.
Во введении мы говорили, что каким бы видом производства или бизнеса ни занималась организация, ей приходится планировать предпринимательскую деятельность на будущий период. При разработке краткосрочных и долгосрочных планов менеджеры вынуждены прогнозировать будущие значения таких важнейших показателей, как, например, объем продаж, издержки производства, ставки процента и т.д. Как Вы уже имели возможность убедиться, величайшим помощником на пути решения этих задач являются информационные технологии.
Давайте выясним, что такое прогноз? Мы утром и вечером слушаем прогноз гидрометеослужбы. При большой беде – кто-то близкий оказался в больнице, мы идем к лечащему доктору и слышим от него фразу: «К сожалению, прогноз неутешительный, или, к счастью, прогноз хороший». Да, здесь все вроде бы понятно. А вот относительно экономики. Что это означает?
Под прогнозом понимается научно обоснованное описание возможных состояний системы в будущем и сроков достижения этих состояний, а процесс разработки прогнозов называют прогнозированием.
Словарь методических терминов под прогнозом понимает упреждение – вероятностное прогнозирование.
В зависимости от объектов прогнозирования прогнозы разделяют на научно-технические, экономические, социальные и другие.
В зависимости от масштабности объекта прогнозирования экономические прогнозы охватывают все уровни: от прогнозов отдельных предприятий и производств (микроуровни) до прогнозов развития отрасли в масштабе страны (макроуровень) или закономерностей мирового масштаба (глобальный уровень).
Временем упреждения при прогнозировании называют отрезок времени от момента, для которого имеются последние данные об изучаемом объекте, до момента, к которому относится прогноз.
По длительности времени упреждения различают следующие виды прогнозов:
• оперативные — с периодом упреждения до одного месяца;
• краткосрочные — до одного года;
• среднесрочные — от одного года до пяти лет;
• долгосрочные — с периодом упреждения более пяти лет.
Наибольший практический интерес представляют оперативные и краткосрочные прогнозы.
Прогнозирование экономических процессов состоит из следующих этапов:
• постановка задачи и сбор необходимой для прогнозирования информации;
• первичная обработка исходной информации;
• определение возможных моделей прогнозирования;
• оценка параметров рассматриваемых моделей;
• проверка адекватности выбранных моделей;
• расчет характеристик моделей;
• анализ полученных результатов прогноза.
Вы, вероятно, вспомнили, что в курсе статистики по аналогичной схеме осуществляется статистическое наблюдение.
Происходящие в экономических системах процессы в основном проявляются как ряд расположенных в хронологическом порядке значений определенного показателя, который в своем изменении несет определенную информацию о динамике изучаемого явления.
Как и в статистике, ряд наблюдений за значениями определенного показателя, упорядоченный в зависимости от возрастающих или убывающих значений другого показателя, называют динамическим рядом, временным рядом, рядом динамики.
Отдельные наблюдения временного ряда называются уровнями этого ряда.
В статистике Вы слышали о двух типах рядов: моментных и интервальных. В эконометрике мы узнаем еще об одном типе временного ряда – производном. Напомним, чем характеризуются эти типы рядов.
Моментные ряды характеризуют значения показателя на определенные моменты времени; пример такого ряда представлен в таблице 3.1.
Интервальные ряды характеризуют значения показателя за определенные интервалы времени, примером такого ряда является ряд, представленный в таблице 3.2.
Производные ряды получаются из средних или относительных величин показателя, пример ряда представлен в таблице 3.3.
Таблица 3.1
Численность работников фирмы
Таблица 3.2
Фонд заработной платы работников фирмы
Таблица 3.3
Среднемесячная заработная плата работников фирмы
Уровни ряда могут иметь детерминированные или случайные значения. Ряд последовательных данных о количестве дней в месяце, квартале, году являются примерами рядов с детерминированными значениями.
Прогнозированию подвергаются ряды со случайными значениями уровней. Каждый показатель таких рядов может иметь дискретную или непрерывную величину.
Важное значение для прогнозирования имеет выбор интервалов между соседними уровнями ряда. При слишком большом интервале времени могут быть упущены некоторые закономерности в динамике показателя. При слишком малом — увеличивается объем вычислений, могут появляться несущественные детали в динамике процесса.
Выбор интервала времени между уровнями ряда должен решаться конкретно для каждого процесса, причем удобнее иметь равноотстоящие друг от друга уровни.
Важным условием правильного отражения временным рядом реального процесса развития является сопоставимость (и снова термин из статистики) уровней ряда . Несопоставимость чаще всего встречается в стоимостных характеристиках, изменениях цен, территориальных изменениях, укрупнении предприятий и др. Для несопоставимых величин показателя неправомерно проводить его прогнозирование.
Для успешного изучения динамики процесса необходимо, чтобы информация была полной на принятом уровне наблюдений, временной ряд имел достаточную длину, отсутствовали пропущенные наблюдения.
Уровни временных рядов могут иметь аномальные значения. Выясним, с чем связано появление таких значений?
Появление таких значений может быть вызвано ошибками при сборе, записи или передаче информации — это ошибки технического порядка, или ошибки первого рода. Однако аномальные значения могут отражать реальные процессы, например, скачок курса доллара или падение курса ценных бумаг на фондовом рынке и др.; такие аномальные значения относят к ошибкам второго рода, они не подлежат устранению.
Для выявления аномальных уровней временных рядов можно использовать метод Ирвина. В чем суть этого метода?
Пусть имеется временной ряд
,
соответствующий моментам времени
.
Метод Ирвина предполагает использование следующей формулы:
, (3.1)
где — среднеквадратическое отклонение временного ряда.
Для вычисления среднего квадратического отклонения необходимо знать дисперсию временного ряда, а она вычисляется по формуле 3.2. Исходя из формулы дисперсии временного ряда,
. (3.2)
Извлекая из полученного числа квадратный корень, получаем величину дисперсии.
Расчетные значения сравниваются с табличными значениями критерия Ирвина ; если какое-либо из них оказывается больше табличного, то соответствующее значение уровня ряда считается аномальным.
Значения критерия Ирвина для уровня значимости α=0,05 приведены в таблице 3.4.
Таблица 3.4
Табличные значения критерия Ирвина для уровня значимости α=0,05
После выявления аномальных уровней необходимо определить причины их возникновения. Если они вызваны ошибками технического порядка, то они устраняются чаще всего заменой уровней средней арифметической двух соседних уровней ряда.
Ошибки, возникающие из-за воздействия факторов, имеющих объективный характер, устранению не подлежат.
Например, процент дефектных изделий, допускаемых фирмой, занимающейся изготовлением облицовочной плитки задан таблицей 3.5 (два первых столбца). Поставим задачу исследовать на аномальные значения точки t=2 и t=5 данного временного ряда.
Для этого найдем сумму значений второго столбца. Она будет равна 29,1. Для вычисления среднего значения процента дефектной плитки получившуюся сумму делим на сумму всех временных интервалов (в нашем случае их 10):
Для исследования на аномальные значения в двух уже названных точках находим
Таблица 3.5
Исследование временного ряда
В таблице 3.4 при n=10 находим значение =1,5. Так как расчетное значение оказалось меньше табличного, то уровень t=2 считается нормальным.
Аналогично исследуем точку t=5 на аномальность.
Снова, обратившись к таблице 3.4, найдем табличное значение =1,5 при n=10.
Так как расчетное значение больше табличного, то ряд является аномальным.
Если уровень t=5 относится к ошибкам 1-го рода, то его можно заменить на среднее арифметическое
Что, к примеру, можно использовать при оценке работы или в других ситуациях, связанных с оценкой показателей.
Глава 3.2. Прогнозирование экономических процессов
Если во временном ряду проявляется длительная тенденция изменения экономического показателя (например, растет процент дефектной плитки), то в этом случае говорят, что имеет место тренд. Это понятие тоже вам известно. Но напомним его еще раз.
Под трендом понимают изменение, определяющее общее направление развития или основную тенденцию временного ряда. Тренд относят к систематической составляющей долговременного действия. Во временных рядах часто происходят регулярные колебания, которые относятся к периодическим составляющим рядов экономических процессов.
Считают, что значения уровней временных рядов экономических показателей складываются из следующих составляющих (компонентов): тренда, сезонной, циклической и случайной.
Если период колебаний не превышает года, то их называют сезонными, более года — циклическими составляющими. Чаще всего причиной сезонных колебаний являются природные, климатические условия, циклических — демографические циклы др.
Тренд, сезонная и циклическая составляющие называются регулярными, или систематическими, компонентами временного ряда. Если из временного ряда удалить регулярный компонент, то останется случайный компонент.
Прогнозирование временных рядов целесообразно начинать с построения графика исследуемого показателя. Это построение можно сделать с помощью приложения Excel, выделив столбец исходных данных, и выбрав в Мастере диаграмм, Графики.
Однако в нем не всегда прослеживается присутствие тренда (тенденции возрастания или убывания). Поэтому в этих случаях необходимо выяснить, существует ли тенденция во временном ряду или она отсутствует. Следовательно, лучше определить прогноз численно, выполнив определенные вычисления.
Например, изменение ежеквартальной динамики фонда заработной платы фирмы происходило примерно с постоянным темпом роста в течение 5 кварталов. Фонд заработной платы в 1-м квартале составлял 252 долл. США, а в 5-м квартале — 256,5 долл. США.
Надо определить прогноз фонда заработной платы работников фирмы в 6-м квартале, используя средний темп роста.
По условию задачи изменение фонда заработной платы происходило примерно с постоянным темпом роста в течение 5 кварталов. Поэтому правомерно использовать средний темп роста для расчета прогноза фонда в 6-м квартале. И снова мы прибегаем к понятию – средний темп роста, известный вам из статистики.
Средний темп роста составит:
Для нашего примера средний темп роста
Таким образом, прогноз величины фонда заработной платы сотрудников фирмы составит:
долл. США.
Важно владеть такой информацией менеджеру, руководителю фирмы? Естественно, ведь это ваше завтра.
Если факты вещь упрямая, то те знания, которые Вы получили в этом курсе, помогут вам сознательно выбирать, формировать уровни, определяя тем самым наиболее рациональную тенденцию развития вашего бизнеса.
В заключение курса желаем вам, выражаясь терминами эконометрики, иметь самый высокий коэффициент детерминации не только при выполнении контрольных заданий, но в во всех жизненных ситуациях.
Пусть средняя ошибка аппроксимации во всех ваших делах и поступках имеет самый низкий процент.
Ну и, конечно же, построив уравнение множественной регрессии своих дел в бизнесе (в любой форме – линейной, степенной, и т. д.) постарайтесь добиться, чтобы частные коэффициенты корреляции всех составляющих факторов вашего бизнеса не вышли за пределы отрезка от -1 до 1.
А теперь предлагаем вам отрывки из замечательного произведения Джонсона Спенсера «Кто забрал мой сыр?».
Приложения
Критические точки распределения Фишера—Снедекора
( k1— число степеней свободы большей дисперсии; k2 — число степеней свободы меньшей дисперсии)
Критические точки распределения Фишера—Снедекора
(k1 — число степеней свободы большей дисперсии; k2 — число степеней свободы меньшей дисперсии)