Справочник от Автор24
Поделись лекцией за скидку на Автор24

Основные задачи эконометрики

  • 👀 364 просмотра
  • 📌 325 загрузок
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Конспект лекции по дисциплине «Основные задачи эконометрики» pdf
1. Основные задачи эконометрики Зарождение эконометрики является следствием междисциплинарного подхода к экономике. Эта наука возникла в результате взаимодействия трех компонент: экономической теории, статистических и математических методов. Существуют различные варианты определения эконометрики. Буквально термин «эконометрика» обозначает измерение в экономике. С другой стороны, эконометрика – это наука, в которой с помощью статистических методов устанавливаются количественные взаимосвязи между экономическими переменными. То есть под эконометрикой следует понимать определенный набор математико-статистических средств, позволяющих проверять или верифицировать модельные соотношения между анализируемыми экономическими показателями и оценивать неизвестные значения параметров в этих соотношениях на основе исходных экономических данных. Эконометрику можно также определить, как специальный вид экономического анализа, в котором объединены два аспекта: общий теоретический метод, часто формулируемый математически, и эмпирическое измерение экономических показателей. Таким образом, одним из ответов на вопрос о том, что же такое эконометрика, может звучать так: это наука, связанная с эмпирическим обоснованием и утверждением экономических законов. С точки зрения теории эконометрическое исследование начинается после того, как: 1) выбрана математическая модель объекта с фиксированной форм ой всех зависимостей и с неизвестными параметрами, входящими в модель переменных; 2) получено множество наблюдений над входящими в модель переменными в соответствующие моменты времени; 3) оставлена задача отыскания значений неизвестных параметров, обеспечивающих наилучшие, с точки зрения фиксированного критерия, приближение модельных значений переменных к их значениям, наблюдавшимся в действительности, проверки по отношению к ним разнообразных гипотез и верификации полученной модели. Построенная и верифицированна модель может использоваться в задачах прогноза и упраления объекта исследования. 2. Типы моделей Основным этапом эконометрического моделирования является выбор модели. Можно выделить три основных класса моделей, которые применяются для анализа и прогноза явлений и процессов в экономике. 1) Регрессионные модели с одним уравнением. В таких уравнениях зависимая (объясняемая) переменная у представима в виде функции 𝑦 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑘 ), где 𝑥1 , 𝑥2 , … , 𝑥𝑘 – независимые (объясняющие) переменные. В зависимости от вида такой функции модели делятся на линейные и нелинейные (как по независимым переменным, так и по неизвестным параметрам). Область применения моделей в виде одного регрессионного уравнения обширна. 2) Системы одновременных уравнений. Эти модели описываются системами уравнений. Системы могут состоять из тождеств и регрессионных уравнений, каждое из которых может, кроме объясняющих переменных, включать в себя также объясняемые переменные из других уравнений системы. Переменные, значения которых определяются из уравнений системы, называются эндогенными (внутренними), а переменные, значения которых определяются вне модели, называются экзогенными (предопределенными). Системы одновременных уравнений могут использоваться для построения моделей макро- и микроэкономики, моделей страновой экономики и др. 3) Модели временных рядов. К этому классу относятся модели, построенные по данным, характеризующим изучаемый объект за ряд последовательных моментов или промежутков времени. В этих моделях объясняющим факторомв явной или неявной форме выступает время t. К этому классу относят модели тренда, сезонности, тренда и сезонности, и более сложные модели, такие как модели авторегрессии и скользящего среднего и др. 3. Парная линейная регрессия Термин «регрессия» (движение назад, возвращение в прежнее состояние) был введен Фрэнсисом Галтоном в конце XIX века при анализе зависимости между ростом родителей и ростом детей. Галтон заметил, что рост детей у очень высоких родителей в среднем меньше, чем средний рост родителей. У очень низких родителей, наоборот, средний рост детей выше. И в том и в другом случае средний рост детей стремится к среднему росту людей в данном регионе. Отсюда и выбор термина, отражающего такую зависимость. В настоящее время под регрессией понимается функциональная зависимость между объясняющими переменными и условным математическим ожиданием (средним значением) зависимой переменной, которая строится с целью предсказания (прогнозирования) этого среднего значения при фиксированных значениях первых. Так как реальные значения зависимой переменной не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной, фактическая зависимость должна быть дополнена некоторым слагаемым ε, которое является случайной величиной. Связи между зависимой и объясняющей(ими) переменными которые выражаются соотношениями 𝑌 𝑌 = 𝑀 ( ) + 𝜀, 𝑋 𝑌 = 𝑀( 𝑌 𝑥1 ,𝑥2 ,…,𝑥𝑚 (1) ) + 𝜀, (2) называют регрессионными моделями (уравнениями). Предположим, что истинная зависимость между 𝑥 и 𝑦– линейная, т.е. существует некоторая прямая𝑌 = 𝛽0 + 𝛽1 𝑥, отражающая истинную зависимость. Задача регрессионного анализа состоит в получении оценок 𝛽0 , 𝛽1 и положения прямой. Пусть имеется набор значений двух переменных 𝑋𝑡 , 𝑌𝑡 , 𝑡 = 1,2, … , 𝑛; можно отобразить пары (𝑋𝑡 , 𝑌𝑡 ) точками на плоскости (рис.1) Рисунок 1 – Поле корреляции Существование отклонений от прямой регрессии, т.е. случайных слагаемых 𝜀, объясняется рядом причин. Среди таких причин выделим наиболее существенные. 1) Ошибки измерения. Например, при сборе данных об урожайности сельскохозяйственных культур, результаты работы в отчетах могут завышаться или занижаться в зависимости от экономической политики. 2) Невключение объясняющих переменных. Любая регрессионная модель является упрощением реальной ситуации. Возможно, что простая зависимость 𝑌 = 𝛽0 + 𝛽1 𝑥 является очень большим упрощением. Наверняка существуют и другие влияющие на изменение 𝑌, факторы, которые не включены в уравнение. 3) Неправильный выбор вида зависимости. Из-за слабой изученности исследуемого процесса может быть неверно подобрана функция, его моделирующая. 4) Ограниченность статистических данных. Часто строятся модели, выражаемые непрерывными функциями. Но для этого используется набор данных, имеющих дискретную структуру. Решение задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа: 1) выбор формулы уравнения регрессии; 2) определение параметров выбранного уравнения; 3) анализ качества уравнения и проверка адекватности уравнения эмпирическим данным. Выбор формы связи переменных называется спецификацией уравнения регрессии. Для парной регрессии выбор формулы обычно осуществляется по графическому изображению эмпирических данных в виде точек в декартовой системе координат, которое называется полем корреляции. В случае множественной регрессии определение подходящего вида зависимости является более сложной задачей. Если функция линейна, то говорят о линейной регрессии. Линейная регрессия представляет собой линейную функцию между условным математическим ожиданием 𝑌 𝑌 = 𝑀 ( ) = 𝛽0 + 𝛽1 𝑥, 𝑋 (3) 𝑌 где 𝑀 ( ) – условное математическое ожидание зависимой переменной 𝑋 𝑌 и одной объясняющей переменной 𝑋 (𝑥𝑖 – значение независимой переменной в -ом наблюдении, 𝑖 = 1,2, … 𝑛), 𝛽0 и 𝛽1 – неизвестные параметры генеральной совокупности, которые подлежат оценке по результатам выборочных наблюдений. Так как каждое индивидуальное значение у𝑖 отклоняется от соответствующего условного математического ожидания, в соотношении (3) вводится случайное слагаемое 𝜀𝑖 . В этом случае линейная модель регрессии имеет вид 𝑌 𝑌 = 𝑀 ( = 𝑥𝑖 ) + 𝜀𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , (4) 𝑋 где 𝜀𝑖 – взаимно независимые случайные величины с нулевым математическим ожиданием и дисперсией 𝜎 2 , т.е. 𝑀(𝜀𝑖 )=0; 𝐷(𝜀𝑖 ) = 𝜎 2 для всех 𝑖 = 1,2,3, … , 𝑛. Соотношение (3) называют теоретической линейной регрессионной моделью; 𝛽0 , 𝛽1 – теоретическими параметрами регрессии; 𝜀𝑖 – случайным отклонением. Для определения значений теоретических коэффициентов регрессии необходимо знать и использовать все значения переменных 𝑋 и 𝑌 генеральной совокупности, что практически невозможно. Задачи линейного регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1,2, … , 𝑛, для переменных 𝑋 и 𝑌: a) получить наилучшие оценки неизвестных параметров 𝛽0 и 𝛽1 ; b) проверить статистические гипотезы о параметрах модели; c) проверить достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений). Следовательно, по выборке ограниченного объема строят эмпирическое уравнение регрессии 𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖 , (5) где 𝑦̂𝑖 – оценка условного математического ожидания 𝑀(𝑌⁄𝑋 = 𝑥𝑖 );𝑎 и 𝑏 – оценки неизвестных параметров 𝛽0 и 𝛽1 , называемые эмпирическими коэффициентами регрессии. В конкретном случае 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝜀𝑖 , (6) где 𝜀𝑖 – оценка теоретического случайного отклонения. В силу несовпадения статистических данных генеральной совокупности и выборки оценки 𝑎 и 𝑏 практически всегда отличаются от истинных значений 𝛽0 и 𝛽1 , что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности приводят к определению отличающихся друг от друга оценок. Задача состоит в том, чтобы по конкретной выборке (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = 1,2, … , 𝑛 найти оценки 𝑎 и 𝑏 неизвестных параметров 𝛽0 и 𝛽1 так, чтобы построенная линия регрессии являлась наилучшей среди всех других прямых.Таким образом, построенная прямая 𝑦̂𝑖 = 𝑎 + 𝑏𝑥𝑖 должна быть «ближайшей» к точкам наблюдений по их совокупности. Самым распространенным является метод нахождения коэффициентов, при котором минимизируется сумма∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 . Он получил название метод наименьших квадратов (МНК). Этот метод является наиболее простым с вычислительной точки зрения. Оценки коэффициентов регрессии, найденные МНК при определенных предпосылках, обладают рядом оптимальных свойств. 3.1. Метод наименьших квадратов Пусть по выборке (𝑥𝑖 , 𝑦𝑖 ),𝑖 = 1,2, … , 𝑛, требуется определить оценки 𝑎 и 𝑏 эмпирического уравнения регрессии (3). Метод наименьших квадратов позволяет получить такие оценки 𝑎 и 𝑏 параметров 𝛽0 и 𝛽1 , при которых сумма квадратов отклонений 𝜀𝑖 – фактических значений признака 𝑦𝑖 от расчетных (теоретических) 𝑦 = 𝑎 + 𝑏𝑥 + 𝜀 является минимальной: 𝑄(𝑎, 𝑏) = ∑𝑖(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑𝑖(𝑦𝑖 − 𝑎 − 𝑏𝑥𝑖 )2 = ∑𝑖 𝜀𝑖2 → 𝑚𝑖𝑛 (7) Функция Qдифференцируема по 𝑎 и 𝑏, поэтому для отыскания минимума функции найдем частные производные и приравняем их к нулю: 𝜕𝑄 {𝜕𝑄 𝜕𝑎 𝜕𝑎 = −2 ∑ 𝑦𝑖 + 2𝑛𝑎 + 2𝑏 ∑ 𝑥𝑖 = 0 2 = −2 ∑ 𝑦𝑖 𝑥𝑖 + 2𝑎 ∑ 𝑥𝑖 + 2𝑏 ∑ 𝑥𝑖 = 0 (8) После преобразований получаем систему уравнений: { 𝑛𝑎 + 𝑏 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 𝑎 ∑ 𝑥𝑖 + 𝑏 ∑ 𝑥𝑖 2 = ∑ 𝑦𝑖 𝑥𝑖 (9) Система (9) называют системой нормальных уравнений МНК. Решая систему (9) относительно 𝑎 и 𝑏получим: 𝑏= 1 𝑛 𝑛 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 𝑦𝑖 − ∑𝑖=1 𝑥𝑖 ∑𝑖=1 𝑦𝑖 2 2 1 𝑛 ∑𝑛 𝑖=1 𝑥𝑖 −𝑛(∑𝑖=1 𝑥𝑖 ) 1 1 𝑛 𝑛 ; 𝑎 = ∑𝑛𝑖=1 𝑦𝑖 ∙ 𝑏 ∑𝑛𝑖=1 𝑥𝑖 . (10) Относительно оценок (10) можно сделать следующие выводы: 1. Оценки МНК являются функциями от выборки, что позволяет их легко рассчитывать. 2. Оценки МНК являются точечными оценками теоретических коэффициентов регрессии. 3. Эмпирическая прямая регрессии обязательно проходит через точку𝑥̅ , 𝑦̅ 4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений∑𝑛𝑖=1 𝜀𝑖2 = 0, а также среднее значение отклонений 𝜀̅ = ∑𝑛𝑖=1 𝜀𝑖⁄ ( 𝑛) = 0. 5. Отклонения 𝜀𝑖 не коррелированны с наблюдаемыми значениями 𝑦𝑖 переменной 𝑌. 6. Отклонения 𝜀𝑖 не коррелированны с наблюдаемыми значениями 𝑥𝑖 переменной𝑋. Для оценки коэффициентов 𝑎 и 𝑏 можно воспользоваться готовыми формулами, которые вытекают из системы (9): 𝑎 = 𝑦̅ − 𝑏𝑥, ̅𝑏= 𝑐𝑜𝑣(𝑥,𝑦) 𝜎𝑥2 = ̅̅̅̅̅−𝑦̅∙𝑥̅ 𝑦∙𝑥 , ̅̅̅̅ 𝑥 2 −𝑥̅ 2 (11) где 𝑥̅ = ∑ 𝑥𝑖 𝑛 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑦𝑖 , 𝑦̅= 𝑛 , 𝑐𝑜𝑣(𝑥, 𝑦) = ̅̅̅̅̅̅ 𝑦 ∙ 𝑥 − 𝑦̅ ∙ 𝑥̅ , 2 ̅̅̅2 − 𝑥̅ 2 , 𝑥 ̅̅̅2 = ∑ 𝑥𝑖 . 𝑦𝑥 = ̅̅̅ , 𝜎𝑥2 = 𝑥 𝑛 𝑛 Коэффициент 𝑏 при 𝑥 называется выборочным коэффициентом регрессии, он показывает среднее изменение результата 𝑦 при изменении фактора на единицу своего измерения. Коэффициент 𝑎указывает на значение результирующего признака при нулевом значении фактора. Это важный индикатор для выбора вида уравнения. Например, если в результате вычислений коэффициент 𝑎оказался отрицательным, а экономический смысл задачи диктует положительность или равенство нулю показателя 𝑎, значит, выбор вида уравнения был неудачным. Пример 1. Для анализа зависимости объема потребления 𝑌 (у.е.) домохозяйств от располагаемого дохода 𝑋 (у.е.) отобрана выборка объема 14, результаты которой приведены в табл. 1. Требуется: определить вид зависимости; по МНК оценить параметры уравнения регрессии 𝑌 на 𝑋. Таблица 1 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 𝑥𝑖 106 107 108 109 110 112 114 116 120 126 130 136 142 145 𝑦𝑖 103 102 104 107 109 110 112 114 118 124 127 133 134 141 Решение. Предположим, что зависимость между 𝑋 и 𝑌 линейная: ̂у = 𝑎 + 𝑏𝑥. Для наглядности вычислений по МНК построим табл. 2. Согласно МНК, имеем: 𝑦 ∙ 𝑥 − 𝑦̅ ∙ 𝑥̅ 14206 − 117 ∙ 120,071 ̅̅̅̅̅̅ 𝑏= = = 0,94; ̅̅̅2 − 𝑥̅ 2 14584,79 − 14417,15 𝑥 𝑎 = 𝑦̅ − 𝑏 ∙ 𝑥̅ = 117 − 0,94 ∙ 120,071 = 4,087. Таблица 2 𝑖 1 2 3 4 5 6 7 8 9 10 11 12 13 14 сумма среднее 𝑥𝑖 106 107 108 109 110 112 114 116 120 126 130 136 142 145 1681 120,071 𝑦𝑖 103 102 104 107 109 110 112 114 118 124 127 133 134 141 1638 117 𝑥𝑖2 11236 11449 11664 11881 12100 12544 12996 13456 14400 15876 16900 18496 20164 21025 204187 14584,79 𝑥𝑖 𝑦𝑖 10918 10914 11232 11663 11990 12320 12768 13224 14160 15624 16510 18088 19028 20445 198884 14206 𝑦𝑖2 10609 10404 10816 11449 11881 12100 12544 12996 13924 15376 16129 17689 17956 19881 193754 13839,5 Таким образом, уравнение парной линейной регрессии имеет вид: 𝑦̂ = 4,087 + 0,94 ∙ 𝑥. 3.2. Матричная форма записи Парное уравнение регрессии можно записать в матричной форме: 𝑌 = 𝐵𝑋 + 𝐸, (12) где 𝑌 – вектор-столбец размерности (𝑛 × 1) фактических значений результативного признака; –вектор-столбец размерности (2 × 1) подлежащих оценке параметров модели, т.е. коэффициента регрессии «𝑏»и свободного члена (параметра «𝑎»в уравнении ̂𝑦 = 𝑎 + 𝑏𝑥); 𝑋 = (𝑥0 , 𝑥1 ) – матрица размерности (𝑛 × 2) значений факторов. При этом 𝑥0 = 1 и связано с наличием в уравнении регрессии свободного члена, 𝑎𝑥1 – значения включенного в уравнение регрессии фактора; 𝐸 – вектор-столбец случайной величины 𝑒𝑖 размерности (𝑛 × 1). Матрица исходных данных имеет вид: 𝑦1 𝑥1 𝑦2 𝑥2 𝑌 = ( ⋮ ) , 𝑋 = ( ⋮ ). 𝑦𝑛 𝑥𝑛 (13) Оценивая параметры уравнения регрессии, находим вектор 𝐵 вектор случайной компоненты 𝐸, т.е. 𝑒1 𝑒2 𝑎 𝐵 = ( ) , 𝐸 = ( ⋮ ). 𝑏 𝑒𝑛 Оценка вектора 𝐵 составит 𝐵 = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑌. (14) (15) Пример 2. По группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒. Исходные данные приведены в табл. 3. Таблица 3 Выпуск Номер продукции, предприятия тыс. ед., 𝑥 1 2 2 3 3 5 Затраты на производство, млн. руб.,𝑦 40 35 67 4 5 6 7 6 8 10 12 70 100 125 140 𝑎 Решение. Для определения вектора 𝑏 = ( ) найдем предварительно 𝑏 матрицу ХТ Х: 1 2 1 3 1 1 1 1 1 1 1 7 46 1 5 1) 𝑋 𝑇 𝑋 = ( =( ) ); 2 3 5 6 8 10 12 1 8 46 382 1 10 (1 12) 0,685 − 0,082 2) Найдем обратную матрицу (𝑋 𝑇 𝑋)−1 = ( ); −0,082 0,013 3) Вектор 𝑋 𝑇 𝑌 имеет вид: 40 35 67 1 1 1 1 1 1 1 577 𝑇 𝑋 𝑌=( ) 70 = ( ); 2 3 5 6 8 10 12 4670 100 125 (140) 4) Вектор оценок параметров регрессии равен: 0,685 − 0,082 577 10,025 𝐵=( )( )=( ) −0,082 0,013 4670 11,018 Оценка уравнения регрессии имеет вид: 𝑦̂ = 10,025 + 11,018 ∙ 𝑥. 3.3. Предпосылки метода наименьших квадратов Метод наименьших квадратов предполагает ряд ограничений на поведение случайного слагаемого –условия Гаусса-Маркова: 1. Математическое ожидание случайного отклонения 𝜀𝑖 : 𝑀(𝜀𝑖 ) = 0, 𝑖 = 1, 2, … , 𝑛. 2. Гомоскедастичность (постоянство дисперсии отклонений). Дисперсия случайных отклонений 𝜀𝑖 постоянна:𝐷(𝜀𝑖 ) = 𝐷(𝜀𝑖 ) = 𝜎 2 для любых наблюдений 𝑖 и 𝑗. 3. Отсутствие автокорреляции. 4. Случайное отклонение должно быть независимо от объясняющих переменных. 5. Модель является линейной относительно параметров. 6. Отсутствие мультиколлинеарности. 7. Ошибки 𝜀𝑖 , 𝑖 = 1, 2, … , 𝑛, имеют нормальное распределение (𝜀𝑖 ~𝑁(0, 𝜎)). Наряду с выполнимостью указанных предпосылок при построении классических регрессионных моделей делаются еще некоторые предположения. Например:  объясняющие переменные не являются СВ;  число наблюдений существенно больше числа объясняющих переменных;  отсутствуют ошибки спецификации. 3.4. Оценка качества модели Пригодность построенной модели ̂𝑦 = 𝑎 + 𝑏𝑥 или ее верификация, а также качество построенной модели может быть проверено двум равносильными способами: дисперсионным анализом в регрессии и с помощью методов теории корреляции. Суть метода дисперсионного анализа заключается в разложении общей суммарной дисперсии выходной величины 𝑦 на составляющие, обусловленные действием входных переменных-факторов, и остаточную дисперсии, обусловленную ошибкой или всеми неучтенными в этой модели переменными. Фактор оказывает несущественной влияние на 𝑦, если соответствующая ему дисперсия и дисперсия ошибок статистически незначимы. Для проверки гипотез о равенстве таких дисперсий используется критерий Фишера (𝐹-критерий). Для оценки дисперсий используется сумма квадратов 𝑆𝑆 отклонении значений данной переменной от ее средней величины, ее можно разложить на составляющие: 𝑆𝑆общ = 𝑆𝑆𝑅 + 𝑆𝑆ост , где 𝑆𝑆общ = ∑(𝑦𝑖 − 𝑦̅) ,𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̅)2 – сумма квадратов, 2 обусловленная регрессией, 𝑆𝑆ост = ∑(𝑦𝑖 − 𝑦̂) – остаточная сумма квадратов, обусловленная ошибкой. Коэффициентом детерминации или долей объяснённой дисперсии в общей дисперсии признака называется 2 𝑅2 = 1 − 𝑆𝑆ост 𝑆𝑆общ = 𝑆𝑆𝑅 𝑆𝑆общ (16) В силу определения 0 ≤ 𝑅2 ≤ 1. Если 𝑅2 = 0, то это значит, что регрессия ничего не дает, то есть фактор 𝑥 не улучшает качество предсказания 𝑦𝑖 по сравнению с тривиальным предсказанием𝑦̂𝑖 = 𝑦̅. Если же 𝑅2 = 1, то это означает, что точную подгонку, то есть все наблюдаемые значения (𝑥𝑖 , 𝑦𝑖 ) лежат на регрессионной прямой. Чем ближе 𝑅2 к единице, тем лучше качество регрессии, 𝑦̂ более точно аппроксимирует 𝑦. Гипотеза об отсутствии линейной функциональной зависимости между 𝑥и yможет быть записана как 𝐻0 : 𝑏 = 0. Используя коэффициент детерминации получим для -статистики 𝐹набл = 𝑅2 1−𝑅 2 (𝑛 − 𝑚 − 1) (17) где 𝑛 – число наблюдений, 𝑚 – число пареметров при переменных Если при заданном уровне значимости 𝛼 𝐹набл > 𝐹(𝛼, 𝑚, 𝑛 − 𝑚 − 1), то гипотеза 𝐻0 : 𝑏 = 0 отвергается, то есть связь между 𝑥 и 𝑦 есть. В противном случае 𝐻0 : 𝑏 = 0 принимается и постулируется отсутствие значимой линейной функциональной связи между х и у. Другой способ верификации линейной модели состоит в использовании элементов теории корреляции. Линейной мерой связи двух величин является коэффициент корреляции, выборочное значение которого 𝑟в = ̅̅̅̅−𝑥̅ ∙𝑦̅ 𝑥𝑦 (18) √̅̅̅̅ 𝑥 2 −𝑥̅ 2 ∙√̅̅̅̅ 𝑦 2 −𝑦̅ 2 будет его несмещенной оценкой. Значение коэффициента корреляции принадлежит промежутку [−1; 1]. Чем ближе его абсолютное значение к 1, тем сильнее связь между признаками. Положительная величина коэффициента корреляции свидетельствует о прямой связи между ними, отрицательная – о наличии обратной связи между признаками. Гипотеза об отсутствии линейной функциональной связи между х и у может быть записана как 𝐻0 : 𝑟 = 0. Для проверки используется -критерий Стьюдента, статистика которого 𝑡набл = 𝑟в √𝑛−2 (19) √1−𝑟в 2 Если |𝑡набл | > 𝑡(𝛼, 𝑛 − 𝑚 − 1), то существует корреляция между 𝑥 и 𝑦. Здесь также вычисляется коэффициент 𝑅2 = 𝑟в 2 . Он равен, как уже отмечалось, доле дисперсии 𝑦, которая объяснена линейной зависимостью от𝑥. Если𝑟в = 0,9, то это значит, что линейная регрессия 𝑦 на 𝑥 объясняет 81% дисперсии 𝑦, остальные 19% приходятся на долю прочих факторов, не учтенных в уравнении регрессии. Средняя ошибка аппроксимации. Фактические значения результативного признака отличаются от теоретических, рассчитанных по уравнению регрессии. Чем меньше эти отличия, тем лучше качество модели. Величина отклонений фактических и расчетных значений результативного признака (𝑦 − 𝑦̂𝑥 ) по каждому наблюдению представляет собой ошибку аппроксимации. Так как (𝑦 − 𝑦̂𝑥 ) может быть величиной как положительной, так и отрицательной, ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю. Отклонения (𝑦 − 𝑦̂𝑥 ) можно (𝑦−𝑦̂𝑥 ) рассматривать как абсолютную ошибку аппроксимации, а | | ∙ 100 – как 𝑦 относительную ошибку аппроксимации. Для того чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, находят среднюю ошибку аппроксимации как среднюю арифметическую простую. (𝑦−𝑦̂𝑥 ) 1 𝐴̅ = ∙ ∑ | | ∙ 100 𝑛 (20) 𝑦 Уравнение регрессии считается удовлетворительным, если средняя ошибка аппроксимации не превышает 8 − 10%. 3.5. Оценка статистической значимости коэффициентов регрессии Для оценки статистической значимости коэффициентов регрессии рассчитываются -критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза 𝐻0 о случайной природе показателей, т.е. о незначимом их отличие от нуля. Оценка значимости коэффициентов регрессии помощью -критерий Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки: 𝑡𝑎 = 𝑎 𝑚𝑎 ; 𝑡𝑏 = 𝑏 𝑚𝑏 ; 𝑡𝑟 = 𝑟 (21) 𝑚𝑟 Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам: 𝑆2 ∑(𝑦−𝑦̂ )2 𝑥 ост 𝑚𝑏 = √∑(𝑥−𝑥̅ )2(𝑛−2) = √∑(𝑥−𝑥̅ = )2 𝑚𝑎 = √ 𝑚𝑟 = √ ∑(𝑦−𝑦̂𝑥 )2 ∑ 𝑥2 (𝑛−2) 𝑛 ∑(𝑥−𝑥̅ )2 1−𝑟 2 𝑛−2 𝑆ост 𝜎𝑥 √𝑛 2 = √𝑆ост ; ∑ 𝑥2 𝑛2 𝜎𝑥2 = 𝑆ост √∑ 𝑥 2 𝑛𝜎𝑥 (22) . Сравнивая фактическое и табличное значения -статистики принимаем или отвергаем гипотезу 𝐻0 . Табличные значения критерия находятся из таблицы Стьюдента при (𝑛 − 2) степенях свободы и уровне значимости 𝛼 = 0,05. Если 𝑡 < |𝑡набл | то 𝐻0 отклоняется и признается статистическая значимость коэффициентов регрессии. Для расчета доверительных интервалов определяют предельную ошибку ∆ для каждого показателя: ∆𝑎 = 𝑡табл 𝑚𝑎 , ∆𝑏 = 𝑡табл 𝑚𝑏 . (23) Формулы для расчета доверительных интервалов имеют следующий вид: 𝛾𝑎 = 𝑎 ± ∆𝑎 ; 𝛾𝑎𝑚𝑖𝑛 = 𝑎 − ∆𝑎 ; 𝛾𝑎𝑚𝑎𝑥 = 𝑎 + ∆𝑎; 𝛾𝑏 = 𝑏 ± ∆𝑏 ; 𝛾𝑏𝑚𝑖𝑛 = 𝑏 − ∆𝑏 ; 𝛾𝑏𝑚𝑎𝑥 = 𝑏 + ∆𝑏 . (24) Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, т.е. незначимым. 3.6. Прогнозирование на основе линейной модели Построенная адекватная модель может использоваться для прогнозирования. Оценка прогнозируемых величин в регрессионном анализе получается подстановкой в уравнение регрессии значений независимых величин. Прогноз может быть точечным и интервальным. В случае точечного прогноза мы определяем 𝑦̂прог путем постановки в 𝑦̂ = 𝑎 + 𝑏𝑥 соответствующего прогнозного значения 𝑥прог . Для построения интервального прогноза вычисляется средняя ошибка прогноза (𝑥прог −𝑥̅ ) 𝑛 ∑(𝑥прог −𝑥̅ ) 𝑚у̂прог = 𝜎ост ∙ √1 + + где 𝜎ост = √ ∑(𝑦−𝑦̂)2 𝑛−𝑚−1 2 1 2 , (25) и строятся доверительные интервалы прогноза: 𝛾у̂прог = 𝑦̂прог ± ∆у̂прог ; 𝛾у̂прог 𝛾у̂прог 𝑚𝑖𝑛 𝑚𝑎𝑥 ̂прог =у − ∆у̂прог ; (26) = у̂прог + ∆у̂прог . Пример 3. По 12 предприятиям концерна изучается зависимость прибыли (тыс.руб.) 𝑦 от выработки продукции на одного человека (единиц) 𝑥 по следующим данным (табл.4).Требуется: построить линейное уравнение парной регрессии 𝑦̂ = 𝑓(𝑥), рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации, оценить статистическую значимость параметров регрессии и корреляции, дать точечный и интервальный прогноз прибыли с вероятность 0,95, принимая уровень выработки равным 92 единицам. Таблица 4 Номер предприятия 1 2 3 4 5 6 Выработка продукции на одного человека, 𝑥 78 82 87 79 89 106 Прибыль предприятия, тыс.руб., 𝑦 133 148 134 154 162 195 7 8 9 10 11 12 67 88 73 87 76 115 139 158 152 162 159 173 Решение. Вычислим параметры линейного уравнения парной регрессии. Для этого используем инструмент анализа данных РегрессияMSExcel. Заполните диалоговое окно ввода данных и параметров вывода: Входной интервал 𝑌 – диапазон, содержащие данные результативного признака; Входной интервал 𝑋 – диапазон, содержащий данные факторов независимого признака (следует указывать все столбцы, содержащие значения факторных признаков); Метки – флажок, который указывает, содержит ли первая строка названия строк или столбцов; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона. Результаты анализа следующие: Рисунок 2 – Результаты Регрессия По результатам вычислений составим уравнение регрессии:𝑦̂ = 76,98 + 0,92𝑥. С увеличением выработки на 1 единицу прибыль возрастает в среднем на 0,92 тыс.руб. Тесноту линейной связи измеряет коэффициент корреляции (множественный 𝑅). В пакете анализа данных Регрессия знак множественного 𝑅 всегда положительный, поэтому знак коэффициента корреляции будет совпадать со знаком коэффициента при неизвестном:𝑟выб = 0,72. Величина коэффициента корреляции означает достаточно тесную связь рассматриваемых признаков. Коэффициент детерминации𝑅2 = 0,52 показывает, что 52% вариации прибыли связано с вариацией выработки продукции на одного работника. Для вычисления средней ошибки аппроксимации построим дополнительную табл. 5. Таблица 5 – Расчет средней ошибки аппроксимации № 1 2 3 4 5 6 7 8 9 10 11 12 Сумма 𝑥 78 82 87 79 89 106 67 88 73 87 76 115 𝑦 𝑦̂𝑥 𝑦 − 𝑦̂𝑥 𝐴𝑖 133 148 134 154 162 195 139 158 152 162 159 173 148,77 152,45 157,05 149,69 158,89 174,54 138,65 157,97 144,17 157,05 146,93 182,83 -15,77 -4,45 -23,05 4,31 3,11 20,46 0,35 0,03 7,83 4,95 12,07 -9,83 0,99 0,25 1,43 0,23 0,16 0,87 0,02 0,00 0,43 0,25 0,63 0,47 5,75 Качество модели оценивается как хорошее, так как 𝐴̅ = 5,75 не превышает 8 − 10%. Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и вычислим доверительные интервалы для каждого из показателей. Выдвигаем гипотезу 𝐻0 : о статистически незначимых отличиях от нуля значении показателей: 𝑎 = 𝑏 = 0. Значения случайных ошибок параметров 𝑎 и 𝑏 с учетом округления:𝑚𝑎 = 24,21; 𝑚𝑏 = 0,28. Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчета -критерия Стьюдента:𝑡𝑎 = 3,18; 𝑡𝑏 = 3,29. 𝑡таб = 2,23для числа степеней свободы 𝑑𝑓 = 𝑛 − 2 = 12 − 2 = 10 и 𝛼 = 0,05. Фактические значения -статистики превосходят табличное значение на 5%-м уровне значимости, поэтому гипотеза 𝐻0 . отклоняется, т.е. 𝑎, 𝑏 отличаются от нуля не случайно и их значения статистически значимы. На это же указывает показатель вероятности случайных значений параметров регрессии: если α меньше принятого нами уровня (обычно 0,1; 0,05 или 0,01; это соответствует 10%; 5% или 1% вероятности), делают вывод о неслучайной природе данного значения параметра, т.е. он статистически значим и надежен. В данном примере: 𝛼𝑎 = 0,0098 < 0,05; 𝛼𝑏 = 0,0081 < 0,005. Рассчитаем доверительный интервал для 𝑎 и 𝑏, для чего определим предельную ошибку для каждого параметра: ∆𝑎 = 2,23 ∙ 24,3 = 54; ∆𝑏 = 2,23 ∙ 0,281 = 0,62. Доверительные интервалы: 𝛾𝑎𝑚𝑖𝑛 = 23,03; 𝛾𝑎𝑚𝑎𝑥 = 129,92; 𝛾𝑏𝑚𝑖𝑛 = 0,3; 𝛾𝑏𝑚𝑎𝑥 = 1,54. Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью 𝑝 = 1 − 𝛼 = 0,95 параметры 𝑎 и 𝑏, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если примем прогнозное значение выработки 𝑥 = 92, то точечный прогноз прибыли составит: 𝑦̂𝑥 = 77 + 0,92 ∙ 92 = 161,6 тыс. руб. Чтобы получить интервальный прогноз, найдем стандартную ошибку предсказываемого значения прибыли 𝑚𝑦𝑝 (25): 𝑚𝑦прог = 12,56√1 + 1 12 + (92−85,58)2 12∙12,973 = 13,2 тыс.руб. где 𝜎ост = 12,56 – стандартная ошибка прогноза. Предельная ошибка прогнозируемой прибыли составит:𝑦прог = 161,6 ± 29,4, т.е. при выработки, равной 92 ед., получим значениеприбыли не меньше, чем 𝑦𝑝𝑚𝑖𝑛 = 161,6 − 29,4 = 132,2 тыс.руб.и не более чем 𝑦𝑝𝑚𝑎𝑥 = 161,6 + 29,4 = 191 тыс.руб. 4. Нелинейная регрессия Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью нелинейных функций. Нелинейными моделями, как правило, оказываются производственные функции (зависимости между объемом производственной продукции и основными факторами производства – трудом, капиталом и т.п.), функции спроса (зависимость между спросом на товары или услуги и их ценами или доходом) и другие. Отдельные производственные функции получили известность благодаря разработке и применения их в каких-то специальных целях (для планирования, прогнозирования). Но более удачные из них использовались и в других целях. Изначальное же название таких производственных функций (по направлению использования, по автору) сохранилось. Таким образом, сформировалась целая группа производственных функций, называемых специальными. Ниже приведены основные специальные функции, которые находят применение в анализе, прогнозировании, планировании и в экономических исследованиях. Широкое распространение получила, например, производственная функция Кобба – Дугласа: 𝑌 = 𝑎0 𝐾 𝑎1 𝐿1−𝑎1 . В настоящее время известно несколько ее модификаций. В частности, применяют кинематическую производственную функцию: 𝑌 = 𝑎0 𝐾 𝑎1 𝐿𝑎2 𝑒 𝑎3𝑡 , где 𝑌 – валовой продукт, 𝐾 – производственные фонды, –трудовые ресурсы, 𝑒– основание натуральных логарифмов, 𝑡–временной фактор. Большой известностью характеризуется функция Гомперца. Используется несколько ее модификаций. Наиболее простой из них является следующая: 𝑎 𝑡 𝑦 = 𝑎1 2 (27) Иногда зависимость (27) представляют в несколько другом виде: 𝑙𝑔𝑦 = 𝑎2 𝑡 ∙ 𝑙𝑔𝑎1 . В научных исследованиях широкое применение имеет логистическая производственная функция (𝑆-образная кривая, или кривая П. Рида). Она имеет следующий вид: 𝑝 𝑦= −𝑎2 𝑡 . 1+𝑎1 𝑒 Используется также квадратичная логистическая функция 𝑝 𝑦= . (1 + 𝑎1 𝑒 −𝑎2𝑡 )2 Особого внимания заслуживают производственные функции, предложенные шведским экономистом Торнквистом. Первая функция моделирует зависимость потребления продуктов питания (𝑦) от суммы получаемого дохода (𝑥): 𝑎1 𝑥 𝑦= . 𝑎2 + 𝑥 Но в прогнозировании и планировании применяется следующая модификация этой зависимости: 𝑝𝑡 𝑦= . 𝑎+𝑡 Вторая функция Торнквиста предназначена для изучения влияния суммы дохода на приобретение предметов относительной необходимости (одежды, жилья, мебели и т.д.). Она имеет вид: 𝑦= (𝑎1 (𝑎2 +𝑥)) 𝑎3 +𝑥 . В прогнозировании используется иной вариант второй функции Торнквиста: 𝑝(𝑎1 + 𝑡) 𝑦= . 𝑎2 + 𝑡 Зависимость приобретения предметов роскоши населением от суммы получаемого им дохода выражается третьей функцией Торнквиста: 𝑦= 𝑎1 𝑥(𝑎2 +𝑥) 𝑎3 +𝑥 . Эта зависимость в экономических исследованиях находит применение в виде функции насыщения: 𝑝𝑡(𝑎1 + 𝑡) 𝑦= . 𝑎2 + 𝑡 Во всех приведенных выше производственных функциях параметр p предварительно задается как предел исследуемой зависимости или рассчитывается на основе имеющейся информации в процессе построения конкретной производственной модели. В демографических и некоторых других прогнозах приемлемой является следующая комбинированная функция: 𝑦 = 𝑎𝑜 𝑥 𝑎1+𝑎2𝑡 . Кривыми насыщения называются показательная, логарифмическая и экспоненциальная функции, т. к. будущий прирост результативной переменной зависит от уже достигнутого уровня функции. Кривые насыщения применяются для характеристики явлений и процессов, величина роста которых является ограниченной величиной (например, в демографии). Определение. -образными кривыми называются кривая Гомперца и кривая Перла-Рида. Данные кривые представляют собой кривые насыщения с точкой перегиба. 𝑆-образные кривые применяются для характеристики явлений, включающий в себя два последовательных процесса – ускорения и замедления достигнутого уровня развития. Подобные явления характерны для демографии, страхования и других областей. Модели регрессии, нелинейные по оцениваемым коэффициентам, делятся на два класса: 1) модели регрессии, которые можно с помощью преобразований привести к линейному виду; 2) модели регрессии, которые невозможно привести к линейному виду. Рассмотрим первый класс моделей регрессии. Показательная функция вида 𝑥 𝑦𝑖 = 𝛽0 𝛽1 𝑖 𝜀𝑖 является нелинейной по коэффициенту 𝛽1 и относится к классу моделей регрессии, которые можно с помощью преобразований привести к линейному виду. Данная модель характеризуется тем, что случайная ошибка 𝜀𝑖 мультипликативно связана с факторной переменной 𝑥𝑖 . Данную модель можно привести к линейному виду с помощью логарифмирования: log 𝑦𝑖 = log 𝛽0 + 𝑥𝑖 ∙ log 𝛽1 + log 𝜀𝑖 . Для более наглядного представления данной модели регрессии воспользуемся методом замен: log 𝑦𝑖 = 𝑌𝑖 , log 𝛽0 = 𝐴, log 𝛽1 = 𝐵, log 𝜀𝑖 = 𝐸. В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме: 𝑌𝑖 = 𝐴 + 𝐵𝑥𝑖 . Таким образом, можно сделать вывод, что рассмотренная показательная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов. Другим примером моделей регрессии первого класса является степенная функция вида: 𝛽 𝑦𝑖 = 𝛽0 𝑥𝑖 1 𝜀𝑖 . Данная модель характеризуется тем, что случайная ошибка 𝛽𝑖 мультипликативно связана с факторной переменной хi. Функции данного вида часто встречаются в эконометрическом моделировании. Для таких функций эластичность 𝑦 по 𝑥 равна 𝛽1 . Оценка этого коэффициента по результатам наблюдений будет показывать на сколько процентов в среднем изменится значение у при изменении 𝑥 на 1% от своего среднего значения. Данную модель можно привести к линейному виду с помощью логарифмирования ln 𝑦𝑖 = ln 𝛽0 + 𝛽1 ln 𝑥𝑖 + ln 𝜀𝑖 . Для более наглядного представления данной модели регрессии воспользуемся методом замен: ln 𝑦𝑖 = 𝑌𝑖 , ln 𝛽0 = 𝐴, ln 𝑥𝑖 = 𝑋𝑖 , ln 𝜀𝑖 = 𝐸. В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме: 𝑌𝑖 = 𝐴 + 𝛽1 𝑋𝑖 + 𝐸. Таким образом, можно сделать вывод, что рассмотренная степенная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов. Индексом корреляции для нелинейных форм связи называется коэффициент корреляции, который вычисляется для оценки качества построенной нелинейной модели регрессии. Индекс корреляции для нелинейных форм вычисляется с помощью теоремы о разложении дисперсий по формуле: 𝑅 = √1 − 2 𝜎ост 𝜎у2 , (28) 2 где 𝜎у2 – это общая дисперсия зависимой переменной;𝜎ост −остаточная дисперсия, определяемая из уравнения регрессии. Индекс корреляции можно выразить как ∑(𝑦−𝑦̂)2 𝑅 = √1 − ∑(𝑦−𝑦̅)2. (29) Величина данного показателя находится в границах: 0 ≤ 𝑅 ≤ 1. С помощью корреляции нельзя охарактеризовать направление связи между результативной и факторными переменными. Чем ближе значение индекса корреляции для нелинейных форм связи к единице, тем сильнее взаимосвязь между результативной и независимыми переменными, и наоборот, чем ближе значение индекса корреляции для нелинейных форм связи к нулю, тем слабее взаимосвязь между результативной и независимыми переменными. Индексом детерминации называется квадрат индекса корреляции для нелинейных форм связи. Индекс детерминации характеризует, на сколько процентов построенная модель регрессии объясняет вариацию значений результативной переменной относительно своего среднего уровня, т. е. показывает долю общей дисперсии результативной переменной, объяснённой вариацией факторных переменных, включённых в модель регрессии. Коэффициент детерминации также называется количественной характеристикой объяснённой построенной моделью регрессии дисперсии результативной переменной. Чем больше значение коэффициента детерминации, тем лучше построенная модель регрессии характеризует взаимосвязь между переменными. На нелинейные модели регрессии, которые являются внутренне линейными, т.е. сводимыми к линейному виду, распространяются все методы проверки гипотез, используемые для классических линейных моделей регрессии. Таким образом, если внутренне линейную модель регрессии можно свести к линейной модели парной регрессии, то на эту модель будут распространяться все методы проверки гипотез, используемые для парной линейной зависимости. Пример 4. По результатам наблюдений над розничным товарооборотом 𝑦 (млн.руб.) и среднесписочным числом работников 𝑥 (чел.) построить линейную и нелинейную степенную модель 𝑦 = 𝑎𝑥 𝑏 . Сравнить линейную и нелинейную аппроксимацию данных. 𝑥𝑖 𝑦𝑖 73 0,5 85 0,7 102 0,9 115 1,1 122 1,4 126 1,4 134 1,7 147 1,9 Решение. С помощью инструмента анализа данных Регрессия получены следующие результаты:𝑦̂ = −0,974 + 0,01924𝑥,𝑟выб = 0,985, 𝑅2 = 0,971. Высокое значение как коэффициента корреляции, так и коэффициента детерминации свидетельствуют о том, что данные наблюдений хорошо согласуются с представлением их в виде линейной регрессионной модели. Коэффициент 𝑏 = 0,01924 показывает, что увеличение среднесписочной численности на одного человека приводит к увеличению объема товарооборота в среднем на 19,24 тыс.руб. Это своего рода прирост эффективность использования работников данной группы магазинов. Отрицательное значение параметра а означает, что если мы рассмотрим магазины без работников, то объем товарооборота будет снижаться. Для того чтобы использовать МНК для неизвестных параметров степенной функции линеаризуем модель путем логарифмирования исходных данных:𝑙𝑛𝑦 = 𝑙𝑛𝑎 + 𝑏𝑙𝑛𝑥. Таблица 6. Результаты линеаризации 𝑙𝑛𝑥𝑖 4,2905 4,4427 4,625 4,7449 4,804 4,8363 4,8978 4,9904 сумма 𝑙𝑛𝑦𝑖 -0,6931 -0,3567 -0,1054 0,0953 0,3365 0,3365 0,5306 0,6419 𝑦̂ 0,4988 0,6681 0,948 1,1935 1,3368 1,4222 1,6006 1,9119 (𝑦 − 𝑦̅𝑥 )2 0,4917 0,283 0,0635 0,0187 0,0494 0,1605 0,5069 1,5736 (𝑦 − 𝑦̂𝑥 )2 0,00102 0,0023 0,00874 0,00399 0,00049 0,00988 0,00014 0,2657 С помощью инструмента анализа данных Регрессия для переменных 𝑙𝑛𝑥𝑖 ,𝑙𝑛𝑦𝑖 получены следующие результаты: 𝑙𝑛𝑦̂ = −8,9313 + 1,9196𝑙𝑛𝑥. Отсюда 𝑎̂ = 𝑒 −8,9313 ≈ 0,00013, а модель запишется в виде 𝑦̂ = 0,00013𝑥 1,92 . В оцененной нелинейной степенной модели оценка параметра 𝑏̂ = 1,923 означает, что если среднесписочное число работников увеличится на 1% от среднего, то объем товарооборота возрастет на 1,92% от среднего. По формуле (29) находим индекс корреляции 𝑅 = √1 − 0,2657 1,5736 = 0,9915, коэфициент детерминации 𝑅2 = 0,9831. Так как коэффициент корреляции для степенной модели выше, чем у линейной, то для данного набора значений степенная модель более пригодна для описания зависимости товарооборота от среднесписочного числа работников. 5. Множественная регрессия На любой экономический показатель чаще всего оказывают влияние не один, а несколько факторов. Например, при построении модели потребления того или иного товара от дохода населения предполагается, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи и ее состав. Исследователь не может быть уверен в справедливости данного предположения. Чтобы иметь правильное представление о влияние дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. Решение такой задачи предполагает отбор единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии. Множественная регрессия – это уравнение связи с несколькими независимыми переменными: 𝑦̂ = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ), (30) где 𝑦 – зависимая переменная (результативный признак); 𝑥1 , 𝑥2 , … , 𝑥𝑚 – независимые переменные (факторы). Соответствующая регрессионная модель имеет вид: 𝑦 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ) + 𝜀, (31) где 𝜀 – ошибка модели, является случайной величиной. Основная цель множественой регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель. Построение модели множественной регрессии включает этапы: 1) спецификация модели (отбор факторных признаков и выбор формы связи (уравнение регрессии); 2) оценка параметров полученной модели. Для построения уравнения множественной регрессии чаще используются следующие функции:  линейная – 𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑚 𝑥𝑚 + 𝜀;  степенная – 𝑦 = 𝑎 ∙ 𝑥1 𝑏1 ∙ 𝑥2 𝑏2 ∙ … ∙ 𝑥𝑚 𝑏𝑚 ∙ 𝜀;  экспонента – 𝑦 = 𝑒 𝑎+𝑏1𝑥1+𝑏2𝑥2+⋯+𝑏𝑚𝑥𝑚 +𝜀 ; 1  гипербола – 𝑦 = . 𝑎+𝑏1 𝑥1 +𝑏2 𝑥2 +⋯+𝑏𝑚 𝑥𝑚 +𝜀 Нелинейные формы зависимости приводятся к линейным путем линеаризации. Ввиду четкой интерпретации параметров наиболее широко используется линейная и степенная функция. Уравнение линейной множественной регрессии имеет вид: 𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑚 𝑥𝑚 + 𝜀, (32) где 𝜀 – случайное отклонение. Параметры 𝑏1 , 𝑏2 , … , 𝑏𝑚 при 𝑥 называют коэффициентами «чистой»регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значение других факторов, закрепленных на среднем уровне. Пример 5. Пусть зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением: 𝑦̂ = 0,6 + 0,47𝑥1 + 0,82𝑥2, где 𝑦 – расходы семьи за месяц на продукты питания, тыс.руб.; 𝑥1 – месячный доход на одного члена семьи, тыс.руб.; 𝑥2 – размер семьи, человек. Анализ данного уравнения – с ростом дохода на одного члена семьи на 1 000 рублей расходы на питание возрастут в среднем на 470 рублей при том же среднем размере семьи. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 820 рублей. Параметр 𝑎 не имеет экономической интерпретации. В степенной функции 𝑦 = 𝑎 ∙ 𝑥1 𝑏1 ∙ 𝑥2 𝑏2 ∙ … ∙ 𝑥𝑚 𝑏𝑚 ∙ 𝜀 коэффициенты 𝑏𝑖 являются коэффициентами эластичности.Они показывают, на сколько процентов в среднем изменится результативный признак 𝑦 за счет изменения соответствующего фактора 𝑥𝑖 на 1% при неизменном значнии остальных факторов. Пример 6. Предположим, что зависимость урожайности озимой пшеницы (𝑦) от количества внесенных азотных (𝑥1 ) и фосфорных (𝑥2 ) удобрений на сельскохозяйственном предприятие задается следующим уравнением Кобба-Дугласса: 𝑦 = 24,4946 ∙ 𝑥1 −0,015221 ∙ 𝑥2 0,350537 . Коэффициенты регрессии показывают, что внесение азотных удобрений под пшеницу на сельскохозяйственном предприятии неэффективно, а увеличение дозы фосфорных удобрений на 1% обусловливает рост урожайности в среднем примерно на 0,35%. 5.1. Отбор факторов при построении множественной регрессии Первоначально отбор факторов осуществляется на основе качественных показателей. На следующем этапе отобранные факторы подвергаются проверке на статистическую значимость. Окончательное решение о включении фактора в модель основывается на количественной оценке влияния фактора на изучаемый показатель. Факторы, включаемые в модель должны удовлетворять следующим требованиям:  факторы должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, то вводится фиктивная переменная, имеющая количественное измерение. Например, если нужно учесть пол, то в уравнение регрессии включают переменную 𝐷, принимающую значение 𝐷 = 0, если объект женщина и 𝐷 = 1, если мужчина.  включение фактора в модель должно приводить к существенному увеличению доли объясненной части в общей вариации зависимой переменной. Данная величина характеризуется коэффициентом детерминации 𝑅2 , поэтому включение фактора в модель должно приводить к заметному его изменении.  факторы не должны быть взаимно коррелируемы и, тем более, находиться в точной функциональной зависимости. Наличие высокой коррелируемости может привести к неустойчивости и ненадежности оценок коэффициентов регрессии. При построении моделей множественной линейной регрессии по МНК возникает проблема мультиколлинеарности – линейной взаимосвязи двух или нескольких объясняющих переменных. Считается, что две переменных явно коллинеарны, т.е. находятся между собой в линейной зависимости, если 𝑟𝑥𝑖𝑥𝑗 ≥ 0,7. Если факторы явно коллинеарны, то они дублируют друг друга и один из них следует исключить из регрессии. Предпочтение отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. Для этого проводится анализ матрицы парных коэффициентов корреляции, что позволяет произвести отбор факторов, включаемых в модель множественной зависимости. Матрица имеет следующий вид: Признак 𝑦0 𝑥1 𝑥2 … 𝑥𝑚 𝑦0 1 𝑟10 𝑟20 … 𝑟𝑚0 𝑥1 𝑟01 1 𝑟21 … 𝑟𝑚1 𝑥2 … 𝑥𝑚 𝑟02 … 𝑟0𝑚 𝑟12 … 𝑟1𝑚 1 … 𝑟2𝑚 … 1… … 1 𝑟𝑚2 Анализ первой строки матрицы позволяет выявить факторы, у которых степень тесноты связи с результативным показателем значительна, а поэтому они могут быть включены в модель. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств: 𝑟𝑥𝑖𝑦 > 𝑟𝑥𝑗𝑥𝑚 ; 𝑟𝑥𝑘𝑦 > 𝑟𝑥𝑗𝑥𝑘 . (33) Если приведенные неравенства (или хотя бы одно из них) не выполняются, то исключается тот фактор 𝑥𝑗 или 𝑥𝑚 , связь которого с результативным признакомубудет менее тесной. По величине парных коэффициентов обнаруживается лишь явная коллинеарность факторов. Для оценки мультиколлинеарности факторов можно использовать определитель парных коэффициентов корреляции между факторами. Так, для включающего три объясняющих переменных уравнения𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + ⋯ + 𝑏𝑚 𝑥𝑚 + 𝜀 матрица коэффициентов корреляции между 𝑟𝑥1𝑥1 𝑟𝑥2𝑥1 𝑟𝑥3𝑥1 факторами имеет определитель𝑑𝑒𝑡|𝑅| = |𝑟𝑥1𝑥2 𝑟𝑥2𝑥2 𝑟𝑥3𝑥2 |. 𝑟𝑥1𝑥3 𝑟𝑥2𝑥3 𝑟𝑥3𝑥3 Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов. Проверка мультиколлинеарности факторов можно провести методом испытания гипотезы о независимости переменных 𝐻0 : 𝑑𝑒𝑡|𝑅| = 1. Доказано, 1 что величина [𝑛 − 1 − (2𝑚 + 5)𝑙𝑔𝑑𝑒𝑡𝑅] имеет приближенное распределение 2 1 6 𝜒 с 𝑛(𝑛 − 1)степенями свободы. Если фактическое значение 𝜒 2 2 превосходит табличное (критическое) 𝜒 2 факт > 𝜒 2 табл , то гипотеза 𝐻0 отклоняется. Мультиколлинеарность считается доказанной. При отборе факторов следует учесть, что количество наблюдений должно превышать количество факторов более чем в 5-6 раз. Пример 7. Для линейного трехфакторного уравнения регрессии𝑦 = 𝑎0 + 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + 𝜀имеются следующие данные: 𝑦 40 80 55 58 70 𝑥1 10,3 14,6 11,4 17,1 10,6 𝑥2 20,8 28 23 30,5 21,7 𝑥3 4,1 20,3 9,8 8,1 17,7 Требуется определить корреляционную матрицу 𝑅 и содержащийся в этих данных размер коллинеарности как 𝑑𝑒𝑡(𝑅), рассчитать размер коллинеарности, в случае если из уравнения выводится переменная 𝑥2 . Решение. Рассчитаем матрицу коэффициентов корреляции переменных, используя инструмент анализа данных Корреляция. Для этого в главном меню последовательно выберите пункты Данные/Анализ данных/Корреляция. езультаты вычислений – матрица коэффициентов парной корреляции 𝑥1 𝑥2 𝑥3 𝑥1 1 𝑥2 0,99428 1 𝑥3 0,1058 0,193699 1 Определитель этой матрицы 𝑑𝑒𝑡(𝑅1 ) = 0,0034465. Поскольку 𝑑𝑒𝑡(𝑅1 ) близок к нулю, можно сделать вывод о наличии высокой коллинеарности. Если вывести из уравнения переменную 𝑥2 , то получим следующую корреляционную матрицу (𝑅2 ): 𝑥1 𝑥1 𝑥3 1 0,1058 𝑥3 0,1058 1 𝑑𝑒𝑡(𝑅2 ) = 0,98806. Коллинеарность значительно уменьшилась. Методы устранения коллинеарности: 1. Исключение переменной (ых) из модели. 2. Получение дополнительных данных или новой выборки. 3. Изменение спецификации модели. 4. Использование предварительной информации о некоторых параметрах. 5. Преобразование переменных. 5.2. Оценка параметров линейного уравнения множественной регрессии Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК), согласно которому следует выбирать такие значения парамтров уравнения, при которых сумма квадратов отклонений фактических значений результативного признака 𝑦𝑖 от теоретических значений 𝑦̂𝑖 = 𝑓(𝑥1𝑖 , 𝑥2𝑖 , … , 𝑥𝑚𝑖 ) была бы минимальной, т.е. 𝑆 = ∑(𝑦̂𝑖 − 𝑦𝑖 )2 → 𝑚𝑖𝑛. Воспользуемся достаточным условием экстремума функции нескольких переменных𝑎, 𝑏1 , 𝑏2 , … , 𝑏𝑚 , откуда после некоторых преобразованиий получается система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии: ∑ 𝑦 = 𝑛𝑎 + 𝑏1 ∑ 𝑥1 + 𝑏2 ∑ 𝑥2 + ⋯ + 𝑏𝑚 ∑ 𝑥𝑚 , 2 { ∑ 𝑦 𝑥1 = 𝑎 ∑ 𝑥1 + 𝑏1 ∑ 𝑥1 +…𝑏2 ∑ 𝑥1 𝑥2 + ⋯ + 𝑏𝑚 ∑ 𝑥𝑚 𝑥1 , ∑ 𝑦𝑥𝑚 = 𝑎 ∑ 𝑥𝑚 + 𝑏1 ∑ 𝑥1 𝑥𝑚 + 𝑏2 ∑ 𝑥2 𝑥𝑚 + ⋯ + 𝑏𝑚 ∑ 𝑥𝑚 2 . (34) Ее решение может быть осуществлено методом определителей или матричным методом. Независимые переменные 𝑥𝑖 имеют различный экономический смысл, разные единицы измерния и маcштаб. Если нужно определить степень относительного влияния отдельных факторов 𝑥𝑖 на результативный признак 𝑦, то переменые 𝑥𝑖 приводят к сопостовимому виду. Уравнение множественной регрессии, на основе матрицы парных коэффициентов корреляции строится в стандартизованном масштабе: 𝑡𝑦 = 𝛽1 𝑡𝑥1 + 𝛽2 𝑡𝑥2 + ⋯ + 𝛽𝑚 𝑡𝑥𝑚 (35) где 𝑡𝑦 = 𝑦−𝑦̅ 𝜎𝑦 , 𝑡𝑥𝑖 = 𝑥𝑖 −𝑥̅𝑖 𝜎𝑥𝑖 стандартизованные переменные для которых среднее значение равно нулю, т.е. 𝑡̅𝑦 = ̅̅̅ 𝑡𝑥𝑖 = 0, а среднее квадратическое отклонение равно единице, т.е. 𝜎𝑡𝑦 = 𝜎𝑡𝑥 = 1, 𝛽𝑖 – стандартизованные коэффициенты регрессии. Стандартизованные коэффициенты регрессии определяются из следующей системы: 𝑟𝑦𝑥1 = 𝛽1 + 𝛽2 𝑟𝑥2𝑥1 + 𝛽3 𝑟𝑥3𝑥1 + ⋯ + 𝛽𝑚 𝑟𝑥𝑚𝑥1 , 𝛽3 𝑟𝑥3𝑥2 + ⋯ + 𝛽𝑚 𝑟𝑥𝑚𝑥2 , { 𝑟𝑦𝑥2 = 𝛽1 𝑟𝑥2𝑥1 + 𝛽2 +… (36) 𝑟𝑦𝑥𝑚 = 𝛽1 𝑟𝑥𝑚𝑥1 + 𝛽2 𝑟𝑥𝑚𝑥2 + 𝛽3 𝑟𝑥𝑚𝑥3 + ⋯ + 𝛽𝑚 . В случае функции двух переменных 𝛽 – коэффициенты можно найти по формулам: 𝑟𝑦𝑥 − 𝑟𝑦𝑥2 ∙ 𝑟𝑥1𝑥2 𝛽1 = 1 ; 1 − 𝑟 2 𝑥1𝑥2 𝑟𝑦𝑥 − 𝑟𝑦𝑥1 ∙ 𝑟𝑥1𝑥2 𝛽2 = 2 . 1 − 𝑟 2 𝑥1𝑥2 Связь коэффициентов множественной регрессии 𝑏𝑖 со стандартизованными коэффициентами 𝛽𝑖 описывается соотношением: 𝑏𝑖 = 𝛽𝑖 𝜎𝑦 𝜎𝑥𝑖 (37) Параметр 𝑎определяется как 𝑎 = 𝑦̅ − 𝑏1 ̅̅̅ 𝑥1 − 𝑏2 ̅̅̅ 𝑥2 − ⋯ − 𝑏𝑝 ̅̅̅ 𝑥𝑝 (38) Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. Коэффициенты регрессии 𝛽𝑖 сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. 5.3. Качество уравнения множественной регрессии Качество оценивания множественного уравнения регрессии, как в случае регрессионной модели с одной переменной, можно определить дисперсионным анализом в модели и с использованием коэффициента детерминации 𝑅 2 . Общая сумма квадратов 𝑆𝑆общ = ∑(𝑦𝑖 − 𝑦̅)2 разбивается на две части объесненную регрессионным уравнением и не объесненную, т.е. связанную с ошибками 𝜀𝑖 : 𝑆𝑆общ = 𝑆𝑆𝑅 + 𝑆𝑆ост 2 где 𝑆𝑆ост = ∑(𝑦𝑖 − 𝑦̂) , 𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̅)2 . Как и ранее коэффициент детерминации или доля объяснённой дисперсии в общей дисперсии признака это 𝑅2 = 1 − 𝑆𝑆ост 𝑆𝑆общ = 𝑆𝑆𝑅 (39) 𝑆𝑆общ Коэффициент 0 ≤ 𝑅2 ≤ 1 показывает качество подгонки регрессионной модели к наблюдаемым значениям𝑦𝑖 . Если 𝑅2 = 0, торегрессия не улучшает качество предсказания 𝑦𝑖 . Если же 𝑅2 = 1 дает точную подгонку, то есть все наблюдаемые значения (𝑥𝑖 , 𝑦𝑖 ) лежат на регрессионной прямой. Чем ближе 𝑅 2 к единице, тем лучше качество регрессии, 𝑦̂ более точно аппроксимирует 𝑦. Оценка статистической значимости уравнения регрессии осуществляется с помощью -критерия Фишера: 𝐹набл = 𝑅 2 (𝑛−𝑚−1) 1−𝑅 2 (40) 𝑚 Согласно F-критерию, выдвигаемая нулевая гипотеза 𝐻0 о статистической незначимости уравнения регрессии отвергается при выполнении условия 𝐹набл > 𝐹(𝛼, 𝑚, 𝑛 − 𝑚 − 1), где 𝑛 – число наблюдений, 𝑚 – число пареметров при переменных. Частный -критерий оценивает статистическую значимость присутствия одного из факторов в уравнении. В общем виде, для факторов частный критерий определяется следующим образом: 𝐹част𝑥𝑖 = 𝑅 2 𝑦𝑥1 …𝑥𝑖 …𝑥𝑝 −𝑅 2 𝑦𝑥1…𝑥𝑖−1 𝑥𝑖+1 …𝑥𝑝 (𝑛−𝑚−1) 1−𝑅 2 1 (41) Выдвигаемая нулевая гипотеза H0 о статистической незначимости одного из факторов отвергается при выполнении условия 𝐹набл > 𝐹(𝛼, 1, 𝑛 − 𝑚 − 1), где 𝑛 – число наблюдений, 𝑚 – число пареметров при переменных. Для оценки тесноты связи факторов с исследуемым признаком, задаваемой построенным уравнением регрессии 𝑦̂ = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ), используется коэффициент множественной корреляции ∑𝑛 (𝑦 −𝑦̅)2 ∑𝑛 (𝑦̂ −𝑦̅)2 𝑅 = √𝑅2 = √1 − ∑𝑛𝑖=1(𝑦 𝑖 ̂ )2 = √∑𝑛𝑖=1(𝑦 𝑖 ̂ )2 −𝑦 −𝑦 𝑖=1 𝑖 𝑖 𝑖=1 𝑖 𝑖 (42) Коэффициент множественной корреляции 𝑅 принимает значения в диапазоне 0 ≤ 𝑅 ≤ 1. Чем ближе величина 𝑅 к единице, тем теснее данная связь, тем лучше зависимость 𝑦̂ = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ) согласуется с данными наблюдений. При 𝑅 = 1 (𝑅2 = 1) связь становится функциональной, т. е. соотношение 𝑦̂ = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ) точно выполняется для всех наблюдений. Коэффициент множественной корреляции может использоваться как характеристика качества построенного уравнения регрессии 𝑦̂ = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑚 ), точности построенной модели. Пример 8. Изучается зависимость по 25 предприятиям концерна потребления материалов 𝑦 (т) от энерговооруженности труда 𝑥1 (кВт.ч на одного рабочего) и объема произведенной продукции 𝑥2 (тыс. ед.). Данные приведены в таблице. Построить уравнение множественной регрессии и пояснить экономический смысл его параметров.Определить частные коэффициенты эластичности.Определить множественный коэффициент корреляции.Оцените уравнение регрессии с помощью 𝐹-критерия Фишера. Признак Среднее значение 𝑦 𝑥1 𝑥2 12,0 4,3 10,0 Среднее квадратическое отклонение 2,0 0,5 1,8 Парный коэффициент корреляции 𝑟𝑦𝑥1 = 0,52 𝑟𝑦𝑥2 = 0,84 𝑟𝑥1 𝑥2 = 0,43 Решение. Линейное уравнение множественной регрессии 𝑦 от 𝑥1 и 𝑥2 имеет вид: 𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 . Для расчета его параметров, применим метод стандартизации переменных, и построим искомое уравнение в стандартизованном масштабе: 𝑡𝑦 = 𝛽1 𝑡𝑥1 + 𝛽2 𝑡𝑥2 . Расчет 𝛽 – коэффициентов выполним по формулам: 𝑟𝑦𝑥 − 𝑟𝑦𝑥2 ∙ 𝑟𝑥1𝑥2 0,52 − 0,84 ∙ 0,43 𝛽1 = 1 = = 0,1948; 1 − 𝑟 2 𝑥1𝑥2 1 − 0,432 𝑟𝑦𝑥 − 𝑟𝑦𝑥1 ∙ 𝑟𝑥1𝑥2 0,84 − 0,52 ∙ 0,43 𝛽2 = 2 = = 0,7562. 1 − 𝑟 2 𝑥1𝑥2 1 − 0,432 Получим уравнение 𝑡𝑦 = 0,1948𝑡𝑥1 + 0,7562𝑡𝑥2 . Для построения уравнения в естественной форме рассчитаем 𝑏1 и 𝑏2 , используя формулы для перехода от 𝛽𝑖 к 𝑏𝑖 : 𝜎𝑥 𝜎𝑦 𝛽𝑖 = 𝑏𝑖 𝑖 ; 𝑏𝑖 = 𝛽𝑖 ; 𝜎𝑦 𝑏1 = 0,1948 2,0 0,5 𝜎𝑥𝑖 = 0,7792; 𝑏2 = 0,7562 2,0 1,8 = 0,841. Значение 𝑎 определим из соотношения 𝑎 = 𝑦̅ − 𝑏1 ̅̅̅ 𝑥1 − 𝑏2 ̅̅̅ 𝑥2 = 12 − 0,7792 ∙ 4,3 − 0,841 ∙ 10 = 0,23944, 𝑦 = 0,23944 + 0,7792𝑥1 + 0,841𝑥2. Для характеристики относительной силы влияния 𝑥1 и 𝑥2 на 𝑦 рассчитаем средние коэффициенты эластичности: ̅̅̅ 𝑥𝑗 4,3 10 ̅̅̅̅̅̅ ̅̅̅̅̅̅ Э = 0,2792%; ̅̅̅̅̅̅ Э𝑦𝑥2 = 0,841 = 𝑦𝑥𝑗 = 𝑏𝑗 ̅ ; Э𝑦𝑥1 = 0,7792 𝑦 12 12 0,70083%. С увеличением энерговооруженности труда на 1% от его среднего уровня потребление материалов 𝑦 возрастает на 0, 2792% от своего среднего уровня; при повышении объема произведенной продукции на 1% потребление материалов возрастает на 0,70083% от своего среднего уровня. Сила влияния среднего объема произведенной продукции 𝑥1 на средний уровень потребления материалов 𝑦 оказалась большей, чем сила влияния средней энерговооруженности труда. Рассчитаем линейный коэффициент множественной корреляции по формуле: 𝑅𝑦𝑥1𝑥2 = √𝑟𝑦𝑥1 ∙ 𝛽1 + 𝑟𝑦𝑥2 ∙ 𝛽2 = √0,52 ∙ 0,1948 + ,084 ∙ 0,7562 = 0,8582. Зависимость 𝑦 от 𝑥1 и 𝑥2 характеризуется как тесная, в которой 74% вариации (𝑅2 = 0,74) среднего потребления материалов определяются вариацией учтенных в модели факторов. Прочие факторы, не включенные в модель, составляют соответственно 36% от общей вариации 𝑦. Общий -критерий проверяет гипотезу 𝐻0 о статистической значимости уравнения регрессии и показателя тесноты связи (𝑅2 = 0): 𝐹набл = 𝑅 2 𝑦𝑥1 𝑥2 (𝑛−𝑚−1) 1−𝑅 2 𝑦𝑥1 𝑥2 𝑚 = 0,7365 25−2−1 0,2635 ∙ 2 = 30,75; 𝐹табл = 3,44; 𝛼 = 0,05. 𝑅2 – коэффициент множественной детерминации; 𝑚 – число параметров при переменных 𝑥; –число наблюдений. Сравнивая𝐹табл и 𝐹набл приходим к выводу о необходимости отклонить гипотезу 𝐻0 , так как 𝐹табл = 3,44 < 𝐹набл = 30,75. С вероятностью 1 − 𝛼 = 1 − 0,05 = 0,95 делаем заключение о статистической значимости уравнения в целом и показателя тесноты связи 𝑅𝑦𝑥1𝑥2 . Частные -критерии – 𝐹𝑥1 и 𝐹𝑥2 оценивают статистическую значимость присутствия факторов 𝑥1 и 𝑥2 в уравнении множественной регрессии. Критерий 𝐹𝑥1 оценивает целесообразность включения в уравнение фактора 𝑥1 после того, как в него был включен фактор 𝑥2 . Соответственно 𝐹𝑥2 указывает на целесообразность включения в модель фактора 𝑥2 . после фактора 𝑥1 . 𝐹𝑥1факт = 𝑅 2 𝑦𝑥1 𝑥2 −𝑟 2 𝑦𝑥2 1−𝑅 2 𝑦𝑥1 𝑥2 ∙ (𝑛−𝑚−1) 1 = 0,85822 −0,842 1−0,85822 ∙ 25−2−1 1 = 2,58; 𝐹табл = 4,3; 𝛼 = 0,05. Сравнивая 𝐹табл и 𝐹набл приходим к выводу о нецелесообразности включения в модель фактора 𝑥1 после фактора 𝑥2 , так как𝐹𝑥1факт = 2,58 < 𝐹табл = 4,3. Целесообразность включения в модель фактора 𝑥2 после фактора 𝑥1 проверяет 𝐹𝑥2 : 𝐹𝑥2факт = 𝑅 2 𝑦𝑥1 𝑥2 −𝑟 2 𝑦𝑥1 1−𝑅 2 𝑦𝑥1 𝑥2 ∙ (𝑛−𝑚−1) 1 = 0,85822 −0,522 1−0,85822 ∙ 25−2−1 1 = 38,9; 𝐹табл = 4,3; 𝛼 = 0,05. Сравнивая Fтабл. и Fфакт приходим к выводу о целесообразности включения в модель фактора 𝑥2 после фактора 𝑥1 , так как 𝐹𝑥2факт = 38,9 > 𝐹табл = 4,3. Пример 9. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника 𝑦 (тыс.руб.) от ввода в действие новых основных фондов 𝑥1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих 𝑥2 (%). Данные приведены в таблице: Номер 𝑦 предприятия 1 7,1 2 7,3 3 7,2 4 7,6 5 7,5 6 8,0 7 8,1 8 8,3 9 8,6 10 10,0 𝑥1 𝑥2 3,8 3,9 3,8 4,0 3,9 4,5 5,6 4,8 5,9 6,1 10 13 16 17 19 18 20 21 22 21 Номер предприятия 11 12 13 14 15 16 17 18 19 20 𝑦 𝑥1 𝑥2 9,0 10,0 9,3 11,0 12,0 12,3 12,6 12,8 14,1 14,5 6,0 6,2 6,9 7,5 8,0 8,3 8,5 8,6 9,5 9,0 21,0 22,0 22,1 25,0 28,2 29,0 30,5 31,0 33,0 36,0 Требуется: оценить показатели вариации каждого признака и сделать вывод о возможности применения МНК для их изучения, проанализировать линейные коэффициенты парной корреляции, написать уравнение множественной регрессии, оценить значимость его параметров, пояснить экономический смысл, с помощью -критерия Фишера оценить статистическую 2 надежность уравнения регрессии и 𝑅𝑦𝑥 . Сравнить значимость 1 𝑥2 скорректированного и нескорректированного линейных коэффициентов множественной детерминации. Решение. Сводную таблицу основных статистических характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Описательная статистика. Для этого выполните следующие шаги: 1) введите исходные данные или откройте существующий файл, содержащий анализируемые данные; 2) в главном меню выберите последовательно пункты Сервис / Анализ данных / Описательная статистика, после чего щелкните по кнопке ОК; 3) заполните диалоговое окно ввода данных и параметров вывода. Входной интервал – диапазон, содержащий анализируемые данные, это может быть одна или несколько строк (столбцов); Группирование – по столбцам или по строкам – необходимо указать дополнительно; Метки – флажок, который указывает, содержит ли первая строка названия строк или столбцов; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона; Получим следующие результаты: Рисунок 3 – Результаты Описательная статистика Сравнивая значения средних квадратических отклонений и средних величин и определяя коэффициенты вариации: 𝜎𝑦 2,418 𝑣𝑦 = ̅ ∙ 100% = ∙ 100% = 24,5%; 𝑣𝑥1 = 𝑣𝑥2 = 𝑦 𝜎𝑥1 ̅𝑥̅̅1̅ 𝜎𝑥2 ̅𝑥̅̅2̅ 9,865 1,94 ∙ 100% = ∙ 100% = 6,24 6,78 22,7 ∙ 100% = 31,1%; ∙ 100% = 29,9%. Приходим к выводу о повышенном варьирования признаков, хотя и в допустимых пределах, не превышающих 35%. Совокупность предприятий однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез. Значения линейных коэффициентов парной корреляции определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии. Линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии. Используя, инструмент анализа данных Корреляция, получим следующую матрицу коэффициентов парной корреляции: Рисунок 4 – Результаты Корреляция Значения коэффициентов парной корреляции указывают на тесную связь выработки 𝑦 как с коэффициентом обновления основных фондов 𝑥1 , так и с долей рабочих высокой квалификации 𝑥2 (𝑟𝑦𝑥1 = 0,969643 и 𝑟𝑦𝑥2 = 0,95885). Межфакторная связь тесная 𝑟𝑥1𝑥2 = 0,947323 > 0,7. Для улучшения модели можно исключить фактор 𝑥2 как малоинформативный, недостаточно статистически надежный. Вычислим параметры линейного уравнения множественной регрессии. Для этого используем инструмент анализа данных Регрессия. Заполните диалоговое окно ввода данных и параметров вывода: Входной интервал 𝑌 – диапазон, содержащие данные результативного признака; Входной интервал 𝑋 – диапазон, содержащий данные факторов независимого признака (следует указывать все столбцы, содержащие значения факторных признаков); Метки – флажок, который указывает, содержит ли первая строка названия строк или столбцов; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона. Результаты анализа следующие: Рисунок 5 – Результаты Регрессия По результатам вычислений составим уравнение множественной регрессии вида 𝑦̂ = 2,044462 + 0,742896𝑥1 + 0,140056𝑥2 . Значения случайных ошибок параметров 𝑏0 , 𝑏1 , 𝑏2 с учетом округления: 𝑚𝑏0 = 0,4296, 𝑚𝑏1 = 0,1974, 𝑚𝑏2 = 0,0566. Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчета -критерия Стьюдента: 𝑡𝑏0 = 4,76, 𝑡𝑏1 = 3,76, 𝑡𝑏2 = 2,47. Если значения -критерия больше 2-3, можно сделать вывод о существенности данного параметра, который формируется под воздействием неслучайных причин. Здесь статистически значимы все параметры. На это же указывает показатель вероятности случайных значений параметров регрессии: если 𝛼 меньше принятого нами уровня (обычно 0,1; 0,05 или 0,01; это соответствует 10%; 5% или 1% вероятности), делают вывод о неслучайной природе данного значения параметра, т.е. он статистически значим и надежен. В данном примере: 𝛼𝑏0 = 0% < 5%, 𝛼𝑥1 = 0,1% < 5%, 𝛼𝑥2 = 2,4% < 5%. Оценку надежности уравнения регрессии в целом и показателя тесноты связи 𝑅𝑦𝑥1 𝑥2 дает -критерий Фишера: 𝐹факт = ∑(𝑦̂𝑥1 𝑥2 −𝑦̅)2 (∑(𝑦−𝑦̂𝑥1 𝑥2 )2 ) : . 𝑚 𝑛−𝑚−1 По данным таблиц дисперсионного анализа 𝐹факт = 184,83 > 𝐹табл = 3,59, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи 𝑅2 𝑦𝑥1𝑥2 . Значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации приведены в рамках регрессионной статистике. Нескорректированный коэффициент множественной детерминации 2 𝑅 𝑦𝑥1𝑥2 = 0,956 оценивает долю вариации результата за счет представленных в уравнении факторов и общей вариации результата. Эта доля составляет 95,6%, и указывает на весьма тесную связь факторов с результатом. Скорректированный коэффициент множественной детерминации 2 𝑅̂ 𝑦𝑥1𝑥2 = 0,95 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает оценку тесноты связи, которая не зависит от числа факторов в модели. Поэтому его можно сравнивать по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 90%) детерминированность результата 𝑦 в модели факторами 𝑥1 и 𝑥2 . 5.5. Фиктивные переменные в регрессионных моделях Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, пол, образование, отдельные регионы и т.д.). Чтобы ввести такие переменные в модель, их необходимо упорядочить, и присвоить им цифровые метки. Такие переменные в эконометрике называют фиктивными или структурные переменные. Например, включать в модель фактор 𝐷 в виде фиктивной переменной можно в следующем виде: 0, фактор не действует, 𝐷={ 1, фактор действует . (43) Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. 6. Ряды динамики 6.1. Основные элементы временного ряда Социально-экономические явления общественной жизни находятся в непрерывном развитии. Их изменение во времени статистический анализ изучает при помощи построения и анализа рядов динамики. Ряд динамики – это числовые значения статистического показателя во временной последовательности. Он состоит из двух граф: в первой указываются периоды, во второй – показатели, характеризующие изучаемый объект за эти периоды. Показатели второй графы носят название уровней ряда: первый показатель называется начальным уровнем, последний – конечным. Уровни могут быть выражены абсолютными, средними или относительными величинами. Всякий ряд динамики может быть представлен в следующем виде: 𝑦𝑡 = 𝑓(𝑡) + 𝑠(𝑡) + 𝜀(𝑡), (44) где 𝑓(𝑡) – тренд (основная тенденция развития динамического ряда); 𝑠(𝑡) – циклические (периодические) колебания, в том числе и сезонные; 𝜀(𝑡) – случайные колебания. Изучение ряда динамики включает два основных этапа:  ряд динамики проверяется на наличие тренда;  производится выравнивание временного ряда и непосредственное выделение тренда с экстраполяцией полученных результатов. В рядах динамики наблюдаются тенденции трех видов:  тенденция среднего уровня, которую можно представить графиком временного ряда. Аналитически она выражается в виде функции 𝑓(𝑡), вокруг которой варьируются фактические значения изучаемого явления;  тенденция дисперсии – это изменения отклонений эмпирических значений временного ряда от значений, вычисленных по уравнению тренда;  тенденция автокорреляции – это тенденция изменения связи между отдельными уровнями временного ряда В статистическом анализе разработан ряд метод выявления перечисленных видов тенденции. На практике широкое распространение получили методы Фостера и Стюарта и сравнения средних уровней ряда динамики. 6.2. Методы выявления тенденций Метод средних Ряд динамики разбивается на две равные или почти равные части, каждая из которых рассматривается как некоторая самостоятельная выборочная совокупность, имеющая нормальное распределение. Если временной ряд имеет тенденцию, то средние вычисленные для каждой совокупности, должны существенно (значимо) различаться между собой. Если же расхождение будет незначимым, несущественным (случайным), то временной ряд не имеет тенденции. Таким образом, проверка наличия тренда в исследуемом ряду сводится к проверке гипотезы о равенстве средних двух нормально распределенных совокупностей. Процедура проверки гипотезы о постоянстве средних значений по двум выборкам ряда определяется предположением относительно дисперсии распределения. Проверка гипотезы о равенстве дисперсий, реализуется с помощью критерия. 𝐻0 : 𝜎1 = 𝜎2 ; 𝐻1 : 𝜎1 ≠ 𝜎2 ; 𝐹расч = где 𝑆1 2 = 𝑛 1 (𝑦 −𝑦 2 ∑𝑖=1 𝑖 ̅1 ) 𝑛1 −1 , 𝑆1 2 = 𝑆2 2 𝑆1 2 , (45) 𝑛 2 (𝑦 −𝑦 2 ∑𝑖=1 𝑖 ̅2 ) 𝑛2 −1 , 𝑦̅1 , 𝑦̅2 – средние для первой и второй половины временного ряда, 𝑛1 , 𝑛2 – число наблюдений в этих частях ряда. 𝐹крит = 𝐹(𝛼, 𝑛1 − 1, 𝑛2 − 1), где 𝐹крит табличные значения критерия Фишера-Снедекора. Если 𝐹расч < 𝐹крит , то нулевая гипотеза о равенстве дисперсий не отвергается, дисперсии различаются незначительно, расхождения между ними носят случайный характер. Если же 𝐹расч ≥ 𝐹крит , то гипотеза о равенстве дисперсий отклоняется и проверка гипотез о равенстве средних не может быть применена. Проверка основной гипотезы о равенстве средних уровней двух нормально распределенных совокупностей 𝑛1 и 𝑛2 осуществляется на основе -критерия Стьюдента: 𝐻0 : 𝑦̅1 = 𝑦̅2 ; 𝐻1 : 𝑦̅1 ≠ 𝑦̅2 ; 𝑡расч = 𝑦̅1 −𝑦̅2 √(𝑛1 −1)𝜎1 2 +(𝑛2 −1)𝜎2 √ 2 𝑛1 𝑛2 (𝑛1 + 𝑛2 −2) 𝑛1 + 𝑛2 𝑡крит = 𝑡(𝛼, 𝑛1 + 𝑛2 − 2). ; (46) (47) Если |𝑡расч | < 𝑡крит , то нет основания отвергать нулевую гипотезу, т.е. тенденция отсутствует. Замечание. Данный метод применим в случае рядов с монотонной тенденцией. Если же ряд динамики меняет общее направление развитии, то точка тенденции оказывается близкой к середине ряда поэтому средние двух отрезков будут близки, а проверка может не показать тенденции. Метод Фостера-Стюарта Данный метод разработан Ф.Фостером и А. Стюартом. Они предложили по данным исследуемого ряда определить величины 𝑢𝑡 и 𝑣𝑡 путем последовательного сравнения уровней ряда. Если какой-либо уровень ряда превышает по своей величине каждый из предыдущих уровней, то 𝑢𝑡 = 1, в остальных случаях 0, т.е. 1, если 𝑦𝑡 > 𝑦𝑡 , 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦1 , 𝑢𝑡 = { 0, в остальных случаях ; (48) и наоборот, если уровень ряда меньше всех предыдущих, то 𝑣𝑡 = 1, в остальных случаях 0, т.е. 1, если 𝑦𝑡 < 𝑦𝑡 , 𝑦𝑡−1 , 𝑦𝑡−2 , … , 𝑦1 , 𝑢𝑡 = { 0, в остальных случаях . (49) Затем находим еще две величины 𝑠 и 𝑑 следующим образом: 𝑠 = ∑ 𝑠𝑡 , где𝑠𝑡 = 𝑢𝑡 + 𝑣𝑡 , 𝑑 = ∑ 𝑑𝑡 , где𝑑𝑡 = 𝑢𝑡 − 𝑣𝑡 . (50) Суммирование производится по всем членам ряда. Величины 𝑠 и 𝑑 асимптотически нормальны и имеют независимые распределения. Они существенно зависят от порядка расположения уровней во времени. С помощью 𝑠 можно проверить существует ли тенденция в дисперсиях, а 𝑑 позволяет обнаружить тенденцию в средней. Проверяют две гипотезы существенно ли отличается 𝑑от 0 и 𝑠 от 𝜇, где 𝜇 – математическое ожидание 𝑠: 𝑇𝑠 = 𝑠−𝜇 𝜎1 и 𝑇𝑑 = 𝑑−0 𝜎2 , (51) где 𝜎1 – средняя квадратическая ошибка 𝑠; 𝜎2 – средняя квадратическая ошибка 𝑑; значения 𝜎1 , 𝜎2 , 𝜇 – табуированы для различных 𝑛. 𝑇𝑑 > 𝑡крит (𝛼, 𝑛 − 1), то гипотеза об отсутствии тенденции в среднем отклоняется; в противном случае нет основания отвергать гипотезу. Аналогично 𝑇𝑠 > 𝑡крит (𝛼, 𝑛 − 1), то тенденция есть и описывается некоторым трендом. Пример 11. Определим наличие основной тенденции по следующим данным: 𝑡 𝑦𝑡 1 14,1 2 9,3 3 19,4 4 19,7 5 5,4 6 24,2 7 13,8 8 24,5 9 14,7 10 16,6 11 5,6 12 16,2 13 25,3 14 11,9 15 18,5 Решение. Проверим наличие тенденции с помощью метода средних. Делим ряд на две части: 𝑛1 = 7, 𝑛2 = 8. По каждой вычисляем средние и дисперсии: 𝑦̅1 = 15,13, 𝑦̅2 = 16,66, 𝑆1 2 = 36,08, 𝑆2 2 = 36,15. 𝛼= Проверяем гипотезу о равенстве дисперсий при уровне значимости 0,05. 𝐻0 : 𝜎1 = 𝜎2 ; 𝐻1 : 𝜎1 ≠ 𝜎2 ; 𝐹расч = 𝑆2 2 𝑆1 2 = 36,15 36,08 ≈ 1,002; 𝐹крит = 𝐹(0,05, 7; 6) = 4,21. Так как 𝐹расч < 𝐹крит , то нет основания отвергать нулевую гипотезу. По данным наблюдения дисперсии генеральных совокупностей равны 𝜎1 2 = 𝜎2 2 , исправленные выборочные дисперсии 𝑆1 2 = 𝑆2 2 различаются незначимо. Тогда проверяем основную гипотезу: 𝑛 𝑛 (𝑛 + 𝑛2 − 2) √ 1 2 1 ≈ −0,49; 𝑛1 + 𝑛2 √(𝑛1 − 1)𝜎1 2 + (𝑛2 − 1)𝜎2 2 𝑡крит = 𝑡(0,05, 13) = 2,16. Так как |𝑡расч | < 𝑡крит , то нет оснований отвергать нулевую гипотезу о равенстве средних, расхождения между вычисленными средними незначимо. Отсюда вывод, что тренд в данной выборке отсутствует. 1. Проверим наличие тренда в данном ряду по методу ФостераСтюарта.Строим дополнительную таблицу: 𝑡расч = 𝑡 𝑦𝑡 𝑢𝑡 𝑣𝑡 𝑠𝑡 𝑑𝑡 𝑦̅1 − 𝑦̅2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 14,1 9,3 19,4 19,7 5,4 24,2 13,8 24,5 14,7 16,6 5,6 16,2 25,3 11,9 18,5 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 1 1 -1 1 1 1 Из таблицы находим: 𝑠 = 7; 𝑑 = 3; при 𝑛 = 15 имеем 𝜇 = 4,636; 𝜎1 = 1,521; 𝜎2 = 2,153. Тогда 7−4,636 3−0 𝑇𝑠 = ≈ 1,55; 𝑇𝑑 = ≈ 1,39; 𝑡крит (0,01; 14) = 2,62. 1,521 2,153 𝑇𝑑 < 𝑡крит , т.е. нет оснований отвергать гипотезу об отсутствии тенденции в среднем. Метод Фостера-Стюарта еще раз подтвердил, что тренд в ряду динамики отсутствует. 𝑇𝑠 < 𝑡крит , то гипотеза об отсутствии тенденции в дисперсиях не отвергается, тенденция не существует. 6.3. Сглаживание временных рядов Сглаживание временного ряда, т.е. замена фактических уровней расчетными значениями, имеющими меньшую колеблемость, чем исходные данные является простым методом выявления тенденции развития. Соответствующее преобразование называется фильтрованием. Наиболее часто на практике используются линейные фильтры. Общая формула линейного фильтра такова: 𝑦̃𝑡 = ∑𝑘𝑟=−1 𝑎𝑟 𝑦𝑡+𝑟 , (52) где 𝑦̃𝑡 – сглаженное (отфильтрованное) значение временного ряда в момент времени 𝑡; 𝑎𝑟 – вес присваиваемый значению исходного ряда, находящемуся на расстоянии 𝑟 от рассматриваемого момента 𝑡. Сглаживание временных рядов проводится по следующим причинам:  В ряде случаев при графическом изображении временного ряда тренд прослеживается недостаточно отчетливо. Поэтому ряд сглаживают, на график наносят сглаженные значения и, как правило, тенденция проявляется более четко.  Некоторые методы анализа и прогнозирования требуют в качестве предварительного условия сглаживание временного ряда.  Сглаживание временных рядов используется при устранении аномальных наблюдений.  Методы сглаживания в настоящее время применяются для непосредственного прогнозирования экономических показателей. Существующие методы сглаживания делят на две группы: 1. Методы первого типа (аналитические). Сглаживание с использованием кривой, проведенной относительно фактических значений ряда так, чтобы эта кривая отображала тенденцию, присущую ряду и одновременно освобождала его от мелких незначительных колебаний. Такие кривые называют еще кривыми роста, и они используются главным образом для прогнозирования экономических показателей. 2. Методы механического сглаживания. При использовании этих методов производится сглаживание каждого отдельного уровня ряда с использованием фактических значений соседних с ним уровней. Для сглаживания временных рядов часто используются методы простой и взвешенной скользящей средней, экспоненциального сглаживания. Метод простой скользящей средней Если ∑ а𝑟=1 и 𝑎𝑟 = 𝑐𝑜𝑛𝑠𝑡, то фильтр (51) означает вычисление средней арифметической, которую называют скользящей средней. Цель сглаживания временного ряда заключается в получении ряда с меньшим разбросом уровней, что в ряде случаев позволяет на основе визуального анализа сделать вывод о наличии тенденции и ее характерных особенностях. Согласно этому методу определяется количество наблюдений, входящих в интервал сглаживания. При этом используют правило: если необходимо сгладить мелкие, беспорядочные колебания, то интервал сглаживания берут по возможности большим и, наоборот, интервал сглаживания уменьшают, когда нужно сохранить более мелкие волны и освободиться от периодически повторяющихся колебаний, возникающих, например, из-за автокорреляций уровней. Для удобства сопоставления сглаженного и исходного рядов ширину интервала сглаживания чаще выбирают нечетным числом 𝑚 = 2𝑘 + 1. Тогда 1 𝑎𝑟 = и из (52) получаем: 𝑚 𝑦̃𝑡 = 1 2𝑘+1 ∑𝑘𝑟=−𝑘 𝑦𝑡+𝑟 . (53) Интервал сглаживания сдвигается на один член вправо и по формуле (53) находится сглаженное значение для 𝑡 + 1 наблюдения. Затем снова производят сдвиг и т.д. Процедура продолжается до тех пор, пока в интервал сглаживания не войдет последнее наблюдение временного ряда. Недостатком метода является невключение в процедуру сглаживания первых и последних 𝑘 наблюдений временного ряда. Метод простой скользящей средней возможно использовать, если графическое изображение ряда напоминает прямую линию. В этом случае не искажается динамика развития исследуемого процесса. Однако, когда тренд выравниваемого ряда имеет изгибы и к тому же желательно сохранить мелкие волны, использовать для сглаживания ряда метод простой скользящей средней нецелесообразно, поскольку при этом:  выравниваются и выпуклые, и вогнутые линии;  происходит сдвиг волны вдоль ряда;  изменяется знак волны, т.е. на кривой, соединяющей сглаженные точки, вместо выпуклого участка образуется вогнутый и наоборот. Последнее имеет место в случаях, когда интервал сглаживания в полтора раза превышает длину волны. Таким образом, если развитие процесса носит нелинейный характер, то применение метода простой скользящей средней может привести к значительным искажениям исследуемого процесса. В таких случаях более надежным является использование других методов сглаживания, например, метода взвешенной скользящей средней. Метод взвешенной скользящей средней Суть методов взвешенных скользящих средних заключается в том, что значениям исходного ряда приписывается вес 𝑎𝑟 , зависящий от расстояния до середины интервала сглаживания, т.е. от |𝑎𝑟 |. Для определения весов прибегают к различным подходам. Рассмотрим первый подход. Пусть весами являются члены разложения 𝑘−𝑟 𝑘+𝑟 (0,5)2𝑘 , 𝑎−𝑟 = 𝐶2𝑘 (0,5)2𝑘 бинома (0,5 + 0,5)2𝑘 , 𝑚 = 2𝑘 + 1. Тогда 𝑎𝑟 = 𝐶2𝑘 Получаем 1 1 1 при 𝑚 = 3 (𝑘 = 1) 𝑎−1 = , 𝑎0 = , 𝑎1 = ; 4 при 𝑚 = 5 (𝑘 = 2) 𝑎−2 = 1 2 1 4 3 1 1 8 4 16 , 𝑎−1 = , 𝑎0 = , 𝑎1 = , 𝑎2 = 16 4 ; при 𝑚 = 7 (𝑘 = 3) 𝑎−3 = 3 1 1 64 , 𝑎−2 = 3 , 𝑎−1 = 32 15 64 , 𝑎0 = 5 16 , 𝑎1 = 15 64 ; 𝑎2 = , 𝑎3 = ; 32 64 Второй подход заключается в подборе полинома регрессии к данным, содержащимся в интервале сглаживания. Если сглаживание производится с помощью полинома (многочлена) второго или третьего порядка, то веса берутся следующие: −3 12 17 12 −3 при 𝑚 = 5 – веса ; ; ; ; ; 35 35 35 35 35 −2 3 6 7 6 3 −2 для 𝑚 = 7 – веса ; ; ; ; ; ; . 21 21 21 21 21 21 21 Особенности весов:  симметричны относительно центрального члена;  сумма весов с учетом общего множителя равна 1. Недостаток метода: первые и последние 𝑝 наблюдений ряда остаются не сглаженными. Метод экспоненциального сглаживания Рассмотренные методы простой и взвешенной скользящей средней не дают возможности сгладить первые и последние p наблюдений временного ряда. Отсутствие сглаженных первых наблюдений не так важно по сравнению с последними наблюдениями, особенно если целью исследования является прогнозирование развития процесса. Есть методы, позволяющие получить сглаженные значения последних уровней так же, как и всех остальных. К их числу относится метод экспоненциального сглаживания. Особенность этого метода заключена в том, что в процедуре выравнивания каждого наблюдения используются только значения предыдущих уровней, взятых с определенным весом. Вес каждого наблюдения уменьшается по мере его удаления от момента, для которого определяется сглаживаемое значение. Сглаженное значение наблюдения ряда 𝑆𝑡 на момент времени 𝑡 определяется по формуле: 𝑆𝑡 = 𝛼𝑥𝑡 + (1 − 𝛼)𝑆𝑡−1 , (54) где 𝑆𝑡 – значение экспоненциальной средней в момент 𝑡; 𝑆𝑡−1 – значение экспоненциальной средней в момент 𝑡 − 1; 𝛼 – параметр сглаживания, т.н. сглаживающий фильтр, 0 < 𝛼 < 1. Вариации 𝛼 имеют серьезное влияние на характеристики самого сглаживания, и выбор оптимального значения зависит сразу от нескольких из них, причем противоречащих друг другу. Если записать значение сглаженного ряда 𝑆𝑡 и последовательно раскрывать значения 𝑆𝑡−1 , 𝑆𝑡−2 , … через предыдущие уровни ряда и так до 𝑦0 = 𝑆0 , используя рекуррентное соотношение (54), то в итоге легко получаем следующее представление исходного соотношения: 𝑆𝑡 = 𝛼𝑦𝑡 + (1 − 𝛼)𝑆𝑡−1 = 𝛼𝑦𝑡 + (1 − 𝛼)[𝛼𝑦𝑡−1 + (1 − 𝛼)𝑆𝑡−2 ] = 𝛼𝑦𝑡 + 𝛼(1 − 𝛼)𝑦𝑡−1 + 𝛼(1 − 𝛼)2 𝑦𝑡−2 + ⋯ + 𝛼(1 − 𝛼)𝑘 𝑦𝑡−𝑘 + ⋯ + (1 − 𝛼)𝑡 𝑦0 , где 𝑦0 – является начальным уровнем временного ряда. Относительный вес каждого предшествующего уровня снижается по экспоненте по мере его удаления от момента, для которого вычисляется сглаженное значение (отсюда произошло название этого метода сглаживания). В качестве нулевого уровня может быть использована средняя арифметическая нескольких начальных значений исходного ряда. Выбор величины постоянной сглаживания требует особого внимания. Рассмотрим критические значения 𝛼, чтобы пронаблюдать, что будет происходить с процессом в этих крайних точках. Если взять 𝛼 = 0, то получим 𝑆𝑡 = 𝑆0 , то есть адаптация модели отсутствует. Если принять 𝛼 = 1, то получим 𝑆𝑡 = 𝑦𝑡 , то есть модель, в которой сглаженное значение равно фактическому уровню временного ряда. От численного значения параметра 𝛼 зависит, насколько быстро будет уменьшаться вес предшествующих наблюдений и в соответствии с этим степень их влияния на сглаживаемый уровень. На практике подбор допустимого значения параметра сглаживания рекомендуется производить эмпирическим путем, то есть, итеративно перебирая его возможные значения и выбирая оптимальный уровень коэффициента по критерию минимизации дисперсии остатков на тестовом наборе данных. Следует отметить, что в случае, когда параметр принимает значения близкие к 1, следует подвергнуть сомнению законность выбора данной модели. Так как это может свидетельствовать о наличии в ряду ярко выраженных тенденций или сезонных колебаний. Для таких рядов следует использовать другие модели, более эффективные. При практическом использовании метода экспоненциального сглаживания возникают следующие затруднения: выбор сглаживающего параметра  и определение начального условия 𝑦0 . Чем больше значение параметра , тем меньше сказывается влияние предшествующих уровней и соответственно меньшим оказывается сглаживающее воздействие экспоненциальной средней. Задачу выбора параметра 𝑦0 , определяющего начальные условия, предлагается решать следующим образом: если есть данные о развитии процесса в прошлом, то их среднее значение можно принять в качестве 𝑦0 , если таких сведений нет, то в качестве 𝑦0 используют исходное (первое) значение наблюдения временного ряда 𝑦1 . 6.4. Метод аналитического выравнивания Аналитическим выравниванием временного ряда называют нахождение аналитической функции 𝑦̂ = 𝑓(𝑡), характеризующей основную тенденцию изменения уровней ряда с течением времени. При аналитическим выравнивании исходят из предположения, что аддитивная модель временного ряда может быть представлена как сумма двух компонент: 𝑦(𝑡) = 𝑓(𝑡) + 𝜀𝑡 , где 𝜀𝑡 – случайная компонента с нулевой средней и постоянной дисперсией выражает ошибку модели из-за действия случайных факторов. Чаще всего в качестве кривой роста применяются следующие функции:  линейная 𝑦𝑡 = 𝑎0 + 𝑎1 𝑡;  парабола второго и более высоких порядков 𝑘: 𝑦𝑡 = 𝑎0 + 𝑎1 𝑡 + 2 𝑎2 𝑡 +. . . +𝑎𝑘 𝑡 𝑘 ; 𝑎  гиперболическая 𝑦𝑡 = 𝑎0 + 1;     𝑎0 +𝑎1 𝑡 𝑡 экспонента 𝑦𝑡 = 𝑒 ; потенциальная 𝑦𝑡 = 𝑎0 ∙ 𝑎1 𝑡 ; степенная 𝑦𝑡 = 𝑎0 ∙ 𝑡 𝑎1 ; логистическая кривая 𝑦𝑡 = 𝐾 1+𝑎0 ∙𝑒 −𝑎1 𝑡 𝑡 𝑎0 𝑎1 . ;  кривая Гомперца 𝑦𝑡 = 𝐾 ∙ Построение таких функций ничем не отличается от построения уравнений парной регрессии (линейной или нелинейной) с учетом того, что в качестве зависимой переменной используются фактические уровни временного ряда 𝑦𝑡 , а в качестве независимой переменной моменты времени 𝑡 = 1,2, . . . , 𝑛. Для построения кривой роста необходимо выбрать вид аналитической зависимости и затем оценить значения ее параметров. Для определения вида аналитической зависимости применяются такие методы, как  построение и визуальный анализ графика зависимости уровней ряда от времени. При этом целесообразнее использовать графическое изображение сглаженных уровней, в которых случайные колебания погашены.  расчет и анализ вида уравнения, основанный на рассчитанных показателях динамики:  если относительно стабильны абсолютные приросты, сглаживание может быть выполнено по прямой;  если абсолютные приросты равномерно увеличиваются (вторые разности уровней приблизительно равны), сглаживание может быть выполнено по параболе второго порядка;  при ускоренно возрастающих (убывающих)абсолютных приростах – параболу третьего порядка;  при относительно стабильных темпах роста – показательную функцию.  анализ автокорреляционной функции исходного и преобразованного временного ряда;  метод перебора, при котором строятся кривые роста различного вида с последующим выбором наилучшей на основании значения скорректированного коэффициента детерминации 𝑅2 . Следует отметить, что свойства изучаемого явления должны соответствовать свойствам функций, используемых для построения моделей. Надо иметь ввиду, что отдельные кривые выражают следуюший тип динамики. Монотонное возрастание и убывание процесса характеризуют функции: 1) линейная; 2) параболическая; 3) степенная; 4) простая экспоненциальная кривая; 5) гиперболическая (главным образом убывающих процессов); 6) комбинация их видов. Для моделирования динамических рядов, в которых появляется быстрое развитие в начале и затухание к концу ряда, т.е. которые характеризуются стремлением к некоторой предельной величине, насыщению, применяются логистические кривые. Тип процессов, характеризующихся наличием экстремальных значений, описывается кривой Гомперца. Однако процедура построения модели и разработки прогноза с использованием аналитического выравнивания тренда состоит не только из предварительного выбора одной или нескольких кривых, которые наилучшим образом соответствуют характеру изменения ряда динамики, но и оценки параметров выбранных кривых, проверки адекватности выбранных кривых рассматриваемому явлению; окончательного выбора кривой роста; расчета точечного и интервального прогнозов. 6.5. Критерии адекватности моделей временных рядов Проверка адекватности модели реальному явлению является важным этапом в статистическом анализе, так как только при правильном выборе модели возможна процедура прогнозирования. Для ее осуществления исследуют ряд остатков 𝜀𝑡 = 𝑦𝑡 − 𝑦̂𝑡 , т.е. отклонений расчетных значений от фактических. Если модель выбрана правильно, то для остатков характерны: 1. равенство нулю математического ожидания; 2. случайный характер отклонений от математического ожидания; 3. отсутствие автокорреляции и неизменность дисперсии остатков во времени; 4. нормальный закон распределения. 1. Проверка равенства математического ожидания уровней ряда остатков нулю осуществляется в ходе проверки соответствующей нулевой гипотезы 𝐻0 : |𝜀| = 0. С этой целью строится -статистика |𝜀̅ | 𝑡набл = √𝑛, 𝑆𝜀 где  – среднее арифметическое значение уровней ряда остатков 𝜀𝑡 ; 𝑆𝜀 = √ ∑𝑛 ̅ )2 𝑡=1(𝜀𝑡 −𝜀 𝑛−1 – среднеквадратическое отклонение для этой последовательности. На уровне значимости 𝛼 гипотеза отклоняется, если 𝑡набл > 𝑡𝛼,𝑣 , где 𝑡𝛼,𝑣 – критерий распределения Стьюдента с доверительной вероятностью (1 − 𝛼) и 𝑣 = 𝑛 − 1 степенями свободы. 2. Для проверки условия случайности возникновении отдельных отклонений от тренда часто используется критерий, основанный на поворотных точках. Значение случайной переменной считается поворотной точкой, если оно одновременно больше соседних с ним элементов или, наоборот, меньше значений предыдущего и последующего за ним члена. Если остатки случайны, то поворотная точка приходится примерно на каждые 1,5 наблюдения. Если их больше, то возмущения быстро колеблются, и это не может быть объяснено только случайностью. Если же их меньше, то последовательные значения случайного компонента положительно коррелированны. Существует определенная зависимость между средней арифметической 𝑝̅, дисперсией 𝜎𝑝2 ; количества поворотных точек 𝑝 и числом членов исходного ряда наблюдений n. В случайной выборке средняя арифметическая 2 (математическое ожидание) числа поворотных точек равна 𝑝̅ = (𝑛 − 2), а их 𝜎𝑝2 3 16𝑛−29 дисперсия вычисляется по формуле = . 90 Учитывая эти соотношения, критерий случайности отклонений от тренда при уровне вероятности 0,95 можно представить, как 2 16𝑛−29 3 90 𝑝 > [ (𝑛 − 2) − 1,96√ ], где 𝑝 – фактическое количество поворотных точек в случайном ряду; 1,96 – квантиль нормального распределения для 5%-го уровня значимости; квадратные скобки означают, что от результата вычисления следует взять целую часть (не путать с процедурой округления!). Если неравенство не соблюдается, то ряд остатков нельзя считать случайным (т.е. он содержит регулярную компоненту), и стало быть, модель не является адекватной. Кроме критерия поворотных точек можно использовать метод серий, основанный на медиане выборки. Суть его в следующем. Расположим отклонения от тренда в порядке возрастания вариационный ряд 𝜀1 ; 𝜀2 ; 𝜀3 ; … ; 𝜀𝑛 ; где 𝜀1 – наименьшее отклонение. В данном вариационном ряду находим медиану 𝜀ме , т.е. берем среднее (по расположению) значение 𝜀 1 вариационного ряда: 𝜀ме = м+1, если 𝑛 – нечетное; 𝜀ме = (𝜀𝑛 + 𝜀𝑛+1 ), если 𝑛 2 2 2 2 – четно. Затем возвращаемся к исходному ряду динамики отклонений от тренда и будем для вместо каждого 𝜀𝑖 ставит плюс, если 𝜀𝑖 > 𝜀ме , и минус, если 𝜀𝑖 < 𝜀ме (отклонения от тренда, равные 𝜀ме , в полученной таким образом последовательности плюсов и минусов опускаются). Последовательность пюсов и минусов характеризуется общим числом серий 𝑉𝑛 и продолжительностью самой длинной серии 𝐾𝑛 . Под «серией» понимается последовательность подряд идущих плюсов или минусов. Иногда серия может состоять только из одного плюса или минуса, и тогда протяженность равна единице. Если отклонения от тренда стохастически независимы, то чередование плюсов и минусов в последовательности должно быть более или менее «случайным», т.е. такая последовательность не должна содержать слишком длинных серий подряд идущих плюсов и подряд идущих минусов, а общее число серий не дожно быть слишком малым. Отконения от тренда будут случайными, если выполнены следующие неравенства при 5%-ном уровне значимости: 𝐾max(𝑛) < [3,3(𝑙𝑔𝑛 + 1)]; 1 𝑉(𝑛) > [ (𝑛 + 1 − 1,96√𝑛 − 1)] . 2 (55) 3. Наличие (отсутствие) автокорреляции в отклонениях от модели роста проще всего проверить с помощью критерия Дарбина—Уотсона. С этой целью строится статистика Дарбина— Уотсона (𝑑-статистика), в основе которой лежит расчетная формула 𝑑= 2 ∑𝑛 𝑡=2(𝜀𝑡 −𝜀𝑡−1 ) 2 ∑𝑛 𝑡=1 𝜀𝑡 . (56) Теоретическое основание применения этого критерия обусловлено тем, что в динамических рядах, как сами наблюдения, так и отклонения от них распределяются в хронологическом порядке. При отсутствии автокорреляции значение 𝑑 примерно равно 2, а при полной автокорреляции – 0 или 4. Следовательно, оценки, получаемые по критерию, являются не точечными, а интервальными. Верхние (𝑑2 ) и нижние (𝑑1 ) критические значения, позволяющие принять или отвергнуть гипотезу об отсутствии автокорреляции, зависят от количества уровней динамического ряда и числа независимых переменных модели. Значения этих границ даны в специальных таблицах. При сравнении расчетного значения -статистики с табличным могут возникнуть такие ситуации: 𝑑 > 𝑑2 – ряд остатков не коррелирован; 𝑑 < 𝑑1 – остатки содержат автокорреляцию; 𝑑1 < 𝑑 < 𝑑2 – область неопределенности, когда нет оснований ни принять, ни отвергнуть гипотезу о существовании автокорреляции. Если 𝑑 превышает 2, то это свидетельствует о наличии отрицательной корреляции. Перед входом в таблицу такие значения следует преобразовать по формуле 𝑑′ = 4 – 𝑑. Установив наличие автокорреляции остатков, надо улучшать модель. Если же ситуация оказалась неопределенной, применяют другие критерии. В частности, можно воспользоваться первым коэффициентом автокорреляции: 𝑟1 = ∑𝑛 𝑡=2 𝜀𝑡 𝜀𝑡−1 2 ∑𝑛 𝑡=1 𝜀𝑡 . (57) Для суждения о наличии или отсутствии автокорреляции в исследуемом ряду фактическое значение коэффициента автокорреляции сопоставляется с табличным (критическим) для 5%-го или 1%-го уровня значимости. Если фактическое значение коэффициента автокорреляции меньше табличного, то гипотеза об отсутствии автокорреляции в ряду может быть принята. Когда же фактическое значение больше табличного, делают вывод о наличии автокорреляции в ряду динамики. 4. Для определения того, что отклонения от тренда подчиняется закону нормального распределения можно рассчитать показатели асимметрии, эксцесса, а также их квадратические ошибки. При нормальном распределении показатели асимметрии и эксцесса равны нулю, но поскольку мы используем предположение, что исследуемый ряд динамики является выборкой из более длинного ряда динамки, то в этом случае показатели асимметрии и эксцесса характеризуют выборочную совокупность, являются выборочными оценками. Поэтому уровни ряда являются нормально распределенными, если выполняются следующие условия: |𝐴𝑠| < 1,5𝜎𝐴𝑠 ; |𝐸𝑥 + 6 𝑛+1 | < 1,5𝜎𝐸𝑥 , (58) где среднеквадратические ошибки коэффициентов асимметрии и эксцесса определяются по формулам: 6(𝑛−2) 24𝑛(𝑛−2)(𝑛−3) 𝜎𝐴𝑠 = √(𝑛+1)(𝑛+3) ; 𝜎𝐸𝑥 = √(𝑛+1)2(𝑛+3)(𝑛+5) . (59) Если выполняется хотя бы одно из неравенств: |𝐴𝑠| ≥ 2𝜎𝐴𝑠 ; |𝐸𝑥 + 6 | ≥ 2𝜎𝐸𝑥 , 𝑛+1 (60) то данные не являются даже приблизительно нормальными и их применение в дальнейшем анализе не рекомендуется. Если все четыре пункта проверки 1-4 дают положительный результат, делается вывод о том, что выбранная модель является адекватной реальному ряду динамики. Только в этом случае ее можно использовать для построения прогнозных оценок. В противном случае модель надо улучшать. 6.6. Оценка точности модели Оценка точности модели имеет смысл только для адекватных моделей. В случае временных рядов точность модели определяется как разность между фактическим и расчетным значениями. В качестве статистических показателей точности чаще всего применяют стандартную ошибкупрогнозируемого показателя или среднеквадратическое отклонение от линии тренда: 𝑆𝜀 = √ ∑𝑛 ̂𝑡 )2 𝑡=1(𝑦𝑡 −𝑦 𝑛−𝑚 , где 𝑚 – число параметров модели, и среднюю ошибку аппроксимации: =√ 2 ∑𝑛 𝑡=1 𝜀𝑡 𝑛−𝑚 , 1 𝜀 𝐴̅ = ∑𝑛𝑡=1 | 𝑡 | 100%. 𝑛 (61) 𝑦𝑡 Если ошибка не превосходит 15%, точность модели считается приемлемой. В общем случае допустимый уровень точности, а значит и надежности устанавливает пользователь модели, который в результате содержательного анализа проблемы выясняет, насколько она чувствительна к точности решения и насколько велики потери из-за неточного решения. 6.7. Построение точечного и интервального прогнозов Если в ходе проверки разрабатываемая модель признана достаточно надежной, то процесс экстраполяции заключаются в подстановке соответствующей величины периода упреждения в формулу, описывающую тренд. Экстраполяция дает точечную прогностическую оценку. Поэтому одна из основных задач, возникающий при экстраполяции тренда, заключается в определении доверительных интервалов прогноза. В общем виде доверительный интервал для тренда определяется как 𝑦̂𝑡 ± 𝑡𝛼 𝑆𝑦̂ , (62) где 𝑆𝑦̂ – средняя квадратическая ошибка тренда; 𝑦̂𝑡 – расчетное значение 𝑦𝑡 ; 𝑡𝛼 – значение -статистики Стьюдента. Если 𝑡 = 𝑖 + 𝐿, то уравнение определит значение доверительного интервала для тренда, определенного на 𝐿 единиц времени. Доверительный интервал для прогноза также должен учитывать не только неопределенность, связанную с положением тренда, но возможность отклонения от этого тренда. Обозначим соответствующую среднюю квадратическую ошибку как 𝑆𝑝 , тогда доверительный интервал прогноза составит 𝑦̂𝑖+𝐿 ± 𝑡𝛼 𝑆𝑝 . (63) Если тренд характеризуется прямой, то величина 𝑆𝑝 определяется следующим образом: 𝑆𝑝 = 𝑆𝑦̂ √ 𝑛+1 𝑛 (𝑡𝐿 −𝑡̅)2 + ∑𝑛 ̅ 2 𝑡=1(𝑡𝑖 −𝑡 ) , (64) где 𝑆𝑦̂ – среднее квадратическое отклонение фактических наблюдений от расчетных значение 𝑦; 𝑛 – число наблюдений (длина ряда динамики); 𝑡𝐿 – время на которое делается экстраполяция; 𝑡̅ – значение порядкового номера уровня, стоящего в середине ряда. Пример 12. Построить модель временного ряда по следующим данным (табл. 9). проверить полученную модель на адекватность. Таблица 9. Среднегодовая предприятия за 1999-2014 г.г. стоимость промышленных фондов Годы 1999 2000 2001 2002 2003 2004 2005 2006 Усл. 153 160 170 179 187 187 202 219 ед. Годы 2007 2008 2009 2010 2011 2012 2013 2014 Усл. 229 248 260 277 291 312 334 352 ед. Решение. Визуальный анализ графика зависимости уровней ряда от времени позволил отобрать три функции: 𝑦̂𝑡 = 𝑎0 + 𝑎1 𝑡; 𝑦̂𝑡 = 𝑎0 + 𝑎1 𝑡 + 𝑎2 𝑡 2 ; 𝑦̂𝑡 = 𝑎0 ∙ 𝑎1 𝑡 . Параметры функции и коэффициенты аппроксимации таковы: 𝑦̂𝑡 = 123 + 13,18𝑡 (𝑅2 = 0,9707); 𝑦̂𝑡 = 150,48 + 4,02𝑡 + 0,54𝑡 2 (𝑅2 = 0,998); 𝑦̂𝑡 = 140,85 ∙ 1,06𝑡 (𝑅2 = 0,9937). Сравнивая коэффициенты аппроксимации был сделан вывод, что в наибольшей степени к фактическим данным приближается тренд, рассчитанный по параболе второго порядка. Но для того, чтобы использовать в прогнозе параболу второго порядка, необходимо проверить правильность её выбора. 1. Проверяем равенств нулю математического ожидания уровней ряда остатков: 𝑡набл = |−0,00145| √16 = 0,00067, 𝑡 крит (0,05; 15) = 1,75. На уровне значимости 𝛼 гипотеза о равенстве нулю математического ожидания принимается. 2. С помощью критерия серий проверяем случайность отклонений от тренда ряда динамики среднегодовой стоимости промышленных фондов предприятия. Получим 𝜀ме = −0,093; 𝐾𝑚𝑎𝑥(𝑛) = 3; 𝑉(𝑛) = 9; 3 < [3,3(𝑙𝑔16 + 1)] = 7,3; 1 9 > [ (𝑛 + 1 − 1,96√𝑛 − 1] = 4,7. 2 Следовательно, ряд динамики отклонений от тренда состоит из случайных независимых величин. 3. Наличие (отсутствие) автокорреляции в отклонениях от модели роста проверяем с помощью критерия Дарбина-Уотсона. -статистика равна 𝑑= 3,69718 2 ∑𝑛 𝑡=2(𝜀𝑡 −𝜀𝑡−1 ) 2 ∑𝑛 𝑡=1 𝜀𝑡 = 1,92. Из таблицы распределения критерия Дарбина-Уотсона (Приложение 6) находим 𝑑2 = 1,54 и 𝑑1 = 0,95 Так как 𝑑 > 𝑑2 , то ряд остатков не коррелирован и гипотеза об отсутствии автокорреляции принимается, автокорреляции в ряду остатков нет. 4. Для определения того, что отклонения от тренда подчиняются нормального распределения, рассчитываем показатели асимметрии и эксцесса и их средние квадратические ошибки по формулам 57,58. В данном случае они равны: 𝐴𝑠 = −0,76; 𝐸𝑥 = 0,81; 𝜎𝐴𝑠 = 0,51; 𝜎𝐸𝑥 = 0,78. Для проверки нормальности получим следующие неравенства: |−0,76| < 0,765; |1,166| < 1,17. Требования неравенств (59) выполнены. Следовательно, при аппроксимации ряда динамики показателя среднегодовой стоимости промышленных фондов предприятия предпочтения следует отдать параболе второго порядка 𝑦̂𝑡 = 150,48 + 4,02𝑡 + 0,54𝑡 2 , так как коэффициент аппроксимации этой кривой ближе к 1, и ряд остатков, образованный после исключения тренда, вычисленного по параболе отвечает всем гипотезам.
«Основные задачи эконометрики» 👇
Готовые курсовые работы и рефераты
Купить от 250 ₽
Решение задач от ИИ за 2 минуты
Решить задачу
Найди решение своей задачи среди 1 000 000 ответов
Найти
Найди решение своей задачи среди 1 000 000 ответов
Крупнейшая русскоязычная библиотека студенческих решенных задач

Тебе могут подойти лекции

Автор(ы) Айвазян С. А., Мхитарян В. С.
Смотреть все 207 лекций
Все самое важное и интересное в Telegram

Все сервисы Справочника в твоем телефоне! Просто напиши Боту, что ты ищешь и он быстро найдет нужную статью, лекцию или пособие для тебя!

Перейти в Telegram Bot