Выбери формат для чтения
Загружаем конспект в формате docx
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция 1
Лекция 2
Еще Гиппократ в VI в. до н. э. обратил внимание на то, что существует связь между телосложением и темпераментом людей, между строением тела и предрасположенностью к тем или иным заболеваниям. Можно привести и другие подобного рода примеры (связь погоды и уровня простудных заболеваний, связь активности Солнца и обострения сердечных, психических заболеваний). Поэтому естественно стремление использовать эти закономерности в интересах человека, придать им более или менее количественное описание. Для решения задач по анализу связей между величинами был разработан специальный статистический метод, получивший название корреляционного анализа.
Корреляционный анализ - это статистический метод количественного анализа связей, существующих между величинами, характеризующими какой-либо процесс или явление. Различают два вида связей между явлениями или процессами: функциональная и корреляционная. Функциональная связь - это такая связь, при которой определенному значению одной величины соответствует строго определенное значение другой величины. Например, какому-либо значению диаметра шара соответствует одно вполне определенное значение его объема. Функциональные связи легко обнаружить и измерить как на единичных, так и на групповых объектах Корреляционная связь - это такая связь, когда определенному значению одной величины соответствует несколько значений другой величины. Пример - каждому значению роста человека соответствует целый набор массы тела. Корреляционные связи можно изучать только на групповых объектах методами математической статистики.
Корреляционная связь бывает линейной и нелинейной. Линейная связь характеризуется тем, что равным изменениям одной величины соответствуют равные изменения средних значений другой величины. Например, наблюдается соответствие между изменениями уровней систолического и диастолического давлений крови. Для нелинейной связи характерно то, что равным изменениям одной величины соответствуют неодинаковые изменения средних значений другой величины. Корреляционная связь между величинами бывает прямой и обратной. При прямой связи с увеличением значений одной величины возрастает среднее другой величины. Например, с повышением температуры тела увеличивается частота пульса у большинства инфекционных больных. Вычисленный при этом коэффициент корреляции имеет положительное значение. При обратной связи с увеличением одной величины среднее значение другой величины уменьшается. Например, чем ниже температура воздуха в осенний период, тем выше заболеваемость детей острым бронхитом. Вычисленный при этом коэффициент корреляции имеет отрицательное значение. Корреляция между величинами может быть представлена в виде таблицы, графика и коэффициента корреляции (или корреляционного отношения).
Формулы для расчетов:
(2.1)
(2.2; 2.6)
(2.5)
(2.8)
Находим границы доверительного интервала для α = 0,05 и n = 16:
Границы доверия: (2.9; 2.11)
При больших объемах выборки (n ≥ 30) t – распределение Стьюдента переходит в нормальное. Поэтому доверительный интервал для при n ≥ 30 можно записать следующим образом:
;
где u - процентивные точки нормированного нормального распределения
(2.7)
Лекция 3
Метод наименьших квадратов (МНК) позволяетпостроить уравнение регрессии на основе минимизации суммы квадратов отклонений: , или .
Поэтому важно исследовать поведение остаточных величин регрессии – ε. Они должны отвечать определенным критериям:
1. Несмещенность – означает, что математическое ожидание остатков равно нулю: , т.е. при большом числе наблюдений остатки не будут накапливаться и найденный параметр регрессии b можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным выборкам.
2. Эффективность – оценки считаются эффективными, если они характеризуются наименьшей дисперсией.
3. Состоятельность – характеризует увеличение точности оценок с увеличением объема выборки.
Условия, необходимые для получения несмещенных, эффективных и состоятельных оценок, представляют собой предпосылки МНК (условия Гаусса-Маркова), соблюдение которых желательно для получения достоверных результатов регрессии.
Выделяют пять предпосылок МНК:
- случайный характер остатков;
- нулевая средняя величина остатков, не зависящая от х;
- гомоскедастичность;
- отсутствие автокорреляции остатков;
- нормальное распределение остатков.
I предпосылка МНК. Прежде всего проверяется случайный характер остатков ε. С этой целью строится график их зависимости от теоретических значений результативного признака :
Рис. 3.1. Зависимость случайных остатков от теоретических значений
Если на графике нет направленности в расположении точек, то остатки представляют собой случайные величины и МНК оправдан.
Возможны следующие случаи, если зависит от , то:
1) остатки не случайны
2) остатки не имеют постоянной дисперсии
3) остатки носят систематический характер
В этих случаях необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.
II предпосылка МНК.Нулевая средняя величина остатков, не зависящая от х, т.е. . С целью проверки выполнения этой предпосылки строится график зависимости случайных остатков от факторов , включенных в регрессию (рис. 3.3).
Рис. 3.3. Зависимость величины остатков от величины фактора .
Если расположение остатков на графике не имеет направленности, то они независимы от значений . Если же график показывает наличие зависимости и , то модель неадекватна.
III предпосылка МНК.Гомоскедастичность – это однородность относительно дисперсии, т.е. дисперсия остатков одинакова для каждого значения х. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность (неоднородность относительно дисперсии).
Примеры гетероскедастичности:
а– дисперсия остатков растет
по мере увеличения б– дисперсия остатков достигает
максимальной величины при средних
значениях переменной и уменьшается
при минимальных и максимальных значениях
в– максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений
Для проверки выполнения предпосылки МНК о гомоскедастичности остатков используются различные методы:
1. Тест Гольдфельда-Квандта.Процедура применения теста Гольдфелда-Квандта состоит из следующих шагов:
1) наблюдения упорядочиваются по возрастанию фактора хi;
2) из рассмотрения исключаются С центральных наблюдений. При этом должно выполняться условие (n-С)/2 > р, где p – число оцениваемых параметров (авторами метода рекомендовано для случая одного фактора при n=30 принимать С=8, а при n=60 принимать С=16);
3) совокупность из n-C наблюдений разделяется на две группы (соответственно с большими и малыми значениями фактора х) и по каждой группе определяется уравнение регрессии;
4) определяются остаточные суммы квадратов для первой ( ) и второй ( ) групп и находится их отношение: R = , где S2 >S1;
5) нулевая гипотеза о гомоскедастичности остатков отвергается, если выполнено условие R>F, где F– табличное значение F-критерия Фишера на уровне значимости α при числе степеней свободы (n-С-2р)/2.
2. Тест ранговой корреляции Спирмена. Суть теста заключается в том, что в случае гетероскедастичности остатки ε коррелированы со значениями фактора х. Эту корреляцию можно измерить с помощью коэффициента ранговой корреляции Спирмена:
,
где d – абсолютная разность между рангами значений х и ε.
Статистическая значимость данного коэффициента оценивается с помощью t-критерия:
Если (табличное значение t-критерия Стьюдента на уровне значимости α и при числе степеней свободы (n–2)), то корреляция между х и ε статистически значима, т.е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гетероскедастичности.
3. Рассмотренные методы не дают количественной оценки зависимости дисперсии ошибок регрессии от соответствующих значений факторов. Они лишь позволяют определить наличие или отсутствие гетероскедастичности остатков. Поэтому если гетероскедастичность остатков установлена, можно количественно оценить зависимость дисперсии ошибок регрессии от значений факторов. Для этого используются тесты Уайта, Парка, Глейзера и др.
IV предпосылка МНК. Отсутствие автокорреляции остатков.
Под автокорреляцией остатков понимают зависимость распределения значений остатков друг от друга. Это означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Оценить эту зависимость можно, вычислив коэффициент корреляции между этими остатками по формуле линейного коэффициента корреляции:
Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированны.
V предпосылка МНК о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев Фишера и Стьюдента. Вместе с тем, оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.
При нарушении гомоскедастичности и наличии автокорреляции рекомендуется заменять традиционный МНК обобщенным методом.
Необходимые для практической работы формулы:
(2.13)
(2.14)
(2.15)
(2.16)
(2.17)
(2.20; 2.21)
(2.19)
Лекция 4
Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.
Впервые это понятие было введено Пирсоном в 1908 году.
Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:
- теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;
- выбор формы связи (уравнения регрессии);
- отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);
- вычисление параметров уравнения регрессии и коэффициентов корреляции;
- проверка адекватности полученной модели;
- интерпретация полученных результатов.
На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос – рост – пол; синдром пингвина).
Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.
Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.
Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.
Отбор факторов может быть проведен на основании:
· метода пошагового исключения;
· метода пошаговой регрессии.
Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.
Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков , даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.
При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции ( ) характеризующие тесноту связи между факторами и :
.
Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.
После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.
Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.
Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков.
Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%): .
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:
,
где - коэффициент регрессии при - том факторе, - среднее значение -того фактора, - среднее значение результативного признака.
- коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения .
,
где - среднее квадратическое отклонение -того фактора, - среднее квадратическое отклонение результативного признака.
Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака .
Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.
В рамках многомерного корреляционного анализа рассматривают две типовые задачи:
- оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;
- оценка тесноты связи одной переменной со всеми остальными.
В рамках решения первой задачи определяются частные коэффициенты корреляции – показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.
В многомерном корреляционном анализе рассматриваются две типовые задачи:
1. Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.
2. Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.
Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.
Для их определения может быть использована матрица выборочных коэффициентов корреляции.:
,
где - количество признаков, - выборочный парный коэффициент корреляции.
Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:
, где - определитель матрицы
С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.
Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле
, где - алгебраическое дополнение соответствующего элемента корреляционной матрицы
Частный коэффициент корреляции может принимать значения от -1 до 1.
При анализе F-критерия учитывайте следующее: так как F > Fкрит, то Н0 отклоняют в пользу H1, значит, модель адекватна эмпирическим данным. Нет оснований для отказа от проверяемой модели. И наоборот.