Основные понятия корреляционно-регрессионного анализа
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Лекция
Тема: Основные понятия корреляционно-регрессионного анализа.
1. Основные понятия.
Регрессионный анализ – раздел эконометрики, связанный с построением
функциональных зависимостей между случайной величиной Y (т.н.
откликом) и одной или несколькими случайными величинами X1, X2, …,
Xn(т.н. факторами).
Виды зависимостей.
Функциональная зависимость: Y =
j(Х) Если каждому возможному
значению случайной величины Х
соответствует одно возможное
значение случайной величины Y, то
случайное величина Х имеет
распределение f(Х). Если Y = j(Х) –
строго монотонная функция,
следовательно существует обратная
функция Х = Y(Y), то плотность
случайной величины Y имеет вид:
g(Y) = f(Y(Y))×Y¢(Y). Строгая
функциональная зависимость
реализуется редко.
Статистической зависимостью называется зависимость, при которой
изменение одной из величин влечёт изменение распределения других
величин.
Частным случаем статистической зависимости является корреляционная
зависимость, при которой изменение одной из величин изменяет среднее
значение других.
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 1 из 7
Зависимая величина Y называется откликом, а величины X – факторами,
влияющими на отклик.
Независимые переменные связаны с зависимой посредством функции
линейной или нелинейной. Линейная функция называется парной
(множественной) линейной регрессией.
Регрессионный анализ используется для: 1) описания зависимости
между переменными с целью установления наличия возможной причинной
связи; 2) получения предиктора для зависимой переменной.
1. Коэффициент ковариации. Коэффициент корреляции.
Свойство дисперсии случайной величины: дисперсия суммы случайных
величин:
D(X ± Y) = M[(X ± Y)²] - [M(X ± Y)]² = M(X² ± 2XY + Y²) – M(X² ± 2XY + Y²) =
= M(X²) – [M(X)]² + M(Y²) – [M(Y)]² ± 2(M(XY) - M(X)M(Y)) = D(X) + D(Y) ±
± 2cov(X, Y),
где cov(X, Y) = M[(X - M(X))(Y - M(Y)] = M(XY) - M(X)M(Y) –
коэффициент
ковариации (совместной вариации) случайных величин Х и Y.
Для независимых случайных величин cov(X,Y)=0. Для случайных
величин, имеющих тенденцию колебаться в одну сторону – положителен.
Для случайных величин, имеющих тенденцию колебаться в разные стороны –
отрицателен. Коэффициент ковариации может принимать значения по всей
числовой прямой и имеет размерность.
Поэтому вводят нормированный коэффициент ковариации, или
коэффициент корреляции:
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 2 из 7
Коэффициент корреляции меняется от –1 до +1, т.е. ½R½ £ 1:
1` R =0 для независимых случайных величин
2` 0 < ½R½ < 0,3 слабая зависимость
3` 0,3 £ ½R½ < 0,6 средняя зависимость
4` 0,6 £ ½R½ < 0,9 сильная зависимость
5` 0,9 £ ½R½ < 1 очень сильная зависимость
6` R = ±1 функциональная зависимость
Если R = 0, то это не всегда означает независимость случайной
величины (лучше говорить некоррелированности). Для нормальных
случайных величин независимость Û некоррелированность.
2. Диаграммы рассеяния и корреляционная таблица.
В экономических исследованиях
имеет место статистический разброс
данных: при одном и том же значении
одной величины другая величина
принимает несколько значений и
наоборот. Графическое изображение
экспериментальных данных называется
диаграммой рассеяния.
Необходимо ответить на вопросы:
1) какой вид
имеет тенденция;
2) какая теснота между тенденцией и разбросом
данных.
Для этого необходимо несгруппированные данные подвергнуть
первичной обработке.
Не сгруппированные:
N п/п хi уi
1 х1 у1
2
…
п
х2 у2
……
хп уп
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 3 из 7
Сгруппированные:
Корреляционная таблица (двумерная гистограмма)
x1 x2 … xk пyj
у1 п11 п21 … nk1 ny1
у2 п12 п22 … nk2 ny2
…… … … … …
уе п1е п2e … nke nye
пхi пх1 пх2 … nхk N
xi, yj – середины интервалов
N =
Уравнение регрессии и их выборочные оценки
Рассмотрим не сгруппированные данные и их графическое
представление (диаграмму рассеяния):
Вопросы: Каков вид зависимости?
Как найти? Как точно описывает? и т.д.
Ответы:
Существует
несколько
вариантов, но они сводятся к одному –
аппроксимация
(квадратическая,
тригонометрическая,
полиномиальная,
сплайн и т.д.).
Наиболее
простой
вариант
–
квадратическая аппроксимация, которая
обосновывает
метод
наименьших
квадратов.
Суть его состоит в том, что сумма квадратов отклонений между
экспериментальным
и
теоретическим
значениями
должна
быть
минимальной:
теор
Если у
= f(х, а, в, с, …), тогда
Из теории функции нескольких переменных известно, что для минимума
необходимо равенство нулю всех частных производных:
Решив данную систему относительно неизвестных коэффициентов а, b,
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 4 из 7
с, … мы получим уравнения, которые называются уравнениями регрессии:
Для линейной зависимости:
где rу/х и rх/у – выборочные коэффициенты Y на X и X на Y
tga = rу/х
tgb = rх/у
j¹0
Для
независимых
случайных величин j = p / 2.
Уравнения
регрессии
(линейной зависимости) лучше записать в виде:
Как вычислить
?
Существует два способа:
1) найти частные производные и решить
полученную систему;
2) составить систему нормальных уравнений и
решить её.
Используем второй способ для простой линейной зависимости у=ах+b
2
Зная yi=axi+b, умножив на xi, получим xiyi = axi + bxi и просуммировав
по всем i от 1 до п, получим систему нормальных уравнений:
Разделив на п оба уравнения и введя обозначения средних величин,
получим систему:
Умножив второе уравнение на
и вычтя его из первого, имеем:
Формулы для нахождения средних величин:
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 5 из 7
Используются данные корреляционной таблицы.
Выборочный коэффициент корреляции и его свойства.
Для двух зависимостей, приведенных на рисунках, уравнение регрессии
одно и то же! Однако разброс данных существенно отличается. Поэтому
необходимо ввести еще одну характеристику, учитывающую разброс данных
вокруг линии регрессии, т.н. тесноту связи.
Для характеристики тесноты связи используют выборочный
коэффициент корреляции:
Т.к.
то
и
Знак ± берётся равным знаку коэффициентов регрессии, которые оба
или положительны или отрицательны. При этом один коэффициент регрессии
по абсолютной величине > 1, другой - < 1.
Т.к. выборка случайна, то отличное от нуля значение выборочного
коэффициента линейной корреляции необходимо проверить на значимость.
На уровне a = 0,05 выдвигаем нулевую гипотезу:
Н0: R = 0
Н1: R ¹ 0
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 6 из 7
В качестве критерия проверки используем случайную величину:
Табличное значение tтабл (a; п – 2) по таблицам распределения
Стьюдента.
Если ½tнабл½ < tтабл – нет оснований отвергнуть Н0;
Если ½tнабл½ > tтабл – нулевую гипотезу отвергают.
8
https://psv4.vk.me/c615320/u54108766/docs/81a993a25cb7/…DGBz9btyiMdsQAwElmXgmFnkHtUXRXcxHJAY-qbWiR9Se3g8Q
23.05.16, 20:07
Стр. 7 из 7