Построение линейного уравнения регрессии
Выбери формат для чтения
Загружаем конспект в формате pdf
Это займет всего пару минут! А пока ты можешь прочитать работу в формате Word 👇
Эконометрика (компьютерный
практикум)
Версия для печати электронного курса EduArea
Этот документ является автоматически сгенерированной печатной версией электронного курса EduArea.
В связи с неизбежными ограничениями печатных носителей некоторые элементы этого курса не могут быть
воспроизведены корректно. Для полноценной работы с Вам необходимо обратиться к электронной версии
курса, доступной по следующему адресу:
http://ru.eduarea.com/course/edu1a091
Получив данную печатную версию, Вы со своей стороны обязуетесь:
использовать предоставленные Вам ресурсы только лично;
не обращаться к помощи третьих лиц или технических средств для улучшения результатов
взаимодействий;
использовать ресурсы системы исключительно в образовательных целях;
соблюдать требования действующего законодательства Вашей страны, в частности, в области защиты
авторского права.
Авторы и редакторы
Документ автоматически сгенерирован Сб, 31 окт 2015 08:57:10 +0400
Подготовлено для двусторонней печати на бумаге формата A4.
© EduArea s.?.r.l. & Circumflex
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
2
Эконометрика (компьютерный практикум)
Оглавление
3
ВВЕДЕНИЕ
4
ЗАДАЧА
5
РЕШЕНИЕ ЗАДАЧИ
Построение линейного уравнения регрессии
Определение коэффициента парной корреляции
Определение значения коэффициента детерминации модели
Оценка модели через среднюю ошибку аппроксимации ?
Оценка модели через F-критерий Фишера
6
7
12
14
14
18
РЕАЛИЗАЦИЯ ЗАДАЧИ В MS EXCEL
21
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Введение
Введение
В курсе эконометрики отмечалось, что одним из наиболее распространенных
инструментов эконометрического анализа является регрессионный анализ.
Возникает вопрос: почему? А все дело в том, что он позволяет проанализировать и
оценить связь между зависимой (объясняемой) переменной и независимыми
(объясняющими) переменными. Да, ясно, что таким образом мы проводим
некоторый анализ. Но из такого пояснения не совсем ясно, а почему же все-таки
анализ называют регрессионным. Но и как часто случается, оказалось, что
название метода не связано с его сутью никаким образом. Дело все в том, что
термин «регрессия» был введен лордом Ф. Гамильтоном (1822-1911) при
исследовании связи между ростом родителей и детей. Им было установлено, что,
хотя у высоких родителей – высокие дети, а у невысоких чаще рождаются
невысокие дети, но рост детей имеет тенденцию к постепенному выравниванию, т.
е. стремится к средним значениям. Будучи аристократом, Ф. Гамильтон негативно
относился к такой тенденции и потому назвал ее регрессией (упадком).
Студенты-практиканты РФЭИ – далеко не аристократы, им было поручено
провести маркетинговое исследование стоимости жилья в зависимости от жилой
площади на территории г. Курска. Результаты исследования представлены в
таблице 1.
Таблица 1
Далее перед вами ставится задача.
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
4
Задача
Задача
1) по полученным студентами-практикантами данным построить линейное
уравнение регрессии, отражающее зависимость стоимости однокомнатной
квартиры y от ее жилой площади x ;
2) определить коэффициент парной корреляции;
3) найти значение коэффициента детерминации модели;
4) оценить полученную модель через среднюю ошибку аппроксимации ? ;
5) оценить полученную модель через F-критерий Фишера.
5
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
Построение линейного уравнения регрессии
Определение коэффициента парной корреляции
Определение значения коэффициента детерминации модели
Оценка модели через среднюю ошибку аппроксимации ?
Оценка модели через F-критерий Фишера
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
6
Решение задачи
Построение линейного уравнения регрессии
Итак, начнем с первого вопроса задачи – построения линейного уравнения
регрессии. В лекционном курсе было отмечено, что линейная регрессия задается
видом y%%_x%%=a+bx . В этой функции a и b – параметры, которые и необходимо
нам определить.
Чтобы рассчитать параметры линейной регрессии, строим расчетную таблицу. С
подобной задачей мы сталкивались в лекционном курсе при рассмотрении
показателей предприятий по выпуску и затратам сельхозоборудования. Для
расчета параметров a и b регрессии y%%_x%%= a+bx необходимо решить систему
нормальных уравнений (см. формулу 2.4 лекционного курса).
Но давайте разберемся с понятием системы нормальных уравнений в нашем
случае. Начнем с первого уравнения.
В нем значение n – это количество исследуемых объектов. Для нашего случая n=16,
т. к. речь идет о 16 типах однокомнатных квартир. Параметры a и b следует
определить. Значение ?x – это сумма всех площадей рассматриваемых
однокомнатных квартир, аналогично ?y – сумма всех стоимостей рассматриваемых
квартир.
Анализ первого уравнения системы дает нам возможность определить количество
столбцов в рабочей таблице. Итак, в таблице будет присутствовать столбец
значений n-количества исследуемых объектов значений (его заменим столбцом
нумераций), столбец значений стоимости однокомнатной квартиры y и столбец
значений жилой площади x , т. е. уже три столбца. Для введения в таблицу
суммарных значений ?x и ?y введем в таблицу строку «Итого». Это позволит нам
сделать таблицу более компактной и читаемой.
Рассматривая второе уравнение в системе, замечаем, что добавятся в таблицу два
столбца «x%%^2%%» и «yx ». Таким образом мы увеличиваем таблицу еще на два
столбца. По строке «Итого» будут найдены значения ?yx и x%%^2%%? в этих
столбцах. На этом этапе таблица уже будет содержать 5 столбцов и иметь вид
таблицы 2.
Таблица 2
7
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
Начинаем работать с этой таблицей. Чтобы заполнить столбец «ух» достаточно по
каждой из его строк найти произведение значений в столбцах «у» и «х».
Например, для первой строки это будет определено как 30,2?40=1208 , а для
последней строки это произведение будет равно 39,5?57,52=2272,04 .
Самостоятельно заполните все промежуточные произведения этого столбца.
Работа эта не очень сложная, но требует от вас внимания и усидчивости.
Для заполнения пятого столбца таблицы, т. е. столбца «x%%^2%%», достаточно
каждое значение третьего столбца таблицы, т. е. столбца значений «x », умножить
на себя или возвести в квадрат. Например, для первой строки пятого столбца это
вычисление будет выглядеть так:
30,2?30,2=912,04.
Аналогичным образом необходимо заполнить весь пятый столбец. Ну, и наконец,
вычислим суммы по каждому из столбцов. Например, по первому столбцу мы
должны просуммировать все 16 стоимостей однокомнатных квартир, т. е.
40+41,6+42,8+47,04+43,44?3+42,8+45,92+44,56+44,24+48,16+56,08+51,36+57,2+57,52=749,9
Аналогично найдем суммы по оставшимся трем столбцам. Если вы выполнили все
вычисления, то таблица 2 после ее заполнения должна иметь вид таблицы 3.
Таблица 3
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
8
Решение задачи
Таблица 3 позволит нам составить систему нормальных уравнений, т. к. n=16,
?x=525,7, ?x=749,6 .
В соответствии с формулой 2.4 лекционного курса получаем систему:
Это система линейных уравнений с двумя неизвестными. Как мы и рассматривали
в лекции, ее можно решать методом подстановки. Например, выразив из первого
уравнения параметр
, подставляем его значение во второе
уравнение
и решаем его относительно параметра, в результате b?1,36 . Найденное значение
параметра b подставляем в выражение для параметра a , и находим его, a?2,10 . Как
вы успели, вероятно, заметить, мы произвели округление параметров с точностью
до сотых. Найденные значения параметров a и b подставляем в уравнение
x%%^2%%=a+bx и получаем искомое уравнение линейной регрессии
x%%^2%%=2,10+1,36x . Таким образом, мы ответили на первый вопрос задачи.
Напомним, что в курсе математики линейная функция задается видом y=kx+b , в
эконометрике x%%^2%%=a+bx . Но смысл параметров сохраняется, т. е. то, что
9
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
стоит перед x (в эконометрике это параметр b, в математике это число k ),
называют коэффициентом регрессии. То число, которое не содержит переменной
(в эконометрике – это параметр a , в математике – это число b ), называют
свободным членом.
Следует более подробно остановиться на выяснении геометрического смысла
найденных параметров a и b . В нашем случае a?2,10 и оно показывает, в какой
точке пересекает прямая ось Оу, b?1,36 и оно совпадает со значением тангенса угла
наклона этой прямой к положительному направлению оси Ох. А если мы построим
на координатной плоскости все 16 точек, у каждой из которых первая координата –
площадь квартиры, а вторая – стоимость квартиры, то все они будут располагаться
некоторым образом относительно этой прямой – выше и ниже ее. Но все точки не
будут лежать на одной прямой. Отклонения точек от прямой обусловлены
случайной ошибкой. Эта ошибка может быть вызвана случайным искажением
значений переменных, ошибками в измерении переменных, неправильным
выбором линейной формы регрессии, тогда как на самом деле связь между x и y
нелинейная.
Если рассуждать по поводу найденного уравнения линейной регрессии с
экономической точки зрения, то оно позволяет нам сделать вывод о том, что с
увеличением площади квартиры на 1
ее цена возрастает на 1,36 тыс. долл.
Но и, что самое главное, – позволяет определить найденное уравнение –
предсказать среднюю цену квартиры при заданной площади. Например, при
площади квартиры в 50 м%%^2%% ее средняя цена будет найдена так:
x%%^2%%=2,10+1,36x=2,10+1,36?50=70,1 тыс. долл.
Возвращаясь к лекционному курсу, вы выяснили, что параметры и линейной
регрессии мы можем вычислить и иначе, пользуясь готовыми формулами (2.5)
и
( 2 . 6 )
%%b=\frac{\overline{y·x}-\overline{y}·\overline{x}}{\overline{x^2}-\overline{x}^2}%%
лекционного курса. Поэтому рассмотрим и этот способ решения для определения
значений параметров линейной регрессии. А за вами останется право выбора,
каким способом вы будете пользоваться при составлении уравнения линейной
регрессии. Естественно, хочется пользоваться наиболее простым и кратким
способом рассуждений.
Итак, возвращаясь к формулам 2.5 и 2.6, замечаем, что в них присутствуют средние
значения, которые нам необходимо вычислить.
Для подсчета средних значений по столбцам 2-5 таблицы 3, рассуждаем таким
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
10
Решение задачи
образом: т. к. суммы по этим четырем столбцам у нас вычислены по строке
«Итого», то достаточно разделить значения каждой из этих сумм на 16.
(Напомним, что существуют несколько типов средних величин, в нашем случае мы
пользуемся простой средней арифметической, когда находится сумма величин и
делится на количество этих величин).
Например, среднее значение стоимости однокомнатной квартиры найдется как
.
Аналогично найдем средние значения по 3-5 столбцам, округлив результаты
вычислений до тысячных долей. В результате нашу таблицу 3 можно дополнить
еще одной строкой средних значений, и мы получим таблицу 4.
Таблица 4
Средние значения в 3-5 столбцах мы также округлили до разряда тысячных. А
теперь
приступаем
к
вычислению
параметра
%%b=\frac{\overline{y·x}-\overline{y}·\overline{x}}{\overline{x^2}-\overline{x}^2}%%
, пользуясь таблицей 4.
11
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
Находим значение параметра
, a=46,85-1,36?32,86?2,10.
Сравнив результаты вычислений параметров a и b , вы замечаете, что они совпали
при нахождении их путем решения системы нормальных линейных уравнений и с
помощью готовых формул, в которых используются средние величины. Теперь
решайте сами, каким способом вы будете определять параметры уравнения
линейной регрессии.
Определение коэффициента парной корреляции
Продолжая отвечать на вопросы, поставленные в задаче, нам необходимо
вычислить линейный коэффициент парной корреляции. В лекционном курсе
(глава 2.1), мы определили формулу 2.7 для вычисления линейного коэффициента
парной корреляции
. В этой формуле присутствуют стандартные
отклонения переменной x и переменной y , которые нам необходимо вычислить. А
для этого нужно вычислить дисперсию (вариацию) каждой из переменных и
извлечь из найденных дисперсий квадратный корень.
По формуле 1.16 первого раздела первой части лекционного курса дисперсия
переменной x вычисляется в виде:
,
а по формуле 1.17 этого же раздела дисперсия переменной y вычисляется в виде:
.
Для вычисления вариации (дисперсии) переменной x в таблице 4 есть все
необходимые сведения. А если вы очень внимательно читали практикум, то
должны были заметить, что мы эту характеристику уже вычисляли, когда
находили параметр b линейной регрессии с помощью формул. В формуле 2.6
знаменатель есть не что иное, как дисперсия. Возвратитесь к этому моменту
практикума и увидите, что
. Извлекая из
получившегося значения дисперсии квадратный корень, получим стандартное
отклонение переменной (площади квартир),
Для нахождения стандартного отклонения переменной y (стоимости квартир)
дополним таблицу 4 еще одним столбцом «
значений и среднее значение.
» и найдем по этому столбцу сумму
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
12
Решение задачи
Например, для первой строки
, а для последней строки значение
.
В результате таблица 4 примет вид таблицы 5.
Таблица 5
Тогда мы можем найти
Извлекая квадратный корень из получившейся величины дисперсии, найдем
стандартное отклонение
Для вычисления линейного коэффициента парной корреляции
подставим значения параметра b и стандартных отклонений переменных x и y в
эту формулу.
В итоге получим:
Из лекционного курса вы выяснили, что для линейной регрессии линейный
коэффициент парной корреляции оценивает тесноту связи изучаемых явлений. Т.
к. в рассматриваемой задаче речь идет о зависимости стоимости квартиры от ее
13
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
площади, то найденное значение линейного коэффициента парной корреляции
показывает, что связь достаточно тесная (т. к. значение
связь будет прямой, т. к.
>0 .
Напомним, что для линейной регрессии -1?
коэффициент регрессии b>0 , то 0?
b?1,36 и
?0,85 и близко к 1 ) и эта
?1 В лекции мы выяснили, что если
?1 , в чем мы убедились путем вычислений (
?0,85).
Итак, мы уже ответили на два вопроса – нашли уравнение линейной регрессии и
определили линейный коэффициент парной корреляции.
Определение
значения
детерминации модели
коэффициента
Для ответа на третий вопрос о значении коэффициента детерминации достаточно
найденное значение линейного коэффициента парной корреляции возвести в
квадрат (см. формулу 2.10 раздела 2).
Таким образом,
Это значение показывает, что вариация стоимости квартир на 72,8% объясняется
вариацией площади квартир. Но на стоимость квартиры влияют и другие факторы.
Вероятно, это округ, в котором находится квартира, микрорайон округа, этаж, и
ряд других факторов.
Оценка модели
аппроксимации ?
через
среднюю
ошибку
Для ответа на вопрос о величине ошибки аппроксимации (разброса) необходимо
воспользоваться формулой 2.14 второго раздела:
Эта величина показывает, как в среднем отклоняются расчетные значения от
фактических значений. Как показывает практика, допустимый предел значений ?
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
14
Решение задачи
– не более 8-10%.
Анализируя формулу, определяющую величину ошибки аппроксимации,
замечаем, что в таблицу 5 необходимо добавить три столбца: столбец значений
y%%_{x_i}%% , столбец разности значений y%%_i%%- y%%_{x_i}%% и столбец
значений
. Начнем с заполнения седьмого столбца – столбца значений
y%%_{x_i}%% .
Для этого в первой строке этого столбца необходимо найти значение
при x=30,2.
=2,10+1,36x
Т
о
г
д
а
y%%_{x_{1}}%%=2,10+1,36x%%_1%%=2,10+1,36%%\cdot%%3,02%%\approx%%43,17.
Мы округлили результат до сотых долей. Аналогично найдем последнее значение
y%%_{x_{16}}%%.
Все промежуточные значения 2-15 по этому столбцу предлагаем вам вычислить
самостоятельно. Если вы вычислили все оставшиеся значения по этому столбцу,
далее найдите сумму всех вычисленных значений, т.е. заполните ячейку по строке
«Итого». Сравните свои вычисления, они должны совпадать с вычислениями
последнего столбца в таблице 6.
Таблица 6
15
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
Далее добавим в таблицу еще один столбец, в котором будем вычислять разности
y%%_i%%-y%%_{x_i}%%. По первой строке этого столбца находим y%%_1%%y%%_{x_1}%%=40,00-43,17=-3,17. Аналогично, например, по последней строке
этого столбца
.
Теперь найдем в этом столбце сумму всех найденных разностей, т. е. заполним
ячейку по строке «Итого» в этом столбце. Результат наших вычислений
представлен в таблице 7.
Таблица 7
Так как для вычисления средней ошибки аппроксимации, т. е. отклонения
расчетных значений от фактических, необходимо вычислять аппроксимацию для
каждого из 16 измерений (в нашем случае квартир), то для этого нам и необходим
еще один столбец «
», который мы сейчас и заполним.
В соответствии с формулой 2.14 второго раздела лекционного курса в этом столбце
для каждой строки будет находиться значение дроби вида
. Это
означает, что нужно находить отношение разности, полученной в предыдущем
столбце («y%%_i%%- y%%_{x_i}%% ») к значениям столбца «y%%_i%% », и
умножать эти числа на 100%.
Нижний индекс i указывает на то, что значения из столбца «y » берутся по очереди,
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
16
Решение задачи
начиная с первого и заканчивая шестнадцатым. Обратите внимание, что разности
из столбца «y%%_i%%- y%%_{x_i}%% » берутся по модулю, т. е. всегда
неотрицательны.
Рассмотрим, как это отношение найдется для первой строки столбца «
значение
», т. е.
.
.
И сразу замечаем, что ошибка аппроксимации очень близка к пределу 8–10%, но
эти пределы распространяются на среднюю ошибку аппроксимации, а не на
единичное измерение. Продолжив наши вычисления по столбцу «
величину
аппроксимации
для
четырнадцатой
квартиры,
», найдем
т.
е.
Округлили результат до десятых. Аналогичным образом
вычислите все значения по этому столбцу и найдите суммы по строке «Итого» и
среднее значение по строке «Среднее значение». В результате вычислений таблица
должна иметь вид таблицы 8.
Таблица 8
17
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
Решение задачи
Итак, результат средней ошибки аппроксимации составил 4,6%. Это говорит о том,
что в среднем расчетные значения отклоняются от фактических значений на 4,6%.
Если вспомните лекционный курс, то там отмечалось, что качество модели
хорошее, если средняя ошибка аппроксимации в пределах 5–7%.
Оценка модели через F-критерий Фишера
В этой задаче нам осталось дать ответ на последний вопрос – рассчитать
F-критерий. В лекционном курсе было отмечено, что F-критерий Фишера
вычисляется по формуле 2.13 и эта формула имеет вид:
. Еще раз
поясним, что вычисленное значение F-критерия сравнивается с табличным
значением (в лекционном курсе есть приложение для определения F-критерия при
уровнях значимости 0,05 и 0,01).
А что означает табличное значение F-критерия?
2011 © eduarea.com // Подготовлено для пользователя «reg168492»
18
Решение задачи
– это максимально возможное значение критерия под влиянием случайных
факторов при данных степенях свободы и уровне значимости ? . Что означает
понятие «уровень значимости ? »? Это есть вероятность отвергнуть правильную
гипотезу при условии, что она верна. Обычно ? принимается равным 0,05 и 0,01.
Поэтому приложения, которые мы поместили в лекционный курс, и содержат
значения F-критерия при уровнях значимости 0,05 и 0,01.
Для того чтобы определить табличное значение, сначала договариваются об
уровне значимости. В нашем случае он равен 0,05. Затем по таблице F-критерия
Фишера находят значение на пересечении первого столбца и строки с номером n-2,
где n – число единиц в совокупности. Т. к. в нашей задаче речь идет о 16 квартирах,
то n=16, n-2=14. Тогда найденное значение F-критерия Фишера будет равно 4,60.
Мы сказали, что вычисленное значение F-критерия сравнивается с табличным, т.
е. выясняем оно больше или меньше табличного. А затем делаем вывод:
1) если
F, то гипотеза
о случайной природе оцениваемых характеристик
не отклоняется и признается статистическая незначимость, ненадежность
уравнения регрессии.
Посмотрим, что получается в нашей ситуации. Вычисляем
Так по приложению при ?=0,05,
=4,60 . Получили, что
Тебе могут подойти лекции
А давай сэкономим
твое время?
твое время?
Дарим 500 рублей на первый заказ,
а ты выбери эксперта и расслабься
Включи камеру на своем телефоне и наведи на Qr-код.
Кампус Хаб бот откроется на устройстве
Не ищи – спроси
у ChatGPT!
у ChatGPT!
Боты в Telegram ответят на учебные вопросы, решат задачу или найдут литературу
Попробовать в Telegram
Оставляя свои контактные данные и нажимая «Попробовать в Telegram», я соглашаюсь пройти процедуру
регистрации на Платформе, принимаю условия
Пользовательского соглашения
и
Политики конфиденциальности
в целях заключения соглашения.
Пишешь реферат?
Попробуй нейросеть, напиши уникальный реферат
с реальными источниками за 5 минут
с реальными источниками за 5 минут
Построение линейного уравнения регрессии
Хочу потратить еще 2 дня на работу и мне нужен только скопированный текст,
пришлите в ТГ