Регрессия - что такое простыми словами? Регрессия (математика).

Для количественного описания взаимосвязей между экономическими переменными в статистике используют методы регрессии и корреляции

Регрессия в статистике - статистическая зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин; введена Фрэнсисом Гальтоном.

В отличие от функциональной зависимости y=f(x), которая каждому значению независимой переменной x ставит в соответствие одно определённое значение величины y, при регрессионной зависимости одному и тому же значению x могут соответствовать различные значения величины y. Если при каждом значении наблюдаетсязначенийвеличины y, то зависимость среднего арифметического

<у> = (y1 + ….+yini)/ni

от
и является средней регрессией.

Регрессионный (линейный) анализ - статистический методисследования влияния одной или несколькихнезависимых переменныхx1, x2,x3,xi назависимую переменнуюy. Регрессионный анализ предполагает следущие цели:

    Определение степени детерминированности вариациикритериальной (зависимой) переменнойпредикторами(независимыми переменными)

    Предсказание значения зависимой переменной с помощью независимой(-ых)

    Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Существует линейная и нелинейная регрессия. Линейная регрессия предполагает, что функция f зависит от параметров w линейно. Линейная регрессионная модель разбивает зависимость целевой переменной Y от независимых переменных Xi на отдельные, не связанные между собой компоненты. Она позволяет оценить вклад каждой независимой переменной по отдельности, определив знак и силу этого влияния. Если используется критерий наименьших квадратов, то существует эффективный алгоритм вычисления значений регрессионных коэффициентов Ai, который основан на проведении достаточно простых матричных операций. Важно отметить, что результатом работы алгоритмов, решающих линейную регрессионную задачу, является не только оценка точности полученной регрессионной модели, но также стандартные отклонения входящих в нее регрессионных коэффициентов. Поэтому мы можем судить о значимости (не случайности) вхождения отдельных переменных в регрессионную модель. Мерой этой значимости может служить значение F‑статистики – квадрата отношения величины регрессионного коэффициента к величине его стандартного отклонения.

Нелинейные регрессии могут быть разделены на два существенно различных класса. Первым и более простым является класс нелинейных зависимостей, в которых имеется нелинейность относительно объясняющих переменных, но которые остаются линейными по входящим в них и подлежащим оценке параметрам. Сюда входят полиномы различных степеней и ранвосторонняя гипербола. Такая нелинейная регрессия легко сводится к обычной линейной регрессии для новых переменных. Поэтому оценка параметров в этом случае выполняется просто по методу наименьших квадратов, поскольку зависимости линейны по параметрам.

Регресии, нелинейные по параметрам разделяются на два подкласса:внешние нелинейные (в этом случае модель можно привести к линейному виду с помощью преобразований) и внутренние нелинейные, которые преобразовать к линейному виду нельзя. Если модель внутренне нелинейна по параметрам, то для оценки параметров используются численные итеративные процедуры, успешность которых зависит от вида уравнений и от особенностей применяемого итеративного метода.

Особого внимания заслуживает исследование корреляции для нелинейной регресии. В общем случаепарабола второй степени, так же как и полиномы более высокого порядка, при линеаризации принимает вид уравнения множественной регрессии. Если нелинейное относительно объясняемой базы переменной уравнение регрессии при линеализации принимает форму линейного уравнения парной регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции.

Если преобразования уравнения регрессии в линейную форму связаны с зависимой переменной, то линейный коэф корреляции по преобразованным значениям признаков дает лишь приближенную оценку связи и численно не совпадает с индексом корреляции.

y =f (x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении x =x i наблюдается n i значений y i 1 …y in 1 величины y , то зависимость средних арифметических =(y i 1 +…+y in 1)/n i от x =x i и является регрессией в статистическом понимании этого термина .

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity ), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y ). Прямая линия в плоскости (x, y ) была выборочным аналогом функции

В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии . Эти проблемы рассматриваются в рамках регрессионного анализа .

Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y =u (X )+ε, где u (x )=E (Y | X =x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y =u (x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y =u (x ) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия (пропедевтика)

Представим зависимость y от x в виде линейной модели первого порядка:

Будем считать, что значения x определяются без ошибки, β 0 и β 1 - параметры модели, а ε - ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x i , y i ), i =1, …, n . Таким образом мы можем записать:

где означает предсказанное моделью значение y при данном x , b 0 и b 1 - выборочные оценки параметров модели, а - значения ошибок аппроксимации.

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

здесь средние значения определяются как обычно: , и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t =b /s b . Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b 1 - есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0 , то прямая проходит через начало координат и оценка углового коэффициента равна

,

а её стандартной ошибки

Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x :

,

где t (1−α/2, n −2) - t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

Здесь m - кратность измерения y при данном x . И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

.

На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

Литература

Ссылки

  • (англ.)

Wikimedia Foundation . 2010 .

Смотреть что такое "Регрессия (математика)" в других словарях:

    В Викисловаре есть статья «регрессия» Регрессия (лат. regressio «обратное движение, возвращение») многознач … Википедия

    О функции, см.: Интерполянт. Интерполяция, интерполирование в вычислительной математике способ нахождения промежуточных значений величины по имеющемуся дискретному набору известных значений. Многим из тех, кто сталкивается с научными и… … Википедия

    У этого термина существуют и другие значения, см. среднее значение. В математике и статистике среднее арифметическое одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех наблюденных значений деленную на их… … Википедия

    Не следует путать с японскими свечами. График 1. Результаты эксперимента Майкельсона Морли … Википедия

    Начинающим · Сообщество · Порталы · Награды · Проекты · Запросы · Оценивание География · История · Общество · Персоналии · Религия · Спорт · Техника · Наука · Искусство · Философия … Википедия

    РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - REGRESSION AND CORRELATION ANALYSISР.а. представляет собой вычисления на основе статистической информации с целью математической оценки усредненной связи между зависимой переменной и некоторой независимой переменной или переменными. Простая… … Энциклопедия банковского дела и финансов

    Логотип Тип Программы математического моделирования Разработчик … Википедия

  • Tutorial

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин - Машинного Обучения и Больших Данных . Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии . Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале - уметь отличить сигнал от шума.



Для этой цели мы будем использовать язык программирования и среду разработки R , который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ

Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .


Основу регрессионного анализа составляет метод наименьших квадратов (МНК) , в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.



Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.


Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.


  • k - число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .

Линейная регрессия

Уравнения линейной регрессии можно записать в виде



В матричном виде это выгладит


  • y - зависимая переменная;
  • x - независимая переменная;
  • β - коэффициенты, которые необходимо найти с помощью МНК;
  • ε - погрешность, необъяснимая ошибка и отклонение от линейной зависимости;


Случайная величина может быть интерпретирована как сумма из двух слагаемых:



Еще одно ключевое понятие - коэффициент корреляции R 2 .


Ограничения линейной регрессии

Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.



Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.


Неоднородность дисперсии


При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.



Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.


Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.




В этой формуле - коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.


Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова , согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.

Как преодолеть эти ограничения

Нарушения одной или нескольких ограничений еще не приговор.

  1. Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .
  2. Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.
  3. Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии , и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией . Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.

Линейная регрессия плюсов на Хабре

Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.


Загружает данные из tsv файла.


> hist <- read.table("~/habr_hist.txt", header=TRUE) > hist
points reads comm faves fb bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • points - Рейтинг статьи
  • reads - Число просмотров.
  • comm - Число комментариев.
  • faves - Добавлено в закладки.
  • fb - Поделились в социальных сетях (fb + vk).
  • bytes - Длина в байтах.

Проверка мультиколлинеарности.


> cor(hist) points reads comm faves fb bytes points 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 reads 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202 comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029 faves 0.2410445 0.5745119 -0.01511207 1.00000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000

Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях . Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная - нет надобности исключать ни одну из независимых переменных.


Теперь собственно сама модель, используем функцию lm .


regmodel <- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.029e+01 7.198e+00 1.430 0.1608 reads 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * faves 2.740e-02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * bytes 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.65 on 39 degrees of freedom Multiple R-squared: 0.5384, Adjusted R-squared: 0.4792 F-statistic: 9.099 on 5 and 39 DF, p-value: 8.476e-06

В первой строке мы задаем параметры линейной регрессии. Строка points ~. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points ~ reads , набор переменных - points ~ reads + comm .


Перейдем теперь к расшифровке полученных результатов.




Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Проверим значения параметров линейной регрессии.


> regmodel <- lm(points ~., data = hist) > summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.823e+00 7.305e+00 0.387 0.70123 reads -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.010e+00 3.436e-01 2.938 0.00552 ** faves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** bytes 2.688e-04 4.108e-04 0.654 0.51677 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.21 on 39 degrees of freedom Multiple R-squared: 0.5624, Adjusted R-squared: 0.5062 F-statistic: 10.02 on 5 and 39 DF, p-value: 3.186e-06

Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми, F-статистика выросла, так же как и скорректированный коэффициент детерминации.


Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.


> dwtest(hist$points ~., data = hist) Durbin-Watson test data: hist$points ~ . DW = 1.585, p-value = 0.07078 alternative hypothesis: true autocorrelation is greater than 0

И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.


> bptest(hist$points ~., data = hist) studentized Breusch-Pagan test data: hist$points ~ . BP = 6.5315, df = 5, p-value = 0.2579

В заключение

Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.


Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.

Использованные материалы

  1. Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006.
  2. William H. Green Econometric Analysis

Теги: Добавить метки

y =f (x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении наблюдается n i {\displaystyle n_{i}} значений y i 1 …y in 1 величины y , то зависимость средних арифметических y ¯ i = (y i 1 + . . . + y i n 1) / n i {\displaystyle {\bar {y}}_{i}=(y_{i1}+...+y_{in_{1}})/n_{i}} от x = x i {\displaystyle x=x_{i}} и является регрессией в статистическом понимании этого термина .

Энциклопедичный YouTube

  • 1 / 5

    Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity ), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

    Описание

    Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y ). Прямая линия в плоскости (x, y ) была выборочным аналогом функции

    g (x) = E (Y ∣ X = x) . {\displaystyle g(x)=E(Y\mid X=x).} E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1}),} v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . {\displaystyle \mathrm {var} (Y\mid X=x)=\sigma _{2}^{2}(1-\varrho ^{2}).}

    В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения – это линейная аппроксимация истинного уравнения регрессии.

    В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии . Эти проблемы рассматриваются в рамках регрессионного анализа .

    Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y =u (X )+ε, где u (x )=E (Y | X =x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y =u (x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y =u (x ) неизвестны и их оценивают по экспериментальным данным.

    Линейная регрессия

    Представим зависимость y от x в виде линейной модели первого порядка:

    y = β 0 + β 1 x + ε . {\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon .}

    Будем считать, что значения x определяются без ошибки, β 0 и β 1 - параметры модели, а ε - ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x i , y i ), i =1, …, n . Таким образом мы можем записать:

    y i ^ = b 0 + b 1 x i , i = 1 , … , n {\displaystyle {\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n}

    где означает предсказанное моделью значение y при данном x , b 0 и b 1 - выборочные оценки параметров модели. Определим также e i = y i − y i ^ {\displaystyle e_{i}=y_{i}-{\widehat {y_{i}}}} - значение ошибки аппроксимации для i {\displaystyle i} -го наблюдения.

    Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

    b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; {\displaystyle b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\mathrm {cov} (x,y)}{\sigma _{x}^{2}}};} b 0 = y ¯ − b 1 x ¯ ; {\displaystyle b_{0}={\bar {y}}-b_{1}{\bar {x}};} s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; {\displaystyle s_{e}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\widehat {y}})^{2}}{n-2}};} s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{b_{0}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};} s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , {\displaystyle s_{b_{1}}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}},}

    здесь средние значения определяются как обычно: x ¯ = ∑ i = 1 n x i n {\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}} , y ¯ = ∑ i = 1 n y i n {\displaystyle {\bar {y}}={\frac {\sum _{i=1}^{n}y_{i}}{n}}} и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.

    Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t = b / s b {\displaystyle t=b/s_{b}} . Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 {\displaystyle b_{1}} - есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0 {\displaystyle b_{0}} , то прямая проходит через начало координат и оценка углового коэффициента равна

    b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 {\displaystyle b={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}} ,

    а её стандартной ошибки

    s b = s e 1 ∑ i = 1 n x i 2 . {\displaystyle s_{b}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}x_{i}^{2}}}}.}

    Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии y ^ {\displaystyle {\widehat {y}}} . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

    s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{\widehat {y}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

    Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x :

    y ^ − t (1 − α / 2 , n − 2) s y ^ < y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}},

    где t (1−α/2, n −2) - t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

    s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{Y}=s_{e}{\sqrt {{\frac {1}{m}}+{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}

    Здесь m - кратность измерения y при данном x . И 100 ⋅ (1 − α 2) {\displaystyle 100\cdot \left(1-{\frac {\alpha }{2}}\right)} -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

    y ^ − t (1 − α / 2 , n − 2) s Y < y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y}.

    На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

    Еще немного статистики

    Можно строго доказать, что, если условное матожидание E (Y ∣ X = x) {\displaystyle E(Y\mid X=x)} некоторой двумерной случайной величины (X, Y ) является линейной функцией от x {\displaystyle x} , то это условное матожидание обязательно представимо в виде E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1})} , где E (X )=μ 1 , E (Y )=μ 2 , var(X )=σ 1 2 , var(Y )=σ 2 2 , cor(X, Y )=ρ.

    Более того, для уже упомянутой ранее линейной модели Y = β 0 + β 1 X + ε {\displaystyle Y=\beta _{0}+\beta _{1}X+\varepsilon } , где X {\displaystyle X} и - независимые случайные величины, а ε {\displaystyle \varepsilon } имеет нулевое матожидание (и произвольное распределение), можно доказать, что E (Y ∣ X = x) = β 0 + β 1 x {\displaystyle E(Y\mid X=x)=\beta _{0}+\beta _{1}x} . Тогда с помощью указанного ранее равенства можно получить формулы для и : β 1 = ϱ σ 2 σ 1 {\displaystyle \beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}} ,

    β 0 = μ 2 − β 1 μ 1 {\displaystyle \beta _{0}=\mu _{2}-\beta _{1}\mu _{1}} .

    Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами β 0 {\displaystyle \beta _{0}} и β 1 {\displaystyle \beta _{1}} , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.

    Эконометрика 1 модуль
    1. В каком законе выяснялись закономерности спроса на основе соотношений между урожаем зерновых и ценами на зерно?
    в законе Кинга
    2. Как называется мера разброса случайной величины?
    дисперсия
    3. При исследований каких моделей эконометрическое исследование может включать в себя выявление трендов, лагов, циклической компоненты?
    моделей временных рядов
    4. Какая из перечисленных шкал не относится к основным шкалам качественных признаков?
    шкала отношений
    5. Кто основал журнал «Эконометрика»?
    Р. Фриш
    6. Что из перечисленного может включать эконометрическое исследование на современном этапе развития при исследовании моделей по независимым неупорядоченным наблюдениям?
    оценку параметров модели
    7. В какой шкале есть естественная единица измерения, но нет естественного начала отсчета?
    в шкале разностей
    8. Кто из ученых создал теорию интегрированных моделей авторегрессии ¾ скользящего среднего?
    Дж. Бокс и Г. Дженкинс
    9. В какой системе каждая объясняемая переменная рассматривается как функция одного и того же набора факторов?
    в системе независимых уравнений
    10. Какая шкала измерений относится к шкалам количественных признаков?
    шкала интервалов
    11. Какие эконометрические модели разработали в 80 - в начале 90-х гг. Р.Э. Игл, Т. Боллеслев и Нельсон?
    модели авторегрессионной условной гетероскедастичности
    12. Какие шкалы измерений являются наиболее распространенными и удобными?
    шкалы отношений
    13. Какому ученому в 1980 г. присуждена Нобелевская премия за применение эконометрических моделей к анализу экономических колебаний и в экономической политике?
    Л. Клейну
    14. В какой стране было создано первое международное эконометрическое общество?
    в США
    15. Что из перечисленного является постоянной составляющей случайной величины?
    среднеарифметическое значение
    16. Что является целью эконометрики как науки? (по Э. Маленво)
    эмпирический анализ экономических законов
    17. Кто из исследователей придавал широкое толкование эконометрике, интерпретируя ее как любое применение математики или статистических методов к изучению экономических явлений?
    Э. Маленво
    18. Какие компоненты входят в состав случайных величин в процессе анализа?
    постоянная и случайная компоненты
    19. Чему равно среднее случайной компоненты, или остатка?
    0
    20. Кто впервые ввел термин «эконометрия»?
    П. Цьемпа
    21. Кто из отечественных ученых на союзном уровне описал динамику урожайности зерновых культур уравнениями с малым числом параметров?
    В. Обухов
    22. Какие разделы содержит эконометрика?
    моделирование данных, неупорядоченных во времени, и теория временных рядов
    23. Какие характеристики экономики невозможно измерить непосредственно?
    латентные характеристики
    24. Кто из ученых занимался проблемой цикличности?
    К. Жюгляр
    25. Кто является автором первой книги по эконометрике «Законы заработной платы: эссе по статистической экономике»?
    Г. Мур

    2 модуль
    1. Если регрессия значима, то
    Fнабл>Fкрит
    2. Что показывает величина коэффициента регрессии?
    среднее изменение результата с изменением фактора на одну единицу
    3. Что означает совпадение среднего от выборочной оценки с искомой неизвестной величиной соответствующего параметра для генеральной совокупности?
    несмещенность
    4. Какой является регрессия, если k= 2?
    множественной
    5. Чем характеризуется рассеяние (отклонение) точек наблюдения относительно кривой регрессии?
    остаточной регрессией
    6. Какой коэффициент является показателем тесноты связи?
    линейный коэффициент корреляции
    7. Какая величина равна просто средней от суммы квадратов остатков (отклонений)?
    остаточная регрессия
    8. Каким выражением определяется коэффициент корреляции, являющийся мерой линейной связи между случайными величинами x и y?
    r(x, y)=…
    9. Какого значения не должна превышать средняя ошибка аппроксимации?
    7-8%
    10. Кто ввел термин «регрессия»?
    Ф. Гальтон
    11. Какой коэффициент в функции потребления используется для расчета мультипликатора?
    коэффициент регрессии
    12. С помощью какого коэффициента определяется качество подбора линейной функции?
    с помощью коэффициента детерминации
    13. Каким выражением определяется выборочный коэффициент корреляции?
    r(x,y) с квадратами
    14. Что называют результативным признаком в регрессионном анализе?
    зависимую переменную
    15. Дисперсию какой переменной исследует дисперсионный анализ?
    зависимой переменной
    16. Какая регрессия характеризуется прозрачной интерпретацией параметров модели?
    линейная регрессия
    17. Какой коэффициент характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y?
    коэффициент детерминации
    18. Какой коэффициент показывает, на сколько процентов в среднем по совокупности изменится результат y от своей средней величины при изменении фактора x на 1% от его (фактора x) среднего значения?
    коэффициент эластичности
    19. Чему равна величина остаточной дисперсии, если фактические значения результативного признака совпадают с теоретическими или расчетными значениями?
    0
    20. Какой метод применяют для оценки параметров a, b уравнения регрессии?
    метод наименьших квадратов (МНК)
    21. Какой метод основан на требовании минимизации суммы квадратов отклонений фактических значений результативного признака от расчетных?
    метод наименьших квадратов
    22. При каком значении k регрессия называется парной?
    k= 1
    23. Что из перечисленного не относится к нелинейным регрессиям по оцениваемым параметрам?
    показательная функция
    24. Суть какой теоремы в том, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не оказывает преобладающего влияния на общий результат, то такая результирующая случайная величина будет описываться приблизительно нормальным распределением?
    центральной предельной теоремы
    25. Каким уравнением описывается линейная регрессия?
    y = a + bx + ε
    (3 ошибки)

    3 модуль ()1 ошибка
    1. Как проверяется гетероскедастичность моделей в асимптотическом тесте Бреуша и Пагана?
    по критерию c2(r)
    2. Какой критерий позволяет выбирать наилучшую модель из множества различных спецификаций и численно построен так, чтобы учесть влияние на качество подгонки модели двух противоположных тенденций?
    критерий Шварца
    3. По какой величине судят о качестве модели?
    по средней относительной ошибке аппроксимации
    4. Каким выражением описывается условие однородности (гомоскедастичности) наблюдений?
    s2(yu) =s2(hu+eu) =s2(eu) =s2
    5. Какой метод применим при условии диагональности матрицы ковариаций вектора ошибок?
    метод наименьших квадратов
    6. Каким выражением определяется абсолютная ошибка аппроксимации?
    yi-y1i=e
    7. Что понимается под мультиколлинеарностью?
    высокая степень коррелированности объясняющих переменных
    8. Какие переменные представляют собой исходные переменные, из которых вычитаются соответствующие средние, а полученная разность делится на стандартное отклонение?
    стандартизованные переменные
    9. Какая ошибка на контрольной выборке свидетельствует о хорошем качестве построенной модели?
    4-9%
    10. Каким методом может быть проведена оценка значимости мультиколлинеарности факторов?
    методом испытания гипотезы о независимости переменных
    11. Какая переменная должна выражаться в виде линейной функции от неизвестной переменной?
    замещающая переменная
    12. Дисперсии и ковариации ошибок наблюдений в обобщенной линейной модели множественной регрессии
    могут быть произвольными
    13. В чем заключается второй подход к решению проблемы гетероскедастичности?
    в построении моделей, учитывающих гетероскедастичность ошибок наблюдений
    14. Чем в простейшем случае парной регрессии является стандартизованный коэффициент регрессии?
    линейным коэффициентом корреляции
    15. Что из перечисленного используют для проверки гипотезы, если исследователь предполагает, что за время наблюдений произошли резкие структурные изменения в виде связей между зависимой и независимыми переменными?
    тест Чоу
    16. Чему равен определитель матрицы, если между факторами имеется полная линейная зависимость и все коэффициенты корреляции равны 1?
    0
    17. По какой формуле производят расчет коэффициентов модели при использовании метода гребневой регрессии?
    bгр= (XTX+DгрIk+ 1)-1XTY
    18. По какой формуле, согласно теореме Айткена, производится оценка коэффициентов модели?
    b= (X¢W-1X)-1X¢W-1Y
    19. Какой из перечисленных тестов не требует предположения о нормальности распределения регрессионных остатков?
    тест ранговой корреляции Спирмена
    20. Как называют переменную, которая должна быть в модели согласно правильной теории?
    существенной
    21. Чем ближе к единице значение определителя матрицы межфакторной корреляции, тем
    меньше мультиколлинеарность факторов
    22. Какой критерий используется для оценки значимости уравнения регрессии в целом?
    F-критерия Фишера
    23. Какой показатель фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов?
    показатель детерминации
    24. Какие коэффициенты позволяют исключать из модели дублирующие факторы?
    коэффициенты интеркорреляции
    25. Чему равно число степеней свободы остаточной суммы квадратов при линейной регрессии?
    n- 2
    Модуль 4
    1. Какие этапы включает в себя процесс структурного моделирования?
    все перечисленные этапы
    2. Суть какого метода заключается в частичной замене непригодной объясняющей переменной на такую переменную, которая не коррелирована со случайным членом?
    метода инструментальных переменных
    3. Что представляет переменная x, входящая в выражение?
    возмущающий процесс
    4. При каком условии общее решение разностного уравнения вида носит «взрывной» характер?
    при |a1|> 2
    5. Как называются взаимозависимые переменные, которые определяются внутри модели (внутри самой системы) и обозначаются у?
    эндогенными переменными
    6. В какой модели на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента?
    в сверхидентифицируемой
    7. Какие коэффициенты называются структурными коэффициентами модели?
    коэффициенты при эндогенных и экзогенных переменных в структурной форме модели
    8. Какой метод при ограниченной информации, называется методом наименьшего дисперсионного отношения?
    метод максимального правдоподобия
    9. Как называются переменные, относящиеся к предыдущим моментам времени?
    лаговыми переменными
    10. Если набор чисел X связан с другим набором чисел Y зависимостью Y= 4X, то дисперсия Y должна быть
    в 16 раз больше, чем дисперсия X
    11. Какой метод применяется для решения идентифицируемой системы?
    косвенный метод наименьших квадратов
    12. Какие переменные понимаются под предопределенными переменными?
    экзогенные переменные и лаговые эндогенные переменные
    13. Какой метод используют, если нужно всего лишь уточнить характер связей переменных?
    метод путевого анализа
    14. Что позволяет сделать построение моделей корреляционной структуры?
    проверить гипотезу о том, что матрица корреляции имеет определенный вид
    15. Какой является модель, если все ее структурные коэффициенты однозначно определяются по коэффициентам приведенной формы модели и при этом число параметров в обеих формах модели одинаково?
    идентифицируемой
    16. Каким выражением определяется зависимость потребления в год с номером t от дохода в предыдущий период y(t- 1)?
    C(t) =b+cy(t- 1)
    17. Как называются независимые переменные, которые определяются вне системы и обозначаются как х?
    экзогенными переменными
    18. При каком условии вся модель считается идентифицируемой?
    если идентифицируемо хотя бы одно уравнение системы
    19. В каком случае модель является неидентифицируемой?
    если число приведенных коэффициентов меньше числа структурных коэффициентов
    20. Какие переменные часто приходится вводить для учета влияния качественных факторов?
    фиктивные переменные
    21. Что позволяет сделать построение моделей структуры средних?
    исследовать структуру средних одновременно с анализом дисперсий и ковариаций
    22. Какие переменные могут включать в себя причинные модели?
    явные и латентные переменные
    23. При каком условии уравнение неидентифицируемо?
    если число предопределенных переменных, отсутствующих в уравнении, но присутствующих в системе, увеличенное на единицу, меньше числа эндогенных переменных в уравнении
    24. При решении выражения способом движения «назад» ошибки ei
    накапливаются
    25. Что позволяет сделать моделирование ковариационной структуры?
    проверить гипотезу о том, что матрица ковариации имеет определенный вид

    4 модуль
    1. О чем свидетельствуют большие значения, близкие к 1, величины (1 -а1) модели корректировки ошибок (МКО)?
    о том, что экономические факторы сильно изменяют результат
    2. На какое количество участков разбивается последовательность для проверки условия стационарности ряда?
    на два участка
    3. Для уменьшения амплитуды колебаний у сглаженного ряда Y(t)необходимо
    увеличивать ширину интервала сглаживания m
    4. Какое предположение является одним из априорных предположений при применении параметрических тестов для проверки стационарности?
    предположение о нормальном законе распределения значений временного ряда
    5. Что называется временным рядом?
    последовательность значений признака, принимаемых в течение нескольких последовательных моментов времени или периодов
    6. Как изменяется дисперсия сглаженного по квадратичному полиному ряда Y(t) при увеличении числа m уравнений?
    уменьшается
    7. Какие тренды коррелируют между собой?
    временные
    8. Что из перечисленного используют для проверки стационарности временного ряда?
    сериальный критерий стационарности
    9. Как называют корреляционную зависимость между последовательными уровнями временного ряда?
    автокорреляцией уровней ряда
    10. Как называется случайная переменная с переменной дисперсией?
    гетероскедастической
    11. При каком условии сглаживание ряда называется центрированным?
    при k=l
    12. Каким путем может быть исключен временной тренд из результирующей переменной?
    путем построения регрессии этой переменной по времени и перехода к остаткам, которые образуют новую стационарную переменную, уже свободную от тренда
    13. По какой формуле рассчитываются коэффициенты,если в качестве сглаживающего многочлена взять прямую?
    ar= 1/m
    14. Какая компонента объясняет отклонения от тренда с периодичностью от 2 до 10 лет?
    циклическая компонента
    15. Что в выражении обозначают параметром L?
    функцию правдоподобия
    16. Какая последовательность является белым шумом?
    если каждая случайная величина последовательности имеет нулевое среднее и некоррелирована с другими элементами последовательности
    17. К какому классу принадлежит ряд, если он содержит единичные корни и интегрируем с порядком d?
    I(d)
    18. Как называется стохастическая переменная с постоянной дисперсией?
    гомоскедастическая переменная
    19. Какой принцип разработки прогнозов предполагает соответствие, максимальное приближение теоретических моделей к реальным производственно-экономическим процессам?
    адекватность прогнозирования
    20. Как называется число значений исходного ряда, одновременно участвующих в сглаживании?
    шириной интервала сглаживания
    21. Что относится к основным принципам разработки прогнозов?
    системность, адекватность, альтернативность
    22. Для чего применяется сериальный критерий стационарности?
    для проверки стационарности временного ряда
    23. Как называется модель вида?
    авторегрессионной условной гетероскедастической моделью (АРУГ-моделью)
    24. Что представляет уравнение?
    АРСС-процесс для {et2}-последовательности
    25. Какие переменные используются в процессе случайного блуждания?
    некоррелированные нестационарные переме