Регрессионный анализ. Пример построения математической модели процесса механообработки по экспериментальным данным

Модель множественной регрессии

Дана модель множественной регрессии:

Номер предприятия

Номер предприятия

Постановка задачи

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации.

5. С помощью частных -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после.

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Процесс построения модели множественной регрессии

Найдем средние квадратические отклонения признаков:

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо воспользоваться готовыми формулами:

Рассчитаем сначала парные коэффициенты корреляции:

Таким образом, получили следующее уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,627% или 0,170% соответственно.

Таким образом, подтверждается большее влияние на результат фактора, чем фактора.

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к.). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить с помощью следующих формул:


Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 78,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 96%) детерминированность результата в модели факторами и.

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:

В нашем случае фактическое значение -критерия Фишера:

Получили, что (при), т.е. вероятность случайно получить такое значение -критерия не превышает допустимый уровень значимости. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи.

6. С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

Найдем и.

Получили, что. Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после, то результат расчета частного -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта. Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора.

Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор. Если исключить фактор, то можно ограничиться уравнением парной регрессии:

Предметом регрессионного анализа является исследование зависимости случайной величины от совокупности случайных и неслучайных величин. Регрессионный анализ позволяет на основе выборочных наблюдений создать математическую модель зависимости результативного признака от факторных признаков.

В зависимости от количества факторных признаков модель регрессии может быть парной и многомерной. Запишем в общем виде зависимость результативного признака от совместного и одновременного влияния факторных признаков
(- количество факторных признаков)

(3.28)

где
- функция регрессии, которая выражает объективную закономерную зависимость результативного признака от совместного влияния факторных признаков;- случайная величина, выражающая влияние неконтролируемых и неучтенных факторов, а также ошибок измерения.

Из выражения (3.28) имеем

(3.29)

т.е. - отклонение результативного признака от среднего значения, вычисленного по функции регрессии.

Оценкой функции регрессии является уравнение регрессии

Для парной линейной регрессии выражение (3.28) имеет вид:

(3.31)

где
- параметры функции регрессии. Запишем уравнение регрессии для этого случая

(3.32)

где
- оценки параметров функции регрессии - параметры уравнения регрессии или просто параметры регрессии.

Методика получения уравнений парной линейной регрессии приведена в параграфах 3.7 и 3.10.

Парный нелинейный регрессионный анализ

Пусть по виду корреляционного поля точек предполагается нелинейная зависимость результативного признака от факторного признака. Запишем в общем виде уравнение парной нелинейной регрессии

(3.33)

Требуется определить параметры регрессии с помощью метода наименьших квадратов, математическая запись которого имеет вид:

и надстройки «Поиск решения».

Размещение информации на рабочем месте ЭТ при определении параметров регрессии примера 3.5 с помощью надстройки “Поиск решения” представлено в таблице 3.15.

Таблица 3.15. Размещение информации

Значение целевой функции

F2: = СУММКВРАЗН (e4:e18; d4:d18);

E4: = СУММПРОИЗВ(a4:c4;$a$2:$c$2);

H2: =КОРРЕЛ(d4:d18;e4:e18);I2: =СРЗНАЧ(d4:d18).

Результаты решения представлены в таблице 3.16.

Таблица 3.16. Результаты расчета

Анализ результатов расчета. В итоге расчета получено:

      уравнение парной нелинейной регрессии


На рис.3.7 представлено уравнение парной нелинейной регрессии, полученное путем построения линии тренда. Анализ уравнений подтверждает их идентичность. Сравнение результатов расчета при парном линейном и нелинейном регрессионном анализе показывает, что они отличаются незначительно, т.е. для рассматриваемых признаков можно принять линейную модель регрессии.

Рис. 3.7. Уравнение линии тренда

Многомерный линейный регрессионный анализ

Обобщенная математическая модель многомерной линейной функции регрессии (3.28) имеет вид

где – количество факторных признаков;
– результативный признак;– отклонение;
– параметры функции регрессии.

Уравнение многомерной линейной регрессии для этого случая

Требование к факторным признакам, включаемым в математическую модель: факторы должны быть независимы друг от друга. Нарушение этого условия называется мультиколлинеарностью.

Коэффициенты уравнения регрессии получают с помощью инструмента «Регрессия» пакета анализа.

Анализ качества полученной модели проводится аналогично анализу парной линейной регрессии.

Методы множественной линейной регрессии, которые мы обсуждаем, могут быть очень полезными, но также и очень опасными, если они неверно используются или интерпретируются. Прежде чем приступать к большой задаче с применением методов множественной регрессии, имеет смысл, насколько это возможно, предварительно спланировать всю работу применительно к конкретной цели и наметить контрольные мероприятия, проводимые по ходу дела. Такое планирование будет предметом данной главы. Прежде, однако, мы обсудим три основных типа математических моделей, часто используемые в науке:

1. Функциональная модель.

2. Модель для управления.

3. Модель для предсказания.

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ

Если в некоторой задаче известна «истинная» функциональная связь между откликом и предикторами, то экспериментатор в силах понять и предсказать отклик, да и управлять им 1. Однако в жизни редко встречаются ситуации, когда можно предложить подобную модель. Но даже и в этих случаях функциональные уравнения обычно очень сложны, трудны для понимания и применения и имеют чаще всего нелинейный вид. В наиболее сложных случаях может потребоваться численное интегрирование таких уравнений. Примеры нелинейных моделей упоминались в гл. 5, а их построение будет обсуждаться в гл. 10. Для таких моделей линейные регрессионные методы неприменимы или применимы только для аппроксимации истинных моделей в итеративных процедурах оценивания.

Модель для управления

Функциональная модель, даже если она известна полностью, не всегда пригодна для управления выходной переменной (откликом). Например, в задаче про пар, используемый на заводе, одна из наиболее важных переменных - наружная температура, а она

ничего лучшего, можно выбрать и линию поведения для дальнейшего экспериментирования, уточнив важные переменные, и, что очень полезно, отсеять несущественные переменные.

Вместе с тем применение множественной регрессии требует особой осторожности, чтобы избежать непонимания и неверных выводов. Организация схемы для решения задач с помощью методов множественного регрессионного анализа не только полезна, но и необходима.

Рис. 8.1. Блок-схема процедуры построения модели

Эта глава - только план, а любое использование предложенной или подобной схемы будет требовать специальной «настройки» на конкретную ситуацию.

Хотя приведенный ниже план предназначен для разработки предсказывающей математической модели, он является достаточно общим; им можно воспользоваться при построении как функциональных, так и управляющих моделей. Особое внимание обратим на задачи с «неуправляемыми данными». Схема делится на три стадии - планирование, разработку и использование. Блок-схема приведена на рис. 8.1, и в дальнейшем она будет детально обсуждена.

Пусть задан некоторый стохастический объект, входная и выходная координата которого Х и Y являются случайными величинами.

На Y влияет не только входная координата Х, но и случайная помеха Z (нестабильность режима работы объекта, стохастические воздействия среды, погрешности изменений Y и т.д.). Поэтому нельзя говорить о функциональной зависимости Y от Х. В подобных случаях следует говорить о наличии стохастической связи между переменными Х и Y объектов статики.

Случайные величины Х и Y являются зависимыми, если закон распределения вероятностей одной из них зависит от значения другой.

- условно интегральный закон распределения вероятностей;

- условная плотность распределения вероятностей;

Предположим, можно установить, что , тогда поведение сложной величины Y будет полностью характеризоваться условной плотностью распределения вероятностей .

Обозначим условные числовые характеристики Y:

- математическое ожидание;

Дисперсия;

Не зависит от х, а параметры функции плотности и зависит от того, какое значение х примет величина Х. Зависимость х называется регрессионной.

- регрессионная зависимость, показывает, как изменяется среднее значение Y при изменении Х. Если соединить плавными линиями точки, то получим линию регрессии. Эта линия есть статическая характеристика объекта.

Уравнением регрессии называют функцию f(x), описывающую линию регрессии. Уравнения регрессии классифицируют на линейные и нелинейные. При построении регрессионной модели объекта широко применяется пассивный метод идентификации.

Этот метод применяют при изучении статики объекта, уравнений помех, а также в тех случаях, когда недопустимы величины исходных возмущений на входе объекта. Пассивный метод идентификации основан на получении статической информации об объекте по данным его нормальной эксплуатации. Затем реализация входных х и выходных y величин обрабатываются т.о., чтобы определить регрессивную модель.



, где - вектор коэффициентов модели.

Определение уравнения регрессии состоит из 2 этапов:

1. выбор типа уравнения регрессии – осуществляется либо путем эмпирического выбора типа уравнения регрессии по виду корреляционного поля между входными и выходными величинами, либо путем теоретического изучения закономерности физического процесса, отражением которого является стохастическая связь между этими величинами. Иногда оба подхода используются в сочетании друг с другом.

2. расчет коэффициентов уравнения регрессии – чаще всего выполняется методом наименьших квадратов .

Следует отметить, что пассивный статический метод имеет ряд существенных недостатков по сравнению с активным методом:

1.получение модели объекта справедливо только в пределах используемого экспериментального статического материала.

2.трудно разделить эффекты от корреляции части входных величин многомерного объекта.

3.индивидуальные коэффициенты регрессии не имею какого-либо физического смысла.

4.не извлекается информация об ошибке опыта.

5.требуется получить большой объем экспериментальных данных и производить трудоемкие вычисления.

Указанные недостатки в значительной степени снижают ценность модели, полученной пассивным методом. К этому методу прибегают только в тех случаях, когда другие методы не могут быть использованы.

Предварительный анализ экспериментального статического материала составляет основную задачу корреляционного анализа при идентификации стохастического объекта. При этом суть корреляционного анализа сводится к оценке силы стохастической связи между случайными величинами Х и Y и по установлению вида зависимости между ними в виде уравнения регрессии. Чтобы предварительно определить наличие характерной связи между Х и Y наносят экстремальные точки и . На графике строят корреляционное поле.


а-сильноотрицательная корреляция

б-сильноположительная корреляция

в-слабоположительная корреляция

г,д-отсутствие корреляции

По тесноте группирования точек вокруг прямой возможно судить о корреляционной связи.

Корреляционное поле характеризует вид связи между Х и Y, т.е. наличие линейной и нелинейной зависимости:

Существует 3 вида корреляции:

1)линейная;

2)нелинейная;

3)множественная;

При линейной корреляции линейная регрессия апраксимируется уравнением прямой, при нелинейной – уравнением кривой. Множественная корреляция определяет связь между многими величинами и при этом используется уравнение множественной регрессии. Наиболее распространенной является линейная корреляция. Понятие корреляции дает возможность судить о том, насколько тесно находятся экспериментальные точки на апраскимированной кривой линии регрессии.

Если регрессия определяет предполагаемые соотношения между переменными, то корреляция показывает, насколько хорошо это соотношение отражает действительность.

Задача стохастического объекта ставится таким образом: по данным выборки объема n оценить силу (тесноту) корреляционной связи между Х и Y, найти уравнение регрессии и оценить допустимую ошибку.

Суть регрессионного анализа : построение математической модели и определение ее статистической надежности.

Вид множественной линейной модели регрессионного анализа: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i где e i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s .

Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии b j показывает, на какую величину в среднем изменится результативный признак Y , если переменную X j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y (n x 1) наблюдаемых значений результативного признака (y 1 , y 2 ,..., y n );
X - матрица размерности [n x (k+1) ] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1 ] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b 0 , b 1 ,..., b k . Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X i и Y :

  • получить наилучшие оценки неизвестных параметров b 0 , b 1 ,..., b k ;
  • проверить статистические гипотезы о параметрах модели;
  • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

  1. выбор формы связи (уравнения регрессии);
  2. определение параметров выбранного уравнения;
  3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
  • Множественная регрессия с одной переменной
  • Множественная регрессия с тремя переменными

Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее.

Пример решения нахождения модели множественной регрессии

Множественная регрессия с двумя переменными

Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2:

Для решения системы можете воспользоваться
2) Или использовав формулы


Для этого строим таблицу вида:

Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z" jj - j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

Приэтом:

где m - количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


Или

или
,,.
Здесьr 12 - выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1-α ) неизвестное значение параметра β j, определяется как

Множественная регрессия в Excel

Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
где Y - массив для значений Y
где X - массив для значений X (указывается как единый массив для всех значений Х i)

Проверка статистической значимости коэффициентов уравнения множественной регрессии

Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента b j , то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2:

Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

Соотношение может быть представлено вследующем виде:

для m>1. С ростом значения m


Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R 2 =0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R 2 статистически значим.

Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии

Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

При этом проверяется некоррелированность соседних величин e i ,i=1,2,…n..
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α , числа наблюдений n и количества объясняющих переменных m .

Частные коэффициенты корреляции при множественной регрессии

Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 и так далее и для каждой пары находится коэффициент корреляции
Вычисления в MS Excel . Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
1) Выполнить команду Сервис / Анализ данных / Корреляция .
2) Указать диапозон данных;

Проверка общего качества уравнения множественной регрессии

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2 :

Справедливо соотношение 0 < =R 2 < = 1 . Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y .
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:

Соотношение может быть представлено в следующем виде:

для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R 2 = 1. может принимать отрицательные значения.
Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
Показатели F и R 2 равны или не равен нулю одновременно. Если F=0 , то R 2 =0, следовательно, величина Y линейно не зависит от X 1 ,X 2 ,…,X m .Расчетное значение F сравнивается с критическим Fкр. Fкр , исходя из требуемого уровня значимости α и чисел степеней свободы v 1 = m и v 2 = n - m - 1 , определяется на основе распределения Фишера. Если F > Fкр , то R 2 статистически значим.

Понравилось? Лайкни нас на Facebook