Увеличение обучения MSE в частном случае множественной линейной регрессии

Question

Увеличение обучения MSE в частном случае множественной линейной регрессии

1

Я делаю специальный случай множественной линейной регрессии с переменными x1, x2 и y. Для фиксированной степени я предикторные переменные x1, x1 ^ 2, x1 ^ 3... x1 ^ i, x2, x2 ^ 2, x2 ^ 3... x2 ^ i, x1 * (x2 ^ (i- 1)), (x1 ^ 2) (x2 ^ (i-2))... (x1 ^ (i-1)) (x2), и я предсказываю y. Я использовал 10-кратный метод перекрестной проверки для поиска лучшего я от 1 до 10. Результат - 3, но как обучение, так и тестирование MSE увеличиваются после я = 3. Мне интересно, почему даже обучение MSE увеличивается? Если я добавлю больше предикторов, разве это не уменьшится? X1s и x2s находятся между 0 и 100, а y - между 90 и 200.

Amanda 03 дек. 2018, в 22:53

Источник

0

Не могли бы вы опубликовать ссылку на данные?
James Phillips 04 дек. 2018, в 00:22

Теги:

python

machine-learning

r

validation

regression

linear-regression

1 ответ

Ещё вопросы

Не могли бы вы опубликовать ссылку на данные?

nixon · Answer 1 · 2018-12-03T20-06-00.000Z

Какой алгоритм вы используете? Некоторые алгоритмы, такие как xgb, не работают хуже, имея большое количество потенциально бесполезных функций, так как каждый оценщик будет выбирать лучшие предиктора как высокие узлы каждого дерева, тем самым уже выполняя выбор функции для целей обучения.

Однако в некоторых других случаях добавление бесполезных функций может снизить производительность алгоритмов ML, как если бы не была связь между функцией и зависимой переменной, это может отрицательно повлиять на производительность модели, поскольку новые функции добавляют "шум" к модель, и поэтому она пытается учиться на этих шумных функциях.