Увеличение обучения MSE в частном случае множественной линейной регрессии

1

Я делаю специальный случай множественной линейной регрессии с переменными x1, x2 и y. Для фиксированной степени я предикторные переменные x1, x1 ^ 2, x1 ^ 3... x1 ^ i, x2, x2 ^ 2, x2 ^ 3... x2 ^ i, x1 * (x2 ^ (i- 1)), (x1 ^ 2) (x2 ^ (i-2))... (x1 ^ (i-1)) (x2), и я предсказываю y. Я использовал 10-кратный метод перекрестной проверки для поиска лучшего я от 1 до 10. Результат - 3, но как обучение, так и тестирование MSE увеличиваются после я = 3. Мне интересно, почему даже обучение MSE увеличивается? Если я добавлю больше предикторов, разве это не уменьшится? X1s и x2s находятся между 0 и 100, а y - между 90 и 200.

  • 0
    Не могли бы вы опубликовать ссылку на данные?
Теги:
machine-learning
validation
regression
linear-regression

1 ответ

0

Какой алгоритм вы используете? Некоторые алгоритмы, такие как xgb, не работают хуже, имея большое количество потенциально бесполезных функций, так как каждый оценщик будет выбирать лучшие предиктора как высокие узлы каждого дерева, тем самым уже выполняя выбор функции для целей обучения.

Однако в некоторых других случаях добавление бесполезных функций может снизить производительность алгоритмов ML, как если бы не была связь между функцией и зависимой переменной, это может отрицательно повлиять на производительность модели, поскольку новые функции добавляют "шум" к модель, и поэтому она пытается учиться на этих шумных функциях.

Ещё вопросы

Сообщество Overcoder
Наверх
Меню