ValueError: X.shape [1] = 2 должно быть равно 13, количество функций во время обучения

Question

ValueError: X.shape [1] = 2 должно быть равно 13, количество функций во время обучения

1

Я пытаюсь предсказать данные о раке легкого, используя классификатор документов SVM, используя scikit-learn, и я использую следующий код, но получаю некоторую ошибку. Я использовал matplotlib.pyplot as plt для графика данных, но получал ошибку.

Здесь я использую фактор риска данных о раке легких.

Входной файл

GENDER  AGE SMOKING YELLOW_FINGERS  ANXIETY PEER_PRESSURE   CHRONIC DISEASE FATIGUE     ALLERGY     WHEEZING    ALCOHOL CONSUMING   COUGHING    SHORTNESS OF BREATH SWALLOWING DIFFICULTY   CHEST PAIN  LUNG_CANCER
F   59  0   0   0   1   0   1   0   1   0   1   1   0   1   0
F   63  0   1   0   0   0   0   0   1   0   1   1   0   0   0
F   75  0   1   0   0   1   1   1   1   0   1   1   0   0   1
M   69  0   1   1   0   0   1   0   1   1   1   1   1   1   1
M   74  1   0   0   0   1   1   1   0   0   0   1   1   1   1
M   63  1   1   1   0   0   0   0   0   1   0   0   1   1   0

Скрипт SVM

# Support Vector Machine (SVM)

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
X = dataset.iloc[:, [2,3,4,5,6,7,8,9,10,11,12,13,14]].values
y = dataset.iloc[:, 15].values

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Fitting SVM to the Training set
from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Training set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()

# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Test set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()

ошибка

ValueError: X.shape[1] = 2 should be equal to 13, the number of features at training time

В этом, как я получаю ошибку

plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
         alpha = 0.75, cmap = ListedColormap(('red', 'green')))

Почему я получаю ошибку, пожалуйста, предложите мне что-нибудь. Благодарю вас в adavance.

Edit_1

График вывода тестового набора SVM

SVM Training Set output graph

Может кто-нибудь, пожалуйста, дайте мне знать. Это правильный вывод или нет?

заранее спасибо

Vish 21 июнь 2018, в 20:55

Источник

Теги:

python

machine-learning

matplotlib

python-3.x

1 ответ

Ещё вопросы

ascripter · Accepted Answer · 2018-06-23T09-09-00.000Z

Независимо от исключения, я думаю, что есть несколько аспектов для решения.

Само исключение вызвано тем, что вы предоставляете только 2 переменных в качестве входных данных для classifier.predict Представьте, пока ваша модель обучается 13 переменным. Вам нужно будет установить остальные 11 переменных для значения по умолчанию, если вы хотите построить контур над 2 из них.
```
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
Xpred = np.array([X1.ravel(), X2.ravel()] + [np.repeat(0, X1.ravel().size) for _ in range(11)]).T
# Xpred now has a grid for x1 and x2 and average value (0) for x3 through x13
pred = classifier.predict(Xpred).reshape(X1.shape)   # is a matrix of 0 and 1 !
plt.contourf(X1, X2, pred,
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
```
Этот фрагмент будет работать, однако он, вероятно, не даст вам то, что вы хотите. С некоторыми случайными биномиальными данными вы получаете цифровой красный-зеленый график, как показано ниже. Выход SVC.predict является двоичной матрицей, а не вероятностями.
Вы можете нарисовать функцию decision_function как результат предсказания, который визуализирует расстояние до разделительной гиперплоскости. Это можно интерпретировать как фактор риска. Однако это не вероятность
```
pred = classifier.decision_function(Xpred).reshape(X1.shape)    
plt.contourf(X1, X2, pred,
             alpha=1.0, cmap="RdYlGn", levels=np.linspace(pred.min(), pred.max(), 100))
```
Я вижу еще одну проблему с вашим набором данных. Кажется, у него 15 столбцов. Тогда я ожидал бы строку y = dataset.iloc[:, 15].values чтобы поднять IndexError. Если это не так, проверьте целостность вашего набора данных. Был ли он импортирован правильно pd.read_csv?
Также вы выбрасываете информацию из первых двух столбцов, GENDER и AGE. Для пола вы можете преобразовать F в 0 и M в 1 например, а также включить возраст в X:
```
dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
dataset.loc[dataset['GENDER'] == 'F', 'GENDER'] = 0
dataset.loc[dataset['GENDER'] == 'M', 'GENDER'] = 1
X = dataset.iloc[:, 0:14].values
y = dataset.iloc[:, 14].values
```

Надеюсь, это поможет. Если при работе над вашим предполагаемым решением возникнет другой вопрос, и вы не можете найти ответ своим собственным исследованием, не стесняйтесь спрашивать :)

РЕДАКТИРОВАТЬ

Обращаясь к вашему второму вопросу относительно правильности графика рассеяния: я не знаю, как вы сделали этот сюжет, но, используя свой код для графика рассеяния, построенного поверх функции решения, я получаю следующее (с данными о раке легкого вы предоставили)

y - двоичная переменная. Поэтому np.unique(y_set) совпадает с [0, 1]. Я не знаю, как вы получаете столбчатую структуру данных с этим кодом. Мне жаль, что я даже не знаю, чего вы на самом деле пытаетесь достичь с этим сюжетом, поэтому я не могу сказать, отображает ли он то, что вы хотите отобразить.

Я пытаюсь предсказать рак легкого, используя данные о раке легкого (как мне известно), основанные на другом факторе риска. Почему мой график отличается от вашего. Можете ли вы отредактировать свой код. Пожалуйста, предложите что-нибудь, что может мне помочь
Я понимаю, что вы хотите предсказать . Я просто не понимаю, что именно вы пытаетесь визуализировать . Намереваетесь ли вы спроецировать ваши масштабированные точки данных на плоскость первых двух измерений (которые в соответствии с вашим текущим кодом обозначают КУРИТЬ и ЖЕЛТЫЕ ФИНГЕРЫ), сгруппированных по раку легких: да (красный) / нет (зеленый)?
Да - Красный, Нет - зеленый, (SMOKING и YELLOW_FINGERS, ...... другие столбцы закодированы 0 означает нет, 1 означает - да) одинаково для всех факторов риска.
Тогда вы получите по природе данных только четыре позиции, в которых агрегируются все точки. Я plt.scatter(X_set[:, 0], X_set[:, 1], c=np.where(y_set==0, 'green', 'red')) их с помощью plt.scatter(X_set[:, 0], X_set[:, 1], c=np.where(y_set==0, 'green', 'red')) . Ваш StandardScaler преобразует целые числа в числа с плавающей точкой, но каждое измерение ваших данных будет содержать только два разных значения. у вас всегда будет 13-мерная сетка данных с двумя уровнями для каждого измерения. Все, что вы наметили, чтобы разбросать точки дальше, должно быть чем-то другим.
Можете ли вы предложить лучший способ визуализации моих предсказанных данных
Пожалуйста, предложите мне что-нибудь для того же