Документация featuretools указывается в самом первом предложении:
"Featuretools - это основа для автоматизации автоматизированных функций, которая превосходит трансформацию временных и реляционных наборов данных в функциональные матрицы для машинного обучения".
Это, по-видимому, означает, что набор данных должен иметь столбец datetime. Я просто хочу, чтобы это подтвердило, что это так. То есть, например, я не могу использовать его в наборе данных "iris" для создания новых функций? Если для набора данных не требуется переменная времени, как использовать ее для генерации функций в наборе данных "iris". Буду благодарен за ответ. Благодарю.
Featuretools работает для реляционных наборов данных с датами или без них, и в ответ на ваш вопрос Featuretools может создавать функции для одной таблицы без даты и времени. Для набора данных диафрагмы существует только одна таблица и нет немедленных функций для нормализации (создание новой таблицы из существующей таблицы), поэтому вы должны использовать примитивы преобразования для создания новых функций.
EntitySet
entity
transform
вы хотите.Вот полный рабочий пример:
from sklearn.datasets import load_iris
import pandas as pd
import featuretools as ft
# Load data and put into dataframe
iris = load_iris()
df = pd.DataFrame(iris.data, columns = iris.feature_names)
df['species'] = iris.target
df['species'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})
# Make an entityset and add the entity
es = ft.EntitySet(id = 'iris')
es.entity_from_dataframe(entity_id = 'data', dataframe = df,
make_index = True, index = 'index')
# Run deep feature synthesis with transformation primitives
feature_matrix, feature_defs = ft.dfs(entityset = es, target_entity = 'data',
trans_primitives = ['add', 'multiply'])
feature_matrix.head()
Первые пять строк функциональной матрицы:
sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) species petal width (cm) + sepal width (cm) petal length (cm) + petal width (cm) petal length (cm) + sepal length (cm) petal length (cm) + sepal width (cm) sepal length (cm) + sepal width (cm) petal width (cm) + sepal length (cm) petal length (cm) * sepal width (cm) sepal length (cm) * sepal width (cm) petal width (cm) * sepal length (cm) petal width (cm) * sepal width (cm) petal length (cm) * sepal length (cm) petal length (cm) * petal width (cm) petal width (cm) + sepal width (cm) * sepal length (cm) + sepal width (cm) petal width (cm) + sepal width (cm) * sepal length (cm) petal length (cm) + petal width (cm) * petal width (cm) petal width (cm) + sepal length (cm) * sepal length (cm) petal length (cm) * petal width (cm) + sepal length (cm) petal width (cm) * sepal length (cm) + sepal width (cm) petal length (cm) + sepal length (cm) * sepal width (cm) petal length (cm) + petal width (cm) * sepal length (cm) petal length (cm) + sepal length (cm) * petal width (cm) + sepal width (cm) petal length (cm) + sepal length (cm) * sepal length (cm) + sepal width (cm) petal length (cm) * sepal length (cm) + sepal width (cm) petal length (cm) + sepal width (cm) * sepal length (cm) + sepal width (cm) petal length (cm) + sepal width (cm) * sepal length (cm) petal length (cm) + petal width (cm) * petal length (cm) + sepal length (cm) petal length (cm) + sepal length (cm) * petal width (cm) petal length (cm) + sepal width (cm) * sepal width (cm) petal length (cm) + petal width (cm) * petal length (cm) + sepal width (cm) sepal length (cm) + sepal width (cm) * sepal width (cm) petal length (cm) + sepal length (cm) * petal width (cm) + sepal length (cm) petal width (cm) + sepal length (cm) * sepal length (cm) + sepal width (cm) petal length (cm) + petal width (cm) * petal width (cm) + sepal width (cm) petal length (cm) + sepal width (cm) * petal width (cm) + sepal length (cm) petal length (cm) * petal length (cm) + sepal length (cm) petal width (cm) * petal width (cm) + sepal width (cm) petal length (cm) + petal width (cm) * sepal length (cm) + sepal width (cm) petal length (cm) * petal width (cm) + sepal width (cm) petal length (cm) + sepal width (cm) * petal width (cm) petal length (cm) * petal length (cm) + petal width (cm) petal length (cm) + petal width (cm) * sepal width (cm) petal length (cm) + sepal length (cm) * sepal length (cm) petal width (cm) + sepal length (cm) * sepal width (cm) petal length (cm) * petal length (cm) + sepal width (cm) petal width (cm) + sepal width (cm) * sepal width (cm) petal length (cm) + sepal length (cm) * petal length (cm) + sepal width (cm) sepal length (cm) * sepal length (cm) + sepal width (cm) petal width (cm) * petal width (cm) + sepal length (cm) petal length (cm) + sepal width (cm) * petal width (cm) + sepal width (cm) petal length (cm) + petal width (cm) * petal width (cm) + sepal length (cm) petal width (cm) + sepal length (cm) * petal width (cm) + sepal width (cm)
index
0 5.1 3.5 1.4 0.2 setosa 3.7 1.6 6.5 4.9 8.6 5.3 4.90 17.85 1.02 0.70 7.14 0.28 31.82 18.87 0.32 27.03 7.42 1.72 22.75 8.16 24.05 55.90 12.04 42.14 24.99 10.40 1.30 17.15 7.84 30.10 34.45 45.58 5.92 25.97 9.10 0.74 13.76 5.18 0.98 2.24 5.60 33.15 18.55 6.86 12.95 31.85 43.86 1.06 18.13 8.48 19.61
1 4.9 3.0 1.4 0.2 setosa 3.2 1.6 6.3 4.4 7.9 5.1 4.20 14.70 0.98 0.60 6.86 0.28 25.28 15.68 0.32 24.99 7.14 1.58 18.90 7.84 20.16 49.77 11.06 34.76 21.56 10.08 1.26 13.20 7.04 23.70 32.13 40.29 5.12 22.44 8.82 0.64 12.64 4.48 0.88 2.24 4.80 30.87 15.30 6.16 9.60 27.72 38.71 1.02 14.08 8.16 16.32
2 4.7 3.2 1.3 0.2 setosa 3.4 1.5 6.0 4.5 7.9 4.9 4.16 15.04 0.94 0.64 6.11 0.26 26.86 15.98 0.30 23.03 6.37 1.58 19.20 7.05 20.40 47.40 10.27 35.55 21.15 9.00 1.20 14.40 6.75 25.28 29.40 38.71 5.10 22.05 7.80 0.68 11.85 4.42 0.90 1.95 4.80 28.20 15.68 5.85 10.88 27.00 37.13 0.98 15.30 7.35 16.66
3 4.6 3.1 1.5 0.2 setosa 3.3 1.7 6.1 4.6 7.7 4.8 4.65 14.26 0.92 0.62 6.90 0.30 25.41 15.18 0.34 22.08 7.20 1.54 18.91 7.82 20.13 46.97 11.55 35.42 21.16 10.37 1.22 14.26 7.82 23.87 29.28 36.96 5.61 22.08 9.15 0.66 13.09 4.95 0.92 2.55 5.27 28.06 14.88 6.90 10.23 28.06 35.42 0.96 15.18 8.16 15.84
4 5.0 3.6 1.4 0.2 setosa 3.8 1.6 6.4 5.0 8.6 5.2 5.04 18.00 1.00 0.72 7.00 0.28 32.68 19.00 0.32 26.00 7.28 1.72 23.04 8.00 24.32 55.04 12.04 43.00 25.00 10.24 1.28 18.00 8.00 30.96 33.28 44.72 6.08 26.00 8.96 0.76 13.76 5.32 1.00 2.24 5.76 32.00 18.72 7.00 13.68 32.00 43.00 1.04 19.00 8.32 19.76
Подробнее о примитивах см. Здесь и список всех примитивов преобразования, см. Здесь.
Featuretools лучше всего работает для реляционных наборов данных со многими таблицами, но он также может хорошо работать для одиночных таблиц. Существует несколько демонстраций, работающих из одной таблицы, где сущность нормализована для создания нескольких таблиц. Хорошим примером этого метода является проект продолжительности поездки на такси.
С набором данных диафрагмы есть только 4 числовые особенности - если предположить, что вы предсказываете вид, - и они непосредственно не делают для значений, которые вы можете нормализовать. Однако вы можете применить метод кластеризации, такой как кластеризация KMeans, к числовым функциям, а затем создать объект на основе назначений кластера. Пример этого метода прогнозируемого срока полезного использования.