Преобразуйте значения groupby в список массивов [duplicate]

Question

Преобразуйте значения groupby в список массивов [duplicate]

1

Здесь образец данных:

label  data
a      1.09
b      2.1
a      5.0
b      2.0
c      1.9

Я хочу, чтобы

arr = [[1.09, 5.0], [2.1, 2.0],[1.9]]

предпочтительно в виде списка массивов numpy.

Я знаю, что df.groupby.groups.keys() дает мне список ['a','b','c'], а df.groupby.groups.values() дает мне что-то вроде arr, но как Int64Index объект. Тем не менее, я попробовал df.loc[df.groupby.groups.values()]['label'] и он не получил желаемого результата.

Как это сделать? Спасибо!

irene 21 июнь 2018, в 08:31

Источник

Теги:

python

pandas

1 ответ

Ещё вопросы

coldspeed · Accepted Answer · 2018-06-21T03-53-00.000Z

предпочтительно в виде списка массивов numpy.

Предпочтительно нет, потому что вы просите оборванные массивы, а это значит, что внутренние массивы (AKA, строки) не имеют одинаковой длины. Это неудобно для numpy, то есть он не может хранить эти массивы эффективно, как массивы C внутри. Он заканчивается тем, что возвращается к медленным объектам python.

В этой ситуации я бы рекомендовал вложенные списки python. Это достижимо через groupby + apply.

lst = df.groupby('label')['data'].apply(pd.Series.tolist).tolist()
print(lst)
[[1.09, 5.0], [2.1, 2.0], [1.9]]

Я получаю эту ошибку, хотя: AttributeError: 'DataFrameGroupBy' object has no attribute 'data'
@irene мммм это должно быть название твоей колонки? Попробуйте еще раз с немного другим синтаксисом, пожалуйста (отредактируйте ^).
Разве это не похоже на это? stackoverflow.com/questions/22219004/...
@ Темно-да. Я оставлю это здесь из-за небольшого учебника по массивам :)
О, ха-ха, я вижу. Спасибо! Также гарантируется, что это соответствует порядку в df.groupby('label').groups.keys() ? @coldspeed
@coldspeed Кроме того, это не дубликат stackoverflow.com/questions/22219004/… хочу получить список списков, другой ищет фрейм данных. Спасибо за ответ, хотя.
@irene Хм, это хороший вопрос. Я думаю, что порядок гарантирован, когда вы делаете df.groupby('label', sort=False).groups.keys() .
@coldspeed В качестве альтернативы я могу попробовать df.groupby('label', sort=True)['data'].apply(pd.Series.tolist).tolist() ? Это будет более безопасный вариант?
@irene безопаснее? Зависит от того, что ты хочешь? Но с sort=True вам гарантирован одинаковый порядок для тех же ключей.
@coldspeed Я просто хочу убедиться, что знаю, какой ключ соответствует какому массиву в списке. Спасибо!