Как сделать преобразование NaN >> [''] во все элементы Pandas Dataframe?

Question

Как сделать преобразование NaN >> [''] во все элементы Pandas Dataframe?

1

import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [[1, 2, 3, 4], [4, 5, 6, 7, 8], [7, 6, 4], np.nan, [1, 2]],
    'B': [[1, 2, 3, 4], [4, 5, 6, 7, 8], [3, 7, 9], np.nan, [4, 5]],
    'E': [np.nan, np.nan, np.nan, np.nan, np.nan],
    'F': [[2, 2], [4, 4], np.nan, [78, 90], np.nan]
})

# First try
# ERROR: Cannot do inplace boolean setting on mixed-types with a non np.nan value
# df[df.isnull()] = df[df.isnull()].applymap(lambda x: [''])

# Second try
# ERROR: Invalid "to_replace" type: 'float'
# df.replace(to_replace=np.nan, value=[''], inplace=True)

# Third try
# RESULT: The column 'E' dissapears and the rest of NaN values are converted to None
# stack = df.stack()
# stack[stack.isnull()] = ['']    # or stack[stack == np.nan] = ['']    
# stack.unstack()

# Fourth try
# ERROR: "value" parameter must be a scalar or dict, but you passed a "list"
# df.fillna([''])

Это мой ожидаемый результат:

df = pd.DataFrame({
    'A': [[1, 2, 3, 4], [4, 5, 6, 7, 8], [7, 6, 4], [''], [1, 2]],
    'B': [[1, 2, 3, 4], [4, 5, 6, 7, 8], [3, 7, 9], [''], [4, 5]],
    'E': [[''], [''], [''], [''], ['']],
    'F': [[2, 2], [4, 4], [''], [78, 90], ['']]
})

Я пробовал все способы, показанные в примере, без каких-либо результатов. Как достичь этого?

Примечание. Я хочу отметить, что замена представляет собой список только с одним элементом, пустой строкой. Кроме того, это может быть [np.nan]

ChesuCR 21 июнь 2018, в 13:25

Источник

Теги:

python

pandas

dataframe

python-3.x

nan

1 ответ

Ещё вопросы

MaxU · Accepted Answer · 2018-06-21T08-27-00.000Z

ОБНОВИТЬ:

In [136]: df.applymap(lambda x: x if isinstance(x, list) else [])
Out[136]:
                 A                B   E         F
0     [1, 2, 3, 4]     [1, 2, 3, 4]  []    [2, 2]
1  [4, 5, 6, 7, 8]  [4, 5, 6, 7, 8]  []    [4, 4]
2        [7, 6, 4]        [3, 7, 9]  []        []
3               []               []  []  [78, 90]
4           [1, 2]           [4, 5]  []        []

или же:

In [152]: df = df.applymap(lambda x: x if isinstance(x, list) else [np.nan])

In [153]: df
Out[153]:
                 A                B      E         F
0     [1, 2, 3, 4]     [1, 2, 3, 4]  [nan]    [2, 2]
1  [4, 5, 6, 7, 8]  [4, 5, 6, 7, 8]  [nan]    [4, 4]
2        [7, 6, 4]        [3, 7, 9]  [nan]     [nan]
3            [nan]            [nan]  [nan]  [78, 90]
4           [1, 2]           [4, 5]  [nan]     [nan]

ПРИМЕЧАНИЕ: обратите внимание на комментарий @jpp. Сохранение нескалярных значений в ячейках разрушает 90% маны Панды/Ненуга, так как большинство быстрых внутренних векторизованных методов ожидают скалярные значения в ячейках - они не будут работать или не будут работать должным образом,

Ответ на набор данных перед обновлением вопроса:

ты можешь это сделать:

In [120]: df = df.fillna('')

In [121]: df
Out[121]:
       A      B         C         D E   F
0   zero    one  0.226100  1.764036     2
1    one    one -1.672476 -0.867188     2
2    two         0.671258  0.125589     4
3  three  three  1.135731  0.080577     4
4   four    two -1.711692  0.735028    67
5           two  0.608488  1.012977
6    six    one -1.233979 -0.623781    78
7  seven  three  0.256893 -0.546639    90

но все столбцы, содержащие хотя бы одно значение NaN будут преобразованы в строки, потому что пустая строка '' всегда будет иметь строку (object) dtype:

In [122]: df.dtypes
Out[122]:
A     object
B     object
C    float64
D    float64
E     object
F     object
dtype: object

Ммм, на самом деле я хочу заменить список с одним элементом, а этот элемент - пустая строка: ['']
@ChesuCR, можете ли вы разместить желаемый набор данных в вашем вопросе?
Хорошо, я постараюсь быть более ясным. Я обновлю свой вопрос через минуту
Я обновил свой вопрос, посмотрите пожалуйста, спасибо
@ChesuCR, я обновил свой ответ. По сути, он преобразует любую ячейку, не являющуюся списком, в пустой список. Пожалуйста, дайте мне знать, если у вас могут быть скалярные значения в ячейках и что с ними делать в этом случае?
applymap() возвращает новый DataFrame , верно?
Итак, принимая во внимание комментарий @jpp, я могу заменить значение на [np.nan] вместо [''] потому что, если я использую пустой список [] результат для меня недопустим (для библиотеки черчения, которую я использую). Будет ли это нормально? Так что ваш ответ хорошо работает и для этой замены.
@ChesuCR, конечно, вы можете использовать [np.nan] вместо [] , но главное в jpp было хранение нескалярных значений в ячейках ... ;-)
Ааа !! Вы имеете в виду списки? Мне нужно хранить списки, у меня нет других вариантов