Как сделать np.where более эффективным с помощью треугольных матриц?

Question

Как сделать np.where более эффективным с помощью треугольных матриц?

1

Я получил этот код, где расстояние - это треугольная треугольная матрица, определяемая следующим образом:

distance = np.tril(scipy.spatial.distance.cdist(points, points))  
def make_them_touch(distance):
    """
    Return the every distance where two points touched each other. See example below.
    """
    thresholds = np.unique(distance)[1:] # to avoid 0 at the beginning, not taking a lot of time at all
    result = dict()
    for t in thresholds:
            x, y = np.where(distance == t)
            result[t] = [i for i in zip(x,y)]
    return result

Моя проблема в том, что np.where довольно медленный с большой матрицей (например, 2000 * 100).
Как я могу ускорить этот код, улучшив np.where или изменив алгоритм?

EDIT: как указывал MaxU, лучшая оптимизация здесь НЕ должна генерировать квадрат матрицы и использовать итераторы.

Пример:

points = np.array([                                                                        
...: [0,0,0,0],                                                            
...: [1,1,1,1],         
...: [3,3,3,3],              
...: [6,6,6,6]                             
...: ])  

In [106]: distance = np.tril(scipy.spatial.distance.cdist(points, points))

In [107]: distance
Out[107]: 
array([[ 0.,  0.,  0.,  0.],
   [ 2.,  0.,  0.,  0.],
   [ 6.,  4.,  0.,  0.],
   [12., 10.,  6.,  0.]])

In [108]: make_them_touch(distance)
Out[108]: 
{2.0: [(1, 0)],
 4.0: [(2, 1)],
 6.0: [(2, 0), (3, 2)],
 10.0: [(3, 1)],
 12.0: [(3, 0)]}

politinsa 18 июнь 2018, в 12:14

Источник

Теги:

python

numpy

scipy

itertools

1 ответ

Ещё вопросы

MaxU · Accepted Answer · 2018-06-18T09-06-00.000Z

UPDATE1: вот фрагмент верхней треугольной матрицы расстояний (это не имеет большого значения, поскольку матрица расстояний всегда симметрична):

from itertools import combinations

res = {tup[0]:tup[1] for tup in zip(pdist(points), list(combinations(range(len(points)), 2)))}

результат:

In [111]: res
Out[111]:
{1.4142135623730951: (0, 1),
 4.69041575982343: (0, 2),
 4.898979485566356: (1, 2)}

UPDATE2: эта версия будет поддерживать дубликаты на расстояниях:

In [164]: import pandas as pd

сначала мы строим Pandas.Series:

In [165]: s = pd.Series(list(combinations(range(len(points)), 2)), index=pdist(points))

In [166]: s
Out[166]:
2.0     (0, 1)
6.0     (0, 2)
12.0    (0, 3)
4.0     (1, 2)
10.0    (1, 3)
6.0     (2, 3)
dtype: object

теперь мы можем группировать по индексу и составлять списки координат:

In [167]: s.groupby(s.index).apply(list)
Out[167]:
2.0             [(0, 1)]
4.0             [(1, 2)]
6.0     [(0, 2), (2, 3)]
10.0            [(1, 3)]
12.0            [(0, 3)]
dtype: object

PS Основная идея здесь заключается в том, что вы не должны строить квадратную матрицу расстояний, если впоследствии собираетесь сгладить ее и избавиться от дубликатов.

@politinsa, чего ты пытаешься достичь? Это не очень ясно из вашего вопроса.
Решение Yout очень быстрое, спасибо за обновление! Я пытаюсь получить фильтрацию / постоянство Rips Complex . Вот бумага
@politinsa, конечно, вы можете! Буду признателен, если вы оставите ссылку на этот пост в качестве комментария в своем коде ;-)
Уже сделано;) Чтобы прокомментировать ваш ответ, недостатком здесь является то, что если у одного есть много расстояний с одинаковым значением, то последний стирает предыдущий. Но несмотря ни на что, даже использование списка на бесконечность быстрее, чем моя функция.
@politinsa, это характер словаря - у него не может быть дублированных ключей. Я мог бы попытаться исправить это, если бы вы предоставили воспроизводимый образец набора данных
Я обновил свой вопрос. Я могу сделать это сам, но для потомков ответ, пожалуйста, не стесняйтесь улучшать свой.