How do I get indices of N maximum values in a NumPy array?

Как мне получить индексы из N максимальных значений в массиве NumPy?

NumPy предлагает способ получить индекс максимального значения массива через np.argmax.

Я хотел бы нечто подобное, но возвращающее индексы из N максимальных значений.

Например, если у меня есть массив, [1, 3, 2, 4, 5]тогда nargmax(array, n=3) возвращались бы индексы, [4, 3, 1] которые соответствуют элементам [5, 4, 3].

Переведено автоматически

Ответ 1

В более новых версиях NumPy (1.8 и выше) для этого вызывается функция argpartition. Чтобы получить индексы четырех самых больших элементов, выполните

>>> a = np.array([9, 4, 4, 3, 3, 9, 0, 4, 6, 0])
>>> a
array([9, 4, 4, 3, 3, 9, 0, 4, 6, 0])

>>> ind = np.argpartition(a, -4)[-4:]
>>> ind
array([1, 5, 8, 0])

>>> top4 = a[ind]
>>> top4
array([4, 9, 6, 9])

В отличие от argsort, в худшем случае эта функция выполняется за линейное время, но возвращаемые индексы не сортируются, как видно из результата вычисления a[ind]. Если вам это тоже нужно, отсортируйте их позже:

>>> ind[np.argsort(a[ind])]
array([1, 8, 5, 0])

Чтобы получить k элементов, находящихся сверху, в отсортированном порядке, таким образом, требуется O (n + k log k) времени.

Ответ 2

Самое простое, что я смог придумать, это:

>>> import numpy as np
>>> arr = np.array([1, 3, 2, 4, 5])
>>> arr.argsort()[-3:][::-1]
array([4, 3, 1])

Это предполагает полную сортировку массива. Интересно, numpy предоставляет ли встроенный способ выполнения частичной сортировки; пока я не смог его найти.

Если это решение окажется слишком медленным (особенно для небольших n), возможно, стоит подумать о кодировании чего-либо в Cython.

Ответ 3

Еще проще:

idx = (-arr).argsort()[:n]

где n - количество максимальных значений.

Ответ 4

Использование:

>>> import heapq
>>> import numpy
>>> a = numpy.array([1, 3, 2, 4, 5])
>>> heapq.nlargest(3, range(len(a)), a.take)
[4, 3, 1]

Для обычных списков Python:

>>> a = [1, 3, 2, 4, 5]
>>> heapq.nlargest(3, range(len(a)), a.__getitem__)
[4, 3, 1]

Если вы используете Python 2, используйте xrange вместо range.

Источник: heapq — алгоритм очереди кучи