Случайная запись из MongoDB

Question

Случайная запись из MongoDB

257

Я хочу получить случайную запись из огромной (100 миллионов записей) mongodb.

Каков самый быстрый и эффективный способ сделать это? Данные уже есть, и нет поля, в котором я могу создать случайное число и получить случайную строку.

Любые предложения?

Will M 13 май 2010, в 02:25

Источник

3

На что вы индексируете?
Jonas Elfström 31 март 2011, в 13:28
2

См. Также этот вопрос, озаглавленный «Упорядочение набора результатов случайным образом в монго» . Размышление о случайном порядке набора результатов является более общей версией этого вопроса - более мощной и более полезной.
David J. 15 июнь 2012, в 20:30
11

Этот вопрос постоянно всплывает. Новейшая информация, вероятно, может быть найдена по запросу функции, чтобы получить случайные предметы из коллекции в системе отслеживания билетов MongoDB. Если реализовано изначально, это, вероятно, будет наиболее эффективным вариантом. (Если вы хотите эту функцию, проголосуйте.)
David J. 17 июнь 2012, в 02:37
0

Это осколочная коллекция?
Dylan Tong 27 июль 2013, в 17:51
3

Правильный ответ был дан @JohnnyHK ниже: db.mycoll.aggregate ({$ sample: {size: 1}})
Florian 24 март 2016, в 18:46
0

Вы можете использовать оператор $ sample для случайного выбора строки реферальной ссылки codefari.com/2016/06/sample-operator-in-mongodb.html
Singh 06 июль 2016, в 18:10

Показать ещё 4 комментария

Теги:

mongodb

25 ответов

Ещё вопросы

См. Также этот вопрос, озаглавленный «Упорядочение набора результатов случайным образом в монго» . Размышление о случайном порядке набора результатов является более общей версией этого вопроса - более мощной и более полезной.
Этот вопрос постоянно всплывает. Новейшая информация, вероятно, может быть найдена по запросу функции, чтобы получить случайные предметы из коллекции в системе отслеживания билетов MongoDB. Если реализовано изначально, это, вероятно, будет наиболее эффективным вариантом. (Если вы хотите эту функцию, проголосуйте.)
Правильный ответ был дан @JohnnyHK ниже: db.mycoll.aggregate ({$ sample: {size: 1}})
Вы можете использовать оператор $ sample для случайного выбора строки реферальной ссылки codefari.com/2016/06/sample-operator-in-mongodb.html

JohnnyHK · Answer 1 · 2015-11-07T03-34-00.000Z

163

Начиная с версии 3.2 MongoDB, вы можете получить N случайных документов из коллекции, используя оператор конвейера агрегации $sample:

// Get one random document from the mycoll collection.
db.mycoll.aggregate([{ $sample: { size: 1 } }])

JohnnyHK 07 нояб. 2015, в 03:34

10

Это хороший способ, но помните, что он НЕ гарантирует, что в образце не будет копий одного и того же объекта.
Matheus Araujo 06 янв. 2016, в 01:28
7

@MatheusAraujo, который не имеет значения, если вы хотите одну запись, но в любом случае, хорошая точка
Toby 10 янв. 2016, в 03:35
4

Это правильный ответ, все остальное здесь в значительной степени взломать.
dalanmiller 09 фев. 2016, в 18:05
0

@dalanmiller это только правильный ответ, если вы используете 3.2+, в противном случае это неправильный ответ.
BanksySan 07 апр. 2016, в 14:15
3

Не для того, чтобы быть педантичным, но этот вопрос не определяет версию MongoDB, поэтому я предположил бы, что самая последняя версия является разумной.
dalanmiller 07 апр. 2016, в 17:35
0

Какова вычислительная сложность / стоимость этого?
Nepoxx 17 май 2016, в 15:14
2

@Nepoxx См. Документы, касающиеся обработки.
JohnnyHK 07 июнь 2016, в 13:32
0

Существует некоторая проблема, согласно этому вопросу: stackoverflow.com/questions/37679999/…
Steve Rossiter 07 июнь 2016, в 13:42
1

@Nepoxx запустил профилировщик, чтобы иметь идею. 100 000 случайных документов, метод занял 0,155 с для выборки 10 документов.
Dorival 08 июнь 2016, в 15:28
1

@MatheusAraujo довольно легко отфильтровать дубликат впоследствии
Hai Phaikawl 17 сен. 2017, в 14:08
0

.aggregate ([{$ sample: {size: 1}}]) - этот синтаксис сработал для меня в mongo 3.4
Tebe 04 окт. 2018, в 15:53
0

@Tebe Хорошая мысль, теперь требуется конвейер массива. Обновлено.
JohnnyHK 04 окт. 2018, в 15:56
0

теперь ответ не будет работать для парней с Монго 3.2 и, возможно, ниже)
Tebe 04 окт. 2018, в 15:57
0

@Tebe Нет, синтаксис массива всегда поддерживался, просто он был необязательным.
JohnnyHK 04 окт. 2018, в 15:58
0

Полезным дополнением является упоминание того, что для ограничения поиска по определенным парам ключ-значение вы можете сделать: db.mycoll.aggregate([{ $sample: { size: 1 } }, { $match: {key1: value1, key2: value2, ...}}])
ThisIsNotAnId 22 фев. 2019, в 18:58
0

@ThisIsNotAnId Верно, но обычно вы хотите сначала поставить этап $match .
JohnnyHK 22 фев. 2019, в 19:06
0

@JohnnyHK Правильно, я понял это позже. Полная ошибка новичка здесь.
ThisIsNotAnId 22 фев. 2019, в 23:11

Показать ещё 15 комментариев

ceejayoz · Answer 2 · 2010-05-13T03-59-00.000Z

115

Сделайте счетчик всех записей, создайте случайное число между 0 и счетчиком, а затем выполните:

db.yourCollection.find().limit(-1).skip(yourRandomNumber).next()

ceejayoz 13 май 2010, в 03:59

135

К сожалению, функция skip () довольно неэффективна, поскольку она сканирует столько документов. Кроме того, существует условие гонки, если между получением счетчика и выполнением запроса удаляются строки.
mstearn 17 май 2010, в 18:49
6

Обратите внимание, что случайное число должно быть между 0 и количеством (исключая). Т.е., если у вас есть 10 элементов, случайное число должно быть в диапазоне от 0 до 9. В противном случае курсор может попытаться пропустить последний элемент, и ничего не будет возвращено.
matt 20 апр. 2011, в 22:05
4

Спасибо, отлично сработало для моих целей. @mstearn, ваши комментарии как по эффективности, так и по условиям гонки действительны, но для коллекций, где это не имеет значения (одноразовый пакетный извлечение на стороне сервера в коллекции, где записи не удаляются), это значительно превосходит хакерство (IMO) решение в монго поваренной книги.
Michael Moussa 05 сен. 2012, в 16:27
4

Что делает установка предела -1?
MonkeyBonkey 27 янв. 2013, в 12:46
0

@MonkeyBonkey docs.mongodb.org/meta-driver/latest/legacy/… "Если numberToReturn равно 0, база данных будет использовать размер по умолчанию. Если число отрицательное, тогда база данных вернет это число и закроет курсор. "
ceejayoz 27 янв. 2013, в 15:24
0

Это кажется наиболее жизнеспособным решением для равномерно распределенного случайного отбора. Другой подход заключается в создании последовательного идентификатора для каждого из документов - возможно, в качестве другой коллекции, поэтому он не обновляет исходный документ, а затем использует случайное число из числа представленных документов, чтобы выбрать один. Конечно, это может быстро устареть, но его можно использовать для случайного выбора нескольких документов путем создания списка один раз и предоставления матрицы чисел, для которых необходимо получить идентификаторы объектов.
David Burton 11 июль 2013, в 10:46
0

Если вам нужна большая эффективность, чем эта, то модификация рецепта поваренной книги может привести к равномерно распределенным случайным записям. Смотрите мой ответ ниже.
spam_eggs 09 фев. 2014, в 18:08
0

Для тех, кто интересуется, как считать все записи, см. count .
Boaz 10 фев. 2015, в 22:36
0

Если ваша коллекция равномерно распределена по времени, вы можете использовать временную метку для эффективного выбора случайной записи. См. Stackoverflow.com/questions/2824157/random-record-from-mongodb/… .
Martin Nowak 31 март 2015, в 18:17

Показать ещё 7 комментариев

Michael · Answer 3 · 2011-04-01T18-35-00.000Z

78

Обновление для MongoDB 3.2

3.2 представил $sample в конвейер агрегации.

Там также есть хороший пост в блоге о внедрении его на практике.

Для более старых версий (предыдущий ответ)

Это был запрос функции: http://jira.mongodb.org/browse/SERVER-533, но он был подан в разделе "Не исправить".

В кулинарной книге есть очень хороший рецепт, чтобы выбрать случайный документ из коллекции: http://cookbook.mongodb.org/patterns/random-attribute/

Чтобы перефразировать рецепт, вы назначаете случайные числа для своих документов:

db.docs.save( { key : 1, ..., random : Math.random() } )

Затем выберите случайный документ:

rand = Math.random()
result = db.docs.findOne( { key : 2, random : { $gte : rand } } )
if ( result == null ) {
  result = db.docs.findOne( { key : 2, random : { $lte : rand } } )
}

Запрос для поиска с $gte и $lte необходим для поиска документа со случайным числом, ближайшим к rand.

И, конечно, вы захотите индексировать случайное поле:

db.docs.ensureIndex( { key : 1, random :1 } )

Если вы уже запрашиваете индекс, просто отпустите его, добавьте random: 1 к нему и добавьте его снова.

Michael 01 апр. 2011, в 18:35

7

А вот простой способ добавить случайное поле к каждому документу в коллекции. function setRandom () {db.topics.find (). forEach (function (obj) {obj.random = Math.random (); db.topics.save (obj);}); } db.eval (setRandom);
Geoffrey 01 июнь 2011, в 01:18
0

Запрос о функции был вновь открыт, но еще не запланирован.
Leopd 28 окт. 2011, в 18:48
8

При этом документ выбирается случайным образом, но если вы делаете это более одного раза, поиск не будет независимым. У вас больше шансов получить один и тот же документ два раза подряд, чем предполагал бы случайный случай.
lacker 10 янв. 2012, в 02:19
11

Выглядит как плохая реализация циклического хеширования. Это даже хуже, чем говорит неудачник: даже один поиск смещен, потому что случайные числа не распределены равномерно. Чтобы сделать это правильно, вам понадобится, скажем, 10 случайных чисел на документ. Чем больше случайных чисел вы используете для каждого документа, тем более равномерным становится выходное распределение.
Thomas 29 март 2012, в 21:11
4

Билет MongoDB JIRA еще жив: jira.mongodb.org/browse/SERVER-533 Пойдите, комментируйте и голосуйте, если хотите эту функцию.
David J. 15 июнь 2012, в 20:32
1

Обратите внимание на тип оговорки, упомянутой. Это не работает эффективно с небольшим количеством документов. Имеются два элемента со случайным ключом 3 и 63. Документ № 63 будет выбираться чаще, где $gte стоит первым. Альтернативное решение stackoverflow.com/a/9499484/79201 будет работать лучше в этом случае.
Ryan Schumacher 30 окт. 2013, в 15:50
0

Смещение можно устранить, генерируя новые случайные числа по мере продвижения. Я опубликую ответ, описывающий это более подробно.
spam_eggs 07 фев. 2014, в 17:19
1

Например, если первый документ в вашей коллекции имеет значение random = 0.8, тогда random: {$ gte: rand} вернет этот первый документ для всех случайных значений <= 0.8. На самом деле это ужасное решение, мне интересно, почему оно так популярно в интернете.
Anton Petrov 27 март 2014, в 10:45
0

Если вы не можете гарантировать, что у вас есть МНОГИЕ документы и равномерное распространение, это очень плохое решение, так как оно часто дает один и тот же документ.
pomarc 19 апр. 2014, в 13:08
0

так как map уменьшает сортировку ввода по ключу, можно использовать это поведение для получения ближайшего результата, просто выбрав .first из результатов (или .last в случае lte (param)
mmln 05 май 2014, в 16:21
0

Чтобы значительно равномерно распределить результаты, вы можете использовать findAndModify() и обновлять случайное поле вместе с каждым запросом.
Julien 05 окт. 2014, в 16:58
0

Если вы хотите сделать два запроса и выполнить обновление, вы можете устранить проблему случайности, выбрав обе записи: $ gte и $ lte. Затем верните запись, ближайшую к случайному значению. Затем обновите запись, чтобы иметь новый случайный.
diedthreetimes 24 нояб. 2014, в 01:10
1

Похоже, что запрос функции был подтвержден и исправлен совсем недавно (2015/10, в версии 3.1.6). Вы можете обновить свой ответ. :)
grapeot 11 нояб. 2015, в 00:35

Показать ещё 11 комментариев

Nico de Poel · Answer 4 · 2012-02-29T14-35-00.000Z

Вы также можете использовать функцию геопространственной индексации MongoDB для выбора ближайшего к документу случайного числа.

Сначала включите геопространственную индексацию в коллекции:

db.docs.ensureIndex( { random_point: '2d' } )

Чтобы создать связку документов со случайными точками по оси X:

for ( i = 0; i < 10; ++i ) {
    db.docs.insert( { key: i, random_point: [Math.random(), 0] } );
}

Затем вы можете получить случайный документ из коллекции следующим образом:

db.docs.findOne( { random_point : { $near : [Math.random(), 0] } } )

Или вы можете получить несколько документов, ближайших к случайной точке:

db.docs.find( { random_point : { $near : [Math.random(), 0] } } ).limit( 4 )

Для этого требуется только один запрос и нулевые проверки, а также код чистый, простой и гибкий. Вы даже можете использовать Y-ось геотома, чтобы добавить к вашему запросу второе измерение случайности.

Мне нравится этот ответ. Это самый эффективный из тех, что я видел, который не требует много работы на стороне сервера.
Это также смещено к документам, которые, как оказалось, имеют несколько точек в их окрестностях.
Это верно, и есть и другие проблемы: документы сильно коррелированы по их случайным ключам, поэтому очень предсказуемо, какие документы будут возвращены в виде группы, если вы выберете несколько документов. Кроме того, документы, близкие к границам (0 и 1), реже выбираются. Последнее может быть решено с помощью сферической геокартирования, которая оборачивается по краям. Однако вы должны увидеть этот ответ как улучшенную версию рецепта поваренной книги, а не как идеальный механизм случайного выбора. Это достаточно случайно для большинства целей.
@NicodePoel, мне нравится ваш ответ, а также ваш комментарий! И у меня есть пара вопросов к вам: 1- Откуда вы знаете, что точки, близкие к границам 0 и 1, с меньшей вероятностью будут выбраны, основано ли это на некоторой математической основе ?, 2- Можете ли вы подробнее остановиться на сферическом геокартировании, как это будет лучше случайного выбора, и как это сделать в MongoDB? ... Ценится!

spam_eggs · Answer 5 · 2014-02-19T00-30-00.000Z

Следующий рецепт немного медленнее, чем решение поваренной книги монго (добавить случайный ключ в каждый документ), но возвращает более равномерно распределенные случайные документы. Он немного менее равномерно распределен, чем решение skip( random ), но гораздо быстрее и безопаснее, если документы удаляются.

function draw(collection, query) {
    // query: mongodb query object (optional)
    var query = query || { };
    query['random'] = { $lte: Math.random() };
    var cur = collection.find(query).sort({ rand: -1 });
    if (! cur.hasNext()) {
        delete query.random;
        cur = collection.find(query).sort({ rand: -1 });
    }
    var doc = cur.next();
    doc.random = Math.random();
    collection.update({ _id: doc._id }, doc);
    return doc;
}

Также требуется добавить случайное "случайное" поле в ваши документы, поэтому не забудьте добавить это при их создании: вам может потребоваться инициализировать вашу коллекцию, как показано Джеффри

function addRandom(collection) { 
    collection.find().forEach(function (obj) {
        obj.random = Math.random();
        collection.save(obj);
    }); 
} 
db.eval(addRandom, db.things);

Результаты тестов

Этот метод намного быстрее, чем метод skip() (ceejayoz) и генерирует более равномерные случайные документы, чем метод "поваренной книги", сообщенный Майклом:

Для коллекции с 1 000 000 элементов:

Этот метод занимает меньше миллисекунды на моей машине.
Метод skip() в среднем занимает 180 мс

Метод поваренной книги приведет к тому, что большое количество документов никогда не будет выбрано, потому что их случайное число не одобряет их.

Этот метод будет выбирать все элементы равномерно с течением времени.
В моем тесте он был всего на 30% медленнее, чем метод поваренной книги.
случайность не совершенна на 100%, но она очень хороша (и при необходимости ее можно улучшить)

Этот рецепт не идеален - идеальное решение будет встроенной функцией, как отмечали другие.
Однако это должно быть хорошим компромиссом для многих целей.

Blakes Seven · Answer 6 · 2015-06-26T12-09-00.000Z

Ниже приведен способ использования значений ObjectId по умолчанию для _id и небольшой математики и логики.

// Get the "min" and "max" timestamp values from the _id in the collection and the 
// diff between.
// 4-bytes from a hex string is 8 characters

var min = parseInt(db.collection.find()
        .sort({ "_id": 1 }).limit(1).toArray()[0]._id.str.substr(0,8),16)*1000,
    max = parseInt(db.collection.find()
        .sort({ "_id": -1 })limit(1).toArray()[0]._id.str.substr(0,8),16)*1000,
    diff = max - min;

// Get a random value from diff and divide/multiply be 1000 for The "_id" precision:
var random = Math.floor(Math.floor(Math.random(diff)*diff)/1000)*1000;

// Use "random" in the range and pad the hex string to a valid ObjectId
var _id = new ObjectId(((min + random)/1000).toString(16) + "0000000000000000")

// Then query for the single document:
var randomDoc = db.collection.find({ "_id": { "$gte": _id } })
   .sort({ "_id": 1 }).limit(1).toArray()[0];

Это общая логика в представлении оболочки и легко адаптируемая.

Итак, в точках:

Найдите минимальные и максимальные значения первичного ключа в коллекции
Создайте случайное число, которое находится между отметками времени этих документов.
Добавьте случайное число к минимальному значению и найдите первый документ, который больше или равен этому значению.

В этом случае используется значение "padding" из значения timestamp в "hex", чтобы сформировать действительное значение ObjectId, так как это то, что мы ищем. Использование целых чисел в качестве значения _id существенно проще, но та же основная идея в точках.

Jabba · Answer 7 · 2015-01-24T15-43-00.000Z

В Python с использованием pymongo:

import random

def get_random_doc():
    count = collection.count()
    return collection.find()[random.randrange(count)]

Стоит отметить, что внутри, это будет использовать пропустить и ограничить, как и многие другие ответы.

dm. · Answer 8 · 2010-05-13T14-16-00.000Z

это сложно, если нет данных, которые можно отключить. что такое _id-поле? являются ли они идентификаторами объекта mongodb? Если это так, вы можете получить самые высокие и самые низкие значения:

lowest = db.coll.find().sort({_id:1}).limit(1).next()._id;
highest = db.coll.find().sort({_id:-1}).limit(1).next()._id;

то, если вы предполагаете, что идентификаторы равномерно распределены (но они не являются, но, по крайней мере, это начало):

unsigned long long L = first_8_bytes_of(lowest)
unsigned long long H = first_8_bytes_of(highest)

V = (H - L) * random_from_0_to_1();
N = L + V;
oid = N concat random_4_bytes();

randomobj = db.coll.find({_id:{$gte:oid}}).limit(1);

Любые идеи, как это будет выглядеть в PHP? или хотя бы какой язык вы использовали выше? это питон?

dbam · Answer 9 · 2017-02-06T18-07-00.000Z

Теперь вы можете использовать агрегат. Пример:

db.users.aggregate(
   [ { $sample: { size: 3 } } ]
)

См. Документ.

Примечание: $ sample может получать один и тот же документ более одного раза

Martin Nowak · Answer 10 · 2014-12-05T00-07-00.000Z

Вы можете выбрать случайную метку времени и выполнить поиск первого объекта, который был создан впоследствии. Он будет сканировать только один документ, хотя он не обязательно дает вам равномерное распределение.

var randRec = function() {
    // replace with your collection
    var coll = db.collection
    // get unixtime of first and last record
    var min = coll.find().sort({_id: 1}).limit(1)[0]._id.getTimestamp() - 0;
    var max = coll.find().sort({_id: -1}).limit(1)[0]._id.getTimestamp() - 0;

    // allow to pass additional query params
    return function(query) {
        if (typeof query === 'undefined') query = {}
        var randTime = Math.round(Math.random() * (max - min)) + min;
        var hexSeconds = Math.floor(randTime / 1000).toString(16);
        var id = ObjectId(hexSeconds + "0000000000000000");
        query._id = {$gte: id}
        return coll.find(query).limit(1)
    };
}();

Было бы легко исказить случайную дату, чтобы учесть суперлинейный рост базы данных.
это лучший метод для очень больших коллекций, он работает с O (1), unline skip () или count (), используемыми в других решениях здесь

Fabio Guerra · Answer 11 · 2015-12-19T20-35-00.000Z

Чтобы получить определенное количество случайных документов без дубликатов:

сначала получить все идентификаторы
получить размер документов

цикл, получающий случайный индекс и пропускающий дублированный

number_of_docs=7
db.collection('preguntas').find({},{_id:1}).toArray(function(err, arr) {
count=arr.length
idsram=[]
rans=[]
while(number_of_docs!=0){
    var R = Math.floor(Math.random() * count);
    if (rans.indexOf(R) > -1) {
     continue
      } else {           
               ans.push(R)
               idsram.push(arr[R]._id)
               number_of_docs--
                }
    }
db.collection('preguntas').find({}).toArray(function(err1, doc1) {
                if (err1) { console.log(err1); return;  }
               res.send(doc1)
            });
        });

code_turist · Answer 12 · 2014-12-23T17-49-00.000Z

Мое решение по php:

/**
 * Get random docs from Mongo
 * @param $collection
 * @param $where
 * @param $fields
 * @param $limit
 * @author happy-code
 * @url happy-code.com
 */
private function _mongodb_get_random (MongoCollection $collection, $where = array(), $fields = array(), $limit = false) {

    // Total docs
    $count = $collection->find($where, $fields)->count();

    if (!$limit) {
        // Get all docs
        $limit = $count;
    }

    $data = array();
    for( $i = 0; $i < $limit; $i++ ) {

        // Skip documents
        $skip = rand(0, ($count-1) );
        if ($skip !== 0) {
            $doc = $collection->find($where, $fields)->skip($skip)->limit(1)->getNext();
        } else {
            $doc = $collection->find($where, $fields)->limit(1)->getNext();
        }

        if (is_array($doc)) {
            // Catch document
            $data[ $doc['_id']->{'$id'} ] = $doc;
            // Ignore current document when making the next iteration
            $where['_id']['$nin'][] = $doc['_id'];
        }

        // Every iteration catch document and decrease in the total number of document
        $count--;

    }

    return $data;
}

Daniel · Answer 13 · 2018-04-17T16-31-00.000Z

Используя Python (pymongo), функция агрегата также работает.

collection.aggregate([{'$sample': {'size': sample_size }}])

Этот подход намного быстрее, чем запуск запроса для случайного числа (например, collection.find([random_int]). Это особенно касается больших коллекций.

Vijay13 · Answer 14 · 2015-04-30T06-06-00.000Z

Вы можете выбрать случайный _id и вернуть соответствующий объект:

 db.collection.count( function(err, count){
        db.collection.distinct( "_id" , function( err, result) {
            if (err)
                res.send(err)
            var randomId = result[Math.floor(Math.random() * (count-1))]
            db.collection.findOne( { _id: randomId } , function( err, result) {
                if (err)
                    res.send(err)
                console.log(result)
            })
        })
    })

Здесь вам не нужно тратить пространство на хранение случайных чисел в коллекции.

torbenl · Answer 15 · 2012-02-26T15-26-00.000Z

Я бы предложил использовать map/reduce, где вы используете функцию карты, чтобы генерировать только тогда, когда случайное значение превышает заданную вероятность.

function mapf() {
    if(Math.random() <= probability) {
    emit(1, this);
    }
}

function reducef(key,values) {
    return {"documents": values};
}

res = db.questions.mapReduce(mapf, reducef, {"out": {"inline": 1}, "scope": { "probability": 0.5}});
printjson(res.results);

Функция reducef выше работает, потому что из функции карты испускается только один ключ ('1').

Значение "вероятность" определяется в "области" при вызове mapRreduce (...)

Использование mapReduce, подобное этому, также должно быть использовано на sharded db.

Если вы хотите выбрать ровно n из m документов из db, вы можете сделать это следующим образом:

function mapf() {
    if(countSubset == 0) return;
    var prob = countSubset / countTotal;
    if(Math.random() <= prob) {
        emit(1, {"documents": [this]}); 
        countSubset--;
    }
    countTotal--;
}

function reducef(key,values) {
    var newArray = new Array();
for(var i=0; i < values.length; i++) {
    newArray = newArray.concat(values[i].documents);
}

return {"documents": newArray};
}

res = db.questions.mapReduce(mapf, reducef, {"out": {"inline": 1}, "scope": {"countTotal": 4, "countSubset": 2}})
printjson(res.results);

Где "countTotal" (m) - количество документов в db, а "countSubset" (n) - количество документов для извлечения.

Этот подход может привести к некоторым проблемам с оштрафованными базами данных.

Выполнение полного сканирования коллекции для возврата 1 элемента ... это должно быть наименее эффективным способом сделать это.
Хитрость в том, что это общее решение для возврата произвольного числа случайных элементов - в этом случае оно будет быстрее, чем другие решения, если получено> 2 случайных элемента.

mstearn · Answer 16 · 2010-05-17T20-09-00.000Z

2

Я бы предложил добавить случайное поле int каждому объекту. Тогда вы можете просто сделать

findOne({random_field: {$gte: rand()}})

выбрать случайный документ. Просто убедитесь, что вы гарантируетеIndex ({random_field: 1})

mstearn 17 май 2010, в 20:09

0

вероятный метод в этом: cookbook.mongodb.org/patterns/random-attribute
Drake Guan 16 фев. 2012, в 17:33
2

Если первая запись в вашей коллекции имеет относительно высокое значение random_field, будет ли оно возвращаться почти все время?
thehiatus 23 янв. 2013, в 23:03
2

thehaitus правильно, это будет - это не подходит ни для каких целей
Heptic 07 авг. 2013, в 21:54
7

Это решение совершенно неверно, добавление случайного числа (давайте представим, что между 0 a 2 ^ 32-1) не гарантирует хорошего распределения, а использование $ gte делает его еще хуже, потому что ваш случайный выбор не будет даже близко на псевдослучайное число. Я предлагаю не использовать эту концепцию никогда.
Maximiliano Rios 02 дек. 2013, в 20:32
2

Я согласен с @Heptic и Максимилиано, не знаю, кто проголосовал за этот ответ ...
aledalgrande 22 июнь 2014, в 20:45

Показать ещё 3 комментария

codersaif · Answer 17 · 2016-05-30T08-42-00.000Z

Если вы используете мангуст, вы можете использовать mongoose-random mongoose-random

Mantas Karanauskas · Answer 18 · 2014-01-21T19-38-00.000Z

не решения для меня хорошо работали. особенно когда есть много пробелов, и набор мал. это работало очень хорошо для меня (в php):

$count = $collection->count($search);
$skip = mt_rand(0, $count - 1);
$result = $collection->find($search)->skip($skip)->limit(1)->getNext();

Вы указываете язык, но не библиотеку, которую используете?
К вашему сведению, здесь есть условие гонки, если документ удален между первой и третьей строкой. Также find + skip довольно плохо, вы возвращаете все документы, чтобы выбрать один: S.

paegun · Answer 19 · 2013-09-11T17-11-00.000Z

Когда я столкнулся с аналогичным решением, я отступил и обнаружил, что бизнес-запрос был фактически предназначен для создания некоторой формы ротации представленного инвентаря. В этом случае есть намного лучшие варианты, в которых есть ответы от поисковых систем, таких как Solr, а не на хранилища данных, такие как MongoDB.

Короче говоря, с требованием "разумно вращать" контент, что мы должны делать вместо случайного числа во всех документах, это включить персональный модификатор оценки q. Чтобы реализовать это самостоятельно, принимая небольшое количество пользователей, вы можете хранить документ для каждого пользователя, у которого есть productId, количество показаний, количество кликов, дата последнего просмотра и любые другие факторы, которые бизнес считает значимыми для вычисления оценки aq модификатор. При получении набора для отображения обычно вы запрашиваете больше документов из хранилища данных, чем запрашивается конечным пользователем, затем применяйте модификатор q-оценки, берете количество записей, запрашиваемых конечным пользователем, затем производите рандомизацию страницы результатов, крошечную set, поэтому просто отсортируйте документы на прикладном уровне (в памяти).

Если юниверс пользователей слишком велик, вы можете классифицировать пользователей по группам поведения и индексировать по группам поведения, а не пользователю.

Если юниверс продуктов достаточно мал, вы можете создать индекс для каждого пользователя.

Я нашел этот метод намного более эффективным, но, что более важно, более эффективным в создании актуального и полезного опыта использования программного решения.

feskr · Answer 20 · 2018-12-20T14-23-00.000Z

Мой PHP сортировка/заказ по случайному решению. Надеюсь, это кому-нибудь поможет.

Примечание: в моей коллекции MongoDB есть числовой идентификатор, который ссылается на запись базы данных MySQL.

Сначала я создаю массив из 10 случайно сгенерированных чисел

    $randomNumbers = [];
    for($i = 0; $i < 10; $i++){
        $randomNumbers[] = rand(0,1000);
    }

В своей агрегации я использую оператор конвейера $ addField в сочетании с $ arrayElemAt и $ mod (modulus). Оператор модуля даст мне число от 0 до 9, которое я затем использую, чтобы выбрать число из массива со случайными числами.

    $aggregate[] = [
        '$addFields' => [
            'random_sort' => [ '$arrayElemAt' => [ $randomNumbers, [ '$mod' => [ '$my_numeric_mysql_id', 10 ] ] ] ],
        ],
    ];

После этого вы можете использовать сортировку Pipeline.

    $aggregate[] = [
        '$sort' => [
            'random_sort' => 1
        ]
    ];

Mirek Rusin · Answer 21 · 2014-11-19T22-13-00.000Z

Это работает хорошо, быстро, работает с несколькими документами и не требует заполнения поля rand, которое в конечном итоге заселоте себя:

добавить индекс в поле .rand в вашей коллекции
используйте поиск и обновление, что-то вроде:

// Install packages:
//   npm install mongodb async
// Add index in mongo:
//   db.ensureIndex('mycollection', { rand: 1 })

var mongodb = require('mongodb')
var async = require('async')

// Find n random documents by using "rand" field.
function findAndRefreshRand (collection, n, fields, done) {
  var result = []
  var rand = Math.random()

  // Append documents to the result based on criteria and options, if options.limit is 0 skip the call.
  var appender = function (criteria, options, done) {
    return function (done) {
      if (options.limit > 0) {
        collection.find(criteria, fields, options).toArray(
          function (err, docs) {
            if (!err && Array.isArray(docs)) {
              Array.prototype.push.apply(result, docs)
            }
            done(err)
          }
        )
      } else {
        async.nextTick(done)
      }
    }
  }

  async.series([

    // Fetch docs with unitialized .rand.
    // NOTE: You can comment out this step if all docs have initialized .rand = Math.random()
    appender({ rand: { $exists: false } }, { limit: n - result.length }),

    // Fetch on one side of random number.
    appender({ rand: { $gte: rand } }, { sort: { rand: 1 }, limit: n - result.length }),

    // Continue fetch on the other side.
    appender({ rand: { $lt: rand } }, { sort: { rand: -1 }, limit: n - result.length }),

    // Refresh fetched docs, if any.
    function (done) {
      if (result.length > 0) {
        var batch = collection.initializeUnorderedBulkOp({ w: 0 })
        for (var i = 0; i < result.length; ++i) {
          batch.find({ _id: result[i]._id }).updateOne({ rand: Math.random() })
        }
        batch.execute(done)
      } else {
        async.nextTick(done)
      }
    }

  ], function (err) {
    done(err, result)
  })
}

// Example usage
mongodb.MongoClient.connect('mongodb://localhost:27017/core-development', function (err, db) {
  if (!err) {
    findAndRefreshRand(db.collection('profiles'), 1024, { _id: true, rand: true }, function (err, result) {
      if (!err) {
        console.log(result)
      } else {
        console.error(err)
      }
      db.close()
    })
  } else {
    console.error(err)
  }
})

пс. Как найти случайные записи в mongodb вопрос отмечен как дубликат этого вопроса. Разница в том, что этот вопрос прямо спрашивает об одной записи, поскольку другой явно указывает на получение случайного документа s.

doublehelix · Answer 22 · 2014-01-29T23-32-00.000Z

Используя Map/Reduce, вы, безусловно, можете получить случайную запись, просто не обязательно очень эффективно, в зависимости от размера получаемой отфильтрованной коллекции, с которой вы работаете.

Я тестировал этот метод с 50 000 документов (фильтр уменьшает его до примерно 30 000), и он выполняется примерно в 400 мс на Intel i3 с 16 ГБ оперативной памятью и жестким диском SATA3...

db.toc_content.mapReduce(
    /* map function */
    function() { emit( 1, this._id ); },

    /* reduce function */
    function(k,v) {
        var r = Math.floor((Math.random()*v.length));
        return v[r];
    },

    /* options */
    {
        out: { inline: 1 },
        /* Filter the collection to "A"ctive documents */
        query: { status: "A" }
    }
);

Функция Map просто создает массив идентификатора всех документов, соответствующих запросу. В моем случае я проверил это примерно с 30 000 из 50 000 возможных документов.

Функция "Уменьшение" просто выбирает случайное целое число от 0 до количества элементов (-1) в массиве и затем возвращает этот массив _id.

400 мс звучит как долгое время, и это действительно так, если у вас было пятьдесят миллионов записей вместо пятидесяти тысяч, это может увеличить накладные расходы до того момента, когда он станет непригодным в многопользовательских ситуациях.

Есть открытая проблема для MongoDB, чтобы включить эту функцию в ядро ... https://jira.mongodb.org/browse/SERVER-533

Если этот "случайный" выбор был встроен в индексный поиск вместо того, чтобы собирать идентификаторы в массив, а затем выбирать один, это поможет невероятно. (проголосуйте!)

Mr. Demetrius Michael · Answer 23 · 2013-03-19T16-04-00.000Z

Если у вас есть простой ключ id, вы можете сохранить весь идентификатор в массиве, а затем выбрать случайный идентификатор. (Ответ Ruby):

ids = @coll.find({},fields:{_id:1}).to_a
@coll.find(ids.sample).first

Zack Xu · Answer 24 · 2013-12-06T14-04-00.000Z

Если вы используете mongoid, оболочку document-to-object, вы можете сделать следующее в Рубин. (Предположим, что ваша модель - Пользователь)

User.all.to_a[rand(User.count)]

В моем .irbrc у меня есть

def rando klass
    klass.all.to_a[rand(klass.count)]
end

поэтому в консоли rails я могу сделать, например,

rando User
rando Article

для случайного получения документов из любой коллекции.

Это ужасно неэффективно, так как будет считывать всю коллекцию в массив, а затем выбирать одну запись.
Хорошо, может быть, неэффективно, но, конечно, удобно. попробуйте это, если ваш размер данных не слишком велик
Конечно, но первоначальный вопрос был о коллекции из 100 миллионов документов, так что это было бы очень плохим решением для этого случая!

trainwreck · Answer 25 · 2011-03-25T14-36-00.000Z

Что работает эффективно и надежно:

Добавьте поле "случайный" в каждый документ и назначьте ему случайное значение, добавьте индекс для случайного поля и действуйте следующим образом:

Предположим, что у нас есть набор веб-ссылок, называемых "ссылками", и мы хотим получить от него случайную ссылку:

link = db.links.find().sort({random: 1}).limit(1)[0]

Чтобы убедиться, что одна и та же ссылка не появится во второй раз, обновите ее случайное поле новым случайным числом:

db.links.update({random: Math.random()}, link)

Зачем обновлять базу данных, когда вы можете просто выбрать другой случайный ключ?
У вас может не быть списка ключей для случайного выбора.
Таким образом, вы должны сортировать всю коллекцию каждый раз? А как насчет неудачных записей, которые получили большие случайные числа? Они никогда не будут выбраны.
Вы должны сделать это, потому что другие решения, особенно предложенные в книге MongoDB, не работают. Если первая находка не удалась, вторая находка всегда возвращает элемент с наименьшим случайным значением. Если вы индексируете случайное значение по убыванию, первый запрос всегда возвращает элемент с наибольшим случайным числом.
Добавление поля в каждый документ? Я думаю, что это не рекомендуется.