Как я могу проверить, содержит ли массив Perl определенное значение?

Question

Как я могу проверить, содержит ли массив Perl определенное значение?

211

Я пытаюсь выяснить способ проверки существования значения в массиве без итерации через массив.

Я читаю файл для параметра. У меня есть длинный список параметров, с которыми я не хочу иметь дело. Я разместил эти нежелательные параметры в массиве @badparams.

Я хочу прочитать новый параметр, и если он не существует в @badparams, обработайте его. Если он существует в @badparams, перейдите к следующему чтению.

Mel 18 май 2010, в 19:44

Источник

3

Для протокола, ответ зависит от вашей ситуации. Звучит так, как будто вы хотите сделать повторный поиск, поэтому использование хэша, как подсказывает jkramer, хорошо. Если вы хотите сделать только один поиск, вы можете просто повторить. (И в некоторых случаях вы можете захотеть выполнить бинарный поиск вместо использования хеша!)
Cascabel 18 май 2010, в 19:23
5

perldoc -f grep
Ether 18 май 2010, в 21:02
6

Для записи (а это может быть совершенно неприменимо к вашей ситуации), как правило, лучше определить «хорошие ценности» и игнорировать остальные, чем пытаться отсеять известные «плохие ценности». Вопрос, который вам нужно задать, заключается в том, возможно ли, что могут быть какие-то плохие ценности, о которых вы еще не знаете.
Grant McLean 18 май 2010, в 21:32

Показать ещё 1 комментарий

Теги:

arrays

perl

comparison

11 ответов

186

Лучшее общее назначение - особенно короткие массивы (1000 единиц или менее) и кодеры, которые не уверены в том, какие оптимизации наилучшим образом соответствуют их потребностям.

# $value can be any regex. be safe
if ( grep( /^$value$/, @array ) ) {
  print "found it";
}

Было упомянуто, что grep проходит через все значения, даже если первое значение в массиве совпадает. Это верно, однако grep по-прежнему чрезвычайно быстрый для большинства случаев. Если вы говорите о коротких массивах (менее 1000 элементов), то большинство алгоритмов будет довольно быстрым в любом случае. Если вы говорите о очень длинном массиве (1 000 000 элементов), grep является приемлемо быстрым, независимо от того, является ли элемент первым или средним или последним в массиве.

Примеры оптимизации для более длинных массивов:

Если ваш массив отсортирован, используйте "двоичный поиск".

Если тот же массив неоднократно просматривается многократно, сначала скопируйте его в хэш, а затем проверьте хэш. Если память является проблемой, переместите каждый элемент из массива в хэш. Больше памяти эффективнее, но уничтожает исходный массив.

Если одинаковые значения будут повторно выполняться в массиве, ленивно создайте кеш. (по мере поиска каждого элемента, сначала проверьте, сохранен ли результат поиска в сохраненном хэше. Если результат поиска не найден в хэше, тогда найдите массив и поместите результат в сохраненный хеш, чтобы в следующий раз найдите его в хеше и пропустите поиск).

Примечание. Эти оптимизации будут только быстрее при работе с длинными массивами. Не превышайте оптимизацию.

Aaron T Harris 25 июнь 2011, в 02:30

0

Я считаю это более читабельным, чем метод хэширования. Казалось бы, единственный раз, когда метод хеширования имеет смысл, - это когда нужно проверить несколько значений.
BHS 09 апр. 2013, в 19:42
25

if ("value" ~~ @array) правильный ответ
Sérgio 18 апр. 2013, в 04:53
11

Двойная тильда была введена в Perl 5.10
Dennis Williamson 27 апр. 2013, в 20:41
13

@DennisWilliamson ... и в 5.18 это считается экспериментальным .
Xaerxess 31 окт. 2013, в 17:56
4

Избегайте smartmatch в производственном коде. Это нестабильно / экспериментально в ожидании дальнейшего уведомления.
Vector Gorgoth 26 нояб. 2013, в 16:08
1

Я нахожу это также более читабельным, но « Не использовать» говорит о том, что он неэффективен, и проверяет каждый элемент, даже если он первый.
giordano 19 дек. 2013, в 13:37
0

Используя perl 5.8.8, выдает ошибку: синтаксическая ошибка в строке script.pl 646, рядом с $ series_id ~
Stalinko 12 фев. 2015, в 09:30
7

Не используйте if ("value" ~~ @array). ~~ - это экспериментальная функция под названием Smartmatch. Эксперимент считается неудачным и будет удален или изменен в будущей версии Perl.
yahermann 13 окт. 2017, в 20:02

Показать ещё 6 комментариев

102

Вы можете использовать функцию smartmatch в Perl 5.10 следующим образом:

Для выполнения литерала, выполняемого ниже, будет выполняться трюк.

if ( "value" ~~ @array )

Для скалярного поиска выполнение ниже будет работать, как указано выше.

if ($val ~~ @array)

Для встроенного массива, сделанного ниже, будет работать, как указано выше.

if ( $var ~~ ['bar', 'value', 'foo'] )

В Perl 5.18 smartmatch помечен как экспериментальный, поэтому вам нужно отключить предупреждения, включив experimental прагму, добавив ниже к вашему script/module

use experimental 'smartmatch';

Альтернативно, если вы хотите избежать использования smartmatch - тогда, как сказал Аарон, используйте:

if ( grep( /^$value$/, @array ) ) {
  #TODO:
}

Bitmap 13 дек. 2013, в 16:58

4

Это хорошо, но, кажется, плохо знакомо с Perl 5.10. Прошло некоторое время, прежде чем я понял, почему я получаю синтаксические ошибки.
Igor Skochinsky 11 июнь 2014, в 16:12
12

Предупреждение: вы можете избежать этого, так как в разных версиях оператор, по-видимому, ведет себя по-разному и тем временем был помечен как экспериментальный . Поэтому, если у вас нет полного контроля над вашей версией perl (и у кого она есть), вам, вероятно, следует избегать ее.
Maze 20 янв. 2015, в 09:17
0

Спасибо @Sobrique
Bitmap 02 нояб. 2015, в 17:17
1

Мне нравится это объяснение того, почему рекомендуется use experimental 'smartmatch' . Так как у меня есть контроль над моей версией perl (внутренней системой), я использую no warnings 'experimental::smartmatch'; заявление.
lepe 07 янв. 2016, в 02:39

Показать ещё 2 комментария

38

В этом сообщении в блоге обсуждаются лучшие ответы на этот вопрос.

В качестве краткого резюме, если вы можете установить модули CPAN, наиболее читаемыми являются:

any(@ingredients) eq 'flour';

или

@ingredients->contains('flour');

Однако более распространенная идиома такова:

any { $_ eq 'flour' } @ingredients

Но, пожалуйста, не используйте функцию first()! Он не отражает намерения вашего кода вообще. Не используйте оператор ~~ "Smart match": он сломан. И не используйте grep() или решение с хешем: они перебирают весь список.

any() остановится, как только он найдет ваше значение.

Подробнее читайте в блоге.

mascip 22 май 2013, в 11:45

7

для любых нужд use List::Util qw(any); , List::Util находится в основных модулях .
Onlyjob 26 сен. 2015, в 02:51

11

Несмотря на то, что он удобен в использовании, похоже, что решение конвертирования в хеш файл стоит довольно много производительности, что было проблемой для меня.

#!/usr/bin/perl
use Benchmark;
my @list;
for (1..10_000) {
    push @list, $_;
}

timethese(10000, {
  'grep'    => sub {
            if ( grep(/^5000$/o, @list) ) {
                # code
            }
        },
  'hash'    => sub {
            my %params = map { $_ => 1 } @list;
            if ( exists($params{5000}) ) {
                # code
            }
        },
});

Выход контрольного теста:

Benchmark: timing 10000 iterations of grep, hash...
          grep:  8 wallclock secs ( 7.95 usr +  0.00 sys =  7.95 CPU) @ 1257.86/s (n=10000)
          hash: 50 wallclock secs (49.68 usr +  0.01 sys = 49.69 CPU) @ 201.25/s (n=10000)

aksel 22 нояб. 2012, в 16:24

4

Использование List::Util::first быстрее, так как оно прекращает итерацию, когда находит совпадение.
RobEarl 06 дек. 2012, в 11:42
1

-1 Ваш бенчмарк имеет дефекты, grep значительно медленнее, чем создание хэша и поиск, так как первым является O (n), а последним O (1). Просто сделайте создание хеша только один раз (вне цикла) и предварительно вычислите регулярное выражение только для измерения методов ( см. Мой ответ ).
Xaerxess 18 дек. 2012, в 18:44
4

@Xaerxess: В моем случае я хотел сделать один поиск, поэтому я считаю, что было бы справедливо сосчитать как создание хеша / регулярного выражения, так и поиск / поиск. Если бы задача состояла в том, чтобы сделать много поисков, я думаю, ваше решение лучше.
aksel 02 янв. 2013, в 06:53
3

Если вы хотите выполнить только одну итерацию, разница будет неразличима между любыми выбранными вами методами, поэтому любой эталонный тест неверен, поскольку в данном случае это злая микрооптимизация.
Xaerxess 02 янв. 2013, в 09:23
0

Конечно, преобразование массива в хеш и выполнение одного поиска занимает больше времени, чем один поиск в этом массиве.
Jonathon 04 март 2013, в 04:10
2

Регулярное выражение компилируется только один раз, так как оно имеет флаг 'o'.
Apoc 29 апр. 2014, в 16:08

Показать ещё 4 комментария

10

тест @eakssjo - мешает создавать хэши в цикле и создавать регулярные выражения в цикле. Фиксированная версия (плюс я добавил List::Util::first и List::MoreUtils::any):

use List::Util qw(first);
use List::MoreUtils qw(any);
use Benchmark;

my @list = ( 1..10_000 );
my $hit = 5_000;
my $hit_regex = qr/^$hit$/; # precompute regex
my %params;
$params{$_} = 1 for @list;  # precompute hash
timethese(
    100_000, {
        'any' => sub {
            die unless ( any { $hit_regex } @list );
        },
        'first' => sub {
            die unless ( first { $hit_regex } @list );
        },
        'grep' => sub {
            die unless ( grep { $hit_regex } @list );
        },
        'hash' => sub {
            die unless ( $params{$hit} );
        },
    });

И результат (это за 100_000 итераций, в десять раз больше, чем в ответе @eakssjo):

Benchmark: timing 100000 iterations of any, first, grep, hash...
       any:  0 wallclock secs ( 0.67 usr +  0.00 sys =  0.67 CPU) @ 149253.73/s (n=100000)
     first:  1 wallclock secs ( 0.63 usr +  0.01 sys =  0.64 CPU) @ 156250.00/s (n=100000)
      grep: 42 wallclock secs (41.95 usr +  0.08 sys = 42.03 CPU) @ 2379.25/s (n=100000)
      hash:  0 wallclock secs ( 0.01 usr +  0.00 sys =  0.01 CPU) @ 10000000.00/s (n=100000)
            (warning: too few iterations for a reliable count)

Xaerxess 18 дек. 2012, в 20:07

6

Если вы хотите проверить несколько элементов, то предварительное создание хеша экономит ваше время. Но если вы просто хотите узнать, содержит ли он один элемент, то у вас уже нет хэша. Поэтому создание хэша должно быть частью вычислительного времени. Тем более для регулярного выражения: вам нужно новое регулярное выражение для каждого элемента, который вы ищете.
fishinear 24 янв. 2013, в 12:27
1

@fishinear Верно, но если вас интересует только одна проверка, а не несколько проверок, то очевидно, что микрооптимизация даже не в том, чтобы узнать, какой метод быстрее, потому что эти микросекунды не имеют значения. Если вы хотите повторить эту проверку, лучше использовать хеш, потому что стоимость создания хеша достаточно мала, чтобы ее можно было игнорировать. Выше тестов измеряются только различные способы тестирования, не включая какие-либо настройки. Да, это может быть недействительным в вашем случае использования, но опять же - если вы делаете только одну проверку, вы должны использовать то, что наиболее читабельно для вас и ваших товарищей.
Xaerxess 21 дек. 2015, в 09:51

3

Способ 1: grep (может быть осторожным, поскольку ожидается, что значение будет регулярным выражением).

Старайтесь не использовать grep, если смотреть на ресурсы.

if ( grep( /^$value$/, @badparams ) ) {
  print "found";
}

Метод 2: Линейный поиск

for (@badparams) {
    if ($_ eq $value) {
       print "found";
    }
}

Способ 3: используйте хэш

my %hash = map {$_ => 1} @badparams;
print "found" if (exists $hash{$value});

Способ 4: smartmatch

(добавлено в Perl 5.10, отмеченное экспериментально в Perl 5.18).

use experimental 'smartmatch';  # for perl 5.18
print "found" if ($value ~~ @badparams);

Способ 5: Использовать основной модуль `List::MoreUtils`

use List::MoreUtils qw(any uniq);;
@badparams = (1,2,3);
$value = 1;
print "found" if any {$_ eq $value} @badparams;

Kamal Nayan 09 май 2017, в 15:28

2

Вы, конечно, хотите хэш здесь. Поместите плохие параметры в виде ключей в хеш, а затем определите, существует ли конкретный параметр в хеше.

our %bad_params = map { $_ => 1 } qw(badparam1 badparam2 badparam3)

if ($bad_params{$new_param}) {
  print "That is a bad parameter\n";
}

Если вам действительно интересно это сделать с массивом, посмотрите List::Util или List::MoreUtils

David M 18 май 2010, в 19:58

0

@files - это существующий массив

my @new_values =  grep(/^2[\d].[\d][A-za-z]?/,@files);

print join("\n", @new_values);

print "\n";

/^2[\d].[\d][A-za-z]?/= vaues, начиная с 2 здесь, вы можете поместить любое регулярное выражение

Rohan 28 фев. 2018, в 04:58

0

my @badparams = (1,2,5,7,'a','zzz');

my $badparams = join('|',@badparams);   # '|' or any other character not present in params

foreach my $par (4,5,6,7,'a','z','zzz')
{
    if ($badparams =~ /\b$par\b/)
    {
        print "$par is present\n";
    }
    else
    {
        print "$par is not present\n";
    }
}

Возможно, вы захотите проверить согласованность конечных пробелов

Serge 21 май 2014, в 18:39

0

Есть два способа сделать это. Вы можете использовать броски значений в хеш для таблицы поиска, как это было предложено другими сообщениями. (Я добавлю еще один идиом.)

my %bad_param_lookup;
@bad_param_lookup{ @bad_params } = ( 1 ) x @bad_params;

Но если это данные из символов слова и не слишком много мета, вы можете сбросить его в чередование регулярных выражений:

use English qw<$LIST_SEPARATOR>;

my $regex_str = do { 
    local $LIST_SEPARATOR = '|';
    "(?:@bad_params)";
 };

 # $front_delim and $back_delim being any characters that come before and after. 
 my $regex = qr/$front_delim$regex_str$back_delim/;

Это решение должно быть настроено для типов "плохих значений", которые вы ищете. И снова, это может быть совершенно неуместно для определенных типов строк, поэтому предостережение emptor.

Axeman 18 май 2010, в 22:10

1

Вы также можете написать @bad_param_lookup{@bad_params} = () , но вам нужно будет использовать exists для проверки членства.
Greg Bacon 19 май 2010, в 01:40

Ещё вопросы

Для протокола, ответ зависит от вашей ситуации. Звучит так, как будто вы хотите сделать повторный поиск, поэтому использование хэша, как подсказывает jkramer, хорошо. Если вы хотите сделать только один поиск, вы можете просто повторить. (И в некоторых случаях вы можете захотеть выполнить бинарный поиск вместо использования хеша!)
Для записи (а это может быть совершенно неприменимо к вашей ситуации), как правило, лучше определить «хорошие ценности» и игнорировать остальные, чем пытаться отсеять известные «плохие ценности». Вопрос, который вам нужно задать, заключается в том, возможно ли, что могут быть какие-то плохие ценности, о которых вы еще не знаете.
Я считаю это более читабельным, чем метод хэширования. Казалось бы, единственный раз, когда метод хеширования имеет смысл, - это когда нужно проверить несколько значений.
Двойная тильда была введена в Perl 5.10
@DennisWilliamson ... и в 5.18 это считается экспериментальным .
Избегайте smartmatch в производственном коде. Это нестабильно / экспериментально в ожидании дальнейшего уведомления.
Я нахожу это также более читабельным, но « Не использовать» говорит о том, что он неэффективен, и проверяет каждый элемент, даже если он первый.
Используя perl 5.8.8, выдает ошибку: синтаксическая ошибка в строке script.pl 646, рядом с $ series_id ~
Не используйте if ("value" ~~ @array). ~~ - это экспериментальная функция под названием Smartmatch. Эксперимент считается неудачным и будет удален или изменен в будущей версии Perl.
Это хорошо, но, кажется, плохо знакомо с Perl 5.10. Прошло некоторое время, прежде чем я понял, почему я получаю синтаксические ошибки.
Предупреждение: вы можете избежать этого, так как в разных версиях оператор, по-видимому, ведет себя по-разному и тем временем был помечен как экспериментальный . Поэтому, если у вас нет полного контроля над вашей версией perl (и у кого она есть), вам, вероятно, следует избегать ее.
Мне нравится это объяснение того, почему рекомендуется use experimental 'smartmatch' . Так как у меня есть контроль над моей версией perl (внутренней системой), я использую no warnings 'experimental::smartmatch'; заявление.
для любых нужд use List::Util qw(any); , List::Util находится в основных модулях .
Использование List::Util::first быстрее, так как оно прекращает итерацию, когда находит совпадение.
-1 Ваш бенчмарк имеет дефекты, grep значительно медленнее, чем создание хэша и поиск, так как первым является O (n), а последним O (1). Просто сделайте создание хеша только один раз (вне цикла) и предварительно вычислите регулярное выражение только для измерения методов ( см. Мой ответ ).
@Xaerxess: В моем случае я хотел сделать один поиск, поэтому я считаю, что было бы справедливо сосчитать как создание хеша / регулярного выражения, так и поиск / поиск. Если бы задача состояла в том, чтобы сделать много поисков, я думаю, ваше решение лучше.
Если вы хотите выполнить только одну итерацию, разница будет неразличима между любыми выбранными вами методами, поэтому любой эталонный тест неверен, поскольку в данном случае это злая микрооптимизация.
Конечно, преобразование массива в хеш и выполнение одного поиска занимает больше времени, чем один поиск в этом массиве.
Регулярное выражение компилируется только один раз, так как оно имеет флаг 'o'.
Если вы хотите проверить несколько элементов, то предварительное создание хеша экономит ваше время. Но если вы просто хотите узнать, содержит ли он один элемент, то у вас уже нет хэша. Поэтому создание хэша должно быть частью вычислительного времени. Тем более для регулярного выражения: вам нужно новое регулярное выражение для каждого элемента, который вы ищете.
@fishinear Верно, но если вас интересует только одна проверка, а не несколько проверок, то очевидно, что микрооптимизация даже не в том, чтобы узнать, какой метод быстрее, потому что эти микросекунды не имеют значения. Если вы хотите повторить эту проверку, лучше использовать хеш, потому что стоимость создания хеша достаточно мала, чтобы ее можно было игнорировать. Выше тестов измеряются только различные способы тестирования, не включая какие-либо настройки. Да, это может быть недействительным в вашем случае использования, но опять же - если вы делаете только одну проверку, вы должны использовать то, что наиболее читабельно для вас и ваших товарищей.
Вы также можете написать @bad_param_lookup{@bad_params} = () , но вам нужно будет использовать exists для проверки членства.

jkramer · Accepted Answer · 2010-05-18T19-49-00.000Z

Просто превратите массив в хэш:

my %params = map { $_ => 1 } @badparams;

if(exists($params{$someparam})) { ... }

Вы также можете добавить в список дополнительные (уникальные) параметры:

$params{$newparam} = 1;

И позже получите список (уникальных) параметров назад:

@badparams = keys %params;

Для записи, этот код по-прежнему перебирает массив. Вызов map {} просто упрощает ввод этой итерации.
Я сделал бы это только в том случае, если ваши значения в @badparams псевдостатичны, и вы планируете много проверять карту. Я не рекомендовал бы это для единственной проверки.
Разве это не пойдет на пользу массиву с несколькими элементами с одинаковым значением?
@RobWells нет, все будет работать нормально. В следующий раз, когда он увидит то же значение, он просто перезапишет запись в хэше, которая в этом случае снова устанавливает ее в 1 .

Как я могу проверить, содержит ли массив Perl определенное значение?

11 ответов

Способ 1: grep (может быть осторожным, поскольку ожидается, что значение будет регулярным выражением).

Метод 2: Линейный поиск

Способ 3: используйте хэш

Способ 4: smartmatch

Способ 5: Использовать основной модуль List::MoreUtils

Ещё вопросы

Способ 5: Использовать основной модуль `List::MoreUtils`