Какой самый быстрый способ поиска подстроки в Java?

Question

Какой самый быстрый способ поиска подстроки в Java?

1

Я хочу понять проблемы производительности, которые могут возникнуть при выполнении поиска подстроки в Java. Я знаю два встроенных метода поиска подстроки в Java.

1. String.indexOf()

Насколько я понимаю, этот метод использует алгоритм грубой силы подстрочного поиска, поэтому его сложностью является O (nm), где n и m - длины строки и шаблона.

2. Используйте шаблон и контрольную точку

Я ничего не знаю о том, как реализуются алгоритмы регулярного выражения и об их сложности.

Поэтому вопросы:

1) Какой из этих методов предпочтительнее с точки зрения производительности?

2) Какова сложность поиска в регулярном выражении? Это зависит от самого регулярного выражения?

MiamiBeach 07 июль 2014, в 05:19

Источник

1

Aho-Corasick - лучший выбор, если вы действительно обеспокоены скоростью
ಠ_ಠ 07 июль 2014, в 02:47
1

Бойер-Мур с оптимизациями оказался в линейном времени в худшем случае. Конечно, такой вид ... побеждает цель вопроса с точки зрения того, что представлено. Вы хотите самый быстрый способ поиска подстроки, используя только эти инструменты? Какие подстроки вы ищете? Не могли бы вы привести примеры ввода и ожидаемого результата?
Makoto 07 июль 2014, в 02:49
1

Сложность поиска регулярных выражений сильно варьируется в зависимости от того, что сопоставляется. В большинстве случаев это совпадает очень быстро, но из-за обратного отслеживания в неудачном матче уходит много времени.
Unihedron 07 июль 2014, в 02:58
2

Я бы выбрал indexOf () над регулярным выражением, когда это возможно.
jahroy 07 июль 2014, в 02:58
0

Причина, по которой indexOf использует этот алгоритм, заключается в том, что он в большинстве случаев является самым быстрым на практике, даже если другие алгоритмы могут иметь лучшую асимптотику в теории.
Louis Wasserman 07 июль 2014, в 03:26
0

@ಠ_ಠ ಠ_ಠ Паттерны, по сути, являются обобщенным Aho-Corasick (который является обобщенным KMP). Поскольку все они создают нечто вроде конечного автомата, я склоняюсь к Рабину-Карпу, если я только один раз проведу матч.
David Ehrmann 07 июль 2014, в 03:35
0

@ಠ_ಠ: ಠ_ಠ: Иисус, нет. Aho-Corasick создает функцию сбоя для набора строк. Это требует линейного пробела, и фаза сопоставления текста начинает смотреть на функцию сбоя всякий раз, когда происходит сбой. Это означает значительный постоянный коэффициент, превышающий то, что потребует метод постоянного пространства.
tmyklebu 07 июль 2014, в 04:57
0

@DavidEhrmann: посмотрите на код. Java не превращает регулярные выражения в DFA или что-то подобное. Он превращает их в дерево этих объектов Node которые реализуют наивное сопоставление регулярных выражений. Там есть специальный хак - используйте Бойера-Мура, если вы пытаетесь сопоставить строку, а не наивно, посимвольно.
tmyklebu 07 июль 2014, в 04:59
0

@tmyklebu Таким образом, он создает DFA, но обрабатывает чередование наивно, а не путем создания NFA, а затем построения powerset. По крайней мере, версия Oracle. Не уверен насчет Classpath.
David Ehrmann 07 июль 2014, в 05:15
0

@DavidEhrmann: Это вообще не DFA. Это граф объектов, которые рекурсивно вызывают другие объекты. Не используйте его, если вы не пытаетесь добраться до Бойер-Мур внутри.
tmyklebu 07 июль 2014, в 05:17
0

@tmyklebu Это детерминированный и имеет состояния. Я не стал бы расстраиваться из-за оценки, происходящей в узлах, а не вне их.
David Ehrmann 07 июль 2014, в 05:24
0

@DavidEhrmann: Чувак, это не DFA. Состояние DFA смотрит на следующий символ, переходит в другое состояние и полностью забывает обо всем, что только что произошло. Это возвратная реализация.
tmyklebu 07 июль 2014, в 05:26
0

@Unihedron: нет возврата к регулярным выражениям Java, когда они просто выполняют сопоставление строк.
tmyklebu 07 июль 2014, в 05:27
0

@LouisWasserman: Люди так много говорят. Вы хотите наивное соответствие строки, когда игла короткая . Вы хотите двустороннее соответствие, когда игла длинная . Большинство случаев использования сопоставления строк в дикой природе имеют разновидность «find :// in a URL», где из-за короткой стрелки вам очень нужен наивный метод. Люди привыкли писать свои собственные средства сравнения строк, когда им приходится делать что-то нетривиальное именно потому, что реализации библиотек часто бывают бесполезными. Это не очень хорошая причина избегать улучшения библиотеки. (И проверка if (len < thresh) действительно не помешает.) `
tmyklebu 07 июль 2014, в 05:29
0

@tmyklebu Хорошо, есть мета-состояние, подразумеваемое стеком вызовов. Это другой способ структурировать то же самое, что более практично.
David Ehrmann 07 июль 2014, в 05:30
0

@DavidEhrmann: Нет, это очень, очень, очень отличается от DFA. Например, сопоставление не требует линейного времени даже для тех регулярных выражений, о которых они вас учили в школе. Смотрите код в моем ответе.
tmyklebu 07 июль 2014, в 05:32
0

Макото, я просто хочу узнать, какой способ быстрее найти точное совпадение подстроки: регулярное выражение или перебор, или какой-нибудь алгоритм, такой как KMP или Бойер-Мур, реализован хорошо? Я полагаю, что No1 - это какой-то алгоритм, хорошо, какой вариант № 2, если я не хочу ничего кодировать самостоятельно?
MiamiBeach 07 июль 2014, в 15:13

Показать ещё 15 комментариев

Теги:

java

string

regex

algorithm

substring

1 ответ

Ещё вопросы

Aho-Corasick - лучший выбор, если вы действительно обеспокоены скоростью
Бойер-Мур с оптимизациями оказался в линейном времени в худшем случае. Конечно, такой вид ... побеждает цель вопроса с точки зрения того, что представлено. Вы хотите самый быстрый способ поиска подстроки, используя только эти инструменты? Какие подстроки вы ищете? Не могли бы вы привести примеры ввода и ожидаемого результата?
Сложность поиска регулярных выражений сильно варьируется в зависимости от того, что сопоставляется. В большинстве случаев это совпадает очень быстро, но из-за обратного отслеживания в неудачном матче уходит много времени.
Я бы выбрал indexOf () над регулярным выражением, когда это возможно.
Причина, по которой indexOf использует этот алгоритм, заключается в том, что он в большинстве случаев является самым быстрым на практике, даже если другие алгоритмы могут иметь лучшую асимптотику в теории.
@ಠ_ಠ ಠ_ಠ Паттерны, по сути, являются обобщенным Aho-Corasick (который является обобщенным KMP). Поскольку все они создают нечто вроде конечного автомата, я склоняюсь к Рабину-Карпу, если я только один раз проведу матч.
@ಠ_ಠ: ಠ_ಠ: Иисус, нет. Aho-Corasick создает функцию сбоя для набора строк. Это требует линейного пробела, и фаза сопоставления текста начинает смотреть на функцию сбоя всякий раз, когда происходит сбой. Это означает значительный постоянный коэффициент, превышающий то, что потребует метод постоянного пространства.
@DavidEhrmann: посмотрите на код. Java не превращает регулярные выражения в DFA или что-то подобное. Он превращает их в дерево этих объектов Node которые реализуют наивное сопоставление регулярных выражений. Там есть специальный хак - используйте Бойера-Мура, если вы пытаетесь сопоставить строку, а не наивно, посимвольно.
@tmyklebu Таким образом, он создает DFA, но обрабатывает чередование наивно, а не путем создания NFA, а затем построения powerset. По крайней мере, версия Oracle. Не уверен насчет Classpath.
@DavidEhrmann: Это вообще не DFA. Это граф объектов, которые рекурсивно вызывают другие объекты. Не используйте его, если вы не пытаетесь добраться до Бойер-Мур внутри.
@tmyklebu Это детерминированный и имеет состояния. Я не стал бы расстраиваться из-за оценки, происходящей в узлах, а не вне их.
@DavidEhrmann: Чувак, это не DFA. Состояние DFA смотрит на следующий символ, переходит в другое состояние и полностью забывает обо всем, что только что произошло. Это возвратная реализация.
@Unihedron: нет возврата к регулярным выражениям Java, когда они просто выполняют сопоставление строк.
@LouisWasserman: Люди так много говорят. Вы хотите наивное соответствие строки, когда игла короткая . Вы хотите двустороннее соответствие, когда игла длинная . Большинство случаев использования сопоставления строк в дикой природе имеют разновидность «find :// in a URL», где из-за короткой стрелки вам очень нужен наивный метод. Люди привыкли писать свои собственные средства сравнения строк, когда им приходится делать что-то нетривиальное именно потому, что реализации библиотек часто бывают бесполезными. Это не очень хорошая причина избегать улучшения библиотеки. (И проверка if (len < thresh) действительно не помешает.) `
@tmyklebu Хорошо, есть мета-состояние, подразумеваемое стеком вызовов. Это другой способ структурировать то же самое, что более практично.
@DavidEhrmann: Нет, это очень, очень, очень отличается от DFA. Например, сопоставление не требует линейного времени даже для тех регулярных выражений, о которых они вас учили в школе. Смотрите код в моем ответе.
Макото, я просто хочу узнать, какой способ быстрее найти точное совпадение подстроки: регулярное выражение или перебор, или какой-нибудь алгоритм, такой как KMP или Бойер-Мур, реализован хорошо? Я полагаю, что No1 - это какой-то алгоритм, хорошо, какой вариант № 2, если я не хочу ничего кодировать самостоятельно?

tmyklebu · Accepted Answer · 2014-07-07T02-02-00.000Z

Честно говоря, если вы заботитесь о худшем случае, JNI в собственный код, который вызывает вашу стандартную библиотечную функцию strstr. Хорошо реализованная strstr, как и в последних версиях glibc, имеет линейное наихудшее время работы и постоянное использование наихудшего пространства. Я считаю, что glibc strstr может делать Boyer-Moore-подобные длинные прыжки через текст. Стандартные библиотеки C поддерживаются людьми, которые умеют писать и поддерживать хорошие и универсальные библиотеки и практиковать свои ремесла. То же самое нельзя сказать о стандартной библиотеке классов Java.

Вам нужно будет превратить строку Java UTF-16 в нечто подходящее для strstr, например строку UTF-8. Вам также придется обрабатывать встроенные нулевые байты в строке UTF-8 изящно. Помимо этого, вы воспользуетесь преимуществами хорошо написанной и ухоженной библиотеки.

Java выполняет поиск регулярных выражений (для этого конкретного случая) с использованием строкового поиска Boyer-Moore, взломанного в наивную реализацию регулярного выражения. Компиляция Pattern только с вашей строкой приведет к тому, что Matcher будет работать относительно хорошо. Обратите внимание, однако, что это НЕ распространяется на все, кроме поиска строк в библиотеке regex; вы по-прежнему придерживаетесь наивной реализации регулярного выражения, которая отступает и все, если вы кормите это нетривиальное регулярное выражение.

В качестве доказательства того, почему вы не должны использовать регулярное выражение Java для реальных регулярных выражений, я представлю вам следующее:

public class regex {
  public static void main(String[] args) throws Exception {
    String haystack = "ab";
    String needle = "abab?.*";
    for (int i = 0; i < 7; i++) haystack = haystack + haystack;
    for (int i = 0; i < 4; i++) needle = needle + needle;
    System.out.println(haystack.length() + " " + needle.length());
    long before = System.currentTimeMillis();
    System.out.println(Pattern.matches(needle, haystack));
    long after = System.currentTimeMillis(); // long after indeed...
    System.out.println(after - before);
  }
}

Это поиск в стоге сена в 256 символов для регулярного выражения иглы (это честное регулярное выражение, которое вы узнали в классе компиляторов) в 112 символов. Это займет около 24 секунд, чтобы завершить работу на моей машине.

/abab?.*abab?.*abab?.*.../ уничтожит любую машину ...
@Unihedron: это действительно не будет. Пойдите, возьмите любую вступительную книгу компиляторов и прочитайте о том, как реализовать регулярные выражения. Или посмотрите на реализацию регулярных выражений Русса Кокса по адресу swtch.com/~rsc/regexp .
Знаете какие-нибудь лучшие движки регулярных выражений? Perl 5.10 занимает на 40% больше времени, чем Java 1.8.
@laune: страница Расса Кокса имеет указатели на четыре реализации. Я лично использовал русскую библиотеку re2. Вы можете убедиться, что это работает правильно с примером, который я привел.
tmyklebu, я просто не могу получить от вашего ответа - какой способ быстрее найти точное совпадение подстроки: регулярное выражение или грубая сила или какой-нибудь алгоритм, такой как KMP или Бойер-Мур, реализован хорошо?
Я полагаю, что No1 - это какой-то алгоритм, хорошо, какой вариант № 2, если я не хочу ничего кодировать самостоятельно?
Если вы используете механизм регулярных выражений Java для сопоставления строк, вы получите средство сравнения строк Бойера-Мура. Обычно это будет более быстрый из двух методов для шаблона нетривиальной длины. Похоже, это единственное , что движок Java regex делает хорошо.