Захват групп из Grep RegEx

Question

Захват групп из Grep RegEx

250

У меня есть этот маленький script в sh (Mac OSX 10.6), чтобы просмотреть массив файлов. На этом этапе Google перестает быть полезной:

files="*.jpg"
for f in $files
    do
        echo $f | grep -oEi '[0-9]+_([a-z]+)_[0-9a-z]*'
        name=$?
        echo $name
    done

До сих пор (очевидно, для вас, гуру-оболочки) $name просто содержит 0, 1 или 2, в зависимости от того, было ли grep установлено, что имя файла соответствует предоставленному вопросу. Я хотел бы захватить то, что внутри parens ([a-z]+), и сохранить его переменной.

Я бы хотел, чтобы использовал grep, если возможно. Если нет, пожалуйста, не используйте Python или Perl и т.д. sed или что-то в этом роде - я новичок в оболочке и хотел бы атаковать это от угла пуриста * nix.

Кроме того, как super-cool bonu, мне любопытно, как я могу объединить строку в оболочке? Я захватил группу, это строка "somename", хранящаяся в $name, и я хотел добавить строку ".jpg" до конца, могу ли я cat $name '.jpg'?

Пожалуйста, объясните, что происходит, если у вас есть время.

Isaac 11 дек. 2009, в 23:31

Источник

23

Является Grep действительно чище , чем UNIX СЭД?
martin clayton 12 дек. 2009, в 01:05
1

Ах, не хотел это предлагать. Я просто надеялся, что решение можно будет найти с помощью инструмента, который я специально пытаюсь изучить здесь. Если это не удается решить с помощью grep , то sed было бы здорово, если бы это можно решить с помощью sed .
Isaac 12 дек. 2009, в 01:09
2

Я должен был поставить :) на этом кстати ...
martin clayton 12 дек. 2009, в 01:31
0

Пш, мой мозг слишком жарен сегодня, ха-ха.
Isaac 12 дек. 2009, в 01:34
2

@martinclayton Это был бы интересный аргумент. Я действительно думаю, что sed (или ed, если быть точным) будет более старым (и, следовательно, более чистым? Может быть?) Unix, потому что grep получает свое имя из выражения ed g (lobal) / re (gular) / p (rint).
ffledgling 05 март 2013, в 15:18

Показать ещё 3 комментария

Теги:

bash

grep

shell

7 ответов

112

Это действительно невозможно с чистым grep, по крайней мере, в общем случае.

Но если ваш шаблон подходит, вы можете использовать grep несколько раз в конвейере, чтобы сначала сократить свою линию до известного формата, а затем извлечь только тот бит, который вы хотите. (Хотя такие инструменты, как cut и sed, намного лучше).

Предположим ради аргумента, что ваш шаблон был немного проще: [0-9]+_([a-z]+)_ Вы можете извлечь это так:

echo $name | grep -Ei '[0-9]+_[a-z]+_' | grep -oEi '[a-z]+'

Первый grep удалит любые строки, которые не совпадают с вашим общим patern, второй grep (который имеет --only-matching указанный) отобразит альфа-часть имени. Это работает только потому, что шаблон подходит: "альфа-часть" достаточно конкретна, чтобы вытащить то, что вы хотите.

(Помимо этого: Лично я использовал бы grep + cut для достижения того, что вам нужно: echo $name | grep {pattern} | cut -d _ -f 2. Это получает cut для разбора строки в полях путем разделения на разделитель _ и возвращает только поле 2 (номера полей начинаются с 1)).

Unix-философия состоит в том, чтобы иметь инструменты, которые делают что-то одно, и делают это хорошо, и объединяют их для достижения нетривиальных задач, поэтому я бы сказал, что grep + sed и т.д. - это еще один способ Unixy вещи: -)

RobM 12 дек. 2009, в 02:56

3

for f in $files; do name= echo $ f | grep -oEi '[0-9] + _ ([az] +) _ [0-9a-z] *' | cut -d _ -f 2 ; Ага!
Isaac 12 дек. 2009, в 01:43
1

используя оболочку, нет необходимости в grep + cut. тратить накладные расходы, если OP имеет много файлов ..
ghostdog74 12 дек. 2009, в 04:10
2

я не согласен с этой «философией». если вы можете использовать встроенные возможности оболочки без вызова внешних команд, то ваш скрипт будет работать намного быстрее. Есть некоторые инструменты, которые пересекаются в функции. например, grep, sed и awk. все они выполняют строковые манипуляции, но awk выделяется над всеми ними, потому что он может сделать намного больше. Практически все эти цепочки команд, такие как описанные выше двойные greps или grep + sed, можно сократить, выполнив их одним процессом awk.
ghostdog74 12 дек. 2009, в 04:43
7

@ ghostdog74: Здесь нет аргументов, что объединение множества крошечных операций в целом менее эффективно, чем выполнение всего этого в одном месте, но я придерживаюсь своего утверждения, что философия Unix - это множество инструментов, работающих вместе. Например, tar просто архивирует файлы, но не сжимает их, и, поскольку он по умолчанию выводит в STDOUT, вы можете передать его по сети с помощью netcat или сжать с помощью bzip2 и т. Д. Что, на мой взгляд, подкрепляет соглашение и общие Этос, что инструменты Unix должны уметь работать вместе в конвейерах.
RobM 13 дек. 2009, в 14:26
0

крой потрясающий - спасибо за совет! Что касается инструментов против аргумента эффективности, мне нравится простота цепочки инструментов.
ether_joe 28 окт. 2014, в 23:00
0

реквизит для опции grep, это очень полезно
chiliNUT 22 янв. 2017, в 05:02

Показать ещё 4 комментария

66

Я понимаю, что ответ уже был принят для этого, но из "строгого" пуристского угла "кажется, что правильным инструментом для задания является pcregrep, что не кажется как уже упоминалось. Попробуйте изменить строки:

    echo $f | grep -oEi '[0-9]+_([a-z]+)_[0-9a-z]*'
    name=$?

к следующему:

    name=$(echo $f | pcregrep -o1 -Ei '[0-9]+_([a-z]+)_[0-9a-z]*')

чтобы получить только содержимое группы захвата 1.

В инструменте pcregrep используется все тот же синтаксис, который вы уже использовали с grep, но реализуете необходимые функции.

Параметр -o работает так же, как версия grep, если он голый, но также принимает числовой параметр в pcregrep, который указывает, какую группу захвата вы хотите отобразить.

При таком решении в script требуется минимальное изменение. Вы просто заменяете одну модульную утилиту другой и настраиваете параметры.

Интересное примечание:. Вы можете использовать несколько аргументов -o для возврата нескольких групп захвата в том порядке, в котором они отображаются в строке.

John Sherwood 03 март 2013, в 18:14

3

pcregrep не доступен по умолчанию в Mac OS X что используется OP
grebneke 01 янв. 2014, в 02:06
1

+1 за один лайнер
Antoine Wils 15 июль 2014, в 13:11
4

Мой pcregrep , похоже, не понимает цифру после -o : «Неизвестная опция буква« 1 »в« -o1 ». Также нет упоминания об этой функциональности при взгляде на pcregrep --help
Peter Herdenborg 25 март 2015, в 09:10
0

я не могу воспроизвести это. вероятно, значение этого pcregrep другое. Не могли бы вы предоставить больше информации? а как насчет разницы между этим и grep -P ? даже на странице руководства : linux.die.net/man/1/pcregrep
Jason Hu 03 июль 2015, в 14:02
0

@PeterHerdenborg Какую версию вы используете? У меня та же проблема, и я нашел ссылку на нее здесь .
WAF 20 июль 2015, в 15:08
1

@WAF извините, я должен был включить эту информацию в свой комментарий. Я на Centos 6.5 и версия pcregrep, видимо, очень старая: 7.8 2008-09-05 .
Peter Herdenborg 31 июль 2015, в 08:14
2

да, очень помогите, например, echo 'r123456 foo 2016-03-17' | pcregrep -o1 'r([0-9]+)' 123456
zhuguowei 17 март 2016, в 13:18
0

На macOS brew install pcre . Также обратите внимание, что zsh для Homebrew зависит от pcre, поэтому у вас уже может быть pcre, если вы его установили.
anishpatel 20 окт. 2017, в 22:26
3

pcregrep 8.41 (устанавливается с помощью apt-get install pcregrep в Ubuntu 16.03 ) не распознает ключ -Ei . Это работает отлично без этого, все же. В macOS с pcregrep установленным через homebrew (также 8.41), как упоминалось в @anishpatel выше, по крайней мере, в High Sierra переключатель -E также не распознается.
Ville 11 фев. 2018, в 22:56

Показать ещё 7 комментариев

18

Невозможно только в grep Я верю

для sed:

name=`echo $f | sed -E 's/([0-9]+_([a-z]+)_[0-9a-z]*)|.*/\2/'`

Я возьму удар в бонус, хотя:

echo "$name.jpg"

cobbal 12 дек. 2009, в 02:07

0

Ах, конечно, спасибо за это, ха-ха.
Isaac 12 дек. 2009, в 01:05
2

К сожалению, что sed решение не работает. Он просто распечатывает все в моем каталоге.
Isaac 12 дек. 2009, в 01:14
0

обновленный, выведет пустую строку, если не найдено совпадений, поэтому обязательно проверьте это
cobbal 12 дек. 2009, в 01:19
0

Теперь он выводит только пустые строки!
Isaac 12 дек. 2009, в 01:24
0

у этого седа есть проблема. Первая группа захвата скобок охватывает все. Конечно \ 2 не будет ничего.
ghostdog74 12 дек. 2009, в 04:36
0

это работало для некоторых простых тестовых случаев ... \ 2 получает внутреннюю группу
cobbal 12 дек. 2009, в 06:01
0

Пригвожден "БОНУС";)
mgalgs 29 янв. 2014, в 20:09

Показать ещё 5 комментариев

7

Это решение, использующее gawk. Это то, что я нахожу, мне нужно часто использовать, поэтому я создал для него функцию

function regex1 { gawk 'match($0,/'$1'/, ary) {print ary['${2:-'1'}']}'; }

использовать только do

$ echo 'hello world' | regex1 'hello\s(.*)'
world

opsb 09 янв. 2013, в 06:49

0

Отличная идея, но, похоже, не работает с пробелами в регулярном выражении - их нужно заменить на \s . Вы знаете, как это исправить?
Adam Ryczkowski 16 фев. 2019, в 09:10

1

если у вас есть bash, вы можете использовать расширенное подтягивание

shopt -s extglob
shopt -s nullglob
shopt -s nocaseglob
for file in +([0-9])_+([a-z])_+([a-z0-9]).jpg
do
   IFS="_"
   set -- $file
   echo "This is your captured output : $2"
done

или

ls +([0-9])_+([a-z])_+([a-z0-9]).jpg | while read file
do
   IFS="_"
   set -- $file
   echo "This is your captured output : $2"
done

ghostdog74 12 дек. 2009, в 04:21

0

Это выглядит интригующим. Не могли бы вы добавить небольшое объяснение? Или, если вы так склонны, ссылка на особенно проницательный ресурс, который объясняет это? Спасибо!
Isaac 12 дек. 2009, в 04:14
0

справочное руководство bash - 3.5.8.1 Pattern Matching
ghostdog74 12 дек. 2009, в 04:27
1

забыл ссылку: вот она gnu.org/software/bash/manual/bashref.html
ghostdog74 12 дек. 2009, в 04:31

Показать ещё 1 комментарий

1

Предложение для вас - вы можете использовать расширение параметра, чтобы удалить часть имени с последнего подчеркивания вперед и аналогично в начале:

f=001_abc_0za.jpg
work=${f%_*}
name=${work#*_}

Тогда name будет иметь значение abc.

См. Apple документы разработчика, выполните поиск вперед для "Расширения параметров".

martin clayton 12 дек. 2009, в 02:22

1

Ах, теперь это работает. Но достаточно ли это для Unix ? Хм ...
Isaac 12 дек. 2009, в 01:42
0

это не будет проверять ([az] +).
ghostdog74 12 дек. 2009, в 04:09
0

@levislevis - это правда, но, как прокомментировал ФП, он делает то, что было нужно.
martin clayton 12 дек. 2009, в 05:18

Показать ещё 1 комментарий

Ещё вопросы

Является Grep действительно чище , чем UNIX СЭД?
Ах, не хотел это предлагать. Я просто надеялся, что решение можно будет найти с помощью инструмента, который я специально пытаюсь изучить здесь. Если это не удается решить с помощью grep , то sed было бы здорово, если бы это можно решить с помощью sed .
Я должен был поставить :) на этом кстати ...
Пш, мой мозг слишком жарен сегодня, ха-ха.
@martinclayton Это был бы интересный аргумент. Я действительно думаю, что sed (или ed, если быть точным) будет более старым (и, следовательно, более чистым? Может быть?) Unix, потому что grep получает свое имя из выражения ed g (lobal) / re (gular) / p (rint).
for f in $files; do name= echo $ f | grep -oEi '[0-9] + _ ([az] +) _ [0-9a-z] *' | cut -d _ -f 2 ; Ага!
используя оболочку, нет необходимости в grep + cut. тратить накладные расходы, если OP имеет много файлов ..
я не согласен с этой «философией». если вы можете использовать встроенные возможности оболочки без вызова внешних команд, то ваш скрипт будет работать намного быстрее. Есть некоторые инструменты, которые пересекаются в функции. например, grep, sed и awk. все они выполняют строковые манипуляции, но awk выделяется над всеми ними, потому что он может сделать намного больше. Практически все эти цепочки команд, такие как описанные выше двойные greps или grep + sed, можно сократить, выполнив их одним процессом awk.
@ ghostdog74: Здесь нет аргументов, что объединение множества крошечных операций в целом менее эффективно, чем выполнение всего этого в одном месте, но я придерживаюсь своего утверждения, что философия Unix - это множество инструментов, работающих вместе. Например, tar просто архивирует файлы, но не сжимает их, и, поскольку он по умолчанию выводит в STDOUT, вы можете передать его по сети с помощью netcat или сжать с помощью bzip2 и т. Д. Что, на мой взгляд, подкрепляет соглашение и общие Этос, что инструменты Unix должны уметь работать вместе в конвейерах.
крой потрясающий - спасибо за совет! Что касается инструментов против аргумента эффективности, мне нравится простота цепочки инструментов.
реквизит для опции grep, это очень полезно
pcregrep не доступен по умолчанию в Mac OS X что используется OP
Мой pcregrep , похоже, не понимает цифру после -o : «Неизвестная опция буква« 1 »в« -o1 ». Также нет упоминания об этой функциональности при взгляде на pcregrep --help
я не могу воспроизвести это. вероятно, значение этого pcregrep другое. Не могли бы вы предоставить больше информации? а как насчет разницы между этим и grep -P ? даже на странице руководства : linux.die.net/man/1/pcregrep
@PeterHerdenborg Какую версию вы используете? У меня та же проблема, и я нашел ссылку на нее здесь .
@WAF извините, я должен был включить эту информацию в свой комментарий. Я на Centos 6.5 и версия pcregrep, видимо, очень старая: 7.8 2008-09-05 .
да, очень помогите, например, echo 'r123456 foo 2016-03-17' | pcregrep -o1 'r([0-9]+)' 123456
На macOS brew install pcre . Также обратите внимание, что zsh для Homebrew зависит от pcre, поэтому у вас уже может быть pcre, если вы его установили.
pcregrep 8.41 (устанавливается с помощью apt-get install pcregrep в Ubuntu 16.03 ) не распознает ключ -Ei . Это работает отлично без этого, все же. В macOS с pcregrep установленным через homebrew (также 8.41), как упоминалось в @anishpatel выше, по крайней мере, в High Sierra переключатель -E также не распознается.
Ах, конечно, спасибо за это, ха-ха.
К сожалению, что sed решение не работает. Он просто распечатывает все в моем каталоге.
обновленный, выведет пустую строку, если не найдено совпадений, поэтому обязательно проверьте это
Теперь он выводит только пустые строки!
у этого седа есть проблема. Первая группа захвата скобок охватывает все. Конечно \ 2 не будет ничего.
это работало для некоторых простых тестовых случаев ... \ 2 получает внутреннюю группу
Отличная идея, но, похоже, не работает с пробелами в регулярном выражении - их нужно заменить на \s . Вы знаете, как это исправить?
Это выглядит интригующим. Не могли бы вы добавить небольшое объяснение? Или, если вы так склонны, ссылка на особенно проницательный ресурс, который объясняет это? Спасибо!
справочное руководство bash - 3.5.8.1 Pattern Matching
забыл ссылку: вот она gnu.org/software/bash/manual/bashref.html
Ах, теперь это работает. Но достаточно ли это для Unix ? Хм ...
@levislevis - это правда, но, как прокомментировал ФП, он делает то, что было нужно.

Dennis Williamson · Accepted Answer · 2009-12-12T03-14-00.000Z

Если вы используете Bash, вам даже не нужно использовать grep:

files="*.jpg"
regex="[0-9]+_([a-z]+)_[0-9a-z]*"
for f in $files
do
    if [[ $f =~ $regex ]]
    then
        name="${BASH_REMATCH[1]}"
        echo "${name}.jpg"    # concatenate strings
        name="${name}.jpg"    # same thing stored in a variable
    else
        echo "$f doesn't match" >&2 # this could get noisy if there are a lot of non-matching files
    fi
done

Лучше поместить регулярное выражение в переменную. Некоторые шаблоны не будут работать, если они будут включены буквально.

В этом случае используется =~, который является оператором соответствия Bash regex. Результаты совпадения сохраняются в массив с именем $BASH_REMATCH. Первая группа захвата хранится в индексе 1, вторая (если есть) в индексе 2 и т.д. Индексный ноль - полное совпадение.

Вы должны знать, что без привязок это регулярное выражение (и одно с использованием grep) будет соответствовать любому из следующих примеров и более, что может и не быть тем, что вы ищете:

123_abc_d4e5
xyz123_abc_d4e5
123_abc_d4e5.xyz
xyz123_abc_d4e5.xyz

Чтобы устранить второй и четвертый примеры, сделайте свое регулярное выражение следующим образом:

^[0-9]+_([a-z]+)_[0-9a-z]*

в котором говорится, что строка должна начинаться с одной или нескольких цифр. Карат представляет собой начало струны. Если вы добавите знак доллара в конце регулярного выражения, например:

^[0-9]+_([a-z]+)_[0-9a-z]*$

то третий пример также будет устранен, поскольку точка не входит в число символов в регулярном выражении, а знак доллара представляет конец строки. Обратите внимание, что четвертый пример также не соответствует этому совпадению.

Если у вас есть GNU grep (около 2.5 или новее, я думаю, когда был добавлен оператор \K):

name=$(echo "$f" | grep -Po '(?i)[0-9]+_\K[a-z]+(?=_[0-9a-z]*)').jpg

Оператор \K (внешний вид с переменной длиной) приводит к совпадению предыдущего шаблона, но не включает совпадение в результате. Эквивалент фиксированной длины (?<=) - шаблон будет включен перед закрывающей скобкой. Вы должны использовать \K, если квантификаторы могут соответствовать строкам разной длины (например, +, *, {2,4}).

Оператор (?=) соответствует шаблонам с фиксированной или переменной длиной и называется "look-ahead". Он также не включает в себя согласованную строку в результате.

Чтобы сделать совпадение без учета регистра, используется оператор (?i). Это влияет на шаблоны, которые следуют за ним, поэтому его положение является значительным.

Возможно, потребуется изменить регулярное выражение в зависимости от наличия других символов в имени файла. Вы заметите, что в этом случае я показываю пример объединения строки одновременно с захватом подстроки.

В этом ответе я хочу высказать конкретную строку, которая гласит: «Лучше поместить регулярное выражение в переменную. Некоторые шаблоны не будут работать, если они включены буквально».
«Лучше поместить регулярное выражение в переменную. Некоторые шаблоны не будут работать, если включены буквально». - Почему это происходит? Есть ли способ их исправить?
@FrancescoFrassinelli: пример - шаблон, включающий пробелы. Неловко убегать, и вы не можете использовать кавычки, так как это приводит к регулярному выражению. Правильный способ сделать это - использовать переменную. Кавычки можно использовать во время задания, что значительно упрощает задачу.
Однако регулярное выражение Bash не поддерживает ленивое сопоставление.
Оператор \ K - это спасение жизни, когда все, что вам нужно, это быстрая однострочная работа с вашим каталогом. (Мой конкретный случай был поиск имени в файле и в результате сделать несколько каталогов). поэтому grep -P -o "blah \K([stuffhere]+)" somefile | godosomethingwiththat
Это просто не работает. Нет совпадений с регулярным выражением независимо от регулярного выражения или входной строки
@ Брэндон: это работает. Какую версию Bash вы используете? Покажите мне, что вы делаете, это не работает, и, возможно, я могу сказать вам, почему.
@DennisWilliamson 4.3.11(1)-release . Я буквально скопировал пример дословно. echo "${name}.jpg" echos ".jpg"
@ Брендон: у вас есть файлы в текущем каталоге, которые соответствуют шаблону? Например, touch 012_abc_03a.jpg 345_def_14b.jpg чтобы создать пару пустых тестовых файлов, которым соответствует регулярное выражение. В моем ответе совпадение с регулярным выражением и его вывод должны быть частью оператора if а не стоять отдельно, чтобы избежать вывода пустых результатов. Я внесу это изменение, чтобы улучшить ясность.
Я не использую файлы, я адаптировал его к своему сценарию, который представляет собой журнал svn для извлечения текста из коммита. У меня есть регулярное выражение, оно совпадает с использованием grep, но не совпадает с = ~.
@ Брэндон: Без конкретного примера, я не могу помочь. Возможно, вам следует опубликовать вопрос как отдельный вопрос.
@ Брэндон Это работает, и пример достаточно прост для понимания. На самом деле, это отличный ответ. Вы определенно делаете что-то не так.
@mdelolmo: Мой ответ включает информацию о grep . Он был также принят ФП и проголосовал довольно много. Спасибо за отрицание.
Я просто получаю command not found когда я пытаюсь запустить это.
@WylliamJudd У вас почти наверняка есть опечатка. Какая команда говорит, что она не найдена? Какая версия Bash?
Например, regex="([Az]+)\." "foo.bar"=~$regex -bash: foo.bar=~([Az]+)\.: command not found
@WylliamJudd: Вокруг =~ должны быть пробелы, и это выражение должно быть в двойных скобках. В расширенных скобках, таких как ваше второе сообщение, нет необходимости экранировать символы (точка всегда буквальная - это глобус, а не регулярное выражение).
Я сделал это в обе стороны. "foo.bar" =~ $regex прежнему выдает -bash: foo.bar: command not found . [["foo.bar" =~ $regex]] также выдает -bash: [[foo.bar: command not found Спасибо за подсказку по лишнему экранированию.
@WylliamJudd Вам также нужны пробелы в двойных скобках, как я показываю в своем ответе.
Ах! Я думал, что эти двойные скобки были эквивалентом скобок для оператора if, и, поскольку у меня нет оператора if в моем случае использования, я не понял, что они мне нужны. Спасибо! :)