Python: Как сохранить буквенно-цифровые символы английского, латинского алфавита в регулярном выражении?

Question

Python: Как сохранить буквенно-цифровые символы английского, латинского алфавита в регулярном выражении?

1

Я хочу, чтобы мое регулярное выражение содержало все буквенно-цифровые символы на английском и латинском языках.

re.sub('[^A-Za-z0-9-/().&\' ]+', '',"L'Oréal")

должен сохраняться у L'Oréal

В настоящее время это дает мне L'Oral

Есть ли какая-либо латинская кодировка, которую нужно добавить?

kartik 20 сен. 2018, в 20:32

Источник

0

Может быть, вы хотите сохранить все буквы и цифры? re.sub(r'[\W_]+', '', s) . Ваш заголовок и регулярное выражение с ожидаемым результатом в теле вопроса не синхронизированы, поскольку у вас, похоже, также есть некоторые специальные символы. Попробуйте re.sub(r"(?![-/().&'])[\W_]', '', s)
Wiktor Stribiżew 20 сен. 2018, в 18:26
0

@ WiktorStribiżew Решение правильное, но я думаю, что оно синтаксически неверно. Его пропущенные пробелы вокруг побитового оператора или оператора сдвига
kartik 20 сен. 2018, в 18:36
0

Я пропустил это, когда копирование / вставка, поэтому re.sub(r"(?![-/().&' ])[\W_]', '', s) работает, не так ли? re.sub(r"[^-/().&' \w]|_', '', s) также должны работать.
Wiktor Stribiżew 20 сен. 2018, в 18:45
0

@ WiktorStribiżew Idk, еще может быть какая-то синтаксическая ошибка, однако эта работает: re.sub('[^[\W_]-/().&\' ]+', '',"L'Oréal")
kartik 20 сен. 2018, в 19:15
1

Нет, это не сработает (я на ноутбуке, заключительная цитата была одинарной, я хотел написать двойную))
Wiktor Stribiżew 20 сен. 2018, в 19:28

Показать ещё 3 комментария

Теги:

python

regex

python-3.x

3 ответа

0

Почему бы не добавить диапазон Unicode для всех латинских символов в ваше регулярное выражение?

r"[\u00C0-\u017F]"

Будет соответствовать всем вашим диакритически расширенным символам Юникода, используя латинские алфавиты. Оттуда просто добавьте остальные параметры того, что вы ищете.

Daniel Navar 20 сен. 2018, в 17:25

0

Я думаю, что это решит вашу проблему:

re.sub('[(?>\P{M}\p{M}*)+]', '',"L'Oréal")

И результат будет:

L'Oréal

Abdolnabi Zameni 20 сен. 2018, в 17:12

Ещё вопросы

Может быть, вы хотите сохранить все буквы и цифры? re.sub(r'[\W_]+', '', s) . Ваш заголовок и регулярное выражение с ожидаемым результатом в теле вопроса не синхронизированы, поскольку у вас, похоже, также есть некоторые специальные символы. Попробуйте re.sub(r"(?![-/().&'])[\W_]', '', s)
@ WiktorStribiżew Решение правильное, но я думаю, что оно синтаксически неверно. Его пропущенные пробелы вокруг побитового оператора или оператора сдвига
Я пропустил это, когда копирование / вставка, поэтому re.sub(r"(?![-/().&' ])[\W_]', '', s) работает, не так ли? re.sub(r"[^-/().&' \w]|_', '', s) также должны работать.
@ WiktorStribiżew Idk, еще может быть какая-то синтаксическая ошибка, однако эта работает: re.sub('[^[\W_]-/().&\' ]+', '',"L'Oréal")
Нет, это не сработает (я на ноутбуке, заключительная цитата была одинарной, я хотел написать двойную))

Wiktor Stribiżew · Accepted Answer · 2018-09-20T17-37-00.000Z

Вы можете использовать

re.sub(r"[^-/().&' \w]|_", "", s)

См. Демо-версию regex

Регулярное совпадение

[^-/().&' \w] - инвертированное класс символов соответствует любому полукокса, но слово символ, -, /, (, ), . , &, ' и пространство
| - или же
_ - символ подчеркивания (он является частью \w, поэтому его следует добавить в качестве альтернативы).