Разбить строку по пробелам - сохраняя подстроки в кавычках - в Python

Question

Разбить строку по пробелам - сохраняя подстроки в кавычках - в Python

205

У меня есть строка, которая выглядит примерно так:

this is "a test"

Я пытаюсь написать что-то в Python, чтобы разделить его на пространство, игнорируя пробелы внутри кавычек. Результат, который я ищу, это:

['this','is','a test']

PS. Я знаю, что вы спросите: "Что произойдет, если в кавычках есть кавычки, ну, в моем приложении это никогда не произойдет.

Adam Pierce 17 сен. 2008, в 06:03

Источник

0

Спасибо, что задали этот вопрос. Это именно то, что мне нужно для исправления модуля сборки Pypar.
Martlark 14 июль 2010, в 06:10

Теги:

python

regex

13 ответов

50

Посмотрите модуль shlex, особенно shlex.split.

>>> import shlex
>>> shlex.split('This is "a test"')
['This', 'is', 'a test']

Allen 17 сен. 2008, в 05:08

30

Я вижу подходы regex здесь, которые выглядят сложными и/или неправильными. Это меня удивляет, потому что синтаксис регулярных выражений может легко описать "пробельные или вещественные окружения за кавычками", и большинство движков регулярных выражений (включая Python) могут разбиваться на регулярное выражение. Итак, если вы собираетесь использовать регулярные выражения, почему бы просто не сказать точно, что вы имеете в виду?

test = 'this is "a test"'  # or "this is 'a test'"
# pieces = [p for p in re.split("( |[\\\"'].*[\\\"'])", test) if p.strip()]
# From comments, use this:
pieces = [p for p in re.split("( |\\\".*?\\\"|'.*?')", test) if p.strip()]

Пояснение:

[\\\"'] = double-quote or single-quote
.* = anything
( |X) = space or X
.strip() = remove space and empty-string separators

shlex, вероятно, предоставляет больше возможностей.

Kate 07 фев. 2009, в 23:48

0

Я думал примерно так же, но вместо этого предложил бы [t.strip ('"') для t в re.findall (r '[^ \ s"] + | "[^"] * "', 'this is" тест"')]
Darius Bacon 08 фев. 2009, в 03:09
0

Что делает этот раскол, когда в двойных кавычках есть апострофы: Он сказал: «Не делай этого!» Я думаю, что это будет относиться к <"Дон"> как к одному целому, не так ли?
Jonathan Leffler 08 фев. 2009, в 03:21
0

Джонатан: в этом случае нет, я сделал две ошибки, которые взаимно компенсируют друг друга: жадный. * Уйдет в финал ". :-) Я должен был сказать" (| \\\ ". *? \ \ \\ "| '. *?')". Хороший улов.
Kate 08 фев. 2009, в 03:39
2

+1 Я использую это, потому что это было намного быстрее, чем шлекс.
hanleyp 16 нояб. 2009, в 19:44
0

+1 от меня, второе регулярное выражение (комментарии) работает для моих нужд, тогда как первое нет. Таким образом, я отредактировал во втором регулярном выражении, но оставил первое легко видимым.
user257111 16 март 2010, в 21:47
0

PS это отлично, мне не нужны функции shlex, просто раскол, как argv. Я бы дал +2, если бы мог.
user257111 16 март 2010, в 21:47
0

этот код выглядит почти как perl, разве вы не слышали о «сырых строках»?
SpliFF 22 март 2010, в 06:41
0

Рассмотрим эти данные: string = r'simple "quot ed" "игнорировать escape с кавычками \\" "как насчет апострофы?" "\" withescapedquotes \ "" "\" с несбалансированными экранированными кавычками "" Обновление Jonathan / Kate / Ninefingers подразделяет термин withescapedquotes на три (вырожденные-одиночные кавычки, withescapedquotes, еще-вырожденные). shlex.strip (string) Это нормально. Можно ли это сделать через re?
jackr 25 июнь 2010, в 18:55
0

Почему тройной обратный слеш? простой обратный слеш не сделает то же самое?
Doppelganger 12 авг. 2011, в 21:20
0

Это один обрабатывает несбалансированные кавычки и Unicode, Shlex не :(
lambacck 23 нояб. 2011, в 18:29
0

+1 Мне нравится этот ответ, потому что он на самом деле сохраняет цитаты, в отличие от Shlex. Шлекс сплит должен делать только расщепление, он не должен удалять цитаты на меня. Хотя, возможно, это настраивается.
leetNightshade 22 июль 2013, в 15:21
0

На самом деле, одна вещь, которая мне не нравится в этом, это то, что что-то до / после кавычек не разделяется должным образом. Если у меня есть такая строка: PARAMS val1 = "Thing" val2 = "Thing2" '. Я ожидаю, что строка разделится на три части, но она разделится на 5. Прошло много времени с тех пор, как я сделал регулярное выражение, поэтому я не чувствую, что пытаюсь решить его, используя ваше решение прямо сейчас.
leetNightshade 23 июль 2013, в 00:00
0

Вы должны использовать необработанные строки при использовании регулярных выражений.
asmeurer 19 дек. 2013, в 02:29
0

Этот обрабатывает оба типа кавычек и удаляет только проанализированный: [''.join(t) for t in re.findall(r"""([^\s"']+)|"([^"]*)"|'([^']*)'""", test)]
MortenB 26 май 2016, в 14:50

Показать ещё 12 комментариев

18

В зависимости от вашего варианта использования вы также можете проверить модуль csv:

import csv
lines = ['this is "a string"', 'and more "stuff"']
for row in csv.reader(lines, delimiter=" "):
    print row

Выход:

['this', 'is', 'a string']
['and', 'more', 'stuff']

Ryan Ginstrom 08 фев. 2009, в 03:00

1

полезно, когда шлекс удаляет некоторые необходимые символы
scraplesh 29 март 2013, в 18:08
1

обратите внимание на возможные проблемы как shlex: python2: модуль csv не поддерживает ввод Unicode
Massimo 20 апр. 2017, в 22:30

8

Поскольку этот вопрос помечен регулярным выражением, я решил попробовать подход с регулярным выражением. Сначала я заменил все пробелы в частях кавычек на \x00, затем разделил пробелами, а затем заменил \x00 на пробелы в каждой части.

Обе версии делают то же самое, но сплиттер немного читаем, а затем splitter2.

import re

s = 'this is "a test" some text "another test"'

def splitter(s):
    def replacer(m):
        return m.group(0).replace(" ", "\x00")
    parts = re.sub('".+?"', replacer, s).split()
    parts = [p.replace("\x00", " ") for p in parts]
    return parts

def splitter2(s):
    return [p.replace("\x00", " ") for p in re.sub('".+?"', lambda m: m.group(0).replace(" ", "\x00"), s).split()]

print splitter2(s)

gooli 17 сен. 2008, в 07:05

0

Вы должны были использовать re.Scanner. Это более надежно (и я на самом деле реализовал shlex-like с помощью re.Scanner).
Devin Jeanpierre 24 март 2009, в 16:37
0

+1 Хм, это довольно умная идея, разбить проблему на несколько шагов, чтобы ответ не был слишком сложным. Шлекс не делал то, что мне было нужно, даже пытаясь настроить его. И решения regex за один проход становились действительно странными и сложными.
leetNightshade 23 июль 2013, в 16:31

6

Я использую shlex.split для обработки 70 000 000 строк журнала кальмаров, это так медленно. Поэтому я переключился на re.

Попробуйте это, если у вас есть проблемы с производительностью с помощью shlex.

import re

def line_split(line):
    return re.findall(r'[^"\s]\S*|".+?"', line)

Daniel Dai 18 апр. 2014, в 15:13

0

Проверено - работает с юникодом - спасибо!
Neil McGill 05 май 2018, в 22:24

2

Чтобы сохранить кавычки, используйте эту функцию:

def getArgs(s):
    args = []
    cur = ''
    inQuotes = 0
    for char in s.strip():
        if char == ' ' and not inQuotes:
            args.append(cur)
            cur = ''
        elif char == '"' and not inQuotes:
            inQuotes = 1
            cur += char
        elif char == '"' and inQuotes:
            inQuotes = 0
            cur += char
        else:
            cur += char
    args.append(cur)
    return args

THE_MAD_KING 27 март 2017, в 01:07

2

Чтобы обойти проблемы с unicode в некоторых версиях Python 2, я предлагаю:

from shlex import split as _split
split = lambda a: [b.decode('utf-8') for b in _split(a.encode('utf-8'))]

moschlar 25 июнь 2012, в 19:06

0

Для python 2.7.5 это должно быть: split = lambda a: [b.decode('utf-8') for b in _split(a)] иначе вы получите: UnicodeDecodeError: 'ascii' codec can't decode byte ... in position ...: ordinal not in range(128)
Peter Varo 27 июнь 2013, в 00:43

1

Проблемы с unicode с shlex, описанные выше (верхний ответ), кажутся разрешенными (косвенно) в 2.7.2+ в соответствии с http://bugs.python.org/issue6988#msg146200

(отдельный ответ, потому что я не могу комментировать)

Tyris 25 июль 2012, в 08:35

1

Хмм, похоже, не может найти кнопку "Ответить"... в любом случае, этот ответ основан на подходе Кейт, но правильно разбивает строки с подстроками, содержащими экранированные кавычки, а также удаляет стартовые и конечные кавычки подстроки:

  [i.strip('"').strip("'") for i in re.split(r'(\s+|(?<!\\)".*?(?<!\\)"|(?<!\\)\'.*?(?<!\\)\')', string) if i.strip()]

Это работает с строками типа 'This is " a \\\"test\\\"\\\ substring"' (к сожалению, безумная разметка необходима, чтобы Python не удалял экраны).

Если результирующие escape-последовательности в строках в возвращаемом списке не нужны, вы можете использовать эту слегка измененную версию функции:

[i.strip('"').strip("'").decode('string_escape') for i in re.split(r'(\s+|(?<!\\)".*?(?<!\\)"|(?<!\\)\'.*?(?<!\\)\')', string) if i.strip()]

user261478 29 янв. 2010, в 03:16

0

Я предлагаю:

тестовая строка:

s = 'abc "ad" \'fg\' "kk\'rdt\'" zzz"34"zzz "" \'\''

для захвата также "и" ":

import re
re.findall(r'"[^"]*"|\'[^\']*\'|[^"\'\s]+',s)

результат:

['abc', '"ad"', "'fg'", '"kk\'rdt\'"', 'zzz', '"34"', 'zzz', '""', "''"]

игнорировать пустые "и":

import re
re.findall(r'"[^"]+"|\'[^\']+\'|[^"\'\s]+',s)

результат:

['abc', '"ad"', "'fg'", '"kk\'rdt\'"', 'zzz', '"34"', 'zzz']

hussic 09 сен. 2015, в 13:43

0

Может быть записан как re.findall("(?:\".*?\"|'.*?'|[^\s'\"]+)", s) .
hochl 08 нояб. 2018, в 15:18

0

Если вам не нужны подстроки, чем простые

>>> 'a short sized string with spaces '.split()

Производительность:

>>> s = " ('a short sized string with spaces '*100).split() "
>>> t = timeit.Timer(stmt=s)
>>> print "%.2f usec/pass" % (1000000 * t.timeit(number=100000)/100000)
171.39 usec/pass

Или строковый модуль

>>> from string import split as stringsplit; 
>>> stringsplit('a short sized string with spaces '*100)

Производительность: модуль String работает лучше, чем строковые методы

>>> s = "stringsplit('a short sized string with spaces '*100)"
>>> t = timeit.Timer(s, "from string import split as stringsplit")
>>> print "%.2f usec/pass" % (1000000 * t.timeit(number=100000)/100000)
154.88 usec/pass

Или вы можете использовать движок RE

>>> from re import split as resplit
>>> regex = '\s+'
>>> medstring = 'a short sized string with spaces '*100
>>> resplit(regex, medstring)

Производительность

>>> s = "resplit(regex, medstring)"
>>> t = timeit.Timer(s, "from re import split as resplit; regex='\s+'; medstring='a short sized string with spaces '*100")
>>> print "%.2f usec/pass" % (1000000 * t.timeit(number=100000)/100000)
540.21 usec/pass

Для очень длинных строк вы не должны загружать всю строку в память и вместо этого разделять строки или использовать итеративный цикл

Gregory 17 сен. 2008, в 07:19

10

Вы, кажется, упустили всю суть вопроса. В строке есть разделы в кавычках, которые не нужно разбивать.
rjmunro 31 окт. 2008, в 23:08

-1

Попробуйте следующее:

  def adamsplit(s):
    result = []
    inquotes = False
    for substring in s.split('"'):
      if not inquotes:
        result.extend(substring.split())
      else:
        result.append(substring)
      inquotes = not inquotes
    return result

Некоторые тестовые строки:

'This is "a test"' -> ['This', 'is', 'a test']
'"This is \'a test\'"' -> ["This is 'a test'"]

pjz 17 сен. 2008, в 05:37

1

Это не будет работать с: «Это« тест »»
Matthew Schinckel 17 сен. 2008, в 05:40
0

Пожалуйста, укажите repr строки, которая, по вашему мнению, потерпит неудачу.
pjz 23 сен. 2016, в 00:04
0

Думаешь ? adamsplit("This is 'a test'") → ['This', 'is', "'a", "test'"]
Matthew Schinckel 27 сен. 2016, в 04:07
0

Примечание: shlex.split() отлично работает на этой строке.
Matthew Schinckel 27 сен. 2016, в 04:09
0

ОП говорит только «в кавычках» и имеет только пример с двойными кавычками.
pjz 11 окт. 2016, в 13:53

Показать ещё 3 комментария

Ещё вопросы

Спасибо, что задали этот вопрос. Это именно то, что мне нужно для исправления модуля сборки Pypar.
Я думал примерно так же, но вместо этого предложил бы [t.strip ('"') для t в re.findall (r '[^ \ s"] + | "[^"] * "', 'this is" тест"')]
Что делает этот раскол, когда в двойных кавычках есть апострофы: Он сказал: «Не делай этого!» Я думаю, что это будет относиться к <"Дон"> как к одному целому, не так ли?
Джонатан: в этом случае нет, я сделал две ошибки, которые взаимно компенсируют друг друга: жадный. * Уйдет в финал ". :-) Я должен был сказать" (| \\\ ". *? \ \ \\ "| '. *?')". Хороший улов.
+1 Я использую это, потому что это было намного быстрее, чем шлекс.
+1 от меня, второе регулярное выражение (комментарии) работает для моих нужд, тогда как первое нет. Таким образом, я отредактировал во втором регулярном выражении, но оставил первое легко видимым.
PS это отлично, мне не нужны функции shlex, просто раскол, как argv. Я бы дал +2, если бы мог.
этот код выглядит почти как perl, разве вы не слышали о «сырых строках»?
Рассмотрим эти данные: string = r'simple "quot ed" "игнорировать escape с кавычками \\" "как насчет апострофы?" "\" withescapedquotes \ "" "\" с несбалансированными экранированными кавычками "" Обновление Jonathan / Kate / Ninefingers подразделяет термин withescapedquotes на три (вырожденные-одиночные кавычки, withescapedquotes, еще-вырожденные). shlex.strip (string) Это нормально. Можно ли это сделать через re?
Почему тройной обратный слеш? простой обратный слеш не сделает то же самое?
Это один обрабатывает несбалансированные кавычки и Unicode, Shlex не :(
+1 Мне нравится этот ответ, потому что он на самом деле сохраняет цитаты, в отличие от Shlex. Шлекс сплит должен делать только расщепление, он не должен удалять цитаты на меня. Хотя, возможно, это настраивается.
На самом деле, одна вещь, которая мне не нравится в этом, это то, что что-то до / после кавычек не разделяется должным образом. Если у меня есть такая строка: PARAMS val1 = "Thing" val2 = "Thing2" '. Я ожидаю, что строка разделится на три части, но она разделится на 5. Прошло много времени с тех пор, как я сделал регулярное выражение, поэтому я не чувствую, что пытаюсь решить его, используя ваше решение прямо сейчас.
Вы должны использовать необработанные строки при использовании регулярных выражений.
Этот обрабатывает оба типа кавычек и удаляет только проанализированный: [''.join(t) for t in re.findall(r"""([^\s"']+)|"([^"]*)"|'([^']*)'""", test)]
полезно, когда шлекс удаляет некоторые необходимые символы
обратите внимание на возможные проблемы как shlex: python2: модуль csv не поддерживает ввод Unicode
Вы должны были использовать re.Scanner. Это более надежно (и я на самом деле реализовал shlex-like с помощью re.Scanner).
+1 Хм, это довольно умная идея, разбить проблему на несколько шагов, чтобы ответ не был слишком сложным. Шлекс не делал то, что мне было нужно, даже пытаясь настроить его. И решения regex за один проход становились действительно странными и сложными.
Проверено - работает с юникодом - спасибо!
Для python 2.7.5 это должно быть: split = lambda a: [b.decode('utf-8') for b in _split(a)] иначе вы получите: UnicodeDecodeError: 'ascii' codec can't decode byte ... in position ...: ordinal not in range(128)
Может быть записан как re.findall("(?:\".*?\"|'.*?'|[^\s'\"]+)", s) .
Вы, кажется, упустили всю суть вопроса. В строке есть разделы в кавычках, которые не нужно разбивать.
Это не будет работать с: «Это« тест »»
Пожалуйста, укажите repr строки, которая, по вашему мнению, потерпит неудачу.
Думаешь ? adamsplit("This is 'a test'") → ['This', 'is', "'a", "test'"]
Примечание: shlex.split() отлично работает на этой строке.
ОП говорит только «в кавычках» и имеет только пример с двойными кавычками.

Jerub · Accepted Answer · 2008-09-17T06-16-00.000Z

310

Лучший ответ

Вы хотите разделить, из shlex.

>>> import shlex
>>> shlex.split('this is "a test"')
['this', 'is', 'a test']

Это должно делать именно то, что вы хотите.

Jerub 17 сен. 2008, в 06:16

6

Ох, боже, в python версии 2.5.1 и выше shlex.split() не работает для юникода. Например, shlex.split(u"test test") создает дерьмо, такое как 't\x00e\x00s\x00t\x00', '\x00t\x00e\x00s\x00t\x00' , подробности об ошибках см. В следующем обсуждении проблемы . python.org/issue6988
Ciantic 21 фев. 2010, в 18:25
7

Нет проблем в Python 3.
Tim Pietzcker 20 июль 2011, в 06:50
8

Ciantic: Вы можете сделать shlex.split( s.encode('utf8') ) и затем декодировать
Petter 30 июнь 2012, в 05:52
1

Просто заметьте, @ Ciantic / Benm, доктора говорят, что это было исправлено в 2.7.3, так что больше не должно быть проблем!
Matthew G. 26 июнь 2013, в 03:22
6

Shlex - отличное решение, но меня раздражает, что оно не сохраняет цитаты. Если он работает только на разбиение на пробелы, почему кавычки удаляются? Мне нужно найти решение, которое сохраняет их.
leetNightshade 22 июль 2013, в 15:12
0

@ leetNightshade Мне нужно то же самое, вы когда-нибудь находили решение?
Adrián 28 нояб. 2013, в 14:00
0

@ Адриан: Конечно. Я придумал разные решения, но у меня нет доступа к источнику, так как я ушел из компании, для которой я работал. Однако ответ в этой же теме был основным решением, которое мне было нужно: stackoverflow.com/a/80449/353094
leetNightshade 29 нояб. 2013, в 07:04
1

Сохранять цитаты не нужно, если вы используете subprocess.call_args . Отлично работает для этого.
asmeurer 19 дек. 2013, в 00:56
5

Используйте «posix = False», чтобы сохранить цитаты. shlex.split('this is "a test"', posix=False) возвращает ['this', 'is', '"a test"']
Boon 04 сен. 2017, в 02:35

Показать ещё 7 комментариев