Как заменить фразы в тексте для данного выражения в JavaScript

Question

Как заменить фразы в тексте для данного выражения в JavaScript

1

Я написал эту функцию, которая направлена на замену слов или фраз в text документе указанным выражением expr учетом набора tokens должны быть сопоставлены. Документ форматируется в новой строке.

function replaceTokens(text, tokens, expr, isline = false) {
  tokens.forEach(word => {
    if (expr[token]) {
      if (isline) { // line regex
        text = text.replace(new RegExp("(" + word.replace(/([\(\)'?*!"])/g, "\\$1") + ")", "gi"), expr);
      } else {
        text = text.replace(new RegExp("(" + word + ")", "gi"), expr[token]);
      }
    }
  });
  return text;
}

У меня две проблемы.

1) Для словарных токенов, таких как Lorem, qui и т.д., Он работает довольно хорошо, но я не могу избавиться от всего токена, т.е. Я не хочу сопоставлять qui внутри слова типа quis, но только данный токен в тексте. Использование ^word$ здесь не работает с группой захвата ^(word)$

[1 - SOLVED] в соответствии с первым ответом с new RegExp("\\b(" + word + ")\\b", "gi")

2) Для токенов фраз регулярное выражение, которое я использую, работает неправильно. Я хочу Lorem ipsum dolor sit amet точную строку, такую как Lorem ipsum dolor sit amet in

Lorem ipsum dolor sit amet
Lorem ipsum dolor sit amet etwas

он должен соответствовать только первой строке, а не второй строке.

Вот пример. Для (1) вы можете видеть, как qui захватывается как токен и внутри слова quis или aliquip.

function replaceTokens(text, tokens, expr, isline = false) {
  tokens.forEach(word => {
    if (isline) { // line regex
      text = text.replace(new RegExp("(" + word.replace(/([\(\)'?*!"])/g, "\\$1") + ")", "gi"), expr);
    } else {
      text = text.replace(new RegExp("\\b(" + word + ")\\b", "gi"), expr);
    }
  });
  return text;
}

text = "Lorem ipsum dolor sit amet,\n consectetur adipiscing elit,\nsed do eiusmod tempor incididunt\nut labore et dolore magna aliqua.\nUt enim ad minim veniam,\nquis nostrud exercitation ullamco laboris nisi\nut aliquip ex ea commodo consequat.\nDuis aute irure dolor in reprehenderit in voluptate velit esse\ncillum dolore eu fugiat nulla pariatur.\nExcepteur sint occaecat cupidatat non proident,\nLorem ipsum dolor sit amet etwas,\nsunt in culpa qui officia deserunt mollit anim id est laborum"

out = replaceTokens(text, ["Lorem", "ut", "qui"], "<strong>$1</strong>", false)
out_phrases = replaceTokens(text, ["Lorem ipsum dolor sit amet", "Duis aute irure dolor in reprehenderit"], "<strong>$1</strong>", true)
document.getElementById("in_text").innerHTML = text.replace(/\n/g, '<br/>')
document.getElementById("out_text").innerHTML = out.replace(/\n/g, '<br/>')
document.getElementById("out_phrases").innerHTML = out_phrases.replace(/\n/g, '<br/>')

<div id="in_text"></div>
<hr>
<div id="out_text"></div>
<hr>
<div id="out_phrases"></div>

Добавлен фрагмент jsfiddle, чтобы попробовать его.

loretoparisi 16 окт. 2018, в 20:06

Источник

1

Проблема во втором случае в том, что какая-то часть фразы может перейти на следующую строку, предотвращая совпадение? Фрагмент кода, похоже, соответствует второму случаю без проблем.
jrook 16 окт. 2018, в 17:32
1

Ваша вторая проблема не ясна. Что вы пытаетесь сделать и каков ожидаемый результат?
revo 16 окт. 2018, в 17:32
0

Хорошо, извини. Второй вопрос касается сопоставления whole line переданной в массиве токенов, со строками в тексте, где последний может отличаться в некоторых случаях: при наличии Lorem ipsum dolor sit amet etwas.\nLorem ipsum dolor sit amet Я только хочу сопоставьте последний с маркером Lorem ipsum dolor sit amet .
loretoparisi 16 окт. 2018, в 17:34
0

Для второго включите флаг m : /^PATTERN$/m
revo 16 окт. 2018, в 17:38
0

@revo, так как я использую группу захвата, как /(phrase)/ как это будет в этом случае?
loretoparisi 16 окт. 2018, в 17:39
0

/^(PATTERN)$/m
revo 16 окт. 2018, в 17:41
0

Вы также можете вставить разделители в регулярное выражение: Lorem[\n\s]ipsum[\n\s]hello
jrook 16 окт. 2018, в 17:42
1

[\n\s] равно \s
revo 16 окт. 2018, в 17:42
0

используя конструктор RegExp , вы должны определить флаги во втором аргументе, где у вас есть gi прямо сейчас. Так что это должен быть gim и вы должны удалить косые черты.
revo 16 окт. 2018, в 17:44
0

@revo with text = text.replace(new RegExp("^(" + word.replace(/(['?*!"])/g, "\\$1") + ")$/m", "gi"), expr); это не сработает.
loretoparisi 16 окт. 2018, в 17:44
1

Попробуйте new RegExp("^(" + word.replace(/([()'?*!"])/g, "\\$1") + ")$", "gim")
revo 16 окт. 2018, в 17:46
0

Используя gim флаги и /^(PATTERN)$/ 1'm по- прежнему получать Lorem ipsum dolor sit amet совпавшие в Lorem ipsum dolor sit amet etwas,
loretoparisi 16 окт. 2018, в 17:48
1

Пожалуйста, укажите в своем вопросе, как тот, который вы сделали для первой проблемы, чтобы мы могли видеть.
revo 16 окт. 2018, в 17:49
1

regex101.com/r/mGkf8r/1 на основе моей первой идеи с применением комментария @revo
jrook 16 окт. 2018, в 17:51
0

@revo Я добавил JSFiddle jsfiddle.net/2sftun0L
loretoparisi 16 окт. 2018, в 17:55
1

У вас есть запятая перед \n , поэтому первое предложение не совпадает, потому что эта запятая не включена в регулярное выражение. Я удалил эту запятую посмотрим, что происходит сейчас jsfiddle.net/2sftun0L/1
revo 16 окт. 2018, в 18:13
0

Как насчет этого? regex101.com/r/mGkf8r/3 . Это соответствует фразе, только если она находится в одной строке.
jrook 16 окт. 2018, в 18:17
0

@jrook он будет соответствовать содержатся фразы , как Lorem ipsum dolor sit amet в Lorem ipsum dolor sit amet etwas . Я хочу только точное совпадение фраз, которое должно разрешать захват группы, как в случае с одним словом: \b(^word$)\n , но этот шаблон не работает для фраз.
loretoparisi 17 окт. 2018, в 07:26
0

@revo правильно, проблема в том, что в текстовом тексте пунктуация допускается, поэтому я мог бы поставить запятую или другой пунктик перед Lorem ipsum dolor sit amet, строки \n , например, Lorem ipsum dolor sit amet, или что-то еще, поэтому регулярное выражение должно каким-то образом это учитывать.
loretoparisi 17 окт. 2018, в 07:29
0

Чтобы рассмотреть конечные знаки препинания см. Этот jsfiddle.net/2sftun0L/3
revo 17 окт. 2018, в 07:32

Показать ещё 18 комментариев

Теги:

javascript

regex

1 ответ

Ещё вопросы

Проблема во втором случае в том, что какая-то часть фразы может перейти на следующую строку, предотвращая совпадение? Фрагмент кода, похоже, соответствует второму случаю без проблем.
Ваша вторая проблема не ясна. Что вы пытаетесь сделать и каков ожидаемый результат?
Хорошо, извини. Второй вопрос касается сопоставления whole line переданной в массиве токенов, со строками в тексте, где последний может отличаться в некоторых случаях: при наличии Lorem ipsum dolor sit amet etwas.\nLorem ipsum dolor sit amet Я только хочу сопоставьте последний с маркером Lorem ipsum dolor sit amet .
Для второго включите флаг m : /^PATTERN$/m
@revo, так как я использую группу захвата, как /(phrase)/ как это будет в этом случае?
Вы также можете вставить разделители в регулярное выражение: Lorem[\n\s]ipsum[\n\s]hello
используя конструктор RegExp , вы должны определить флаги во втором аргументе, где у вас есть gi прямо сейчас. Так что это должен быть gim и вы должны удалить косые черты.
@revo with text = text.replace(new RegExp("^(" + word.replace(/(['?*!"])/g, "\\$1") + ")$/m", "gi"), expr); это не сработает.
Попробуйте new RegExp("^(" + word.replace(/([()'?*!"])/g, "\\$1") + ")$", "gim")
Используя gim флаги и /^(PATTERN)$/ 1'm по- прежнему получать Lorem ipsum dolor sit amet совпавшие в Lorem ipsum dolor sit amet etwas,
Пожалуйста, укажите в своем вопросе, как тот, который вы сделали для первой проблемы, чтобы мы могли видеть.
regex101.com/r/mGkf8r/1 на основе моей первой идеи с применением комментария @revo
У вас есть запятая перед \n , поэтому первое предложение не совпадает, потому что эта запятая не включена в регулярное выражение. Я удалил эту запятую посмотрим, что происходит сейчас jsfiddle.net/2sftun0L/1
Как насчет этого? regex101.com/r/mGkf8r/3 . Это соответствует фразе, только если она находится в одной строке.
@jrook он будет соответствовать содержатся фразы , как Lorem ipsum dolor sit amet в Lorem ipsum dolor sit amet etwas . Я хочу только точное совпадение фраз, которое должно разрешать захват группы, как в случае с одним словом: \b(^word$)\n , но этот шаблон не работает для фраз.
@revo правильно, проблема в том, что в текстовом тексте пунктуация допускается, поэтому я мог бы поставить запятую или другой пунктик перед Lorem ipsum dolor sit amet, строки \n , например, Lorem ipsum dolor sit amet, или что-то еще, поэтому регулярное выражение должно каким-то образом это учитывать.
Чтобы рассмотреть конечные знаки препинания см. Этот jsfiddle.net/2sftun0L/3

Poul Bak · Accepted Answer · 2018-10-16T14-27-00.000Z

Первый вопрос кажется довольно ясным: оберните строку Regex в ' \b ' (граница Word):

      text = text.replace(new RegExp("\\b(" + word + ")\\b", "gi"), expr);

Это должно соответствовать только "Всего слов".

Второй вопрос, здесь вы можете проверить, если он начинается с текста, или он следует за точкой, либо после окончания текста, либо после точки, например:

text = text.replace(new RegExp("(^|\\.\\s?|,\\s?)(" + word.replace(/([\(\)'?*!"])/g, "\\$1") + ")($|\\.|,)", "gi"), expr);

Идея состоит в том, что она должна соответствовать SENTENCE, а не line. И предложение начинается либо в начале строки, либо после точки или запятой, и заканчивается либо точкой, либо запятой, либо в конце строки.

Не следует использовать параметр "Многострочный".

Редактировать2:

Я изменил группы, которые я сделал, на не-capture capture groupd, поэтому они не связывают замену групп. Теперь это:

text = text.replace(new RegExp("(?:^|\\.\\s?)(" + word.replace(/([\(\)'?*!"])/g, "\\$1") + ")(?:\\.|,|$)", "gi"), expr);

Теперь он работает на скрипке.

Это имеет смысл, но если я сделаю text = text.replace(new RegExp("\b(" + word + ")\b", "gi") это не сработает, если вы попробуете изменить фрагмент ... почему? Я получаю и qui и aliquip
Это должно быть экранировано: \\b
Хаха, конечно (извините, я не проверял это)
да, работает нормально при выходе \\b . Второй момент - это сопоставление всей строки, переданной в массиве токенов, со строками в тексте, где последняя может содержаться в некоторых случаях. Я хочу только точное соответствие.
Вы можете просто сослаться на один из миллионов вопросов, задающих границы слов, вместо дублирования контента, т.е. Regex соответствует только целым словам
Ну, я хотел ответить на оба вопроса.
@PoulBak Я обновил вопрос с JSFiddle, я не уверен, что второе решение работает. Первый это нормально, спасибо.
эй @PoulBak сначала спасибо! Я обнаружил, что мне пришлось добавить в замену завершающий символ \n , потому что по какой-то причине ваше решение два регулярных выражения не учитывает его в группе захвата, см. Этот тест: out_phrases = replaceTokens(text, ["Ut enim ad minim veniam"], "\n<strong>$1</strong>", true) где фраза находится в середине. Кажется, что \s после \n он меняет захват, как в \nUt enim ad minim veniam и .\n Ut enim ad minim veniam и так же для пунктуального типа \nUt enim ad minim veniam и \nUt enim ad minim veniam, - обратите внимание , что в прошлом , .