Как я могу удалить первую строку текстового файла, используя скрипт bash / sed?

Question

Как я могу удалить первую строку текстового файла, используя скрипт bash / sed?

435

Мне нужно многократно удалить первую строку из огромного текстового файла с помощью bash script.

Сейчас я использую sed -i -e "1d" $FILE - но для удаления требуется около минуты.

Есть ли более эффективный способ сделать это?

Brent 04 дек. 2008, в 01:14

Источник

0

что означает -i?
cikatomo 09 март 2013, в 23:30
4

@cikatomo: это встроенное редактирование - оно редактирует файл с тем, что вы генерируете.
drewrockshard 03 май 2013, в 18:03
2

Хвост НАМНОГО МЕДЛЕН, чем сед. хвосту нужно 13,5 с, седу - 0,85 с. Мой файл имеет ~ 1M строк, ~ 100MB. MacBook Air 2013 с SSD.
jcsahnwaldt 01 фев. 2016, в 16:15

Показать ещё 1 комментарий

Теги:

bash

scripting

sed

15 ответов

130

Вы можете использовать -i для обновления файла без использования оператора ' > '. Следующая команда удалит первую строку из файла и сохранит ее в файле.

sed -i '1d' filename

amit 24 нояб. 2014, в 07:39

1

Я получаю сообщение об ошибке: unterminated transform source string
Daniel Kobe 01 дек. 2015, в 04:16
1

Сед был намного быстрее, когда я рассчитал время операции.
wbg 19 дек. 2016, в 21:40
8

это работает каждый раз и действительно должно быть лучшим ответом!
xtheking 28 март 2017, в 13:23
3

Просто помните, что Mac требует предоставления суффикса при использовании sed с правками на месте. Так что запустите выше с -i.bak
mjp 10 май 2017, в 18:00
2

Просто примечание - чтобы удалить несколько строк, используйте sed -i '1,2d' filename
The Godfather 24 май 2018, в 09:08
3

Эта версия действительно намного более читабельна и более универсальна, чем tail -n +2 . Не уверен, почему это не лучший ответ.
Luke Davis 26 июнь 2018, в 19:43
0

Помимо значительного сокращения времени (GNU) tail по сравнению с sed , следует отметить, что, несмотря на опцию -i , sed все равно необходимо создавать копию файла, поэтому это решение не будет более полезным, чем tail когда сталкиваешься с ограниченными возможностями. проблемы с дисковым пространством.
Skippy le Grand Gourou 06 фев. 2019, в 14:34

Показать ещё 5 комментариев

71

Для тех, кто находится на SunOS, который не является GNU, следующий код поможет:

sed '1d' test.dat > tmp.dat

Nasri Najib 19 фев. 2013, в 09:23

16

Интересная демография
nouveau 15 июль 2015, в 01:39
0

Мне больше нравится эта версия, потому что она читается лучше. :)
Vlad GURDIGA 13 окт. 2015, в 09:58

17

Нет, это так же эффективно, как и вы. Вы могли бы написать программу на C, которая могла бы выполнить задание немного быстрее (меньше времени запуска и аргументов обработки), но она, вероятно, будет стремиться к той же скорости, что и sed, поскольку файлы становятся большими (и я предполагаю, что они большие, если он занимает минуту).

Но ваш вопрос страдает от той же проблемы, что и многие другие, поскольку он предполагает решение. Если вы хотите подробно рассказать нам , что, а не как, мы можем предложить лучший вариант.

Например, если это файл A, который обрабатывает какая-либо другая программа B, одно решение состоит в том, чтобы не отделять первую строку, а изменять программу B, чтобы обрабатывать ее по-разному.

Скажем, все ваши приложения присоединяются к этому файлу A, а программа B в настоящее время считывает и обрабатывает первую строку перед удалением.

Вы могли бы повторно спроектировать программу B, чтобы она не пыталась удалить первую строку, но поддерживала постоянное (возможно, основанное на файле) смещение в файле A, чтобы в следующий раз он мог искать это смещать, обрабатывать линию там и обновлять смещение.

Затем, в спокойное время (полночь?), он мог бы выполнить специальную обработку файла A для удаления всех обрабатываемых в настоящее время строк и установить смещение обратно на 0.

Конечно, программа будет быстрее открывать и искать файл, а не открывать и переписывать. Это обсуждение предполагает, что вы контролируете программу B, конечно. Я не знаю, может ли это быть, но могут быть другие возможные решения, если вы предоставите дополнительную информацию.

paxdiablo 04 дек. 2008, в 03:57

3

Также известный как проблема XY .
Jason Lefler 30 июль 2014, в 16:19
0

Я думаю, что ОП пытается добиться того, что заставило меня найти этот вопрос. У меня есть 10 файлов CSV с 500k строк в каждом. Каждый файл имеет ту же строку заголовка, что и первая строка. Я кошка: эти файлы в один файл, а затем импортировать их в БД, позволяя БД создавать имена столбцов из первой строки. Очевидно, я не хочу, чтобы эта строка повторялась в файле 2-10.
d-b 12 апр. 2018, в 13:21
1

@db В этом случае awk FNR-1 *.csv , вероятно, быстрее.
jinawee 29 янв. 2019, в 09:50

Показать ещё 1 комментарий

10

Вы можете редактировать файлы на месте: просто используйте perl -i флаг, например:

perl -ni -e 'print unless $. == 1' filename.txt

Это приводит к тому, что первая строка исчезает, как вы просите. Perl необходимо будет прочитать и скопировать весь файл, но он упорядочивает вывод, который будет сохранен под именем исходного файла.

alexis 15 фев. 2013, в 21:54

9

Как сказал Пакс, вы, скорее всего, не добьетесь этого быстрее. Причина в том, что почти нет файловых систем, которые поддерживают усечение с самого начала файла, так что это будет операция O (n), где n - размер файла. То, что вы можете сделать намного быстрее, хотя и перезаписывает первую строку с таким же количеством байтов (возможно, с пробелами или комментарием), которые могут работать для вас в зависимости от того, что вы пытаетесь сделать (что это, кстати?).

Robert Gamble 04 дек. 2008, в 05:23

0

Re "... почти нет файловых систем, поддерживающих усечение ..." : это интересно; пожалуйста, рассмотрите возможность включения такой файловой системы в скобки.
agc 06 март 2019, в 11:23

7

Если вы хотите изменить файл в месте, вы всегда можете использовать оригинальный ed вместо его с treaming преемником sed:

ed "$FILE" <<<$'1d\nwq\n'

Команда ed была оригинальным текстовым редактором UNIX, еще до появления полноэкранных терминалов, а тем более графических рабочих станций. Редактор ex - это расширенная версия ed, которая также эквивалентна работе с приглашением двоеточия в vi, поэтому многие из этих команд работают. Хотя ed предназначен для интерактивного использования, его также можно использовать в пакетном режиме, посылая ему строку команд, что и делает это решение.

Последовательность <<<$'1d\nwq\n' использует поддержку Bash для строк here (<<<) и кавычек POSIX ($'... ') для подачи ввода в команду ed состоящую из двух строк: 1d, который удаляет первую строку, а затем wq, что ж обряды файла обратно на диск и затем д UITS сеанс редактирования.

Mark Reed 15 май 2018, в 20:21

0

это элегантно +1
Armin 17 янв. 2019, в 08:47

7

Утилита sponge избавляет от необходимости манипулирования временным файлом:

tail -n +2 "$FILE" | sponge "$FILE"

agc 05 авг. 2016, в 20:33

0

sponge действительно намного чище и надежнее, чем принятое решение ( tail -n +2 "$FILE" > "$FILE.tmp" && mv "$FILE.tmp" "$FILE" )
Jealie 19 дек. 2017, в 00:25
0

Следует четко указать, что для 'sponge' требуется установить пакет 'moreutils'.
FedFranzoni 22 янв. 2018, в 15:37
0

Это единственное решение, которое помогло мне изменить системный файл (в образе докера Debian). Другие решения не удалось из-за ошибки «Устройство или ресурс занят» при попытке записи файла.
FedFranzoni 22 янв. 2018, в 15:37

Показать ещё 1 комментарий

5

Может использовать vim для этого:

vim -u NONE +'1d' +'wq!' /tmp/test.txt

Это должно быть быстрее, так как vim не будет читать весь файл при обработке.

Hongbo Liu 17 окт. 2017, в 15:10

0

Может понадобиться процитировать +wq! если ваша оболочка bash. Наверное, не со времен ! не в начале слова, но привычка цитировать вещи, вероятно, хорошо во всем. (И если вы стремитесь к суперэффективности, не цитируя без необходимости, кавычки вокруг 1d тоже не нужны.)
Mark Reed 15 май 2018, в 18:52

4

Как насчет использования csplit?

man csplit
csplit -k file 1 '{1}'

crydo 04 март 2009, в 16:50

0

Этот синтаксис также будет работать, но генерировать только два выходных файла вместо трех: csplit file /^.*$/1 . Или проще: csplit file //1 . Или еще проще: csplit file 2 .
Marco Roy 21 янв. 2016, в 23:39

3

должен показывать строки, кроме первой строки:

cat textfile.txt | tail -n +2

serup 29 сен. 2016, в 07:55

3

- вы должны сделать "tail -n +2 textfile.txt"
niglesias 04 нояб. 2016, в 17:48
5

@niglesiais Я не согласен с «бесполезным использованием кошки», так как оно ясно дает понять, что это решение подходит для содержимого по конвейеру, а не только для файлов.
Titou 03 янв. 2017, в 12:51

2

Вы можете легко сделать это с:

cat filename | sed 1d > filename_without_first_line

в командной строке; или чтобы окончательно удалить первую строку файла, используйте режим sed на -i флагом -i:

sed -i 1d <filename>

Ingo Baab 22 нояб. 2018, в 16:24

1

Поскольку это звучит так, как будто я не могу ускорить удаление, я думаю, что хорошим подходом может быть обработка файла такими партиями, как это:

While file1 not empty
  file2 = head -n1000 file1
  process file2
  sed -i -e "1000d" file1
end

Недостаток этого заключается в том, что если программа будет убита посередине (или если там какой-то плохой sql там, из-за чего часть процесса будет умирать или заперта), будут пропущены строки, или обрабатывается дважды.

(файл1 содержит строки кода sql)

Brent 04 дек. 2008, в 04:26

0

Что содержит первая строка? Можете ли вы просто переписать его с комментарием SQL, как я предложил в своем посте?
Robert Gamble 04 дек. 2008, в 03:58

0

Если то, что вы хотите сделать, это восстановить после сбоя, вы можете просто создать файл с тем, что вы сделали до сих пор.

if [[ -f $tmpf ]] ; then
    rm -f $tmpf
fi
cat $srcf |
    while read line ; do
        # process line
        echo "$line" >> $tmpf
    done

Tim 14 нояб. 2009, в 02:34

0

Использует хвост на линиях N-1 и направляет его в файл, а затем удаляет старый файл и переименовывает новый файл в старое имя, выполнив задание?

Если бы я делал это программно, я бы читал файл и помнил смещение файла после прочтения каждой строки, поэтому я мог бы вернуться к этой позиции, чтобы прочитать файл с меньшей линией.

EvilTeach 04 дек. 2008, в 03:53

0

Первое решение по сути идентично тому, что сейчас делает Brent. Я не понимаю ваш программный подход, нужно удалить только первую строку, вы просто прочитали бы и отбросили первую строку и скопировали остальную часть в другой файл, который снова совпадает с подходами sed и tail.
Robert Gamble 04 дек. 2008, в 03:56
0

Второе решение подразумевает, что файл не сжимается первой строкой каждый раз. Программа просто обрабатывает его, как если бы оно было сокращено, но каждый раз начинается с следующей строки
EvilTeach 04 дек. 2008, в 14:27
0

Я до сих пор не понимаю, какое у вас второе решение.
Robert Gamble 04 дек. 2008, в 19:21

Показать ещё 1 комментарий

Ещё вопросы

@cikatomo: это встроенное редактирование - оно редактирует файл с тем, что вы генерируете.
Хвост НАМНОГО МЕДЛЕН, чем сед. хвосту нужно 13,5 с, седу - 0,85 с. Мой файл имеет ~ 1M строк, ~ 100MB. MacBook Air 2013 с SSD.
Я получаю сообщение об ошибке: unterminated transform source string
Сед был намного быстрее, когда я рассчитал время операции.
это работает каждый раз и действительно должно быть лучшим ответом!
Просто помните, что Mac требует предоставления суффикса при использовании sed с правками на месте. Так что запустите выше с -i.bak
Просто примечание - чтобы удалить несколько строк, используйте sed -i '1,2d' filename
Эта версия действительно намного более читабельна и более универсальна, чем tail -n +2 . Не уверен, почему это не лучший ответ.
Помимо значительного сокращения времени (GNU) tail по сравнению с sed , следует отметить, что, несмотря на опцию -i , sed все равно необходимо создавать копию файла, поэтому это решение не будет более полезным, чем tail когда сталкиваешься с ограниченными возможностями. проблемы с дисковым пространством.
Мне больше нравится эта версия, потому что она читается лучше. :)
Я думаю, что ОП пытается добиться того, что заставило меня найти этот вопрос. У меня есть 10 файлов CSV с 500k строк в каждом. Каждый файл имеет ту же строку заголовка, что и первая строка. Я кошка: эти файлы в один файл, а затем импортировать их в БД, позволяя БД создавать имена столбцов из первой строки. Очевидно, я не хочу, чтобы эта строка повторялась в файле 2-10.
@db В этом случае awk FNR-1 *.csv , вероятно, быстрее.
Re "... почти нет файловых систем, поддерживающих усечение ..." : это интересно; пожалуйста, рассмотрите возможность включения такой файловой системы в скобки.
sponge действительно намного чище и надежнее, чем принятое решение ( tail -n +2 "$FILE" > "$FILE.tmp" && mv "$FILE.tmp" "$FILE" )
Следует четко указать, что для 'sponge' требуется установить пакет 'moreutils'.
Это единственное решение, которое помогло мне изменить системный файл (в образе докера Debian). Другие решения не удалось из-за ошибки «Устройство или ресурс занят» при попытке записи файла.
Может понадобиться процитировать +wq! если ваша оболочка bash. Наверное, не со времен ! не в начале слова, но привычка цитировать вещи, вероятно, хорошо во всем. (И если вы стремитесь к суперэффективности, не цитируя без необходимости, кавычки вокруг 1d тоже не нужны.)
Этот синтаксис также будет работать, но генерировать только два выходных файла вместо трех: csplit file /^.*$/1 . Или проще: csplit file //1 . Или еще проще: csplit file 2 .
- вы должны сделать "tail -n +2 textfile.txt"
@niglesiais Я не согласен с «бесполезным использованием кошки», так как оно ясно дает понять, что это решение подходит для содержимого по конвейеру, а не только для файлов.
Что содержит первая строка? Можете ли вы просто переписать его с комментарием SQL, как я предложил в своем посте?
Первое решение по сути идентично тому, что сейчас делает Brent. Я не понимаю ваш программный подход, нужно удалить только первую строку, вы просто прочитали бы и отбросили первую строку и скопировали остальную часть в другой файл, который снова совпадает с подходами sed и tail.
Второе решение подразумевает, что файл не сжимается первой строкой каждый раз. Программа просто обрабатывает его, как если бы оно было сокращено, но каждый раз начинается с следующей строки
Я до сих пор не понимаю, какое у вас второе решение.

Aaron Digulla · Accepted Answer · 2008-12-04T10-49-00.000Z

874

Лучший ответ

Попробуй хвост:

tail -n +2 "$FILE"

-n x: просто напечатать последние x строк. tail -n 5 выдаст вам последние 5 строк ввода. Знак + инвертирует аргумент и заставляет tail печатать что угодно, кроме первых строк x-1. tail -n +1 будет печатать весь файл, tail -n +2 все, кроме первой строки и т.д.

tail GNU намного быстрее, чем sed. tail также доступен в BSD, и флаг -n +2 одинаков для обоих инструментов. Проверьте справочные страницы FreeBSD или OS X для получения дополнительной информации.

Версия BSD может быть намного медленнее, чем sed. Интересно, как им это удалось; tail должен просто читать файл построчно, в то время как sed выполняет довольно сложные операции, включая интерпретацию скрипта, применение регулярных выражений и тому подобное.

Примечание: вы можете испытать желание использовать

# THIS WILL GIVE YOU AN EMPTY FILE!
tail -n +2 "$FILE" > "$FILE"

но это даст вам пустой файл. Причина в том, что перенаправление (>) происходит до того, как оболочка вызовет tail:

Обрезает файл оболочки $FILE
Shell создает новый процесс для tail
Оболочка перенаправляет стандартный вывод tail процесса в $FILE
tail читает из пустого $FILE

Если вы хотите удалить первую строку внутри файла, вы должны использовать:

tail -n +2 "$FILE" > "$FILE.tmp" && mv "$FILE.tmp" "$FILE"

&& гарантирует, что файл не будет перезаписан при возникновении проблемы.

Aaron Digulla 04 дек. 2008, в 10:49

32

Он не работает с линиями 15 МБ или более
user869097 13 авг. 2011, в 13:14
3

@user: Интересный момент. Где ты взял номер?
Aaron Digulla 15 авг. 2011, в 07:44
3

В соответствии с этим ss64.com/bash/tail.html типичный буфер по умолчанию равен 32 КБ при использовании BSD 'tail' с опцией -r . Может быть, где-то в системе есть настройка буфера? Или -n это 32-битное число со знаком?
Yzmir Ramirez 10 нояб. 2011, в 00:49
0

хм, только что работал для меня на 92 М файла, чтобы удалить первые 400k + строк.
Eddie 14 фев. 2013, в 15:45
40

@Eddie: user869097 сказал, что это не работает, если одна строка составляет 15 МБ или больше. Пока строки короче, tail будет работать для файлов любого размера.
Aaron Digulla 14 фев. 2013, в 16:21
2

упс. спасибо, что поправили меня. Вот, линия 15 Мб .. Я даже не могу представить себе такой случай.
Eddie 15 фев. 2013, в 15:11
5

Вы могли бы объяснить эти аргументы?
Dreampuf 06 нояб. 2013, в 09:11
0

@ Эдди Я иногда вижу их в программах, которые генерируют целую базу данных как вывод XML, но не вставляют переводы строк в критических местах.
syockit 11 фев. 2014, в 06:57
2

@Dreampuf: sed имеет внутренний буфер для текущей строки, в то время как tail может уйти, просто запомнив смещение N последних символов новой строки (обратите внимание, что я на самом деле не смотрел на источники).
Aaron Digulla 11 фев. 2014, в 08:28
1

Лучше, если вы напишите вывод в файл: tail -n +2 "$FILE" > newfile
Mohamad Rostami 16 сен. 2014, в 10:12
15

@Dreampuf - со страницы руководства: -n N means output the last N lines, instead of the last 10; or use +N to output lines starting with the Nth
Will Sheppard 15 окт. 2014, в 10:44
1

Почему в этом случае хвост быстрее седа?
CMCDragonkai 28 янв. 2016, в 12:04
0

@CMCDragonkai Tail - инструмент, предназначенный для этой задачи. Sed - это инструмент общего назначения. Это создаст внутреннюю структуру данных, примените операции к каждой строке ( 1d просто соответствует первой строке, но я не уверен, что sed оптимизирует этот случай, например).
Aaron Digulla 29 янв. 2016, в 14:37
0

Хвост НАМНОГО МЕДЛЕН, чем сед. хвосту нужно 13,5 с, седу - 0,85 с. Мой файл имеет ~ 1M строк, ~ 100MB. MacBook Air 2013 с SSD.
jcsahnwaldt 01 фев. 2016, в 16:15
0

@JonaChristopherSahnwaldt Интересно. Вы запускали оба раза, чтобы исключить кэширование и тому подобное?
Aaron Digulla 01 фев. 2016, в 17:15
0

@AaronDigulla Я запускал оба дважды. Я мог бы вставить результаты в окне чата или около того. Не знаю, как это сделать здесь ...
jcsahnwaldt 01 фев. 2016, в 17:16
0

@JonaChristopherSahnwaldt А результирующие файлы одинаковые? Я не уверен, насколько быстро работает ваш SSD, но чтение и запись в файл размером 100 МБ должно занять около 1 секунды.
Aaron Digulla 01 фев. 2016, в 17:17
0

@AaronDigulla Да, они одинаковы.
jcsahnwaldt 01 фев. 2016, в 17:19
0

@AaronDigulla docs.google.com/document/d/…
jcsahnwaldt 01 фев. 2016, в 18:08
0

@JonaChristopherSahnwaldt Я очень, очень удивлен этими числами. Это как Windows Word печать быстрее, чем echo | lpr У меня нет времени на отладку tail , поэтому я не знаю, почему это медленнее в вашем случае. Я чувствую, что это длинные очереди, но я не знаю.
Aaron Digulla 02 фев. 2016, в 10:12
0

@AaronDigulla Строки не длинные. 100 байтов в среднем.
jcsahnwaldt 02 фев. 2016, в 10:43
0

@AaronDigulla: насколько быстро или медленно сидят / хвостики на вашей машине?
jcsahnwaldt 04 фев. 2016, в 14:10
0

@JonaChristopherSahnwaldt На моем компьютере (Windows 8, Cygwin, sed 4.2.2, tail 8.24). 100 МБ текста, короткие строки (<80 символов). time cat sample.txt > /dev/null занимает 0,06 с (только ввод-вывод из кэша). time sed -e "1d" sample.txt > /dev/null занимает 1,12 с, time tail -n +2 sample.txt > /dev/null занимает 0,22 с. sed примерно в 6 раз медленнее tail .
Aaron Digulla 09 фев. 2016, в 13:01
9

Я собирался согласиться с @JonaChristopherSahnwaldt - tail намного, намного медленнее, чем вариант sed, на порядок. Я тестирую его на файле с 500 000K строк (не более 50 символов в строке). Однако затем я понял, что использую версию tail для FreeBSD (которая по умолчанию поставляется с OS X). Когда я переключился на GNU tail, хвостовой вызов был в 10 раз быстрее, чем вызов sed (и вызов GNU sed тоже). AaronDigulla здесь верна, если вы используете GNU.
Dan Nguyen 18 авг. 2016, в 20:59
0

Благодарю. Я отредактировал свой ответ, чтобы подчеркнуть этот момент.
Aaron Digulla 25 авг. 2016, в 07:21
1

Самое приятное в sed - это то, что вы можете использовать его для редактирования файлов на месте, чего вы не можете сделать с помощью tail (насколько я знаю. Пожалуйста, исправьте меня, если я ошибаюсь). Если вы хотите удалить первую строку во всех файлах в каталоге, вы можете сделать что-то вроде этого sed -i "1d" * . Я думаю, вы также можете автоматизировать tail , используя его в сочетании с find или создавая скрипт, но я не уверен, какой из них работает лучше. Я знаю, что в ОП упоминалось, что они используют -i , но я подумал, что это может помочь уточнить его использование.
James Mchugh 21 июль 2017, в 12:30
0

Есть ли способ использовать tail в нескольких файлах одновременно? У меня есть несколько файлов, 1.txt, 2.txt и т. Д., Над которыми я хотел бы выполнить эту операцию, и я хочу, чтобы вывод заканчивался в 1.txt, 2.txt или 1.fixed, 2.fixed или что-то типа того.
d-b 13 апр. 2018, в 09:09
0

@db Нет. Используйте цикл.
Aaron Digulla 17 май 2018, в 07:39

Показать ещё 26 комментариев