Как я могу перебирать теги, используя Python?

Question

Как я могу перебирать теги, используя Python?

1

Я хотел бы перебирать некоторые html и хранить данные в словаре. Каждая итерация начинается с:

<h1 class="docDisplay" id="docTitle">

У меня есть следующий код:

html = '<html><body><h1 class="docDisplay" id="docTitle">Data1</h1><p>other data<\p><h1 class="docDisplay" id="docTitle">Data2</h1><p>other data2<\p></html>'

soup=BeautifulSoup(html)
newdoc = soup.find('h1', id="docTitle")
title = newdoc.findNext(text=True)
data = title.findAllNext('p',text=True)
data_dict = {}
data_dict[title] = {'data': data}
print data_dict

В настоящий момент выход

{u'Data1': {'data': [u'other data<\\p>', u'Data2', u'other data2<\\p>']}}

Я хотел бы, чтобы результат был:

{u'Data1': {'data': [u'other data<\\p>']}, u'Data2': {'data': [u'other data2<\\p>']}}

Я не могу понять, как начать снова, как только я достиг нового тега h1. Любые идеи?

user728166 28 апр. 2011, в 00:48

Источник

0

Вы не закрыли свой </ p> правильно. Вы также не закрываете тег своего тела.
Lynch 27 апр. 2011, в 22:04
2

Я думаю, именно поэтому он использует BeautifulSoup.
samplebias 27 апр. 2011, в 22:19
0

Вы пытаетесь создать словарь, который сопоставляет названия заголовков с абзацами под каждым заголовком? Если это так, у вас проблема в том, что все теги <p> являются братьями и сестрами, поэтому нет хорошего способа написать что-то вроде «найдите теги <p> в этом <div> который следует за <h1> » , Возможно, вам придется перебирать дочерние теги <body> , отслеживать, когда вы встречаете заголовки и абзацы, и вносить соответствующие изменения в свой словарь.
Josh Rosen 28 апр. 2011, в 00:00
0

@Josh Джош Розен: Я понимаю, что вы говорите. Когда я использую команду findNextAll, я получаю все содержимое тега p, так как они являются родственниками. Я не уверен, что вы подразумеваете под «итерацией по дочерним тегам <body>, отслеживанием, когда вы встречаете заголовки и абзацы, и внесением соответствующих изменений в свой словарь». Можете ли вы уточнить?
user728166 28 апр. 2011, в 12:04

Показать ещё 2 комментария

Теги:

python

loops

2 ответа

-2

@samplebias: @Lynch прав. Если OP не закрывает свои теги должным образом, они просто не могут ожидать, что синтаксический анализатор сможет читать их мысли.

Попробуйте исправить свой HTML, он, вероятно, будет работать тогда. =)

Sunjay Varma 27 апр. 2011, в 21:11

0

На самом деле теги <p> не нужно закрывать в HTML, и BeautifulSoup знает, как автоматически их закрывать.
interjay 27 апр. 2011, в 23:47
0

Я знаю это. Я говорю, что если ваши HTML-теги не будут правильно структурированы, вы не получите желаемых результатов! Программа не может читать ваши мысли!
Sunjay Varma 29 апр. 2011, в 01:49
0

Посмотрите ответы на этот вопрос: stackoverflow.com/questions/1261104/… . Многие страницы неправильно закрывают свои теги абзаца. OP, вероятно, не контролирует HTML страницы, которую они анализируют; это, вероятно, от третьей стороны.
Josh Rosen 29 апр. 2011, в 02:02
0

Я знаю, что многие страницы не закрывают свои теги, я понимаю, что, возможно, я был немного неясен. Я хотел сказать, что ОП не должен полагаться на программу, чтобы угадать. Не то, чтобы программа не догадалась для него / нее. Хотя я согласен, что вы правы в том, что не имеете контрольной части. Я не учел это. знак равно
Sunjay Varma 29 апр. 2011, в 03:10

Показать ещё 2 комментария

Ещё вопросы

Вы не закрыли свой </ p> правильно. Вы также не закрываете тег своего тела.
Я думаю, именно поэтому он использует BeautifulSoup.
Вы пытаетесь создать словарь, который сопоставляет названия заголовков с абзацами под каждым заголовком? Если это так, у вас проблема в том, что все теги <p> являются братьями и сестрами, поэтому нет хорошего способа написать что-то вроде «найдите теги <p> в этом <div> который следует за <h1> » , Возможно, вам придется перебирать дочерние теги <body> , отслеживать, когда вы встречаете заголовки и абзацы, и вносить соответствующие изменения в свой словарь.
@Josh Джош Розен: Я понимаю, что вы говорите. Когда я использую команду findNextAll, я получаю все содержимое тега p, так как они являются родственниками. Я не уверен, что вы подразумеваете под «итерацией по дочерним тегам <body>, отслеживанием, когда вы встречаете заголовки и абзацы, и внесением соответствующих изменений в свой словарь». Можете ли вы уточнить?
На самом деле теги <p> не нужно закрывать в HTML, и BeautifulSoup знает, как автоматически их закрывать.
Я знаю это. Я говорю, что если ваши HTML-теги не будут правильно структурированы, вы не получите желаемых результатов! Программа не может читать ваши мысли!
Посмотрите ответы на этот вопрос: stackoverflow.com/questions/1261104/… . Многие страницы неправильно закрывают свои теги абзаца. OP, вероятно, не контролирует HTML страницы, которую они анализируют; это, вероятно, от третьей стороны.
Я знаю, что многие страницы не закрывают свои теги, я понимаю, что, возможно, я был немного неясен. Я хотел сказать, что ОП не должен полагаться на программу, чтобы угадать. Не то, чтобы программа не догадалась для него / нее. Хотя я согласен, что вы правы в том, что не имеете контрольной части. Я не учел это. знак равно

Josh Rosen · Accepted Answer · 2011-04-28T22-57-00.000Z

Чтобы соответствовать тексту абзацев под каждым заголовком, я бы попробовал что-то вроде этого (возможно, вам придется изменить это в зависимости от точного формата вывода, который вы хотите):

    from BeautifulSoup import BeautifulSoup

    html = """ 
    <html>
    <head>
    </head>

    <body>
      <h1 class="docDisplay" id="docTitle">Data1</h1>
      <p>other data</p>
      <p>Another paragraph under the first heading.</p>
      <h1 class="docDisplay" id="docTitle">Data2</h1>
      <p>other data2</p>
      <div><p>This paragraph is NOT a sibling of the header</p></div>
    </body>
    </html>
"""

soup = BeautifulSoup(html)

data_dict = {}
stuff_under_current_heading = []

firstHeader = soup.find('h1', id="docTitle")
for tag in [firstHeader] + firstHeader.findNextSiblings():
    if tag.name == 'h1':
        stuff_under_current_heading = []
        # I chose to strip excess whitespace from the header name:
        data_dict[tag.string.strip()] = {'data': stuff_under_current_heading}
        # Modifying the list modifies the value in the dictionary.
    # Take every <p> tag encountered between here and the next heading
    # and associate it with the most recently-seen <h1> tag.
    elif tag.name == 'p':
        stuff_under_current_heading.append(tag.string)
    # Include <p> tags that are not siblings of the <h1> tag but
    # are still part of the content under the header.
    else:
        stuff_under_current_heading.extend(tag.findAll('p', text=True))

print data_dict

Выводит

{u'Data1': {'data': [u'other data', u'Another paragraph under the first heading.']},   
 u'Data2': {'data': [u'other data2', u'This paragraph is NOT a sibling of the header']}}