Вариант кодирования в очищенном HTML-коде

0

Я использовал метод perl get() для очистки URL-адреса. Я получил код HTML, но когда я извлек содержимое tamil с сайта, он дал мне странный текст вместо текста tamil. Я использовал средство Firefox Inspector для просмотра HTML-кода, содержащего контент tamil. Но когда я просматриваю источник из меню, он показывает закодированные строки. Я использовал следующий код, чтобы получить HTML

#!/usr/bin/perl

use LWP::Simple;
 $content = get("http://www.arulvakku.com/biblecontent.php");

open www,">> foo";
select www;
print www $content;
 die "Couldn't get it!" unless defined $content;

и сохранил HTML-код в foo. Когда я открываю его с автором Libreoffice, он показывает веб-страницу в tamil. Но когда я просматриваю исходный код, он дает мне кодировки. Эквивалентные коды в Firefox Inspector и HTML-коде являются следующими:

 <span class = "biblecontent">  தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது,   <span style="color:#D26900;font-size:16px"></span></span>

Скремблированный эквивалентный код HTML:

<span class="biblecontent">  &#2980;&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;&#3021; &#2997;&#3007;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021;, &#2990;&#2979;&#3021;&#2979;&#3009;&#2994;&#2965;&#3016;&#2991;&#3009;&#2990;&#3021; &#2986;&#2975;&#3016;&#2980;&#3021;&#2980; &#2986;&#3018;&#2996;&#3009;&#2980;&#3009;,   <span style='color:#D26900;font-size:16px'></span></span>

Как я могу получить содержимое tamil или как я могу преобразовать содержимое HTML обратно в tamil. Любые другие способы получения tamil или другого языка HTML-кода содержания полезны для меня.

Теги:
web-scraping

1 ответ

1
Лучший ответ

Используйте модуль HTML :: Entites:

#!/usr/bin/perl

use strict;
use warnings;
use HTML::Entities;
use utf8;

my $str = '&#3018;&#2975;&#2965;&#3021;&#2965;&#2980;&#3021;&#2980;&#3007;&#2994;&#3021; &#2965;&#2975;&#2997;&#3009;&#2995;';

print decode_entities($str);

Вывод:

ொடக்கத்தில் கடவுள
  • 0
    Спасибо @ user4035 Я нашел ответ на него @ mothereff.in/html-entities для расшифровки. Это дает правильный текст. Но все же я должен скопировать вставить текст. У меня есть 1000 строк текста.
  • 0
    @xtreak Нет необходимости использовать внешний сайт. Вы можете декодировать прямо в Perl. Просто поместите $content = decode_entities($content); перед print www $content;
Показать ещё 1 комментарий

Ещё вопросы

Сообщество Overcoder
Наверх
Меню