Я использовал метод perl get() для очистки URL-адреса. Я получил код HTML, но когда я извлек содержимое tamil с сайта, он дал мне странный текст вместо текста tamil. Я использовал средство Firefox Inspector для просмотра HTML-кода, содержащего контент tamil. Но когда я просматриваю источник из меню, он показывает закодированные строки. Я использовал следующий код, чтобы получить HTML
#!/usr/bin/perl
use LWP::Simple;
$content = get("http://www.arulvakku.com/biblecontent.php");
open www,">> foo";
select www;
print www $content;
die "Couldn't get it!" unless defined $content;
и сохранил HTML-код в foo. Когда я открываю его с автором Libreoffice, он показывает веб-страницу в tamil. Но когда я просматриваю исходный код, он дает мне кодировки. Эквивалентные коды в Firefox Inspector и HTML-коде являются следующими:
<span class = "biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style="color:#D26900;font-size:16px"></span></span>
Скремблированный эквивалентный код HTML:
<span class="biblecontent"> தொடக்கத்தில் கடவுள் விண்ணுலகையும், மண்ணுலகையும் படைத்த பொழுது, <span style='color:#D26900;font-size:16px'></span></span>
Как я могу получить содержимое tamil или как я могу преобразовать содержимое HTML обратно в tamil. Любые другие способы получения tamil или другого языка HTML-кода содержания полезны для меня.
Используйте модуль HTML :: Entites:
#!/usr/bin/perl
use strict;
use warnings;
use HTML::Entities;
use utf8;
my $str = 'ொடக்கத்தில் கடவுள';
print decode_entities($str);
Вывод:
ொடக்கத்தில் கடவுள
$content = decode_entities($content);
передprint www $content;