html2text CONVERTER 0

GNU/Linux, UNIX, Open Source → Программное обеспечение

vitnik написал 18 апреля 2005 года в 13:42 (1079 просмотров) Ведет себя неопределенно; открыл 3 темы в форуме, оставил 8 комментариев на сайте.

Никто не знает хороший html2text converter с сохранением линков на web странице?

т.е если на html странице есть какой-то адрес или e-mail он бы его сохранял в текст, типа http://blablabla.com или mailto:xxxx.

В принципе есть такой html2text на http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

Все устраивает только вот линки не сохраняет….

Ответить Цитировать

Genie 14:03, 18 апреля 2005

lynx

elinks

не помогут?

Ответить Цитировать

vitnik 14:08, 18 апреля 2005

нет… нужно что-нибудь для plain text (с возможностью изменение width экрана)

Ответить Цитировать

vitnik 16:20, 18 апреля 2005

спасибо за такое огромное количество ответов….

не выдержал и сам написал converter ….

Ответить Цитировать

anonymous 14:35, 4 мая 2005

А никто не знает как сделать чтобы линки при дампе (lynx) отображались не после текста а рядом с нужным словом. Типа:

Для того чтобы попасть на эту страницу нужно перейти по етой ссылке [http://blabla.ru]

Вот в таком виде. Видел что это возможно только не знаю какой софт использовался

Ответить Цитировать

Дмитрий Шурупов 15:58, 4 мая 2005

Ну, знаете ли…

> спасибо за такое огромное количество ответов….

Спасибо за такое внимательное изучение каталогов с программами для UNIX/Linux (а также поисковых систем), где можно легко найти решения своего вопроса, перед тем, как спрашивать.

P.S. http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

Ответить Цитировать

Feuerbach 20:04, 4 мая 2005

Dmitry Shurupov
> спасибо за такое огромное количество ответов….
Спасибо за такое внимательное изучение каталогов с программами для UNIX/Linux (а также поисковых систем), где можно легко найти решения своего вопроса, перед тем, как спрашивать.

P.S. http://userpage.fu-berlin.de/~mbayer/tools/html2text.html

vitnik
В принципе есть такой html2text на http://userpage.fu-berlin.de/~mbayer/tools/html2text.html
Все устраивает только вот линки не сохраняет….

Кто бы говорил о внимательности :))

Ответить Цитировать

Дмитрий Шурупов 21:29, 4 мая 2005

Оу, да, но это было первое, что попалось.

Аналогично, например, находятся:

Grutatxt — http://www.triptico.com/software/grutatxt.html

Vilistextum — http://bhaak.dyndns.org/vilistextum/

(последний, правда, вместо ссылок расставляет всякие [X], а в конце страницы их перечисляет с указанием того, куда они ссылаются)

Ответить Цитировать

anonymous 14:26, 5 мая 2005

2 КАРАНДАШ

я тоже этим мучился. Да и сейчас проблема в принципе не решилась.

lynx -dump URL работает здорово, токо мне надо было чтобы ссылки не после текста в reference шли а рядом со словами. Написал такое творение:

#include

main() {

FILE *in,*out;

char st[200];

int i,c;

in=fopen(«text.html»,«rb»);

if(in==NULL) printf(«CAN’T OPEN»);

out=fopen(«text2.html»,«wb»);

while(fgets(st,199,in)!=NULL) {

for(i=0;i<=strlen(st);i++) {

if (st==’<' && st[i+1]==’A' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’h' && st[i+4]==’r') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

} if (st=='<' && st[i+1]==’a' && st[i+2]==' ' && st[i+3]==’H' && st[i+4]==’R') {

for(c=0;c<=7;c++) st[i+c]=’\n’;

st[i+8]='[';

}

if (st=='<' && st[i+1]==’/' && st[i+2]==’a' && st[i+3]==’>’) {

st=’]';

for(c=1;c<=7;c++) st[i+c]=’\n’;

}

if (st==’<' && st[i+1]==’t' && st[i+2]==’/' && st[i+3]==’A') {

st=’]';

for(c=1;c<=7;c++) st[i+c]=’\n’;

}

fputs(st,out);

}

return 0;

}

смысл в том что ета дрянь убирает из html такие знаки как

Ответить Цитировать

Genie 16:56, 5 мая 2005

буквально пяти минут наколеночное:

$ cat html2text.pl
#!/usr/bin/perl
while($line=){$file.=$line;}
$file=~s~]+).*?>(.*?)</a>~$2 [$1]~ig;


$file=~s~<.*?>~~g;


print $file;

явные минусы (занят пока что):

не обрабатываются многострочные теги (комментарии, стили, скрипты);

прожорливое на больших файлах;

не форматирует ;(

Ответить Цитировать

anonymous 10:11, 6 мая 2005

2 Genie

А зачем велосипед то на перле изобретать ??? Его давно создали…. lynx, links и w3m намного лучше справляются (мягко сказано)…. они и текст форматируют как надо.

Ответить Цитировать

Genie 11:03, 6 мая 2005

S4Nt4
2 Genie
А зачем велосипед то на перле изобретать ??? Его давно создали…. lynx, links и w3m намного лучше справляются (мягко сказано)…. они и текст форматируют как надо.

гхм. если кто что-то не заметил, то см. ответ за номером 1 ;))

про lynx и elinks я как раз и говорил.