Алгоритм разделения большого html

Статус
В этой теме нельзя размещать новые ответы.

theorc

Создатель
Регистрация
23 Авг 2010
Сообщения
18
Реакции
1
Есть большой кусок html кода (100-150 тисяч символов), встречаются только теги: <p>,<b>,<i>,<h1>-<h7>,<u>,<img> . Предложите, как "по умному" можно разбить текст на множество страничек по 5-10к символом, не разрушив html теги
 
если стоит задача разбить текст на осмысленные части (полагаю нужно разбить на статьи?) - я бы разделял по заголовкам (h1-h6), поскольку параграфы, списки и т.д. могут применятся для оформления

т.е. новая статья будет начинаться после закрывающего тега h

зы
h7 не существует, самый маленький - h6
 
тут можно применить ф-ю tidy_repair_string, позволяющую исправлять html-разметку (модуль php_tidy)

PHP:
$split = 10000; // треб. кол-во символов
$file = 'file.txt';
$text = wordwrap(file_get_contents($file),$split,'/|||/');
$arr=explode('/|||/',$text);
foreach ($arr as $k=>$v) file_put_contents($k.$file,tidy_repair_string($v));
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху