Очистка Word to HTML конвертирования

Статус
В этой теме нельзя размещать новые ответы.
Мне в php скрипте надо почистить строку перед отправкой в базу
Наверно я не понимаю что нужна сделать.
как ни крути, если есть sql база,зогоняем её в Dreamweaver чистим,и получаем чистую sql базу.
залил на сайт,все работает.
 
Наверно я не понимаю что нужна сделать.
как ни крути, если есть sql база,зогоняем её в Dreamweaver чистим,и получаем чистую sql базу.
залил на сайт,все работает.

Есть несколько тысяч файлов которые нужно загнать в базу, но удаляя только часть кода. Ворд создает классы вроде <p class="MsoNormal" style="text-align: left;"><strong><span и т.д. которые нужно удалить, одновременно не тронув нужные классы, нужно очистить все лишнее от ворда, и не тронуть то что не надо трогать. Уже регулярка готова, спасибо zzallexx, осталось немножко дописать и сделать. Впринципе вопрос уже решен. Дело техники только.

Парни, еще одна подсказка нужна. Образуются теги вида <p > <br /> как поудалять эти лишние пробелы?

Сделал вот так
PHP:
 $html = ereg_replace("/<(\w+)\s/","<$1",$html);

Но по-видимому где-то ошибся, уже три часа сижу над перебором вариантов.
 
а что конкретно удалить -то надо <br />? а <p> оставить? или оба удалить? или ты имеешь ввиду пробел в тегах в br он не лишний он так и должен быть или <br> или <br /> а <p > попробуй просто
PHP:
$html = str_replace('<p >','<p>',$html);
 
а что конкретно удалить -то надо <br />? а <p> оставить? или оба удалить? или ты имеешь ввиду пробел в тегах в br он не лишний он так и должен быть или <br> или <br /> а <p > попробуй просто
PHP:
$html = str_replace('<p >','<p>',$html);

нет, пробелы внутри тегов удалить, тегов масса просто, все перебирать не хочется. Т.е. пробелы во всех тегах одной регуляркой
 
Парни, еще одна подсказка нужна. Образуются теги вида <p > <br /> как поудалять эти лишние пробелы?
Сделал вот так
PHP:
 $html = ereg_replace("/<(\w+)\s/","<$1",$html);
Но по-видимому где-то ошибся, уже три часа сижу над перебором вариантов.

PHP:
$html = preg_replace("'(<\w+)\s{1,}((?:/)?>)'", "$1$2", $html);
 
Выкладываю для нужд общественности созданную совместными усилиями функцию. Убирает мусор который ворд добавляет в HTML
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху