- Автор темы
- #1
Описание:
Универсальный граббер с DLE сайтов на uCoz (модуль новости)
Краткое инфо по пользованию граббера:
1. Требования к хостингу
1) Залейте содержимое скрипта на хостинг.
2) Установите на директорию cache права на запись(chmod 777).
3. Настройка
Откройте файл config.php
Впишите ваш домен на укозе:
Установите логин администатора/модератора/репортера и его пароль:
3. Как пользоваться?
Зайдите через браузер Для просмотра ссылки Войдиили Зарегистрируйся
В поле about:blank впишите адрес DLE сайта с которого будите граббить и жмите энтер
В новой версии реализовано:
Как пропускать содержимое новостей через синонимайзер:
ГЛАВНОЕ: для того чтоб вы могли использовать данную опцию у вас должен быть синонимайзер! Я рекомендую Для просмотра ссылки Войдиили Зарегистрируйся
1) Установите в конфиге
на
2) Установите на директорию contents права на запись(chmod 777)
3) Добавляйте новости как раньше они появятся в папке contents (!! кодировка файлов будет в UTF-8 !!)
4) Пропустите содержимое директории contents через синонимайзер
5) Зайдите через браузер в Для просмотра ссылки Войдиили Зарегистрируйся на главной странице будет ссылка Залить контент нажмите ее. И ожидайте пока контент будет заливается
Как создавать правила для граббинга с любых сайтов:
1) Откройте файл mysites.txt
2) korrespondent.net меняете на сайт который будите граббить
3) Заходите на главную страницу нажимаете просмотр HTML кода ищите HTML фрагмент который повторяется
допустим это <div id='news-id и его закрывающий элемент допустим это </td></tr>
Между ними поставьте (.*)
Получится <div id='news-id(.*)</td></tr>
4) [title], [small], [fulllink], [full] - работает по тому же принципу что и [style]
5) [qpage] Фрагмет HTML кода со страницами
Ищет последнюю страницу страницу автоматически
6) [page] - url формат страниц
Например, есть ссылка - Для просмотра ссылки Войдиили Зарегистрируйся
Формат [page] Будет такой Для просмотра ссылки Войдиили Зарегистрируйся)
7) Список функций и их предназначение:
@striptags - Ф-ция удаляет теги
@clean - Ф-ция удаляет лишние пробелы, табуляции и тд.
@htmltobb - Ф-ция преобразует HTML код в BB коды
@rm(value) - Ф-ция удаляет содержимое value с текста (например ...)
Описание функций: @a, @a.ТЕГ, @a(текст)б @restart и @emptyhtml
Допустим вам надо поставить имя автора в начале текста или в конце
Например:
<td>Автор: Vasya</td></tr><tr><td><div id='news-2412'>Новость: текст текст текст</div>
То для того чтоб поставить автора в начало необходимо выполнить такие команды
[full]
@a([b ]Автор:[/b ])
Автор: (.*)</td>
@a
@restart
id='news-(.*)</div>
'>Новость: (.*)
@a.center
@emptyhtml
Ф-ция @a - выполняет добавление содержимого в поток
Ф-ция @a.center - выполнит добавление в поток + содержимое будет в тегах
надо выполнить команду @restart )
Ф-ция @emptyhtml - в конце обработки сценария [small], [full], [title] обработанный текст автоматически добавляется в поток для того чтоб этого не случилось , используйте данную функцию
Если сайт в кодировке UTF-8 то следует использовать функцию @utf
8) Ну это, пожалуй и все запускайте браузер вводите Для просмотра ссылки Войдиили Зарегистрируйся и начинайте граббить сайт
Для просмотра ссылки Войдиили Зарегистрируйся
Универсальный граббер с DLE сайтов на uCoz (модуль новости)
Краткое инфо по пользованию граббера:
1. Требования к хостингу
- Версия PHP >= 5;
- Должна присутствовать библиотека iconv;
- Хостинг должен быть с поддержкой сокетов.
1) Залейте содержимое скрипта на хостинг.
2) Установите на директорию cache права на запись(chmod 777).
3. Настройка
Откройте файл config.php
Впишите ваш домен на укозе:
Код:
$_cfg['ucoz']['site'] = 'www.ru';
Код:
$_cfg['ucoz']['login'] = 'lavrik';
$_cfg['ucoz']['password'] = '785fgsd24asd';
Зайдите через браузер Для просмотра ссылки Войди
В поле about:blank впишите адрес DLE сайта с которого будите граббить и жмите энтер
В новой версии реализовано:
- Возможность использовать синонимайзер
- Возможность создавать правила для граббинга с любых сайтов(подобных DLE)
- Ставить ссылки в теги <noindex></noindex> $_cfg['grabber']['savecontents'] = TRUE; // TRUE - вкл. FALSE - выкл.
- Возможность создавать правила для граббинга с любых сайтов(подобных DLE)
Как пропускать содержимое новостей через синонимайзер:
ГЛАВНОЕ: для того чтоб вы могли использовать данную опцию у вас должен быть синонимайзер! Я рекомендую Для просмотра ссылки Войди
1) Установите в конфиге
Код:
$_cfg['grabber']['savecontents'] = FALSE;
Код:
$_cfg['grabber']['savecontents'] = TRUE;
3) Добавляйте новости как раньше они появятся в папке contents (!! кодировка файлов будет в UTF-8 !!)
4) Пропустите содержимое директории contents через синонимайзер
5) Зайдите через браузер в Для просмотра ссылки Войди
Как создавать правила для граббинга с любых сайтов:
1) Откройте файл mysites.txt
2) korrespondent.net меняете на сайт который будите граббить
3) Заходите на главную страницу нажимаете просмотр HTML кода ищите HTML фрагмент который повторяется
допустим это <div id='news-id и его закрывающий элемент допустим это </td></tr>
Между ними поставьте (.*)
Получится <div id='news-id(.*)</td></tr>
4) [title], [small], [fulllink], [full] - работает по тому же принципу что и [style]
5) [qpage] Фрагмет HTML кода со страницами
Ищет последнюю страницу страницу автоматически
6) [page] - url формат страниц
Например, есть ссылка - Для просмотра ссылки Войди
Формат [page] Будет такой Для просмотра ссылки Войди
7) Список функций и их предназначение:
@striptags - Ф-ция удаляет теги
@clean - Ф-ция удаляет лишние пробелы, табуляции и тд.
@htmltobb - Ф-ция преобразует HTML код в BB коды
@rm(value) - Ф-ция удаляет содержимое value с текста (например ...)
Описание функций: @a, @a.ТЕГ, @a(текст)б @restart и @emptyhtml
Допустим вам надо поставить имя автора в начале текста или в конце
Например:
<td>Автор: Vasya</td></tr><tr><td><div id='news-2412'>Новость: текст текст текст</div>
То для того чтоб поставить автора в начало необходимо выполнить такие команды
[full]
@a([b ]Автор:[/b ])
Автор: (.*)</td>
@a
@restart
id='news-(.*)</div>
'>Новость: (.*)
@a.center
@emptyhtml
Ф-ция @a - выполняет добавление содержимого в поток
Ф-ция @a.center - выполнит добавление в поток + содержимое будет в тегах
Ф-ция @restart - загрузит нетронутый HTML код ( после выполнения команды Автор: (.*) текст для обработки будет Vasya для того чтоб он обрел первичный вид:
Код:
<td>Автор: Vasya</td></tr><tr><td><div id='news-2412'>Новость: текст текст текст</div>
Ф-ция @emptyhtml - в конце обработки сценария [small], [full], [title] обработанный текст автоматически добавляется в поток для того чтоб этого не случилось , используйте данную функцию
Если сайт в кодировке UTF-8 то следует использовать функцию @utf
8) Ну это, пожалуй и все запускайте браузер вводите Для просмотра ссылки Войди
Для просмотра ссылки Войди