Samagonische
Создатель
- Регистрация
- 16 Июл 2007
- Сообщения
- 35
- Реакции
- 16
- Автор темы
- #1
Здравствуйте.
Недавно встала проблема парсинга полных новостей из RSS в Joomla 1.5, перерыв весь рунет нашел только устаревший NewsGrabberJC_1.0.6.
Решил его доработать. После долгих танцев с бубном я заставил его парсить полные новости.
Для работа парсера требуется включить режим совместимости (Legacy Mode).
Как его включить читать Для просмотра ссылки Войдиили Зарегистрируйся.
Ленты на которых я отлаживал компонент и они у меня парсятся:
Для просмотра ссылки Войдиили Зарегистрируйся
Начальная точка: <\/p><\/div><\/div>
Конечная точка: <br\/><br \/>
Для просмотра ссылки Войдиили Зарегистрируйся
Начальная точка: <td class=\"post-story\">
Конечная точка: <\/div><\/td>
Ленты работают с такими настройками:
Допущена: Да (у меня работает)
Встречаются хотя бы (раз (не проверял)
Загружать только если найдены слова (слова через запятую (не проверял)
Встречаются не менее (раз (не проверял)
Не загружать, если ссылка содержит слова (слова через запятую (не проверял)
Загружать только если ссылка содержит слова (слова через запятую (не проверял)
Публиковать новости автоматически: Да (у меня работает)
Допускать на главную страницу: Да (у меня работает)
Допускать на главную, если найдены слова (слова через запятую (не проверял)
Встречаются не менее (раз (не проверял)
Не допускать на главную, если найдены слова (слова через запятую (не проверял)
Встречаются хотя бы (раз (не проверял)
Вставлять произвольный HTML в тело новости: Нет (не проверял)
Произвольный HTML: (не проверял)
Позиция HTML-кода: (не проверял)
Заданная точка: (не проверял)
Вставлять произвольный HTML в анонс: Нет(не проверял)
Произвольный HTML: (не проверял)
Позиция HTML-кода: (не проверял)
Использовать автоматический frontend/cron импорт: Да (у меня работает)
Интервал frontend/cron импорта (минуты (не проверял)
Вырезать картинки из анонса: Нет (не проверял)
Не загружать, если только заголовок: Нет (не проверял)
Урезать анонс (# символов (на ваше усмотрение можно ввести до 999) (у меня работает)
Максимальное количество элементов для загрузки: (на ваше усмотрение) (у меня работает)
Срок жизни новости (дни (не проверял)
Максимальная ширина картинки (пиксель (не проверял)
Максимальная высота картинки (пиксель (не проверял)
Выключка картинок текста новости: Нет (не проверял)
Максимальная ширина картинки анонса (пиксель (не проверял)
Максимальная высота картинки анонса (пиксель (не проверял)
Выключка картинок анонса: Нет (не проверял)
Копировать полный текст новости: Да (проверенно)
Использовать оригинальный анонс: Да (проверенно)
Считать началом заголовок: Нет (не проверял)
Считать концом подпись автора: Нет (не проверял)
Для автоматического импорта поставьте на Cron automaticimport.php (у меня работает)
Парсер у меня работает с такими глобальными настройками(всё, что выключено на работоспособность не проверял
Настройки:
___Простые___
Максимальное время выполнения:
Отправлять отчет по email: Нет
Тема письма:
Письмо как HTML: Нет
Порядок работы парсеров: DOMIT->Magpie->PEAR (сейчас работает только парсер DOMIT т.к Magpie устарел)
__Содержимое__
Исходящая кодировка: UTF-8 (у меня кодировка базы и сайта UTF-8, на cp1251 не проверял если у кого есть возможность проверьте и отпишите)
Включить ссылки: Нет
Сложные ссылким: Нет
Текст ссылки:
Префикс href якоря:
Поведение якоря: None
Произвольный фрэйм:
Очистить XHTML: Нет
Паковать картинки в якоря: Нет
Аттрибут href якоря:
Другие аттрибуты якоря:
Сохранить псевдоним автора: Нет
Если автор не установлен: Использовать заголовок
Псевдоним по умолчанию:
__Meta__
Обсчитывать мета-тэги: Нет
Использовать Yahoo Term Extraction: Нет
Идентификатор приложения Yahoo:
Максимальное количество тэгов:
Минимальное количество символов в тэге:
Использовать игнор-лист: Нет
Файл игнор-листа: Англиский
Сохранять категории ленты: Нет Да
Сохранять секцию/категорию: Нет Да
Есть проблема с которой ещё предстоит разобраться(проблем конечно много, но всё по порядку ) в настройках ленты при утановке "Начальной точка:" , "Конечной точка:" и всех шаблонов замены при сохранении изменений скрипт каждый раз экранирует backslash т.е
Есть:
Насальная точка: <td class=\"post-story\">
Конечная точка: <\/div><\/td>
При сохранении в базу положится:
Насальная точка: <td class=\\"post-story\\">
Конечная точка: <\\/div><\\/td>
При следующем сохранении положит:
Насальная точка: <td class=\\\"post-story\\\">
Конечная точка: <\\\/div><\\\/td>
и так за каждим разом он будет прибавлять backslash.
Посему я эти данные редактировал прямо в базе данных через phpMyAdmin или другую программу для работы с MySql.
Таблица: префикс_ newsgrabberjc
Начальная точка: fromPoint
Конечная точка: toPoint
P.S. Если есть вопросы, пожелания, предложения и возможность поддержать работу морально и материально стучите в личку или в ICQ 335582718
Недавно встала проблема парсинга полных новостей из RSS в Joomla 1.5, перерыв весь рунет нашел только устаревший NewsGrabberJC_1.0.6.
Решил его доработать. После долгих танцев с бубном я заставил его парсить полные новости.
Для работа парсера требуется включить режим совместимости (Legacy Mode).
Как его включить читать Для просмотра ссылки Войди
Ленты на которых я отлаживал компонент и они у меня парсятся:
Для просмотра ссылки Войди
Начальная точка: <\/p><\/div><\/div>
Конечная точка: <br\/><br \/>
Для просмотра ссылки Войди
Начальная точка: <td class=\"post-story\">
Конечная точка: <\/div><\/td>
Ленты работают с такими настройками:
Допущена: Да (у меня работает)
Встречаются хотя бы (раз (не проверял)
Загружать только если найдены слова (слова через запятую (не проверял)
Встречаются не менее (раз (не проверял)
Не загружать, если ссылка содержит слова (слова через запятую (не проверял)
Загружать только если ссылка содержит слова (слова через запятую (не проверял)
Публиковать новости автоматически: Да (у меня работает)
Допускать на главную страницу: Да (у меня работает)
Допускать на главную, если найдены слова (слова через запятую (не проверял)
Встречаются не менее (раз (не проверял)
Не допускать на главную, если найдены слова (слова через запятую (не проверял)
Встречаются хотя бы (раз (не проверял)
Вставлять произвольный HTML в тело новости: Нет (не проверял)
Произвольный HTML: (не проверял)
Позиция HTML-кода: (не проверял)
Заданная точка: (не проверял)
Вставлять произвольный HTML в анонс: Нет(не проверял)
Произвольный HTML: (не проверял)
Позиция HTML-кода: (не проверял)
Использовать автоматический frontend/cron импорт: Да (у меня работает)
Интервал frontend/cron импорта (минуты (не проверял)
Вырезать картинки из анонса: Нет (не проверял)
Не загружать, если только заголовок: Нет (не проверял)
Урезать анонс (# символов (на ваше усмотрение можно ввести до 999) (у меня работает)
Максимальное количество элементов для загрузки: (на ваше усмотрение) (у меня работает)
Срок жизни новости (дни (не проверял)
Максимальная ширина картинки (пиксель (не проверял)
Максимальная высота картинки (пиксель (не проверял)
Выключка картинок текста новости: Нет (не проверял)
Максимальная ширина картинки анонса (пиксель (не проверял)
Максимальная высота картинки анонса (пиксель (не проверял)
Выключка картинок анонса: Нет (не проверял)
Копировать полный текст новости: Да (проверенно)
Использовать оригинальный анонс: Да (проверенно)
Считать началом заголовок: Нет (не проверял)
Считать концом подпись автора: Нет (не проверял)
Для автоматического импорта поставьте на Cron automaticimport.php (у меня работает)
Парсер у меня работает с такими глобальными настройками(всё, что выключено на работоспособность не проверял
Настройки:
___Простые___
Максимальное время выполнения:
Отправлять отчет по email: Нет
Тема письма:
Письмо как HTML: Нет
Порядок работы парсеров: DOMIT->Magpie->PEAR (сейчас работает только парсер DOMIT т.к Magpie устарел)
__Содержимое__
Исходящая кодировка: UTF-8 (у меня кодировка базы и сайта UTF-8, на cp1251 не проверял если у кого есть возможность проверьте и отпишите)
Включить ссылки: Нет
Сложные ссылким: Нет
Текст ссылки:
Префикс href якоря:
Поведение якоря: None
Произвольный фрэйм:
Очистить XHTML: Нет
Паковать картинки в якоря: Нет
Аттрибут href якоря:
Другие аттрибуты якоря:
Сохранить псевдоним автора: Нет
Если автор не установлен: Использовать заголовок
Псевдоним по умолчанию:
__Meta__
Обсчитывать мета-тэги: Нет
Использовать Yahoo Term Extraction: Нет
Идентификатор приложения Yahoo:
Максимальное количество тэгов:
Минимальное количество символов в тэге:
Использовать игнор-лист: Нет
Файл игнор-листа: Англиский
Сохранять категории ленты: Нет Да
Сохранять секцию/категорию: Нет Да
Есть проблема с которой ещё предстоит разобраться(проблем конечно много, но всё по порядку ) в настройках ленты при утановке "Начальной точка:" , "Конечной точка:" и всех шаблонов замены при сохранении изменений скрипт каждый раз экранирует backslash т.е
Есть:
Насальная точка: <td class=\"post-story\">
Конечная точка: <\/div><\/td>
При сохранении в базу положится:
Насальная точка: <td class=\\"post-story\\">
Конечная точка: <\\/div><\\/td>
При следующем сохранении положит:
Насальная точка: <td class=\\\"post-story\\\">
Конечная точка: <\\\/div><\\\/td>
и так за каждим разом он будет прибавлять backslash.
Посему я эти данные редактировал прямо в базе данных через phpMyAdmin или другую программу для работы с MySql.
Таблица: префикс_ newsgrabberjc
Начальная точка: fromPoint
Конечная точка: toPoint
P.S. Если есть вопросы, пожелания, предложения и возможность поддержать работу морально и материально стучите в личку или в ICQ 335582718
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.