парсинг текста

Статус
В этой теме нельзя размещать новые ответы.
Сперва текст исключительно Webgrabber-ом добывал.
Позже перешел на MultiReader. С MultiReader показалось гораздо удобнее работать в плане парсинга и последующего импорта в txt (имхо, гораздо меньше мусора и точнее парсинг)
 
Сперва текст исключительно Webgrabber-ом добывал.
Позже перешел на MultiReader. С MultiReader показалось гораздо удобнее работать в плане парсинга и последующего импорта в txt (имхо, гораздо меньше мусора и точнее парсинг)

Пробовал Multireader'ом в демоверсии сграбить несколько сайтов, но он зависал на некоторых страницах, а иногда очень мало статей находит, хотя точно известно, что на сайте их тысячи. Автор пытался исправить это аж три раза, но на чевертый я уже забил на это дело, тат как не помогло сграбить нужные мне сайты.
 
  • Заблокирован
  • #16
Юзаю SiBiR TextMaker - очень хороший скрипт, позволяет выдернуть тематический текст с разных сайтов. Выдираю текст, прогоняю через синонимайзер, выходит уже более менее уникальный текст.

какой синонимазер используешь?
 
есть программулина говноклеп называется, под это дело не подойдет? всмысле синомизировать?
 
Нет, говноклеп тут точно не покатит, во-первых генерит полную охинею(откуда собственно и название), во вторых на слабеньких машинках тормозит до предела, в то время как парсеры(большинство) работают более менее быстро и результат лучше будет...
Для парсинга использую парсер Яндекс словаря, к сожалению ссылки нету, ищите в Гугле(бесплатный вроде).
 
Можно тупо взять из rb)))


Правда там много мусора на выходе получается… но если нормально написать генератор, то все будет хорошо.
Если интересно могу скинуть и код генератора!)
 
Скажите, говноклеп с английским текстом работает?
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху