- Заблокирован
- #41
Очень полезная программа но вот 1 минус скорость блин когда ввожу кучу стоп слов и дОлго долго долго грузит комп норм 4 ядра видео отличное потом оператива 4 гб. Так что не помешает ускорить а по существу Огромное спасибо автору.
Follow along with the video below to see how to install our site as a web app on your home screen.
Примечание: This feature may not be available in some browsers.
Почти все это будет в 5ой версии. Разве что не будет именно замены символов, будет только удаление. Но ничего, как приведу в порядок 5.0 - обязательно добавлю замену.Когда я кодил скрипт для работы с доргеном от сих до сих, там, в том числе, был код, который отвечал за чистку кеев.
Он включал в себя (одним махом, хотя разбить его по условиям тоже не проблема
1. Преобразование буквенных символов в нижний регистр.
2. Замена мусорных символов на пробелы (~,`,!,@,#,№,$,% и т.д... огромное количество символов)
3. Удаление нахрен строк, содержащих табу-слова (rape, gey, zoo, spam и т.д... огромное количество слов и словосочетаний)
4. Удаление доменов верхнего уровня и служебных слов (com, ru, net, org, gov, su, mil, edu, e-mail, www, http и т.д...)
5. Удаление лишних пробельных символов, как внутри, так и по границам кеев.
6. Удаление пустых строк.
7. Удаление строк-дубликатов.
Всё на регулярках, работало на ура, на выходе - чистые опрятные кеи, даже из засранной базы и всё за один проход.
Но это на PHP, без GUI.
5ая версия будет значительно быстрее 4ой =)Очень полезная программа но вот 1 минус скорость блин когда ввожу кучу стоп слов и дОлго долго долго грузит комп норм 4 ядра видео отличное потом оператива 4 гб. Так что не помешает ускорить а по существу Огромное спасибо автору.
Ok, спасибо, подумаю, может потом реализую =)Порадовал модуль выборки, но имхо можно сделать лучше если конечно есть возможность:
*** скрытое содержание ***
Это конечно все пожелания, на усмотрение... но...
Newo
Не забудь убрать следующий баг:
когда делаешь выборку по количеству слов в кее - нужно обязательно указать сам кей, иначе на выходе файл в 0 байт. извини, но это бред
Чего-то я тебя не понялДа, это в пятой версии учтено.
Только это не бред, все логично: ни одного из слов, потому что их собственно нету, не находится в файлах))