Если придумаете что-то серьезное - пишите мне, готов выслушать =)
Когда я кодил скрипт для работы с доргеном от сих до сих, там, в том числе, был код, который отвечал за чистку кеев.
Он включал в себя (одним махом, хотя разбить его по условиям тоже не проблема
1. Преобразование буквенных символов в нижний регистр.
2. Замена мусорных символов на пробелы (~,`,!,@,#,№,$,% и т.д... огромное количество символов)
3. Удаление нахрен строк, содержащих табу-слова (rape, gey, zoo, spam и т.д... огромное количество слов и словосочетаний)
4. Удаление доменов верхнего уровня и служебных слов (com, ru, net, org, gov, su, mil, edu, e-mail, www, http и т.д...)
5. Удаление лишних пробельных символов, как внутри, так и по границам кеев.
6. Удаление пустых строк.
7. Удаление строк-дубликатов.
Всё на регулярках, работало на ура, на выходе - чистые опрятные кеи, даже из засранной базы и всё за один проход.
Но это на PHP, без GUI.