Наверное, нужно всё-таки искать какие-то повторяющиеся признаки и по ним отфильтровывать. Полазить по заведомо известным сайтам такого рода и поискать типовые элементы (под ними я понимаю и текст и графику). Вот, на вскидку, к примеру - на многих гос. сайтах в тайтле и в теле страницы часто встречается фраза "официальный сайт администрации"... гугл сразу выдаёт по такому запросу порядка полутора миллионов ресов - значит, это довольно распространённый элемент =) Просмотрите внимательно такие сайты, проявите фантазию и в результате сможете отсеять если не все, то значительную часть нежелательных "доноров" из своей базы.