С этой либой были некоторые проблемы с парсингом невалидных страниц.
А вот регулярка для выдирания всех ссылок со страницы.
Код:~<a.*?href="([^"]+)".*?>(.*?)</a>~s
регулярка кривая ибо использует частный случай написания тэга. не учитывается написание без кавычек и в апострофах.