Рекусрия самый очевидный вариант, но я бы не пользовался ей - не известно сколько уровней вложенности будет дерево сылок. Лучше всего действительно скормить сайт какому нить сервису по генерации sitemap.xml, потом быстро разобрать xml и отпарсить все, что надо