Follow along with the video below to see how to install our site as a web app on your home screen.
Примечание: This feature may not be available in some browsers.
С таким каналом нет, если только не обрывать соединение если ответ не получен. В этом списке есть и медленные и огромные страницы. Проверить ответ сервера можно попробовать, скачать не получится, да и места на диске без индекса столько нетБлагодарю.
с каналом в 30 мегабит/сек обойти все морды зоны ru (почти 5 млн доменов) за пару часов.
Не вижу взаимосвязи, как сокеты или количество нитей, процессов зависит от языка? c++, perl, php, java, erlang и т.п. все поддерживают многопоточность сами или через библиотеки, libcurl например.Цель в том, чтобы выжимать максимум в задаче параллельного граббинга путем выбора языка.
Скорее всего нет, т.к. в этом деле основное время будет тратиться на ожидание и получение ответа от сервера, а ожидание на всех языках и технологиях абсолютно эквивалентно) Из технологий могу порекомендовать только то, с чем сам имел дело. С помощью Scrapy(легко гуглится) обходил 800к страниц за полчаса. Это при том, что у меня канал всего 10 Мб/с.То есть при правильной настройке apache+php+multicurl не будут уступать c# на той-же машине?