Challenge
-
Искам да споделя с всички най-смешния уеб комикс, който някога съм виждал.
www.sexylosers.com
Предупреждение:
Майка ти най-вероятно не би го оценила.И, тъй като за мен единствената причина да се уча да програмирам винаги е била да мога да накарам компютъра да сърфира в интернет вместо мен, наскоро се занимах да си изтегля сайта офлайн. Отдавна се занимавам да си правя архиви на всички комикси, които чета.
Но тук админът не е балък.
Предлагам следното предизвикателство.
Да се направи програма, която да тегли sexylosers.com,
Лесно се прави да се тегли всичко освен картинките. Картинките са проблем.
http://www.sexylosers.com/robots.txt
Ето защо.
Няма как да няма начин, защото firefox ги тегли. Интересно как.С това не искам да карам никой да върши моята работа. Струва ми се, обаче, че ако тази работа се получи, всички ще станем с една идея по-умни.
Весело хакване :)
Публикувано преди повече от 4 години -
Как ги теглиш по принцип сайтовете?
Публикувано преди повече от 4 години -
Ruby: net/http
Python: urllib
C/C++: cURLПубликувано преди повече от 4 години -
Нямаш никакъв проблем да ги свалиш, когато си сложиш някакъв нормален User-Agent:, например “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”.
Ето как може да стане с cURL (леко псевдокод):
ci = curl_init() curl_setopt(ci, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)') curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg'); curl_exec(ci)
Публикувано преди повече от 4 години -
Ами, аз го пробвах с custom user agent.
Както с “Mozilla…whatever”, така и с “Gosho”
Там е работата, че не става. Това са последните редове от robots.txtUser-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /comics/Или аз бъркам нещо в кода си?
Публикувано преди повече от 4 години -
Това, което си мисля е, че robots.txt е просто информативен и ти би трябвало да се съобразиш с него. Той сам по себе си не налага забрани. В предния пост малко те подведох; оказва се, че човекът очевидно проверява referer-а, тоест ето това работи:
ci = curl_init() curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg') curl_setopt(ci, CURLOPT_REFERER, 'http://www.sexylosers.com/') curl_exec(ci)
“User-Agent”-хедърът не се гледа изобщо, очевидно (пробвах да го сложа на “curl”, с подходящия referer си работи).Публикувано преди повече от 4 години -
Пробвай с wget:
wget -erobots=off --recursive --relative --no-parent --limit-rate=80k http://www.sexylosers.com/
Публикувано преди повече от 4 години -
O_o
Защо по дяволите уча мултипарадигмени езици от високо ниво?
Ти си моят герой, erobots=off е новият ми девиз :)
Митко, благодаря, това обяснява защо от сайта мога да ги отварям, а иначе – не.
Публикувано преди повече от 4 години
Нов отговор
Трябва да сте вътре за да отговаряте.