Програмиране с Ruby и Rails

Challenge

Михаил Минков

Искам да споделя с всички най-смешния уеб комикс, който някога съм виждал.

www.sexylosers.com

Предупреждение:
Майка ти най-вероятно не би го оценила.

И, тъй като за мен единствената причина да се уча да програмирам винаги е била да мога да накарам компютъра да сърфира в интернет вместо мен, наскоро се занимах да си изтегля сайта офлайн. Отдавна се занимавам да си правя архиви на всички комикси, които чета.

Но тук админът не е балък.

Предлагам следното предизвикателство.
Да се направи програма, която да тегли sexylosers.com,
Лесно се прави да се тегли всичко освен картинките. Картинките са проблем.
http://www.sexylosers.com/robots.txt
Ето защо.
Няма как да няма начин, защото firefox ги тегли. Интересно как.

С това не искам да карам никой да върши моята работа. Струва ми се, обаче, че ако тази работа се получи, всички ще станем с една идея по-умни.

Весело хакване :)

Публикувано преди повече от 4 години
Мариян Ненчев

Как ги теглиш по принцип сайтовете?

Публикувано преди повече от 4 години
Михаил Минков

Ruby: net/http
Python: urllib
C/C++: cURL

Публикувано преди повече от 4 години
Димитър Петров Димитров
Нямаш никакъв проблем да ги свалиш, когато си сложиш някакъв нормален User-Agent:, например “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”.

Ето как може да стане с cURL (леко псевдокод):
```
ci = curl_init()
curl_setopt(ci, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)')
curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg');
curl_exec(ci)
```
Публикувано преди повече от 4 години
Михаил Минков

Ами, аз го пробвах с custom user agent.
Както с “Mozilla…whatever”, така и с “Gosho”
Там е работата, че не става. Това са последните редове от robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /comics/

Или аз бъркам нещо в кода си?

Публикувано преди повече от 4 години
Димитър Петров Димитров
Това, което си мисля е, че robots.txt е просто информативен и ти би трябвало да се съобразиш с него. Той сам по себе си не налага забрани. В предния пост малко те подведох; оказва се, че човекът очевидно проверява referer-а, тоест ето това работи:
```
ci = curl_init()
curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg')
curl_setopt(ci, CURLOPT_REFERER, 'http://www.sexylosers.com/')
curl_exec(ci)
```
“User-Agent”-хедърът не се гледа изобщо, очевидно (пробвах да го сложа на “curl”, с подходящия referer си работи).
Публикувано преди повече от 4 години
Димитър Красимиров Димитров
Пробвай с wget:
```
wget -erobots=off --recursive --relative --no-parent --limit-rate=80k http://www.sexylosers.com/
```
Публикувано преди повече от 4 години
Михаил Минков

O_o

Защо по дяволите уча мултипарадигмени езици от високо ниво?

Ти си моят герой, erobots=off е новият ми девиз :)

Митко, благодаря, това обяснява защо от сайта мога да ги отварям, а иначе – не.

Публикувано преди повече от 4 години

Нов отговор

Трябва да сте вътре за да отговаряте.