Challenge

  1. Искам да споделя с всички най-смешния уеб комикс, който някога съм виждал.

    www.sexylosers.com

    Предупреждение:
    Майка ти най-вероятно не би го оценила.

    И, тъй като за мен единствената причина да се уча да програмирам винаги е била да мога да накарам компютъра да сърфира в интернет вместо мен, наскоро се занимах да си изтегля сайта офлайн. Отдавна се занимавам да си правя архиви на всички комикси, които чета.

    Но тук админът не е балък.

    Предлагам следното предизвикателство.
    Да се направи програма, която да тегли sexylosers.com,
    Лесно се прави да се тегли всичко освен картинките. Картинките са проблем.
    http://www.sexylosers.com/robots.txt
    Ето защо.
    Няма как да няма начин, защото firefox ги тегли. Интересно как.

    С това не искам да карам никой да върши моята работа. Струва ми се, обаче, че ако тази работа се получи, всички ще станем с една идея по-умни.

    Весело хакване :)

    Публикувано преди повече от 4 години
  2. Как ги теглиш по принцип сайтовете?

    Публикувано преди повече от 4 години
  3. Ruby: net/http
    Python: urllib
    C/C++: cURL

    Публикувано преди повече от 4 години
  4. Нямаш никакъв проблем да ги свалиш, когато си сложиш някакъв нормален User-Agent:, например “Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)”.

    Ето как може да стане с cURL (леко псевдокод):

    ci = curl_init()
    curl_setopt(ci, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)')
    curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg');
    curl_exec(ci)

    Публикувано преди повече от 4 години
  5. Ами, аз го пробвах с custom user agent.
    Както с “Mozilla…whatever”, така и с “Gosho”
    Там е работата, че не става. Това са последните редове от robots.txt

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /images/
    Disallow: /comics/

    Или аз бъркам нещо в кода си?

    Публикувано преди повече от 4 години
  6. Това, което си мисля е, че robots.txt е просто информативен и ти би трябвало да се съобразиш с него. Той сам по себе си не налага забрани. В предния пост малко те подведох; оказва се, че човекът очевидно проверява referer-а, тоест ето това работи:

    ci = curl_init()
    curl_setopt(ci, CURLOPT_URL, 'http://www.sexylosers.com/images/char-ishida.jpg')
    curl_setopt(ci, CURLOPT_REFERER, 'http://www.sexylosers.com/')
    curl_exec(ci)

    “User-Agent”-хедърът не се гледа изобщо, очевидно (пробвах да го сложа на “curl”, с подходящия referer си работи).

    Публикувано преди повече от 4 години
  7. Пробвай с wget:

    wget -erobots=off --recursive --relative --no-parent --limit-rate=80k http://www.sexylosers.com/

    Публикувано преди повече от 4 години
  8. O_o

    Защо по дяволите уча мултипарадигмени езици от високо ниво?

    Ти си моят герой, erobots=off е новият ми девиз :)

    Митко, благодаря, това обяснява защо от сайта мога да ги отварям, а иначе – не.

    Публикувано преди повече от 4 години

Нов отговор

Трябва да сте вътре за да отговаряте.