Я хотел бы выполнить ночное задание cron, которое извлекает мою страницу stackoverflow и сравнивает ее со страницей предыдущего дня, чтобы я мог видеть сводку изменений моих вопросов, ответов, ранжирования и т. д.
К сожалению, мне не удалось получить нужный набор файлов cookie и т. д. Для работы. Есть идеи?
Кроме того, после завершения бета-тестирования, будет ли моя страница статуса доступна без входа в систему?





Хорошая идея :)
Я полагаю, вы использовали wget
--load-cookies (filename)
может немного помочь, но может быть проще использовать что-то вроде Mechanize (на Perl или python), чтобы более полно имитировать браузер, чтобы получить хорошего паука.
Ваша страница статуса теперь доступна без входа в систему (нажмите выйти и попробуйте). Когда бета-куки отключены, между вами и вашей страницей статуса ничего не будет.
Для wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Я также не мог понять, как заставить работать файлы cookie, но я смог попасть на свою страницу состояния в моем браузере, когда я вышел из системы, поэтому я предполагаю, что это сработает, когда stackoverflow станет общедоступным.
Это интересная идея, но разве вы не заметите также различия в базовом html-коде? Есть ли у вас стратегия, чтобы избежать разницы в HTML, а не в фактическом содержании?
И вот что работает ...
curl -s --cookie soba=. http://stackoverflow.com/users
And here's what works...
curl -s --cookie soba=. https://stackoverflow.com/users
А для wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Если бы у меня было время, я бы сделал сценарий Красивый суп (или что-то лучше?), Чтобы аккуратно очистить данные, но пока я просто вычеркиваю нужные мне строки текста.