Как запустить Scrapy spider из AWS Lambda?

Я пытаюсь запустить scrapy spider из AWS Lambda. Вот как выглядит мой текущий скрипт, который очищает тестовые данные.

import boto3
import scrapy
from scrapy.crawler import CrawlerProcess

s3 = boto3.client('s3')
BUCKET = 'sample-bucket'

class BookSpider(scrapy.Spider):
    name = 'bookspider'
    start_urls = [
        'http://books.toscrape.com/'
    ]

    def parse(self, response):
        for link in response.xpath('//article[@class = "product_pod"]/div/a/@href').extract():
            yield response.follow(link, callback=self.parse_detail)
        next_page = response.xpath('//li[@class = "next"]/a/@href').extract_first()
        if next_page:
            yield response.follow(next_page, callback=self.parse)

    def parse_detail(self, response):
        title = response.xpath('//div[contains(@class, "product_main")]/h1/text()').extract_first()
        price = response.xpath('//div[contains(@class, "product_main")]/'
                               'p[@class = "price_color"]/text()').extract_first()
        availability = response.xpath('//div[contains(@class, "product_main")]/'
                                      'p[contains(@class, "availability")]/text()').extract()
        availability = ''.join(availability).strip()
        upc = response.xpath('//th[contains(text(), "UPC")]/'
                             'following-sibling::td/text()').extract_first()
        yield {
            'title': title,
            'price': price,
            'availability': availability,
            'upc': upc
        }

def main(event, context):
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'FEED_FORMAT': 'json',
        'FEED_URI': 'result.json'
    })

    process.crawl(BookSpider)
    process.start() # the script will block here until the crawling is finished

    data = open('result.json', 'rb')
    s3.put_object(Bucket = BUCKET, Key='result.json', Body=data)
    print('All done.')

if __name__ == "__main__":
    main('', '')

Сначала я локально протестировал этот сценарий, и он работал в обычном режиме, очищая данные и сохраняя их в «results.json», а затем загружая их в свою корзину S3.

Затем я настроил свою функцию AWS Lambda, следуя руководству здесь: https://serverless.com/blog/serverless-python-packaging/, и она успешно импортирует библиотеку Scrapy в AWS Lambda для выполнения.

Однако, когда скрипт запускается на AWS Lambda, он не очищает данные и просто выдает ошибку для results.json не существует.

Будем очень признательны всем, кто настроил запуск Scrapy или имеет обходной путь или может указать мне правильное направление.

Спасибо.

python-3.x amazon-web-services scrapy aws-lambda

15.07.2018 16:33

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

7 504

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Просто наткнулся на это, когда искал что-то еще, но не в моей голове ...

Лямбды предоставляют временное хранилище в / tmp, поэтому я бы предложил установить

'FEED_URI': '/tmp/result.json'

А потом

data = open('/tmp/result.json', 'rb')

Вероятно, существуют всевозможные передовые методы использования временного хранилища в лямбдах, поэтому я предлагаю потратить немного времени на их изучение.

16.07.2018 13:26

Другие вопросы по теме

Распространение взаимосвязей восходящего и нисходящего потоков вручную в AWS X-Ray

AWS AppSync Превышено максимальное количество конечных точек на количество пользователей 10

Ошибка 1001: ошибка разрешения DNS для моего веб-сайта после удаления домена из Cloudflare

AWS Polly с сохранением PHP .mp3

Ошибка подключения к Aurora во время обновления Entity Framework Core DB

Dynamo DB не может сохранить данные

Как проверить, правильно ли гремлин подключен к экземпляру aws neptune

Могу ли я получить первые X байтов из AWS S3 с помощью Go SDK 2

Если я планирую запустить скрипт python, который использует pyautogui, может ли он работать с несколькими компьютерами одновременно или только с одним?

Вызов функции AWS Lambda при выполнении нескольких функций Lambda

Как запустить Scrapy spider из AWS Lambda?

Ответы 1

Другие вопросы по теме

Похожие вопросы