Мой парсер работал нормально из AWS ECS до недавнего времени, когда я получил следующее сообщение об ошибке:
selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 114
Current browser version is 119.0.6045.199 with binary path /usr/bin/google-chrome
Я знаю, что мне нужно обеспечить совпадение версий, но я не эксперт в написании сценариев командной строки, поэтому не знаю, как решить эту проблему.
Мой текущий файл Dockerfile:
from python:3.10.11-bullseye
# install google chrome
RUN wget -q -O - https://dl-ssl.google.com/linux/linux_signing_key.pub | apt-key add -
RUN sh -c 'echo "deb [arch=amd64] http://dl.google.com/linux/chrome/deb/ stable main" >> /etc/apt/sources.list.d/google-chrome.list'
RUN apt-get -y update --fix-missing
RUN apt-get install -y google-chrome-stable
# install chromedriver
RUN apt-get install -yqq unzip
RUN wget -O /tmp/chromedriver.zip http://chromedriver.storage.googleapis.com/`curl -sS chromedriver.storage.googleapis.com/LATEST_RELEASE`/chromedriver_linux64.zip
RUN unzip /tmp/chromedriver.zip chromedriver -d /usr/local/bin/
# install requirements
RUN mkdir /app
ADD . /app
WORKDIR /app
RUN pip install -r requirements.txt
ENTRYPOINT ["python", "app.py"]
Верхняя часть файла app.py:
# import relevant selenium packages
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
# set up headless option
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--allow-running-insecure-content')
chrome_options.add_argument('--ignore-certificate-errors')
# import support packages
from datetime import date
from datetime import datetime
import time
import re
import logging
import numpy as np
import pandas as pd
import traceback
# import AWS-related packages
import boto3
from io import StringIO
# initiate the Selenium driver
driver = webdriver.Chrome(chrome_options=chrome_options)
И файл требований.txt
# packages
selenium==4.8.2
boto3
numpy==1.23.2
pandas==1.4.3






Следуя совету @rasjani в разделе комментариев, я увеличил версию Selenium до 4.14.0 и удалил инструкции по установке chromedriver из Dockerfile. Скребок снова работает.
немного более новый селен имеет встроенный менеджер селена, который автоматически загружает правильный хромированный драйвер. Улучшить версию Selenium и избавиться от загрузки хромированного драйвера со стороны докера?