Загрузка аудио, загруженного с помощью JavaScript, с использованием Selenium и Python

Я пытаюсь написать скрипт для автоматизации загрузки текстовых и аудиофайлов с веб-сайта, используя Python и Selenium.

Сайт: https://learn.dict.naver.com/conversation#/korean-en/20190713 (ггггммдд)

import requests
from time import sleep
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

url = 'https://learn.dict.naver.com/conversation#/korean-en/20190713'

options = Options()
options.headless = True

driver = webdriver.Firefox(options=options, executable_path = 'geckodriver')
driver.get(url)
sleep(3)
driver.find_element_by_class_name('btn_listen').click() #for the first one

Звук воспроизводится/загружается по клику, но я не знаю, как «захватить» файл по мере его загрузки и загрузки.

Например, первая кнопка воспроизведения загружает этот URL: https://dict-dn.pstatic.net/v?_lsu_sa_=3348a15dcd343766a69b01513e9444f36d1462055f0edfbd60a21c73bbe96741685d375f6b45b579a9df6f95d82950485fa22dddfc987cc04ba7a344d3daaff10b8f5ed218b169623e2b926412981ebffcd2ee2a025bbfea806ec1ee58c519fab30368be2e72c258347eb029646cd69ca0c931d102f1fcdef76df1a85dc49c52df2a6431603057d8f62c0c613ec86b1c

Копируя это в браузер, загружается аудиофайл, который можно загрузить вручную. Я хочу загрузить его автоматически (бонусные баллы за возможность динамического переименования).

Я уже пробовал несколько options.set_preference(), но они, похоже, в первую очередь относятся к файлу, предназначенному для загрузки (например, к кнопке «Нажмите здесь, чтобы загрузить»), а не просто к воспроизведению.

Спасибо!

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...
Безумие обратных вызовов в javascript [JS]
Безумие обратных вызовов в javascript [JS]
Здравствуйте! Юный падаван 🚀. Присоединяйся ко мне, чтобы разобраться в одной из самых запутанных концепций, когда вы начинаете изучать мир...
Система управления парковками с использованием HTML, CSS и JavaScript
Система управления парковками с использованием HTML, CSS и JavaScript
Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...
JavaScript Вопросы с множественным выбором и ответы
JavaScript Вопросы с множественным выбором и ответы
Если вы ищете платформу, которая предоставляет вам бесплатный тест JavaScript MCQ (Multiple Choice Questions With Answers) для оценки ваших знаний,...
1
0
1 359
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать для загрузки mp3-файлов и получения другой полезной информации о предложениях в текстовом формате на странице.
Ниже приведен пример кода для https://learn.dict.naver.com/conversation#/korean-en/20190713. Используйте json в переменной data, чтобы увидеть информацию, которую вы можете использовать.

import requests
import json

callback = 'angular.callbacks._0'

headers = {
    'Referer': 'https://learn.dict.naver.com/conversation',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/75.0.3770.100 Safari/537.36',
    'DNT': '1',
}
params = (
    ('callback', callback),
)

with requests.Session() as session:
    response = session.get('https://gateway.dict.naver.com/krdict/kr/koen/today/20190713/conversation.dict',
                           headers=headers, params=params)

    data = json.loads(response.text.lstrip(f"{callback}(").rstrip(")"))["data"]
    sentences = data["sentences"]

    for sentence in sentences:
        audio_id = sentence["id"]
        sentence_pron_file = sentence["sentence_pron_file"]

        response = requests.post(f'https://learn.dict.naver.com/dictPronunciation.dict?filePaths = {sentence_pron_file}')
        audio_url = response.json()["url"][0]
        audio_file = session.get(audio_url)

        with open(f'./{audio_id}.mp3', 'wb') as f:
            f.write(audio_file.content)

Это идеально. Большое спасибо. Теперь я должен попытаться понять все это, ха-ха! Как ты вообще узнал о разговоре.дикт? Так все намного проще!

jamesdeluk 13.07.2019 12:36

Другие вопросы по теме