Разбор арабского текста в локальном html файле

Я пытаюсь извлечь некоторые данные из локального файла html с помощью python с BeautifulSoup, в файле есть некоторые текстовые данные на арабском языке, такие как заголовки. Моя проблема в том, что когда я пытаюсь распечатать этот арабский текст, я получаю странную строку. Пример кода с его выводом предоставляется вместе с разделом заголовка файла Разбор арабского текста в локальном html файле, кто-нибудь может мне помочь? Разбор арабского текста в локальном html файле

Не могли бы вы предоставить HTML-файл, который пытаетесь проанализировать? Это может иметь какое-то отношение к кодировке, которую вы установили в разделе <head>.

whirish 23.06.2018 20:03

@ Mulletfingers999 Я отредактировал вопрос и добавил скриншот для раздела заголовка.

Mohamed Mahdi 23.06.2018 20:48

Я надеялся, что он будет в текстовом формате, чтобы я мог скопировать арабский текст, который вы используете. Кажется, я не могу воспроизвести эту ошибку с каким-то общим арабским текстом, который я нашел в Интернете.

whirish 23.06.2018 21:30

دليل الصناعات المصرية - الموقع الرسمى / يبجشن أندسترى - الدليل الصناعي الأول في مصر

Mohamed Mahdi 23.06.2018 22:56
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...
Введение в CSS
Введение в CSS
CSS является неотъемлемой частью трех основных составляющих front-end веб-разработки.
Как выровнять Div по центру?
Как выровнять Div по центру?
Чтобы выровнять элемент <div>по горизонтали и вертикали с помощью CSS, можно использовать комбинацию свойств и значений CSS. Вот несколько методов,...
Навигация по приложениям React: Исчерпывающее руководство по React Router
Навигация по приложениям React: Исчерпывающее руководство по React Router
React Router стала незаменимой библиотекой для создания одностраничных приложений с навигацией в React. В этой статье блога мы подробно рассмотрим...
Система управления парковками с использованием HTML, CSS и JavaScript
Система управления парковками с использованием HTML, CSS и JavaScript
Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...
Toor - Ангулярный шаблон для бронирования путешествий
Toor - Ангулярный шаблон для бронирования путешествий
Toor - Travel Booking Angular Template один из лучших Travel & Tour booking template in the world. 30+ валидированных HTML5 страниц, которые помогут...
0
4
356
1

Ответы 1

Откройте файл в кодировке utf-8

open("body.htm", encoding = "utf-8")

или настройте файл, чтобы использовать utf-8

#!/usr/bin/env python
# -*- coding: utf-8 -*-

Другие вопросы по теме