Как мне извлечь только текст из этого html, сохраненного в виде строки в python?

Я сделал несколько парсеров и сохранил результаты в текстовых файлах. Я забыл извлечь только текстовые данные, поэтому я сохранил html как текст внутри файлов.

Я загрузил файлы в python, и мне было интересно, мог ли я извлечь только текст.

'home | thomson reuters\n\n\n\nvar digitaldata={"page":{"attributes":{"businessunit":"thomson reuters corporate","country":"global","language":"en"},"category":{"primarycategory":"thomson reuters corporate"},"pageinfo":{"pagetitle":"home | thomson reuters","pageid":"ec5c71ae 8958 4637 956a b3c3363a1990","pageurl":"https://www.thomsonreuters.com/en.html","pagename":"en:home page:thomson reuters corporate:global:en","pagetemplate":"tr_home page_template","documentage":"355","createdate":"2017 11 08","publishdate":"2018 10 24","pagetype":"home page"}},"product":{}};\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nwindow.cq = window.cq || {}\n\n\n(function(c,h){var f={};c.pubsub=f;var k=c.define;h(f);"function"===typeof k&&k.amd?k(function(){return f}):"object"===typeof exports&&(void 0!==module&&module.exports&&(exports=module.exports=f),exports.pubsub=f,module.exports=exports=f)})("object"===typeof window&&window||this,function(c){function h(a){for(var b in a)if(a.hasownproperty(b))return!0;return!1}function f(a){return function(){throw a;}}'

Выше приведен пример данных, хранящихся в текстовых файлах, однако я хочу, чтобы данные выглядели как текст, поэтому

'home | thomson reuters'

Я мог вернуться и отредактировать код парсинга, однако мне было интересно, есть ли способ спасти эти данные.

print (str.split ("\ n") [0]) # здесь 'str' - ваш текст

Abdul Rasheed 31.10.2018 12:20

Ваша проблема должна быть устранена, прежде чем вы сохраните все данные, пока вы очищаете всю информацию.

Jhovanny Uribe 31.10.2018 23:50

Попробуй лучше выбрать свой xpath

Jhovanny Uribe 31.10.2018 23:54
0
3
80
0

Другие вопросы по теме