Получить несколько слов после определенного слова HTML с помощью сценариев linux / unix

у меня есть файл movie.html:

<html>
<head><title>Index of /Data/Movies/Hollywood/2016_2017/</title></head>
<body bgcolor = "white">
<h1>Index of /Data/Movies/Hollywood/2016_2017/</h1><hr><pre><a href = "../">../</a>
<a href = "1%20Buck%20%282017%29/">1 Buck (2017)/</a>                                     25-Nov-2019 10:25       -
<a href = "1%20Mile%20to%20You%20%282017%29/">1 Mile to You (2017)/</a>                              25-Nov-2019 10:26       -
<a href = "1%20Night%20%282016%29/">1 Night (2016)/</a>                                    25-Nov-2019 10:27       -
</pre><hr></body>
</html>

Я хочу получить несколько слов с разделителями:

title | link
1 Buck (2017) | 1%20Buck%20%282017%29/
1 Mile to You (2017) | 1%20Mile%20to%20You%20%282017%29/
1 Night (2016) | 1%20Night%20%282016%29/

Я пробовал этот код:

awk -F'[><]' 'BEGIN{ print "title","link" } /%29/ {print $3,$2}' movie.html > output.txt

но результат не такой, как я ожидал, пожалуйста, помогите мне, я все еще новичок

linux bash shell awk sed

09.04.2021 03:45

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Ответ принят как подходящий

Анализировать html с помощью регулярного выражения не рекомендуется по нескольким причинам (см. https://stackoverflow.com/a/1732454/12957340), но вот одно из возможных решений:

awk -F'[<>/"]' 'BEGIN{ print "title | link" }; /\(.*\)/ {print $6 " | " $3}' movie.html

09.04.2021 04:23

С вашими показанными образцами, не могли бы вы попробовать следующее. Я предпочитаю это с функцией match.

awk '
BEGIN{
  OFS = " | "
  print "title | link"
}
match($0,/^<a href = "[^"]*/){
  val=substr($0,RSTART+9,RLENGTH-9)
  match($0,/>.*</a>/)
  print substr($0,RSTART+1,RLENGTH-6),val
}' Input_file

Объяснение: Добавление подробного объяснения вышеизложенного.

awk '                                      ##Starting awk program from here.
BEGIN{                                     ##Starting BEGIN section of this program from here.
  OFS = " | "                                ##Setting OFS as space | space here.
  print "title | link"                     ##Printing title space | space link here.
}
match($0,/^<a href = "[^"]*/){               ##Using match to match regex from starting of line <a href = " till " comes.
  val=substr($0,RSTART+9,RLENGTH-9)        ##Creating val which has sub string of matched above text, making it as per OP needs here.
  match($0,/>.*</a>/)                     ##Using match to match from > till </a> here.
  print substr($0,RSTART+1,RLENGTH-6),val  ##Printing current matched sub string(by above match function) and val value here.
}
' Input_file                               ##Mentioning Input_file name here.

09.04.2021 06:27

Другой способ, я думаю, вы могли бы получить обработанные строки с помощью grep, а затем использовать формат awk для вывода содержимого.

grep -oP 'href = "([^".]*)">([^</.]*)' movie.html | awk -F'[">]' 'BEGIN{print "title | link"}{print $4" | "$2}'

grep получит следующие строки:

href = "1%20Buck%20%282017%29/">1 Buck (2017)
href = "1%20Mile%20to%20You%20%282017%29/">1 Mile to You (2017)
href = "1%20Night%20%282016%29/">1 Night (2016)

09.04.2021 07:03

Добавление в код функций sub() и gsub():

awk -F'[><]' 'BEGIN{ print "title","|", "link" } /%29/ {sub(///, " |", $3);gsub(/^a href = "|"$/, "", $2);print $3,$2}' file
title | link
1 Buck (2017) | 1%20Buck%20%282017%29/
1 Mile to You (2017) | 1%20Mile%20to%20You%20%282017%29/
1 Night (2016) | 1%20Night%20%282016%29/

С file > output:

awk -F'[><]' 'BEGIN{ print "title","|", "link" } /%29/ {sub(///, " |", $3);gsub(/^a href = "|"$/, "", $2);print $3,$2}' file > output.txt

09.04.2021 08:07

Если ed доступен / приемлем, и вы понимаете риск использования парсера, отличного от html, для анализа файлов hmtl.

script.ed

0a
title | link
.
p
g/^<a href=.\{1,\}/s/^.\{1,\} = "//\
s//[[:blank:]]*</a>.*$//\
s/">/ /\
s/^\([^ ]\{1,\}\) \(.\{1,\}\)/\2 | \1/p
Q

потом

ed -s file.html < script.ed

09.04.2021 16:11

Другие вопросы по теме

Скрипт для фильтрации пользователей

Как заменить каждое слово другим словом из файла с помощью awk (слова задаются как параметры командной строки в awk)

Строка Cancatinate для команды -exec в find

Есть ли способ использовать ввод команды в другой команде в Bash?

Как создать изображение с числом в нем?

Встроенные тестовые отчеты Bash о том, что читаемые файлы не читаются

Как заменить строку переменной с помощью sed

Оболочка Bash Windows 10: 'Нет такого файла или каталога'

Добавляйте операторы DROP USER перед каждым CREATE USER

Создайте сценарий bash для генерации 101 SVG

Получить несколько слов после определенного слова HTML с помощью сценариев linux / unix

Ответы 5

Другие вопросы по теме

Похожие вопросы