Как извлечь значения атрибута id элемента из HTML

Я пытаюсь справиться с накладными расходами на автоматическое именование серверных элементов управления ASP.NET. У меня есть страница, которая содержит 7000 строк HTML, отрисованных из сотен вложенных элементов управления ASP.NET, многие из которых имеют атрибуты id / name длиной в сотни символов.

В идеале я бы хотел что-то, что извлекало бы каждое значение атрибута HTML, начинающееся с «ctl00», в список. Функция поиска регулярного выражения в Notepad ++ была бы идеальной, если бы я только знал, каким должно быть регулярное выражение?

Например, если HTML-код:
<input name = "ctl00 $ Header $ Search $ Keywords" type = "text" maxlength = "50" class = "search" />

Я бы хотел, чтобы результат был примерно таким:
name = "ctl00 $ Header $ Search $ Keywords"
Более расширенный поиск также может включать имя элемента (например, тип элемента управления):
input | name = "ctl00 $ Header $ Search $ Keywords"

Чтобы справиться с атрибутами Id и Name, я просто перезапущу поиск, ища Id вместо Name (т.е. мне не нужно что-то, что будет искать оба одновременно).

Конечным результатом будет отчет Excel, в котором перечислено количество серверных элементов управления на странице и длина имени каждого из них, возможно, отсортированные по типу элемента управления.

asp.net html regex html-content-extraction

12.12.2008 16:08

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

2 229

Перейти к ответу Данный вопрос помечен как решенный

Ответы 4

Быстро и грязно:

Искать

\w+\s*=\s*"ctl00[^"]*"

Это будет соответствовать любому тексту, который выглядит как атрибут, например name = "ctl00test" или attr = "ctl00longer text". Он не будет проверять, действительно ли это происходит в теге HTML - это немного сложнее и, возможно, ненужно? Он также не будет проверять наличие экранированных кавычек в имени тега. Как обычно с регулярными выражениями, требуемая сложность зависит от того, что именно вы хотите сопоставить и как выглядит ваш ввод ...

12.12.2008 16:21

«7000»? «Сотни»? О, Боже.

Поскольку вы просто просматриваете исходный текст в текстовом редакторе, попробуйте следующее ... / (id | name) = "ct [^"] * "/

То же. ааааааааааааа и место для проверки.

— 13.12.2008 01:47

12.12.2008 16:21

Предлагаю xpath, как в этом вопрос

XPath? На HTML-странице? Поскольку он заявил, что у нее 7000 строк и сотни элементов управления, как вы думаете, каковы шансы, что страница будет совместима с XHTML? О нуле?

— 13.12.2008 01:48

вы также можете использовать xpath в html, вы можете настроить парсер, чтобы не выполнять строгую проверку документа

— 13.12.2008 11:55

12.12.2008 16:45

Ответ принят как подходящий

Отвечая на мой собственный вопрос, проще всего сделать это с помощью BeautifulSoup, парсера Python для «грязного HTML», слоганом которого является:

«Вы не писали эту ужасную страницу. Вы просто пытаетесь извлечь из нее какие-то данные. Прямо сейчас вам все равно, как должен выглядеть HTML. И этот синтаксический анализатор тоже».

Это работает, и это доступно отсюда - http://crummy.com/software/BeautifulSoup

16.09.2010 01:45