Извлечение данных веб-журнала с использованием регулярных выражений

Ниже приведен пример журнала, и я пытаюсь создать отдельный столбец для каждого типа данных:

unicomp6.unicomp.net - - [01/Jul/1995:00:00:14 -0400] "GET /shuttle/countdown/count.gif HTTP/1.0" 200 40310

хост - дата - URL - статус - байт

Я могу получить следующее:

  1. хозяин = """^([^(\s|,)]+)"""
  2. отметка времени = """\[(\d\d/\w{3}/\d{4}:\d{2}:\d{2}:\d{2}\s-\d{4})]"""
  3. URL = """^.*\w+\s+([^\s]+)\s+HTTP.*"""

но я не могу извлечь статус HTTP (200) и байт (40310), и я пробовал много регулярных выражений. например, я пробовал следить за статусом: """[0-9][0-9][0-9]""" и """/d/d/d"" и многие другие.

Редактировать: (Ответ) Статус = """\d+(?=\s\d+$)""" байт = \s+(\d+)$

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
0
137
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Вы можете использовать это регулярное выражение с 4 именованными группами захвата:

^(?<host>\S+)[^[]+\[(?<ts>\d{2}/\w{3}/\d{4}(?::\d{2}){3})[^]]*\][^"]*"[A-Z]{3,} (?<url>\S+)[^"]*"\s+(?<status>\d+)

Демонстрация регулярных выражений

Детали регулярного выражения:

  • ^: Старт
  • (?<host>\S+): группа host, которая захватывает 1+ непробельных символов.
  • [^[]+\[: Сопоставьте 1+ не [ символов, за которыми следует [
  • (?<ts>\d{2}/\w{3}/\d{4}(?::\d{2}){3}): группа ts, соответствующая подстроке даты и времени.
  • [^]]*\]: Сопоставьте 0+ символов, отличных от ], за которыми следует ]
  • [^"]*": Сопоставьте 0+ символов, отличных от ", за которыми следует "
  • [A-Z]{3,} : Соответствует http-глаголу, например. GET, PUT, POST, DELETE и т. д.
  • (?<url>\S+): url группа, соответствующая 1+ непробельным символам
  • [^"]*": Сопоставьте 0+ символов, отличных от ", за которыми следует "
  • \s+: Сопоставьте 1+ пробельных символов.
  • (?<status>\d+): status группа, соответствующая 1+ цифрам

эй, я думаю, что открытых квадратных скобок больше, чем закрытых, можете еще раз проверить?

mitochoondria 14.12.2020 07:58

пожалуйста, проверьте сейчас в ответе, как в демо

anubhava 14.12.2020 07:59
Ответ принят как подходящий

Используйте просмотр вперед, он отлично работает, чтобы поймать статус 200:

\d+(?=\s\d+$)

введите здесь описание изображения

эй, это работает как шарм, не могли бы вы помочь мне с размером байта?

mitochoondria 14.12.2020 08:01

Но это будет фиксировать только значение статуса, а как насчет других значений, таких как host, отметка времени , url` и т. д.

anubhava 14.12.2020 08:53

Я думаю, что митохондрия уже знает, как извлечь хост, отметку времени и URL-адрес, указанные в его вопросе.

Thuong Nguyen 14.12.2020 09:38

для извлечения размера байта используйте это регулярное выражение: \d+$

Thuong Nguyen 14.12.2020 09:46

Другие вопросы по теме