PySpark - добавление столбца для подсчета (*)

У меня есть сценарий ниже (я удалил все имена столбцов и т. д., Чтобы было легче увидеть, что я делаю на высоком уровне - это было очень беспорядочно !!)

Мне нужно добавить столбец, эквивалентный count (*) в SQL.

Итак, если я сгруппировал использование пользователей по доменам, я мог бы увидеть следующее: где счетчик - это количество записей, которые соответствуют всем предыдущим условиям столбца.

domain.co.uk/ Пользователь из Великобритании 32433 domain.co.uk/home Пользователь из ЕС 43464 так далее...

Я уверен, что раньше об этом спрашивали где-то в Stackoverflow, но я внимательно осмотрелся и не нашел на него никакой ссылки!

vpx_cont_filter = vpx_data\
        .coalesce(1000)\
        .join(....)\
        .select(....)\
        .groupBy(....)\
        .agg(
           ....
            )\
        .select(....)

apache-spark pyspark apache-spark-sql

24.09.2018 15:09

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

1 190

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы имеете в виду, что в своем агрегации вы хотите добавить столбец, в котором будут учитываться все вхождения для каждой groupBy?

Вы можете добавить это тогда:

.agg(
  F.count(F.lit(1)).alias("total_count"),
  ...
)

Кстати, я не думаю, что вас заставляют использовать Ф. лит (1). В исходном коде Spark будет регистр совпадения, если вы укажете звездочку вместо Ф. лит (1)

// Turn count(*) into count(1)
  case s: Star => Count(Literal(1))
  case _ => Count(e.expr)

Так что F.count ("*") тоже будет работать, я думаю

PS: Я использую Ф., потому что я предполагал, что вы импортировали пакет функций, подобный этому

from pyspark.sql import functions as F

24.09.2018 15:20

Другие вопросы по теме

Как правильно использовать модули в rdd.map с pyspark

PySpark: список имен столбцов на основе символов в значениях

Pyspark преобразовать массив строк в Map ()

Pyspark: почему show () или count () объединенного фрейма данных Spark работает так медленно?

Выберите определенные столбцы после объединения 2 фреймов данных в искре

Выберите ассортимент в Pyspark

Как сохранить фрейм данных в MySQL с помощью PySpark

PySpark - каталог, напечатанный как столбец в DF

Преобразование набора данных транзакции для правил связывания spark scala

Как разделить столбец фрейма данных, содержащий строки

PySpark - добавление столбца для подсчета (*)

Ответы 1

Другие вопросы по теме

Похожие вопросы