Полярные: насколько стоит использовать Enum вместо категориального?

Я всегда могу преобразовать столбец, который я изначально сделал категориальным, в столбец, который является перечислением, как только DataFrame будет «завершен».

Но: стоит ли оно того? Есть ли какие-либо преимущества с точки зрения производительности или использования памяти (, вероятно, нет )?

python-polars

08.07.2024 22:39

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Enum типы данных не требуют синхронизации. Таким образом, вам не нужны StringCache, и их гораздо проще рассуждать с помощью оптимизатора Polars.

Это потому, что тип известен заранее. Он не зависит от данных и не меняется ни на каком этапе запроса.

Я бы рекомендовал использовать Enum, если у вас есть известный фиксированный набор категорий. Это обеспечивает больший параллелизм и потоковую передачу рабочих нагрузок.

Я предполагаю, что при приведении из категориального в Enum копии нет. Это правильно?

— 09.07.2024 18:24

Я встречаю множество вырезок из бумаги с помощью Enum. Например: сравнение двух значений перечисления иногда завершается неудачей с загадочными ошибками, такими как: «не удалось определить супертип перечисления и u32». об ошибке: github.com/pola-rs/polars/issues/17479#issuecomment-22133955‌78 С этого момента я постараюсь более дисциплинированно отправлять отчеты об ошибках/ошибках, учитывая преимущества Enum, но это требует серьезных усилий, когда реальная задача, над которой вы работаете, будет в порядке с простым изменением категории...

— 10.07.2024 18:38

Верно. Спасибо за отчеты об ошибках. Перечисление определенно намного новее, чем Категориальное, и поэтому менее отлажено.

— 11.07.2024 10:04

09.07.2024 09:57