Я работаю над этим набором данных.
Мой вопрос заключается в том, как сгруппировать этот набор данных на основе одной и той же метки времени и объединить эти строки в одну с уникальными токенами, поэтому, например, я мог бы:
Я понятия не имею, какой метод я должен использовать для решения этой проблемы. Кто-нибудь знает, как это решить?
Может ли это помочь вам?
import pandas as pd
from collections import OrderedDict
df['event'] = df['event'].str.replace('amp;', '')
df = df.groupby('date')['event'].apply(lambda x: ' '.join(x)).reset_index()
df['event'] = df['event'].str.split().apply(lambda x: OrderedDict.fromkeys(x).keys()).str.join(' ')