Как определяется частота повторения слов?
Это количество раз, когда два слова встречаются вместе / общее количество документов в корпусе?
ИЛИ
количество раз, когда два слова встречаются вместе / (количество раз появления первого слова + количество раз появления второго слова)?

«Модель GloVe обучается на ненулевых элементах глобальной матрицы совпадения слов, которая показывает, как часто слова встречаются друг с другом в данном корпусе». - от https://nlp.stanford.edu/projects/glove/ (издатели GloVe). Я предполагаю, что вы имеете в виду совместное появление, используемое моделями GloVe. Математически: https://towardsdatascience.com/emnlp-what-is-glove-part-ii-9e5ad227ee0 У вас есть P(i|j) = Xij/Xi w/ Xij = количество совпадений, а Xi = количество раз, когда любое слово появляется в контексте слова i. Обратите внимание, Xi = Sum_k Xik, где k — каждое слово.
в зависимости от ваших потребностей вы можете рассчитать его по-разному, я рассчитывал его как
number of times two words appear together / number of first word appears