Æ, Ø и Å в Ruby - Почему («A» .. «Å»). To_a возвращает двойной алфавит?

Я играл в IRB и обнаружил, что:

("A".."Z").to_a (конечно) возвращает:

=> ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z"]

Но ("A".."Å").to_a возвращает:

=> ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", 
"P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "AA", "AB", "AC", "AD", 
"AE", "AF", "AG", "AH", "AI", "AJ", "AK", "AL", "AM", "AN", "AO", "AP", "AQ", 
"AR", "AS", "AT", "AU", "AV", "AW", "AX", "AY", "AZ", "BA", "BB", "BC", "BD", 
"BE", "BF", "BG", "BH", "BI", "BJ", "BK", "BL", "BM", "BN", "BO", "BP", "BQ", 
"BR", "BS", "BT", "BU", "BV", "BW", "BX", "BY", "BZ", "CA", "CB", "CC", "CD", 
...
"ZR", "ZS", "ZT", "ZU", "ZV", "ZW", "ZX", "ZY", "ZZ"]

Я пробовал читать о методе to_a, но не нашел ничего, объясняющего такое поведение.

Почему это происходит?

Пошаговое руководство по созданию собственного Slackbot: От установки до развертывания
Пошаговое руководство по созданию собственного Slackbot: От установки до развертывания
Шаг 1: Создание приложения Slack Чтобы создать Slackbot, вам необходимо создать приложение Slack. Войдите в свою учетную запись Slack и перейдите на...
2
0
104
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

("A".."Å") работает аналогично "A".upto("Å"). Теперь о String#upto можно сказать две вещи:

  • Он использует String#succ для получения следующего значения.
  • Согласно спецификации Ruby он прекращает итерацию, если размер текущей строки становится больше, чем размер последней строки. Вероятно, это сделано, чтобы избежать бесконечных диапазонов.

"Å" кодируется двумя байтами:

"Å".bytes # => [195, 133]

В то время как "А" закодирован всего в одном:

"A".bytes # => [65]

Приступим к итерации:

"A".sucC# => "B"
"B".sucC# => "C"
# ...
"Y".sucC# => "Z"
"Z".sucC# => "AA"

"AA".sucC# => "AB"
# ...
"ZY".sucC# => "ZZ"
"ZZ".sucC# => "AAA"

Теперь «ААА» все еще «меньше», чем "Å":

"AAA" < "Å" # => true

Но он имеет размер 3 байта:

"AAA".bytes # => [65, 65, 65]

Следовательно, согласно спецификация, диапазон здесь останавливается.

Исправьте формулировку в «("A".."Å") - это сокращение от "A".upto("Å")» - первое - это диапазон, второе - это вызов метода, возвращающего экземпляр перечислителя. У них нет ничего общего, за исключением вызова #to_a для обоих результатов с одним и тем же результатом.

Aleksei Matiushkin 02.05.2018 14:11

@mudasobwa, вы правы. Я почему-то неправильно это запомнил. Создавал ли он диапазоны в предыдущих версиях?

ndnenkov 02.05.2018 14:23

Полагаю, что так. Крякает как ассортимент :)

Aleksei Matiushkin 02.05.2018 14:27

Уау! Спасибо @ndn. Теперь я понимаю!

Peter Højlund Andersen 02.05.2018 15:13

В спецификации указано "количество символов", а не количество байтов.

Stefan 02.05.2018 15:31

@ Стефан, верно. Но разумно предположить, что именно это и происходит под капотом. Иначе остановился бы на AA.

ndnenkov 02.05.2018 16:05

Другие вопросы по теме