Как Алекса запрограммирована петь?

Если вы скажете «Алекса, спой для меня», она выберет одну из нескольких песен, созданных ее голосом. Голос(а) для каждой из этих песен должен быть каким-то образом создан.

Сначала я думал, что SSML предоставит необходимые для этого инструменты, особенно тег <prosody>, у которого есть параметры для pitch и rate (продолжительность).

Я подумал, что, возможно, произношение каждого слога пения можно было бы указать с помощью <phoneme>, а его высоту и продолжительность указать с помощью <prosody>, с тегами <break> между ними:

<speak>
  <prosody rate = "20%">
    <phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
    <break strength = "none" />
  </prosody>
  <prosody rate = "20%" pitch = "+50%">
    <phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
    <break strength = "none" />
  </prosody>
  <prosody rate = "20%">
    <phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
  </prosody>
</speak> 

Однако при исполнении Алекса применяет встроенную интонацию (чтобы звучать как настоящий человек), поэтому тон не плоский. Например, каждый из этих звуков «ох» (выше) имеет падающий тон. (У них также есть заметный разрыв между фонемами, даже если явно указано «без разрыва».)

Итак, как же был запрограммирован голос Alexa, который слышен во всех этих песнях? Было ли это с помощью инструментов, которые в настоящее время доступны только разработчикам Amazon?

Меня также смущает, что я, по-видимому, единственный человек в Интернете, который даже задает этот вопрос (на основе нулевых результатов в stackoverflow, google и т. д.), особенно в конце игры. Разве не существует множество музыкантов, которые хотели бы заставить Алексу петь все, что они хотят?

Редактировать: Ребята, я думал, что это общеизвестно, но за Alexa нет человека, озвучивающего. Ее голос полностью сгенерирован компьютером.

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
0
470
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Мой прогноз был бы либо чем-то действительно причудливым, например, обработка естественного языка, либо что-то в этом роде, AI / ML, или они просто заставляли актера озвучивать что-то или петь определенные тона и просто соединять их вместе, у меня нет Alexa, но я у вас есть HomePod mini и iPhone, и то, как он произносит имена наших местных певцов, такие как «сидху мусевала» или «амрит маан» (не по теме, но все же по теме), я думаю, что они просто вырезали и соединяли слова в «чистом» и « «текучий» путь.

Ответ принят как подходящий

Голос Алексы полностью сгенерирован компьютером, как и песни. Продолжаются исследования по созданию модели поющего синтезатора (№1 и №2).

Вот видео от Popgun Labs о том, как они заставляют свой ИИ петь. Хотя я не могу найти, как Amazon и Google делают это, я думаю, что это будет что-то похожее.

Обновлено: мой предыдущий ответ был основан на странице расширения и сделал неверные выводы.

Но учитывая, что голос Алексы сгенерирован компьютером / не исходит от какого-либо конкретного человека, как эти песни могут быть «записаны»?

jdunk 01.01.2021 21:00

@jdunk Да, он полностью компьютеризирован, однако исследования недостаточно продвинулись, чтобы Алекса могла петь песни, поэтому они предварительно записаны. Это похоже на то, как вы можете доплатить, чтобы получить голос знаменитости на своей Alexa.

Amit Singh 01.01.2021 21:19

Было бы невозможно заставить человека записывать все известные слова и их комбинации.

Amit Singh 01.01.2021 21:22

Эти голоса знаменитостей 1) от настоящих людей и 2) не поют, верно? Вы хотите сказать, что нанимают настоящего человека, записывают пение, а затем запись этого настоящего человеческого голоса каким-то образом изменяется, чтобы звучать как голос Алексы?

jdunk 01.01.2021 21:29

Мое первое утверждение, вероятно, неверно направлено, поскольку оно исходит от страницы, управляемой расширением, предоставленным третьей стороной. Позвольте мне попытаться найти больше об этом, а затем ответить на это.

Amit Singh 01.01.2021 21:55

@jdunk Обновлен ответ, чтобы отразить мои последние исследования.

Amit Singh 01.01.2021 22:15

Возможно, ее голос просто автонастроен.

Конечно, инструменты изменения высоты тона могут вызвать любую желаемую высоту звука из любого источника звука, и я предполагаю, что такие инструменты также могут вызывать изменения длительности.

Другие вопросы по теме