Если вы скажете «Алекса, спой для меня», она выберет одну из нескольких песен, созданных ее голосом. Голос(а) для каждой из этих песен должен быть каким-то образом создан.
Сначала я думал, что SSML предоставит необходимые для этого инструменты, особенно тег <prosody>, у которого есть параметры для pitch
и rate
(продолжительность).
Я подумал, что, возможно, произношение каждого слога пения можно было бы указать с помощью <phoneme>
, а его высоту и продолжительность указать с помощью <prosody>
, с тегами <break>
между ними:
<speak>
<prosody rate = "20%">
<phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
<break strength = "none" />
</prosody>
<prosody rate = "20%" pitch = "+50%">
<phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
<break strength = "none" />
</prosody>
<prosody rate = "20%">
<phoneme alphabet = "x-sampa" ph = "U">oo</phoneme>
</prosody>
</speak>
Однако при исполнении Алекса применяет встроенную интонацию (чтобы звучать как настоящий человек), поэтому тон не плоский. Например, каждый из этих звуков «ох» (выше) имеет падающий тон. (У них также есть заметный разрыв между фонемами, даже если явно указано «без разрыва».)
Итак, как же был запрограммирован голос Alexa, который слышен во всех этих песнях? Было ли это с помощью инструментов, которые в настоящее время доступны только разработчикам Amazon?
Меня также смущает, что я, по-видимому, единственный человек в Интернете, который даже задает этот вопрос (на основе нулевых результатов в stackoverflow, google и т. д.), особенно в конце игры. Разве не существует множество музыкантов, которые хотели бы заставить Алексу петь все, что они хотят?
Редактировать: Ребята, я думал, что это общеизвестно, но за Alexa нет человека, озвучивающего. Ее голос полностью сгенерирован компьютером.
Мой прогноз был бы либо чем-то действительно причудливым, например, обработка естественного языка, либо что-то в этом роде, AI / ML, или они просто заставляли актера озвучивать что-то или петь определенные тона и просто соединять их вместе, у меня нет Alexa, но я у вас есть HomePod mini и iPhone, и то, как он произносит имена наших местных певцов, такие как «сидху мусевала» или «амрит маан» (не по теме, но все же по теме), я думаю, что они просто вырезали и соединяли слова в «чистом» и « «текучий» путь.
Голос Алексы полностью сгенерирован компьютером, как и песни. Продолжаются исследования по созданию модели поющего синтезатора (№1 и №2).
Вот видео от Popgun Labs о том, как они заставляют свой ИИ петь. Хотя я не могу найти, как Amazon и Google делают это, я думаю, что это будет что-то похожее.
Обновлено: мой предыдущий ответ был основан на странице расширения и сделал неверные выводы.
@jdunk Да, он полностью компьютеризирован, однако исследования недостаточно продвинулись, чтобы Алекса могла петь песни, поэтому они предварительно записаны. Это похоже на то, как вы можете доплатить, чтобы получить голос знаменитости на своей Alexa.
Было бы невозможно заставить человека записывать все известные слова и их комбинации.
Эти голоса знаменитостей 1) от настоящих людей и 2) не поют, верно? Вы хотите сказать, что нанимают настоящего человека, записывают пение, а затем запись этого настоящего человеческого голоса каким-то образом изменяется, чтобы звучать как голос Алексы?
Мое первое утверждение, вероятно, неверно направлено, поскольку оно исходит от страницы, управляемой расширением, предоставленным третьей стороной. Позвольте мне попытаться найти больше об этом, а затем ответить на это.
@jdunk Обновлен ответ, чтобы отразить мои последние исследования.
Возможно, ее голос просто автонастроен.
Конечно, инструменты изменения высоты тона могут вызвать любую желаемую высоту звука из любого источника звука, и я предполагаю, что такие инструменты также могут вызывать изменения длительности.
Но учитывая, что голос Алексы сгенерирован компьютером / не исходит от какого-либо конкретного человека, как эти песни могут быть «записаны»?