Как создать набор данных для пользовательской речи Azure с помощью Spx (speechCLI)

Я использую следующую команду для создания набора данных в своей службе речи Azure:

spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Custom Speech" --description "My Acoustic Dataset Description" --project $project_id --content https://xyz.blob.core.windows.net/test-and-train-data --language "en-US"

Флаг содержимого указывает на конкретный контейнер в моей учетной записи хранения, где хранятся данные. Я попробовал это:

test-and-train-data
├── train.wav
└── trans.txt

и

test-and-train-data
└── wav_n_txt.zip

и:

test-and-train-data
└── en-US
    ├── train.wav
    └── trans.txt

и:

test-and-train-data
└── en-US
    └── wav_n_txt.zip

Потому что при запуске команды spx dataset crate я вижу "locale": "en-US".

Команда успешно создает набор данных, но при проверке его в сервисе я вижу ошибку, но никаких подробностей, и я не могу найти ни одного примера в Интернете для этого. Я прочитал все в разделе Обзор пользовательской речи. Загрузка отчета о процессе загрузки также не работает. Что я делаю не так?

Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
Как установить LAMP Stack - Security 5/5 на виртуальную машину Azure Linux VM
В предыдущей статье мы завершили установку базы данных, для тех, кто не знает.
Как установить LAMP Stack 1/2 на Azure Linux VM
Как установить LAMP Stack 1/2 на Azure Linux VM
В дополнение к нашему предыдущему сообщению о намерении Azure прекратить поддержку Azure Database для MySQL в качестве единого сервера после 16...
0
0
57
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Документация Azure по этой теме скудна и неполна. Просто оставлю здесь ссылку на то, что действительно работает. Я адаптировал это для своих нужд.

Другие вопросы по теме

Транскрипция стереомикса (выход динамика) с помощью службы речи Azure AI выполняется очень медленно с потоками?
Преобразование речи Azure в текст с многоканальным аудиопотоком — идентификация текста из каждого канала
Транскрипция звука, выходящего из динамика, и звука, входящего с микрофона, в реальном времени с помощью службы речи Azure AI
Можно ли использовать PhraseListGrammar с IntentRecouncer в Microsoft Speech SDK для Java?
Microsoft Speech SDK использует аудиофайл даже после транскрипции. Как узнать, когда он перестанет использовать файл? или как заставить его остановиться?
Невозможно использовать SDK Azure Speech golang на Macos
Обработка звука из байтового потока или файла без сохранения на диск Azure Speech SDK Python
Нейронный голос Azure: неверный идентификатор развертывания
Модуль «swagger_client» не имеет атрибута «CustomSpeechTranscriptionsApi»
Переводите на python, используя речь Azure, прямо из потока