Я использую следующую команду для создания набора данных в своей службе речи Azure:
spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Custom Speech" --description "My Acoustic Dataset Description" --project $project_id --content https://xyz.blob.core.windows.net/test-and-train-data --language "en-US"
Флаг содержимого указывает на конкретный контейнер в моей учетной записи хранения, где хранятся данные. Я попробовал это:
test-and-train-data
├── train.wav
└── trans.txt
и
test-and-train-data
└── wav_n_txt.zip
и:
test-and-train-data
└── en-US
├── train.wav
└── trans.txt
и:
test-and-train-data
└── en-US
└── wav_n_txt.zip
Потому что при запуске команды spx dataset crate
я вижу "locale": "en-US"
.
Команда успешно создает набор данных, но при проверке его в сервисе я вижу ошибку, но никаких подробностей, и я не могу найти ни одного примера в Интернете для этого. Я прочитал все в разделе Обзор пользовательской речи. Загрузка отчета о процессе загрузки также не работает. Что я делаю не так?
Документация Azure по этой теме скудна и неполна. Просто оставлю здесь ссылку на то, что действительно работает. Я адаптировал это для своих нужд.