Преобразование речи Google в текст возвращает пустую транскрипцию, используя аудио, созданное MediaRecorder API, и реагирует

Я работаю над функцией транскрипции речи в текст, и я использую Google Voice для текстового API с помощью nextjs/react. Я записываю звук с помощью MediaRecorder API браузера. Звук, записанный с его помощью, если я использую его в речи Google для текста, возвращает пустую транскрипцию. Но если я использовал звук, записанный в программе Audacity, он вернет транскрипцию.

Вот мой клиентский код:

const startRecording = () => {
    navigator.mediaDevices
      .getUserMedia({ audio: true })
      .then((stream) => {
        const recorder = new MediaRecorder(stream, {
          mimeType: "audio/webm; codecs=opus",
          bitsPerSecond: 128000,
          sampleRate: 48000,
          echoCancellation: true,
          noiseSuppression: true,
          channelCount: 1,
        });
        const chunks = [];

        recorder.addEventListener("dataavailable", (event) => {
          chunks.push(event.data);
        });

        recorder.addEventListener("stop", () => {
          const blob = new Blob(chunks, { type: "audio/wav" });
          const url = URL.createObjectURL(blob);
          setAudioUrl(url);
          setRecording(false);
          setAudioBlob(blob); // Update the audioBlob state variable
        });

        recorder.start();
        setMediaRecorder(recorder);
        setRecording(true);
      })
      .catch((error) => {
        console.info(error);
      });
  };

И вот мой код сервера:

async function transcribeContextClasses() {
      const file = fs.readFileSync("public/audio/1680169074745_audio.wav");
      const audioBytes = file.toString("base64");
      
      const audio = {
        content: audioBytes,
      };

      const speechContext = {
        phrases: ["$TIME"],
      };

      const config = {
        encoding: "LINEAR16",
        sampleRateHertz: 48000,
        languageCode: "en-US",
        speechContexts: [speechContext],
      };

      const request = {
        config: config,
        audio: audio,
      };

      const [response] = await speechClient.recognize(request);
      const transcription = response.results
        .map((result) => result.alternatives[0].transcript)
        .join("\n");
      console.info(`Transcription: ${transcription}`);
    }

На данный момент я сохраняю записанный звук в виде файла и вручную ввожу его в свой код на стороне сервера, чтобы я мог протестировать другой звук, записанный из другого программного обеспечения.

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
Улучшение производительности загрузки с помощью Google Tag Manager и атрибута Defer
В настоящее время производительность загрузки веб-сайта имеет решающее значение не только для удобства пользователей, но и для ранжирования в...
Безумие обратных вызовов в javascript [JS]
Безумие обратных вызовов в javascript [JS]
Здравствуйте! Юный падаван 🚀. Присоединяйся ко мне, чтобы разобраться в одной из самых запутанных концепций, когда вы начинаете изучать мир...
Система управления парковками с использованием HTML, CSS и JavaScript
Система управления парковками с использованием HTML, CSS и JavaScript
Веб-сайт по управлению парковками был создан с использованием HTML, CSS и JavaScript. Это простой сайт, ничего вычурного. Основная цель -...
JavaScript Вопросы с множественным выбором и ответы
JavaScript Вопросы с множественным выбором и ответы
Если вы ищете платформу, которая предоставляет вам бесплатный тест JavaScript MCQ (Multiple Choice Questions With Answers) для оценки ваших знаний,...
0
0
77
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я смог исправить свою проблему. я просто сменил кодировку отсюда: encoding: "LINEAR16" к этому: encoding: 'WAV' так как я использую формат wav.

Другие вопросы по теме