Google cloud text-to-speech : Comment utiliser Google Cloud Text-to-Speech ?

By Matthieu CHARRIER

Google Cloud Text-to-Speech est un service de synthèse vocale qui permet de convertir un texte en parole en utilisant la puissance de l’intelligence artificielle. Ce service est particulièrement utile pour les développeurs d’applications, les créateurs de contenu et les entreprises cherchant à améliorer l’accessibilité de leurs produits.

Dans cet article, nous vous montrerons comment utiliser Google Cloud Text-to-Speech, en explorant ses fonctionnalités et en fournissant des exemples pour vous aider à tirer le meilleur parti de ce service.

Création d’un compte Google Cloud et activation de l’API Text-to-Speech

  1. Créez un compte Google Cloud Pour utiliser Google Cloud Text-to-Speech, vous devez disposer d’un compte Google Cloud. Si vous n’en avez pas encore, rendez-vous sur cloud.google.com/ et suivez les étapes pour créer un compte.
  2. Activez l’API Text-to-Speech Une fois que vous avez créé un compte Google Cloud, accédez à la console Google Cloud, recherchez « Text-to-Speech » et activez l’API. Vous pourriez être invité à créer un projet pour utiliser l’API.
  3. Créez des identifiants d’API Pour interagir avec l’API Text-to-Speech, vous aurez besoin d’identifiants. Accédez à la page « Identifiants » dans la console Google Cloud et créez une clé API ou un fichier JSON d’identifiants de compte de service.

Utiliser l’API Text-to-Speech

  1. Installation de la bibliothèque cliente (pour Python) Pour utiliser l’API Text-to-Speech avec Python, vous devez installer la bibliothèque cliente Google Cloud Text-to-Speech. Exécutez la commande suivante pour l’installer:
pip install --upgrade google-cloud-texttospeech
  1. Configurer l’authentification Avant de pouvoir utiliser l’API, vous devez configurer l’authentification en définissant la variable d’environnement GOOGLE_APPLICATION_CREDENTIALS sur le chemin du fichier JSON contenant vos identifiants de compte de service:
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/chemin/vers/le/fichier/credentials.json"
  1. Convertir du texte en parole Voici un exemple de code pour convertir un texte en parole en utilisant l’API Text-to-Speech:
from google.cloud import texttospeech

def synthesize_speech(text, output_file):
    client = texttospeech.TextToSpeechClient()

    input_text = texttospeech.SynthesisInput(text=text)

    voice = texttospeech.VoiceSelectionParams(
        language_code="fr-FR", ssml_gender=texttospeech.SsmlVoiceGender.FEMALE
    )

    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    response = client.synthesize_speech(
        input=input_text, voice=voice, audio_config=audio_config
    )

    with open(output_file, "wb") as out:
        out.write(response.audio_content)
        print(f"Audio content written to file {output_file}")

text = "Bonjour, je suis une voix synthétique créée par Google Cloud Text-to-Speech."
output_file = "output.mp3"
synthesize

_speech(text, output_file)

A lire également :   Comment vider rapidement le courrier indésirable et la corbeille dans Gmail

Personnalisation de la voix et de la vitesse de parole

1. Choisir une voix différente
Google Cloud Text-to-Speech offre une variété de voix et d'accents pour répondre à vos besoins. Vous pouvez modifier la voix en ajustant les paramètres `language_code` et `ssml_gender` dans l'objet `VoiceSelectionParams`. Par exemple, pour utiliser une voix masculine en français canadien, modifiez les paramètres comme suit:

```python
voice = texttospeech.VoiceSelectionParams(
language_code="fr-CA", ssml_gender=texttospeech.SsmlVoiceGender.MALE
)

  1. Ajuster la vitesse de parole Vous pouvez également ajuster la vitesse de parole en modifiant le paramètre speaking_rate dans l’objet AudioConfig. Par exemple, pour ralentir la vitesse de parole de moitié, définissez la valeur de speaking_rate à 0.5:
pythonCopy codeaudio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3,
    speaking_rate=0.5
)

Utiliser SSML pour un contrôle plus avancé

Le langage de balisage de synthèse vocale (SSML) vous permet d’avoir un contrôle plus précis sur la façon dont le texte est lu. Par exemple, vous pouvez ajouter des pauses, changer l’intonation ou utiliser des substitutions phonétiques.

  1. Ajouter des pauses Pour ajouter des pauses dans votre texte, utilisez la balise <break> avec l’attribut time. Par exemple, pour ajouter une pause de 2 secondes :
<speak>
    Bonjour, je suis une voix synthétique. <break time="2s"/> Comment ça va ?
</speak>
  1. Changer l’intonation Pour changer l’intonation, utilisez la balise <prosody> avec l’attribut pitch. Par exemple, pour augmenter l’intonation d’une phrase de 20 % :
<speak>
    <prosody pitch="+20%">Je suis ravi de vous rencontrer !</prosody>
</speak>
  1. Substitutions phonétiques Pour utiliser des substitutions phonétiques, utilisez la balise <phoneme> avec l’attribut ph. Par exemple, pour prononcer « GIF » avec un « G » doux :
<speak>
    J'aime les images <phoneme alphabet="ipa" ph="ʒɪf">GIF</phoneme>.
</speak>

Assurez-vous de remplacer input_text par input_ssml lors de l’utilisation de SSML :

input_text = texttospeech.SynthesisInput(ssml=ssml_text)

Comment désactiver la fonction Text-To-Speech (TTS) sur Discord ?

Google Cloud Text-to-Speech est-il gratuit ?

Google Cloud Text-to-Speech propose une offre gratuite ainsi qu’une offre payante.

L’offre gratuite de Google Cloud Text-to-Speech comprend une limite de 4 millions de caractères par mois pour les synthèses vocales en mode standard et 1 million de caractères par mois pour les synthèses vocales en mode WaveNet. Au-delà de ces limites, des frais s’appliquent.

L’offre payante propose des fonctionnalités supplémentaires ainsi qu’une utilisation plus élevée de la synthèse vocale. Les frais sont calculés en fonction du nombre de caractères synthétisés.

Il est important de noter que les tarifs de Google Cloud Text-to-Speech sont susceptibles de changer. Il est recommandé de consulter le site Web de Google Cloud pour obtenir les informations tarifaires les plus récentes.

A lire également :   Comment supprimer des chaînes d'un Roku ?

Google Cloud Text-to-Speech est-il performant ?

Google Cloud Text-to-Speech est considéré comme l’un des services de synthèse vocale les plus performants disponibles sur le marché. Il utilise des technologies avancées de traitement du langage naturel (NLP) et de synthèse vocale pour produire des voix naturelles et expressives.

Google Cloud Text-to-Speech propose une variété de voix, avec des options pour différents genres, âges et langues. Les voix sont produites à l’aide de deux technologies de synthèse vocale : la synthèse vocale par concaténation de segments et la synthèse vocale par modèles génératifs, également connue sous le nom de WaveNet.

La synthèse vocale par concaténation de segments utilise des enregistrements audio préenregistrés de phrases ou de syllabes individuelles pour créer une voix naturelle. Cette méthode est rapide et efficace, mais peut parfois manquer de fluidité.

La synthèse vocale par modèles génératifs, quant à elle, utilise des réseaux de neurones pour créer des voix plus naturelles et expressives. Cette méthode prend plus de temps et nécessite des ressources plus importantes, mais produit des résultats de haute qualité.

En résumé, Google Cloud Text-to-Speech est un service de synthèse vocale performant qui utilise des technologies avancées pour produire des voix naturelles et expressives.

Qu’est-ce que la plate-forme Google Cloud Text-to-Speech ?

Google Cloud Text-to-Speech est un service cloud proposé par Google Cloud qui permet de convertir du texte en synthèse vocale en utilisant des technologies avancées de traitement du langage naturel et de synthèse vocale. La plate-forme permet aux développeurs de créer des applications et des services qui utilisent la synthèse vocale pour fournir une expérience utilisateur améliorée.

Google Cloud Text-to-Speech propose une grande variété de voix de synthèse, avec des options pour différents genres, âges et langues. Les voix sont produites à l’aide de deux technologies de synthèse vocale : la synthèse vocale par concaténation de segments et la synthèse vocale par modèles génératifs, également connue sous le nom de WaveNet.

Les développeurs peuvent utiliser l’API de Google Cloud Text-to-Speech pour intégrer la synthèse vocale dans leurs applications et services. L’API est facile à utiliser et peut être utilisée avec une variété de langages de programmation, y compris Java, Python, Go, Ruby et Node.js.

A lire également :   Comment installer la bêta d'Android 13 sur votre téléphone

Google Cloud Text-to-Speech offre également une variété de fonctionnalités, telles que la personnalisation de la prononciation des mots, la modification de la vitesse de la parole et l’ajout d’effets sonores tels que des pauses et des marques de respiration.

En résumé, Google Cloud Text-to-Speech est une plate-forme cloud qui permet de convertir du texte en synthèse vocale en utilisant des technologies avancées de traitement du langage naturel et de synthèse vocale. Elle est destinée aux développeurs qui souhaitent intégrer la synthèse vocale dans leurs applications et services.

Quelle est la limite de gratuité de Google TTS ?

La limite de gratuité de Google Cloud Text-to-Speech est de 4 millions de caractères par mois pour les synthèses vocales en mode standard et de 1 million de caractères par mois pour les synthèses vocales en mode WaveNet.

Au-delà de ces limites, des frais s’appliquent. Le tarif dépend du nombre de caractères synthétisés et varie en fonction du mode de synthèse vocale utilisé.

Il est important de noter que les tarifs de Google Cloud Text-to-Speech sont susceptibles de changer. Il est recommandé de consulter le site Web de Google Cloud pour obtenir les informations tarifaires les plus récentes.

Quelle est la limite de Google Cloud Text-to-Speech ?

La limite de Google Cloud Text-to-Speech dépend du type de compte que vous utilisez pour accéder au service.

Pour les comptes avec un accès gratuit, la limite de Google Cloud Text-to-Speech est de 4 millions de caractères par mois pour les synthèses vocales en mode standard et de 1 million de caractères par mois pour les synthèses vocales en mode WaveNet.

Si vous avez besoin d’une utilisation plus importante, vous pouvez opter pour un compte payant. Les tarifs dépendent du nombre de caractères synthétisés et varient en fonction du mode de synthèse vocale utilisé.

Il est important de noter que les tarifs de Google Cloud Text-to-Speech sont susceptibles de changer. Il est recommandé de consulter le site Web de Google Cloud pour obtenir les informations tarifaires les plus récentes.

Conclusion

Google Cloud Text-to-Speech est un service puissant et flexible qui permet de convertir du texte en parole avec une grande variété d’options et de personnalisations. En suivant ce guide étape par étape et en utilisant les exemples fournis, vous devriez être en mesure d’intégrer la synthèse vocale dans vos applications et d’améliorer l’accessibilité de vos produits.

Laisser un commentaire