Italian TTS Speech Corpus (Appen)

3 Last view: 2020-12-02

Italian TTS Speech Corpus (Appen)

View resource name in all available languages

Corpus de parole italien TTS (Appen)

http://catalog.elra.info/product_info.php?products_id=1

ID:

ELRA-S0148

The Italian TTS Speech Corpus contains the recordings of 1 native Italian speaker (male, 50 years old) recorded in a studio over 1 channel (Shure SM15 unidirectional professional head-word condenser microphone). The data collection and transcription were performed by Appen (Australia).
Speech samples are stored as sequences of 16-bit 22.05 kHz PCM in uncompressed WAV files.
The speaker read 3,300 prompted sentences covering all legal triphones and diphones.
The database is provided with orthographic transcriptions in SAMPA, including canonical and alternative pronunciation, and syllable, stress and acoustic events markings. All transcriptions were segmented at the utterance (sentence/command word) level, annotated at the word level and checked manually. A pronunciation lexicon including 7,300 headwords (plus variants) is also available.
This database is aimed to be used within text-to-speech and speech synthesis applications.

View resource description in all available languages

Le corpus de parole italien TTS (text-to-speech) est constitué d’enregistrements fournis par un locuteur de langue maternelle italienne (1 homme de 50 ans) enregistré en studio à travers 1 canal (microphone unidirectionnel Shure SM15). La collecte et la transcription des données ont été réalisées par Appen (Australie).

Les fichiers WAV sont stockés en séquences d'échantillons de 22,05 kHz, 16 bit, PCM et ne sont pas compressés.

Le locuteur a lu, à partir d’énoncés (prompts), 3 300 phrases couvrant la totalité des triphones et diphones obligatoires.

La base de données est fournie avec les transcriptions phonétiques en SAMPA, dont la transcription canonique et prononciations alternatives, ainsi que les marqueurs de syllabe, d’accentuation et d’événements acoustiques. Toutes les transcriptions sont segmentées au niveau de l’occurrence (phrase/mot de commande), annotées au niveau du mot et vérifiées manuellement. Un lexique de prononciation composé de 7 300 mots (plus variantes) est également disponible.

La base de données à pour but d'être utilisée dans des applications « text-to-speech » et de synthèse de la parole.

You don’t have the permission to edit this resource.

DistributionAvailability

Available - Restricted Use

Start date: 07/15/2003

Licence

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Non Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Commercial

ELRA VAR

Restrictions: Commercial Use

For Members of ELRA

User Nature: Academic

ELRA END USER

Restrictions: Academic - Non Commercial Use

For Members of ELRA

User Nature: Academic

Contact Person

Mapelli Valérie

audio

Monolingual audio corpusLanguages

Italian

Linguality

Linguality type: Monolingual

Size

no size available

Metadata

Created: 05/12/2005

Version

Version: 1.0

Last Updated: 05/12/2005