EUROPARL Corpus Parallel Corpora: Portuguese-English
View resource name in all available languages
Corpus parallèle portugais-anglais du corpus EUROPARL
ID:
ELRA-W0090
The EUROPARL Corpus (Portuguese-English subpart of the parallel corpora), was extracted from the proceedings of the European Parliament. It contains transcriptions of sessions dating back from 1996 to 2011, with a total of approximately 58,324,562 tokens of European Portuguese (L1) and 49,216,896 tokens of English (translation).
The EUROPARL Corpus is composed of one text file for the English corpus and two files for the Portuguese version: a text file and an annotated file. The text version contains plain text and no further annotation. The Portuguese annotated file is a four-column file with one token per line, followed by a PoS tag and a lemma. The corpus was automatically PoS-tagged with MBT tagger (http://ilk.uvt.nl/mbt/), and lemmatized with MBLEM (http://ilk.uvt.nl/mbma/), following the annotation scheme of the Corpus of Reference of Contemporary Portuguese.
View resource description in all available languages
Le corpus EUROPARL (la sous-partie portugais-anglais du corpus), est extrait des actes du Parlement Européen. Il contient des transcriptions des séances parlementaires correspondant à la période 1996-2011, et comprend environ 58,324,562 mots en portugais européen (L1) et 49,216,896 mots en anglais (traduction).
Le corpus EUROPARL comprend un fichier texte pour la sous-partie en anglais, et deux fichiers pour la version portugaise: un fichier texte et un fichier annoté. Le fichier texte contient du texte simple sans annotation. Le fichier annoté contient un mot par ligne, suivi par la partie du discours et par le lemme. Le corpus a été annoté automatiquement en parties du discours avec l’étiqueteur MBT (http://ilk.uvt.nl/mbt/), et il a été lemmatisé avec l’outil MBLEM (http://ilk.uvt.nl/mbma/), selon le schéma d’annotation du Corpus de Référence du Portugais Contemporain.
People who looked at this resource also viewed the following: