algo de nubes
  • Màx: 13°
  • Mín:
13°

Amb més de 2.500 hores enregistrades, el català és la segona llengua amb més presència al Common Voice

205595

Ha sortit la versió 11 del corpus Common Voice, amb més de 2.500 hores enregistrades en català.

El Common Voice és una iniciativa de la fundació Mozilla per a obtenir un corpus lliure multilingüe que representi les llengües amb totes les seves varietats, creat a partir de les col·laboracions de voluntaris. La darrera versió consta de més de 24.000 hores d’enregistraments en 100 llengües diferents.

Amb més de 2.500 hores enregistrades, el català se situa en aquesta nova versió com la segona llengua amb més presència en aquest corpus reconegut internacionalment. Entre les novetats de la versió 11, a més, convé destacar que a poc a poc va augmentant el percentatge de veus femenines, que actualment són el 35% dels enregistraments amb el gènere especificat, i que l’aportació de veus balears pràcticament s’ha doblat, passant de 12.781 frases a la versió 10 a 21.184 frases actuals. Aquest tipus d’informació només el podem obtenir dels talls de veus enregistrats per persones que s’han registrat. Registrar-se no és obligatori, però és útil perquè permet associar el gènere, la franja d’edat i la varietat dialectal a cada enregistrament.

De la versió 11 també és important fer notar que ja s’ha validat el 66% dels enregistraments, una millora de 7 punts respecte la versió anterior. El procés de validació és tan important com el d’enregistrar, i la proporció ideal entre les dues tasques és d’un mínim de tres validacions per cada enregistrament.

Comenta

* Camps obligatoris

Comentaris

Anterior
Pàgina 1 de 1
Siguiente
Per batua el mon, fa mes de 2 anys
¿Com que sa segona?.
Sa primera i per damunt de totas.
Mancaría més.
Batua el mon.
Valoració:4menosmas
Anterior
Pàgina 1 de 1
Siguiente