RESEARCHarXiv CS.CL·3d atrás
Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yor\`ub\'a
O artigo investiga como as unidades discretas de fala (DSUs), derivadas de modelos SSL, codificam o tom lexical, descobrindo que elas o fazem de forma menos confiável do que a estrutura segmental. Embora as representações latentes do SSL codifiquem o tom, a quantização tende a priorizar a estrutura fonética, um problema demonstrado em mandarim e iorubá que persiste com vários métodos.
Self-supervised learningSpeech ProcessingDiscrete Speech UnitsLexical Tone