Tổng hợp tiếng Việt có cảm xúc

Lê Xuân Thành, Trịnh Văn Loan, Nguyễn Hồng Quang, Đào Thị Lệ Thủy, Đinh Đồng Lưỡng

Abstract


Tiếng Việt là ngôn ngữ đơn âm tiết và có thanh điệu. Để tổng hợp tiếng Việt chất lượng tốt, việc đảm bảo chất lượng của thanh điệu tổng hợp sao cho càng gần với thanh điệu tự nhiên là rất quan trọng. Bài báo này đề xuất một phương pháp tổng hợp tiếng Việt dựa trên ghép nối âm vị kép, trong đó các biến thiên F0 của các âm được tổng hợp giống như biến thiên F0 của tiếng nói tự nhiên. Hơn nữa, để tích hợp cảm xúc vào tiếng Việt tổng hợp, bài báo trình bày một phương pháp tổng hợp dựa trên mô hình Fujisaki. Ba cảm xúc khác nhau được thử nghiệm là buồn, tức và vui. Các kết quả đánh giá khách quan và chủ quan chất lượng tiếng Việt tổng hợp cũng được trình bày trong nghiên cứu này.

DOI: 10.32913/rd-ict.vol2.no38.615


Keywords


Tiếng Việt, tổng hợp, thanh điệu, cảm xúc, ghép nối, Fujisaki.

References


T. Dutoit, An Introduction to Text-to-Speech Synthesis. Kluwer Academic Publishers, 1997, vol. 3.

J. Holmes and W. Holmes, Speech Synthesis and Recognition. Taylor & Francis, Inc., 2001.

F. Dellaert, T. Polzin, and A. Waibel, “Recognizing emotion in speech,” in Proceedings of the Fourth International Conference on Spoken Language (ICSLP 96), vol. 3. IEEE, 1996, pp. 1970–1973.

H. Kellerman, Emotion: Theory, Research and Experience. Vol. 1. Academic Press, 1989.

C. E. Williams and K. N. Stevens, “Emotions and speech: Some acoustical correlates,” The Journal of the Acoustical Society of America, vol. 52, no. 4B, pp. 1238–1250, 1972.

F. Burkhardt and W. F. Sendlmeier, “Verification of acoustical correlates of emotional speech using formant-synthesis,” in Proceedings of the ISCA Tutorial and Research Workshop (ITRW) on Speech and Emotion, 2000.

S. J. Mozziconacci and D. J. Hermes, “Role of intonation patterns in conveying emotion in speech,” in Proceedings of the 14th International Congress of Phonetic Sciences, 1999, pp. 2001–2004.

C. Gobl, E. Bennett, and A. N. Chasaide, “Expressive synthesis: how crucial is voice quality?” in Proceedings of the Workshop on Speech Synthesis. IEEE, 2002, pp. 91–94.

H. Mixdorff, N. H. Bach, H. Fujisaki, and M. C. Luong, “Quantitative analysis and synthesis of syllabic tones in Vietnamese,” in Proceedings of the Eighth European Conference on Speech Communication and Technology, 2003.

D. T. Nguyen, C. M. Luong, B. K. Vu, H. Mixdorff, and H. H. Ngo, “Fujisaki model based f0 contours in vietnamese tts.” in Proceedings of the 8th International Conference on Spoken Language Processing, 2004.

A.-T. Dinh, T.-S. Phan, T.-T. Vu, and C. M. Luong, “Vietnamese HMM-based speech synthesis with prosody information,” in Proceedings of the Eighth ISCA Workshop on Speech Synthesis, 2013.

D. D. Tran, E. Castelli, X. H. Le, J.-F. Serignat, and V. L. Trinh, “Linear F0 contour model for Vietnamese tones and Vietnamese syllable synthesis with TD-PSOLA,” in Tonal Aspects of Languages, 2006.

D. D. Tran and E. Castelli, “Generation of F0 contours for Vietnamese speech synthesis,” in Proceedings of the Inter2010, pp. 158–162.

T. T. T. Nguyen, C. d’Alessandro, A. Rilliard, and D. D. Tran, “HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation,” in Proceedings of the 14th Annual Conference of the International Speech Communication Association (INTERSPEECH), vol. 13, 2013, pp. 2311–2315.

D.-K. Mac and D.-D. Tran, “Modeling Vietnamese Speech Prosody: A Step-by-Step Approach Towards an Expressive Speech Synthesis System,” in Trends and Applications in Knowledge Discovery and Data Mining (PAKDD 2015 Workshops: BigPMA, VLSP, QIMIE, DAEBH). Springer, 2015, pp. 273–287.

D.-K. Mac, E. Castelli, and V. Aubergé, “Modeling the Prosody of Vietnamese Attitudes for Expressive Speech Synthesis,” in Proceedings of the Spoken Language Technologies for Under-Resourced Languages, 2012.

T. D. Ngo and T. D. Bui, “A study on prosody of vietnamese emotional speech,” in Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE). IEEE, 2012, pp. 151–155.

L. Vutuan, H. Cheng-wei, Z. Cheng, and Z. Li, “Emotional Feature Analysis and Recognition from Vietnamese Speech,” Journal of Signal Processing, vol. 29, no. 10, pp. 1423–1432, 2013.

J. Zhipeng and H. Chengwei, “High-Order Markov Random Fields and Their Applications in Cross-Language Speech Recognition,” Cybernetics and Information Technologies, vol. 15, no. 4, pp. 50–57, 2015.

L. X. Thành, Đ. T. L. Thủy, T. V. Loan, and N. H. Quang, “Cảm xúc trong tiếng nói và phân tích thống kê ngữ liệu cảm xúc tiếng Việt,” Chuyên san Các công trình Nghiên cứu, Phát triển và Ứng dụng Công nghệ Thông tin; Tạp chí Bưu chính Viễn thông, pp. 86–98, 2016.

P. Boersma and D. Weenink, “Praat: doing phonetics by computer, Phonetic Sciences,” University of Amsterdam, 2009. [Online]. Available: http://www.fon.hum.uva.nl/praat/ [Accessed 15/10/2017].

S. King, L. Wihlborg, and W. Guo, “The Blizzard Challenge 2017,” in Proceedings of the Blizzard Challenge 2017 Workshop, Stockholm, 2017.

L. Calliope and G. Fant, La parole et son traitement automatique. Masson Paris, 1989.

F. Charpentier and M. Stella, “Diphone synthesis using an overlap-add technique for speech waveforms concatenation,” in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’86), vol. 11. IEEE, 1986, pp. 2015–2018.

D. O’Shaughnessy, “Linear predictive coding,” IEEE Potentials, vol. 7, no. 1, pp. 29–32, 1988.

R. C. Streijl, S. Winkler, and D. S. Hands, “Mean opinion score (MOS) revisited: methods and applications, limitations and alternatives,” Multimedia Systems, vol. 22, no. 2, pp. 213–227, 2016.

L. X. Thành, Đ. T. L. Thủy, T. V. Loan, and N. H. Quang, “So sánh hiệu năng một số phương pháp nhận dạng cảm xúc tiếng Việt nói,” in Kỷ yếu hội nghị khoa học công nghệ quốc gia lần thứ IX, Nghiên cứu cơ bản và ứng dụng công nghệ thông tin, 2016.

Đ. T. L. Thủy, T. V. Loan, N. H. Quang, and L. X. Thành, “Ảnh hưởng của đặc trưng phổ tín hiệu tiếng nói đến nhận dạng cảm xúc tiếng Việt,” in Kỷ yếu hội nghị khoa học công nghệ quốc gia lần thứ X, Nghiên cứu cơ bản và ứng dụng công nghệ thông tin, 2017.

H. Fujisaki and K. Hirose, “Analysis of voice fundamental frequency contours for declarative sentences of Japanese,” Journal of the Acoustical Society of Japan (E), vol. 5, no. 4, pp. 233–242, 1984.

B. Uslu and H. G. Ilk, “Fujisaki intonation model in Turkish text-to-speech synthesis,” in Proceedings of the Signal Processing and Communications Applications Conference (SIU 2009). IEEE, 2009, pp. 844–847.

E. Navas and I. Hernáez, “Modelado de la entonación en euskera utilizando el modelo de fujisaki y árboles de regresión binarios,” Resumenes de las I Jornadas de Tecnologías del Habla, 2000.

H. Fujisaki, S. Narusawa, S. Ohno, and D. Freitas, “Analysis and modeling of f_0 contours of portuguese utterances based on the command-response model,” in Proceedings of the Eighth European Conference on Speech Communication and Technology, 2003.

H. Fujisaki, C. Wang, S. Ohno, and W. Gu, “Analysis and synthesis of fundamental frequency contours of standard Chinese using the command–response model,” Speech communication, vol. 47, no. 1, pp. 59–70, 2005.

H. Mixdorff, “A novel approach to the fully automatic extraction of Fujisaki model parameters,” in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 3. IEEE, 2000, pp. 1281–1284.

H. Mixdorff, N. H. Bach, H. Fujisaki, and M. C. Luong, “Quantitative analysis and synthesis of syllabic tones in Vietnamese,” in Proceedings of the Eighth European Conference on Speech Communication and Technology, 2003.

T. B. Patel and H. A. Patil, “Analysis of natural and synthetic speech using Fujisaki model,” in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016, pp. 5250–5254.

B. H. Nguyên and N. T. Dũng, “Mô hình Fujisaki và áp dụng trong phân tích thanh điệu tiếng Việt,” in Kỷ yếu Hội thảo Quốc gia lần thứ 6, 2003.

A. Gray and J. Markel, “Distance measures for speech processing,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 24, no. 5, pp. 380–391, 1976.


Full Text: PDF

CƠ QUAN CHỦ QUẢN: BỘ THÔNG TIN VÀ TRUYỀN THÔNG (MIC)
Giấp phép số 69/GP-TTĐT cấp ngày 26/12/2014.
Tổng biên tập: Vũ Chí Kiên
Tòa soạn: 110-112, Bà Triệu, Hà Nội; Điện thoại: 04. 37737136; Fax: 04. 37737130; Email: chuyensanbcvt@mic.gov.vn
Ghi rõ nguồn “Tạp chí Công nghệ thông tin và truyền thông” khi phát hành lại thông tin từ website này