Design and Implementation of a Diphone Database for Persian Language for Computational Linguistics Applications

Document Type : Research Paper

Author

Payame Noor University

Abstract

Speech databases play important role in researches and implementations of the systems related to computational linguistics. In this paper, after studying different phone units that can be used for this purpose, I will present different steps for implementing a diphone database. Therefore, at first I have prepared a corpus for Persian language. Then I have designed and implemented a software that extracts a special word from the corpus and specifies the diphones that must be extracted from that. In the next step, after studying the conditions for increasing the quality, we recorded the speech signals that contain the diphones. In the last step, the diphones extracted from the recorded signals. We evaluated three different methods for finding the diphone borders: listening, visiting the time signal, and studying the spectrogram of the signal, and we use all of them for the accuracy of our database.

Keywords


کتابنامه
آیت، سید سعید.(1385). بهسازی گفتار با استفاده از تبدیل موجک و روش‌های ترکیبی، پایان‌نامه دکتری، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شریف.
آیت، سید سعید.(1379). طراحی و پیاده‌سازی سیستم توید گفتار فارسی با تأکید بر بهبود هر چه بیشتر گفتار تولید شده، پایان‌نامه کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی امیرکبیر.
ثمره، یدالله.(1378). آواشناسی زبان فارسی، تهران: مرکز نشر دانشگاهی، ویرایش دوم.
شیخ سنگ تجن، شهین، بی جن خان، محمود. (1389)."بررسی کاهش واکه‌ای در زبان فارسی محاوره‌ای" پژوهش های زبان شناسی، ش 1، صص 35-48.
عاصی، مصطفی.(1373)." طرح ایجاد پایگاه داده های زبان فارسی به کمک کامپیوتر"، مجله اطلاع رسانی نشریه فنی مرکز اطلاعات و مدارک علمی ایران ، دوره11، ش1. ص6 - 10.
مشکوه الدینی، مهدی.(1377). ساخت آوایی زبان، مشهد: انتشارات دانشگاه فردوسی.
 
Assi, S. M. (1997). “Farsi Linguistic Database (FLDB),” International Journal of Lexicography. Vol.10, No. 3. 5 - 6.
Assi, M. and Hajiabdolhosseini, M (2000) “Grammatical tagging of a Persian corpus”. International Journal of Corpus Linguistics , Vol. 5, No. 1, 69-81.
Ayat, S. Manzuri, M. T., and Dianat, R. (2006). “An Improved Wavelet-based Speech Enhancement by Using Speech Signal Features” International Journal of Computers & Electrical Engineering, Vol. 32, No. 6, 411-425.
Ayat, S. (2008). “Enhanced Human-Computer Speech Interface Using Wavelet Computing” IEEE International Conference on Virtual Environments, Human-Computer Interfaces and Measurement Systems. Istanbul, Turkey, 37 - 40.
Bijankhan, M. Sheykhzadegan, J, (1994) “FARSDAT: Farsi spoken language database”. In Proceedings of International Conference on Speech Sciences and Technology, Vol. 2: 826-829, Perth, Australia.
Bijankhan, M, Sheykhzadegan, J, Roohani, M. R. Zarrintare, R, Ghasemi, S. Z. Ghasedi M. E. (2003) “TFARSDAT: Telephone Farsi spoken language database" International Conference of EuroSpeech, Geneva, Switzerland, 1525-1528.
Deller, J. R., et. al. (2000). 2nd end. Discrete-time Processing of Speech Signals. New York: IEEE Press.
Huang, X. Acero, A and Hon, H (2001). Spoken Language Processing, New Jersey, Prentice-Hall.
Ghayoomi, M., Momtazi, S, and Bijankhan, M. (2004) "A Study of Corpus Development for Persian", International Journal on Asian Language Processing Vol. 20, No 1, 17-33.
Vaseghi, S. (2007). Multimedia Signal Processing, Theory and Application in Speech, Music and Communication. West Sussex: John Wiley Publication.