طراحی و پیاده سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه‌ای

نوع مقاله: مقاله پژوهشی

نویسنده

استادیار دانشگاه پیام - گروه علمی مهندسی کامپیوتر و فناوری اطلاعات

چکیده

دادگان‌های گفتاری نقش مهمی را در تحقیقات و پیاده‌سازی‌های مربوط با زبان‌شناسی رایانه‌ای ایفا می‌کنند. در این مقاله، پس از مطالعه واحدهای آوایی مختلف قابل استفاده برای این منظور، مراحل تهیه یک دادگان دایفون ویژه زبان فارسی ارایه می‌شود. برای این منظور، در ابتدا پایگاه واژگانی که دایفون‌های زبان را شامل شوند، تهیه گردید. سپس نرم‌افزاری طراحی و پیاده‌سازی شد که با گرفتن صورت‌های واجی واژه‌ها، دایفون‌هایی را که قرار است از آن استخراج شوند، مشخص کند. در مرحله بعد سیگنال‌های گفتاری واژه‌ها ضبط گردید و نکات افزایش بررسی گردید. در پایان نیز جداسازی دایفون‌ها و تهیه دادگان مورد نظر صورت پذیرفت. برای افزایش دقت دادگان تهیه شده، مراحل جداسازی دایفون‌ها از سیگنال‌های گفتاری ضبط شده با استفاده از سه روش شنوایی، بررسی سیگنال زمانی و مطالعه طیف‌نگاشت، ارزیابی و از ترکیب هر سه روش برای افزایش دقت دادگان استفاده شد.

کلیدواژه‌ها


عنوان مقاله [English]

Design and Implementation of a Diphone Database for Persian Language for Computational Linguistics Applications

نویسنده [English]

  • Seyedsaeed Ayat
Payame Noor University
چکیده [English]

Speech databases play important role in researches and implementations of the systems related to computational linguistics. In this paper, after studying different phone units that can be used for this purpose, I will present different steps for implementing a diphone database. Therefore, at first I have prepared a corpus for Persian language. Then I have designed and implemented a software that extracts a special word from the corpus and specifies the diphones that must be extracted from that. In the next step, after studying the conditions for increasing the quality, we recorded the speech signals that contain the diphones. In the last step, the diphones extracted from the recorded signals. We evaluated three different methods for finding the diphone borders: listening, visiting the time signal, and studying the spectrogram of the signal, and we use all of them for the accuracy of our database.

کلیدواژه‌ها [English]

  • Persian
  • diphone database
  • computational linguistics
  • phone unit
  • speech segmentation

کتابنامه

آیت، سید سعید.(1385). بهسازی گفتار با استفاده از تبدیل موجک و روش‌های ترکیبی، پایان‌نامه دکتری، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی شریف.

آیت، سید سعید.(1379). طراحی و پیاده‌سازی سیستم توید گفتار فارسی با تأکید بر بهبود هر چه بیشتر گفتار تولید شده، پایان‌نامه کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی امیرکبیر.

ثمره، یدالله.(1378). آواشناسی زبان فارسی، تهران: مرکز نشر دانشگاهی، ویرایش دوم.

شیخ سنگ تجن، شهین، بی جن خان، محمود. (1389)."بررسی کاهش واکه‌ای در زبان فارسی محاوره‌ای" پژوهش های زبان شناسی، ش 1، صص 35-48.

عاصی، مصطفی.(1373)." طرح ایجاد پایگاه داده های زبان فارسی به کمک کامپیوتر"، مجله اطلاع رسانی نشریه فنی مرکز اطلاعات و مدارک علمی ایران ، دوره11، ش1. ص6 - 10.

مشکوه الدینی، مهدی.(1377). ساخت آوایی زبان، مشهد: انتشارات دانشگاه فردوسی.

 

Assi, S. M. (1997). “Farsi Linguistic Database (FLDB),” International Journal of Lexicography. Vol.10, No. 3. 5 - 6.

Assi, M. and Hajiabdolhosseini, M (2000) “Grammatical tagging of a Persian corpus”. International Journal of Corpus Linguistics , Vol. 5, No. 1, 69-81.

Ayat, S. Manzuri, M. T., and Dianat, R. (2006). “An Improved Wavelet-based Speech Enhancement by Using Speech Signal Features” International Journal of Computers & Electrical Engineering, Vol. 32, No. 6, 411-425.

Ayat, S. (2008). “Enhanced Human-Computer Speech Interface Using Wavelet Computing” IEEE International Conference on Virtual Environments, Human-Computer Interfaces and Measurement Systems. Istanbul, Turkey, 37 - 40.

Bijankhan, M. Sheykhzadegan, J, (1994) “FARSDAT: Farsi spoken language database”. In Proceedings of International Conference on Speech Sciences and Technology, Vol. 2: 826-829, Perth, Australia.

Bijankhan, M, Sheykhzadegan, J, Roohani, M. R. Zarrintare, R, Ghasemi, S. Z. Ghasedi M. E. (2003) “TFARSDAT: Telephone Farsi spoken language database" International Conference of EuroSpeech, Geneva, Switzerland, 1525-1528.

Deller, J. R., et. al. (2000). 2nd end. Discrete-time Processing of Speech Signals. New York: IEEE Press.

Huang, X. Acero, A and Hon, H (2001). Spoken Language Processing, New Jersey, Prentice-Hall.

Ghayoomi, M., Momtazi, S, and Bijankhan, M. (2004) "A Study of Corpus Development for Persian", International Journal on Asian Language Processing Vol. 20, No 1, 17-33.

Vaseghi, S. (2007). Multimedia Signal Processing, Theory and Application in Speech, Music and Communication. West Sussex: John Wiley Publication.