نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشآموختۀ کارشناسی ارشد گروه زبانشناسی، دانشکدۀ ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران
2 دانشیار گروه زبان انگلیسی و زبانشناسی دانشگاه بین المللی امام خمینی، قزوین، ایران
3 استاد گروه زبانشناسی دانشگاه تهران، ایران
چکیده
کلیدواژهها
موضوعات
عنوان مقاله [English]
نویسندگان [English]
Abstract
This research aims to improve speech synthesis in Persian and investigate the pitch contour fall between two H* peaks carried out in the framework of the Autosegmental Metrical (AM) theory of intonational phonology. In this paper, we tested two main hypotheses. Firstly, the F0 falls through phonetic interpolation and, secondly, it involves tone spreading. The present paper argues that the first hypothesis is proven to be correct. The data for the present research includes 45 enclitic phrases that were produced using voiced consonants between the two peaks. It means that in the course of producing each phrase, it was taken into consideration that all of the consonants placed between the two peaks would be deliberately and certainly voiced. This is mainly because if the consonants were not voiced, the data analysis results would be affected in Praat. It has to be noted that the distance between the two H* was increased by adding zero to two unstressed syllables. Totally, we recorded 1350 utterances from 30 native Persian speakers. We employed Praat software so as to analyse the utterances. Besides, we utilized SPSS for further analysis. The results of acoustic and statistical analyses showed that the distance between the first peak and the following F0 valley is increased with the addition of the unstressed syllables, demonstrating the alignment of this valley with the beginning of the stressed syllable. Results of statistical analyses revealed that the distance between the H and the following L target is increased significantly with the addition of the unstressed syllables. Furthermore, the normalized pitch contour was computed for all data. This indicates that the fall of the pitch contour between the two H peaks is realized through phonetic interpolation.
Keywords: Speech Synthesis, Phonetic Interpolation, Tone Spreading, Autosegmental Metrical theory (AM), Pitch Accent
Introduction
Text-to-speech technology can be used in many different ways such as allowing blind or visually impaired people to read texts. It also assists people with speech impairments to establish verbal communication and/or receive information from a text through listening. Speech intonation and the prosodic structure play a pivotal role in the process of synthetic speech production. The aim of this research is to investigate the pattern of the F0 declination between the H* and L+H* tonal targets in the Persian language. Being systematic, this declination is possible to predict F0 in the same tonal environments and use these predictions in the process of synthetic speech production of Persian phrases.
The current research is carried out employing Autosegmental Metrical (AM) theory of intonational phonology. According to Autosegmental Metrical theory, H and L tones are regarded as abstract phonological elements. The occurrence of a L* pitch accent in a word stands for the fact that its stressed syllable is produced with a low tone and the occurrence of a H* pitch accent means that a stressed syllable with a high tone is produced. In bitonal pitch accents, the starred tone is aligned with the stressed syllable and the un-starred tone appears immediately before or after the starred one (Sadeghi, 2018). The difference between the monotonal H* accent and the bitonal L*+H accent can be shown in terms of the placement of the F0 peak and valley. In the H* accent, the F0 peak is placed on the stressed syllable. In the L*+H accent, the F0 valley is placed on the stressed syllable and the F0 peak occurs slightly after it. The pitch accent in Persian is defined as a bitonal L+H* pitch accent (Mahjani, 2003; Sadat-Tehrani, 2009). This is the consecutive combination of low and high tones. It is to note that both are aligned with the stressed syllable.
This research seeks to determine the type of the F0 declination, which can happen gradually or sharply. The gradual fall of F0 is due to phonetic interpolation. This is while the sudden and sharp decline in F0 is because of tone spreading. Given these considerations, two main hypotheses of this research run as follows: Firstly, the first H peak is interpolated to the L target. Secondly, the first H falls until the beginning of the second word in the phrase since the L in the second pitch accent spreads itself to the begnning of the second word.
Materials and Methods
The data for this research comes from phrases that are featured with two pitch accents (H* L+H*). Thus, 45 enclitic phrases were produced based on this pattern, using voiced consonants between the two peaks, and the distance between the two H* was increased by adding zero to two unstressed syllables. In order to collect these utterances, thirty native Persian speakers, including 15 male and 15 female speakers, took part in our project. Below are examples of each group of data:
(a) [ʔɑ.be rud] ɟelɑlud bud
1st word 2nd word
(b) tʃand mɑh piʃ dar [maziɢe.je mɑ.li] budand
1st word 2nd word
(c) ʔaz [mahal.le.je ɢa.di.mi] rafte budand
1st word 2nd word
We employed Praat and ProsodyPro software for analysing so as to calculate the distances between the tonal targets. Using SPSS, we carried out other tests with the obtained data in the previous step. These tests included ANOVA and post-hoc tests and the correlation between each group of data.
According to the data analysis, the L tone is commonly placed before the beginning of the stressed syllable. That is to say, the more the distance between the H tone in the first word and the stressed syllable, the more the L tone’s distance becomes. This finding supports the first hypothesis pointing to the phonetic interpolation between the two tonal targets. In order to inspect the overall changes in the pitch contour, the normalized pitch contour was also computed for all the research data.
Discussion of Results and Conclusions
The results of analysing data confirm the validity of the phonetic interpolation hypothesis, according to which the L tone, being placed on the stressed syllable of the word, is where the F0 downtrend from the first H tone ends. To put it differently, the H tone in the first word and the L tone in the second word are interpolated to each other through a steady fall. Therefore, the F0 slope is distinct from the two tones. This distinction depends on the distance between the first H and the L tone. All the conducted tests in this research indicate that the L tone is aligned with the beginning of the stressed syllable, confirming that the F0 fall is realized through phonetic interpolation. As a result of the F0 fall between the first peak and the valley, the pitch contour’s slope depends on the placement of the stressed syllable or the L tone.
The findings of this research can be used for synthetic speech production in Persian and in the prosodic pattern determination step of the text-to-speech systems. Predicting the precise changes in the F0 in the produced prosodic structure will result in a more natural production of the synthetic speech which will, in turn, enhance the functionality of the text-to-speech systems.
کلیدواژهها [English]
فناوری تبدیل متن به گفتار میتواند در زمینههای متعددی مانند خواندن متون مختلف توسط افراد نابینا و کمبینا، برقراری ارتباط کلامی توسط افراد با ناتوانی گفتاری و یا دریافت اطلاعات از یک متن از طریق شنیداری (کتاب یا متنِ گویا) راهگشا باشد. آهنگ گفتار و ساخت نوایی در فرایند بازسازیِ گفتار مصنوعی نقش بسزایی را ایفا میکنند. در بازسازیکنندههای گفتاری کافی است که بازسازیکننده بتواند واحدهای نوایی[1] اصلی شامل زیروبمی، دیرش[2] و شدت[3] را تغییر بدهد تا با ترکیب آن با قواعد مربوط به آن زبان، بتوان مابقی واحدهای نوایی گفتهشده را بهدست آورد (همایونپور، 1390). فرکانس پایۀ گفتار از اهمیت بسیاری در پردازش خودکار سیگنال گفتار برخوردار است. اطلاعات نوایی زیروبمی گفتار عمدتاً توسط این پارامتر مشخص میشوند.
سیستم تبدیل متن به گفتار شامل سه بخش است که یکی از آن، مرحلۀ تحلیل متنی و آوایی است. در این مرحله، بخش مرتبط با نوای گفتار در خروجیها مدنظر است. جایگاههای تکیه و سایر اطلاعات لازم برای انجام تحلیلهای نوایی و تعیین الگوهای شدت و زیروبمی، تکیه و آهنگِ جملات از نتایج حاصل از این بخش است. پیشبینی نوع نوای گفتار، به علت عدم وضوح اطلاعات معنایی و ساختاری گفتار در ورودیهای سیستمهای متن به گفتار، مشکل است. درک نوای مناسب حتی با وجودِ این نوع از اطلاعات با مشکل مواجه است و علت آن عدمِ وجود تحقیقات کافی در زمینۀ تعاملِ بین مشخصههای نوایی و همچنین تحت تاثیرِ عوامل ادراکی و متنی بودنِ تبدیل مقولههای زبانی به پارامترهای آوایی و نوایی است. تعریف پارامترهای مناسب در یک فضای نواختیِ پیشبینی شده لازمۀ تولید صحیح گفتارِ بازسازیشده است. یکی از این پارامترها، جابهجاییهای محلی نقاطی خاص بر روی منحنی فرکانس پایه در ساخت نوایی نمادین است که در پژوهش حاضر به آن پرداخته شده است.
تمرکز این پژوهش بر روی بررسی قاعدهمند بودن افت فرکانس پایه در حدفاصل اهداف نواختی H* و L+H* در پارهگفتارهای زبان فارسی است. در صورت قاعدهمند بودن این افت، میتوان فرکانس پایه را در فضاهای مشابه نواختی بهطور دقیقتری پیشبینی کرد و از آن در فرایند تولید پارهگفتارهای مصنوعی در زبان فارسی استفاده کرد.
پرسش اصلیِ این پژوهش تشخیص نوعِ افتِ منحنیِ فرکانس پایه است که میتواند به دو صورت تدریجی و یا با شیب تندتر انجام گیرد. در صورت رخ دادن نوع افت اول، درونیابی آوایی[4] رخ داده و در صورت صحیح بودن نوع افت دوم، قاعدۀ گسترش رخ داده است. دو فرضیۀ اصلی این پژوهش براساس این دو نوع افت است. در فرضیۀ اول، قاعدۀ درونیابی آوایی که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی شده، مدنظر است. در فرضیۀ دوم، قاعدۀ گسترشِ نواخت[5] اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول میکند؛ زیرا نواخت L تکیۀ زیروبمی دوم خود را تا ابتدای کلمه گسترده میکند.
الگوی نواختی مدنظر در طراحی دادهها، H* L+H* و محل هجای تکیهبر در کلمۀ دوم مدنظر بوده است. پارامترهای اندازهگیریشده برای تحلیل و بررسی دادهها متمرکز بر فاصلۀ H اول تا اهداف نواختی مدنظر در L+H* است. دادهها بهطور کلی به دو صورت نرمافزاری و آماری تحلیل شدند. در بخش نرمافزاری فواصل اهداف نواختی اندازهگیری و در بخش آماری، آزمونهای تحلیل واریانس و تعقیبی و همچنین، محاسبۀ ضریب همبستگی و میانگین منحنی فرکانس پایه بین تمامی دادهها به تفکیک گروه انجام شد. نتایج تحلیلها برمبنای دادههای گردآوریشده بیانگر صحت فرضیۀ مبنی بر درونیابی آوایی بین اهداف نواختی است.
افت فرکانس پایه بین دو قلۀ H در زبانهای دیگر بررسی شده است. آروانیتی[6] و لد[7] (1995) در مقالهای، ترکیب نواختی و برهمنهادگی تکیههای زیروبمی پیشهسته را در زبان یونانی بررسی کردند. دادههای آزمایش براساس فاصلۀ دو تکیۀ زیروبمیِ هدف طراحی شدند طوری که این فاصله با افزودن هجاهای بدونِ تکیه بین این دو هدف نواختی بیشتر میشد. فرضیۀ مورد پژوهش، چگونگی افت فرکانس پایه در ابتدای تکیۀ زیروبمیِ دوم بود. چنین فرض شد که اگر این افت به علت نزول منحنی بین دو H* رخ دهد، عمق درۀ آن با افزایش تعداد هجاهای بدون تکیه میان دو تکیۀ زیروبمی، بیشتر میشود؛ و اگر این افت به علت حضور یک نواختِ L مشخص در یک تکیۀ زیروبمیِ دونواختی باشد، برهمنهادگی و مقدار این نواخت حتی با افزایش تعداد هجاهای بدون تکیه پایدار میماند. نتایج این پژوهش نشان داد بازنویسیِ تکیۀ زیروبمی پیشهسته در این زبان بهصورت L*+H است؛ زیرا نواخت L بهطور مشخص نتیجۀ نزول منحنی نیست و از لحاظ مقدار و برهمنهادگی از نواخت H پایدارتر است.
شکل1- فاصلۀ ابتدای هجای تکیهبر تا نواخت H در تکیۀ اول بهصورت تابعی از تعداد هجاهای بدون تکیه بین دو هجای تکیهبر در سه گویشور زبان یونانی(Cited in Arvaniti & Ladd, 1995).
Figure 1 – The distance of the H tone from the beginning of the first accented syllable as a function of the number of unaccented syllables between accents, for 3 Greek speakers (Cited in Arvaniti & Ladd, 1995).
در شکل (1) مشاهده میشود که فاصلۀ نواخت H از ابتدای هجای تکیهبر با افزایش تعداد هجاهای بدون تکیه بیشتر میشود. شیب این منحنی پس از رسیدن به هجای سوم و یا پیش از هجای ماقبلِپایانی کمتر میشود؛ اما بهطور کلی با افزایش تعداد هجاهای بدون تکیه بین این دو هدف نواختی تا مقدار سه هجا، نواختِ H از ابتدای هجای تکیۀ زیروبمی دورتر واقع میشود.
لد و شپمن[8] (2003) نیز در آزمایشهایی مشابه افت فرکانس پایه را میان دو تکیۀ زیروبمی بالا (H*) در زبان انگلیسی بررسی کردند. هدف آنان بررسی میزان فرورفتگی بین این دو تکیه و ارزیابی مدل ناحیۀ گذار بود که توسط پییرهامبرت[9] (1980) ارائه شده بود. سه آزمایش در این پژوهش انجام شد. اولین آزمایش مربوط به برهمنهادگیِ L بر شروع هجای تکیهبر بود. نتیجۀ این آزمایش نشان داد نقطۀ حداقلی فرکانس پایه با یک نواختِ پایینِ مشخص مطابقت دارد. در آزمایش دوم نشان داده شد که برهمنهادگیِ نقطۀ حداقلی، یک سرنخ ادراکی برای تشخیص عبارتهای مشابه توسط شنونده است. آزمایش سوم ادعای پیرهامبرت دربارۀ فرورفتگی بین دو تکیۀ زیروبمی بالا را به محک آزمون قرار داد. طبق گفتۀ پییرهامبرت، فرورفتگی بین این دو تکیه فاقد هدف نواختی پایین (L) است و این درّه با افزایش فاصله بین دو قلۀ فرورفتگی، عمیقتر میشود. در این آزمایش تعداد هجاها در فاصلۀ بین دو دو قلۀ زیروبمی از تعداد صفر تا سه هجا افزوده شده و نقطۀ حداقلی فرکانس پایه در این ناحیۀ گذار اندازهگیری گردید.
شکل 2 - دادههای زمانی دو گویشور زبان انگلیسی در آزمایش سوم که نشانگر طول فواصل بین دره و دو قلۀ زیروبمی است (Cited in Ladd & Schepman, 2003)
Figure 2 – The durational data for two English speakers in Experiment 3 demonstrating the distance between the valley and the two peaks (Cited in Ladd & Schepman, 2003)
همانطور که در شکل (2) مشاهده میشود، فاصلۀ زمانی بین L و H2 تغییر چندانی با افزایش تعداد هجا نمیکند که این نشانگر ثابت بودن محل وقوع L قبل از هجای تکیهبر است؛ اما فاصلۀ L از H1 با افزایش تعداد هجاها بهطور نظاممند افزایش مییابد. نتایج کلی این پژوهش نشان داد فرورفتگی ناحیۀ گذار بین دو قلۀ زیروبمی ناظر بر یک نواخت L مشخص است.
پژوهش حاضر در چارچوب نظریۀ خودواحد عروضی[10] انجام شده است. هدف اصلی این نظریه توصیف و تبیین تغییرات آواییِ پیوسته در منحنی زیروبمی گفتار است. لد (2008) این هدف کلی را به دو رسالت واجی و رسالت آوایی تقسیم کرده است. رسالت واجیِ این نظریه، ارائه تحلیلی کارآمد از تغییرات پیوستۀ زیروبمی براساس زنجیرهای از عناصر مقولهای و تمایزدهنده و رسالت آواییِ آن تبیین نحوۀ نگاشت عناصر ناپیوستۀ واجی به پارامترهای آکوستیکیِ پیوسته است.
H و L در این نظریه، دو عنصر واجی با ماهیت انتزاعی هستند و ماهیت آوایی ندارند. این دو عنصر ممکن است در شرایط مختلف به گونههای متفاوت ظاهرشوند. در جدول (1) بهطور خلاصه به انواع نواخت و محل آنها پرداخته شده است.
جدول 1 - انواع نواخت در نظریۀ خودواحد عروضی آهنگ
Table 1 – Different types of tones in Autosegmental Metrical Theory
منحنی زیروبمی در نظریۀ خودواحد عروضی شامل دو نوع ویژگی زیروبمی است. برخی ویژگیها محلی و در نقاط خاصی از منحنی هستند و برخی دیگر، بهصورت گسترۀ زیروبمی بین رویدادهای نواختی دیگر واقع شده و محدودۀ گذار هستند. از بین این دو، فقط رویدادهای نواختیِ محلی اهمیت زبانشناختی دارند و نوع دوم در این نظریه فاقد اهمیت است. مهمترین رویدادهای محلی ساخت نواختی گفتار، تکیۀ زیروبمی و نواختهای مرزی است. تکیۀ زیروبمی با هجاهای برجسته در ساخت زنجیرهای و نواختهای مرزی با مرز واحدهای نوایی منطبق هستند. با توجه به اینکه تکیۀ زیروبمی و نواختهای مرزی در نواحی نسبتاً مشخصی در زنجیرۀ گفتار رخ میدهند، به این رویدادها «اهداف نواختی»[11] گفته میشود. تمایز بین این دو رویداد تمایزی اساسی در انگارۀ خودواحد عروضی است (صادقی، 1397).
تکیههای زیروبمی برحسب جایگاهشان درگروه آهنگ به دو دستۀ «تکیۀ زیروبمی هسته»[12] و «تکیۀ زیروبمی پیشهسته»[13] تقسیم میشوند. در اغلب زبانها، آخرین تکیۀ زیروبمی گروه آهنگ، تکیۀ زیروبمی هسته و به تکیههای زیروبمی قبل از آن تکیۀ زیروبمی پیشهسته گفته میشود.
نشانۀ ستاره در نظریۀ خودواحد عروضی به مفهوم انطباق نواخت با هجای تکیهبرِ کلمه یا گروه تکیهای است. گروه تکیهای[14] در ساخت سلسلهمراتبی آهنگ گفتار از کلمه بزرگتر و از گروهِ آهنگ کوچکتر است و در آن یک تکیۀ زیروبمی وجود دارد که روی قویترین هجای گروه قرار میگیرد ( Beckman & Pierrehumbert, 1986)
وقوع تکیۀ زیروبمی L* روی یک کلمه به معنای آن است که هجای تکیهبر آن با نواخت پایین تولید شده و وقوع تکیه زیروبمی H* به معنی تولید هجای تکیهبرِ کلمه با نواخت بالاست. در تکیههای زیروبمی دونواختی، نواخت ستارهدار، با هجای تکیهبر کلمه انطباق دارد و نواخت بدون ستاره با فاصله کمی قبل و یا بعد آن ظاهر میشود (صادقی، 1397).
تفاوت تکیۀ تک نواختیH* و تکیۀ دونواختیِ L*+H در محل قله و درۀ فرکانس پایه است. در H* قلۀ فرکانس پایه روی هجای تکیهبر است. در L*+H درۀ فرکانس پایه روی هجای تکیهبر قرار دارد و قله کمی بعد از این هجا قرار دارد. لد (1983) و گوسنهافن[15] (1984) تمایز بین این دو تکیه را صرفا آواشناختی و غیرمقولهای بیان کردهاند. یعنی قلۀ H تکیۀ تکنواختیِ H* منطبق بر هجای تکیهبر و وقوعِ بههنگام دارد ولی قلۀ H تکیه دونواختی L*+H بعد از هجای تکیهبر قرار دارد و وقوعِ دیرهنگام دارد. بنابراین L*+H گونه ای ازهمان الگوی نواختی H* است. در تکیه دونواختیِ L+H* نقطۀ شروع خیز، هجای قبل از هجای تکیهبر و محل پایان آن، ناحیهای از هجای تکیهبر است. در حالی که در L*+H، شروع خیز از هجای تکیهبر و در ناحیهای از هجای بدون تکیه بعد پایان مییابد.
1-3. ساخت آهنگ گفتار فارسی
ساداتتهرانی (2007 & 2009) ساخت آهنگ فارسی را متشکل از دو سطح نوایی گروه تکیهای[16](AP) و گروه آهنگی[17](IP) تعریف میکند. گروه تکیهای از یک کلمۀ محتوایی و واژهبستهای وابسته به آن تشکیل میشود و گروه آهنگی از یک یا چند گروه تکیهای در ترکیب با هم شکل میگیرد. تکیۀ زیروبمی در زبان فارسی بهصورت تکیۀ دونواختی L+H* تعریف شده است (Mahjani, 2003; Sadat-Tehrani, 2009). این تکیه ترکیبِ متوالی یک نواخت پایین(L) و یک نواخت بالا (H) است که هردو با هم با هجای تکیهبر کلمه انطباق دارد. تکیه دونواختی L+H* در بازنویسی ساخت نواختی کلمات چندهجایی با تکیۀ غیرآغازی استفاده میشود. در کلمات یکهجایی یا چندهجایی با تکیۀ آغازی، L+H* بهصورت تکیۀ تکنواختی H* ظاهر میشود؛ زیرا فضای کافی برای تظاهر آوایی نواخت L وجود ندارد. اسلامی (1384) معتقد است تکیۀ زیروبمی در زبان فارسی هم بهصورت بسیط L*، H* و هم بهصورت مرکب L+H*، L*+H بازنویسی و توصیف میشود.
گروهِ آهنگ دارای یکی از نواختهای مرزی L% یا H% است. L% در پایان جملات خبری و امری و H% در پایان جملات پرسشی ظاهر میشود. در هر گروه تکیهای یک نواخت کناری بهصورت L- یا H- ظاهر میشود که بین محل وقوع تکیۀ زیروبمی و مرز پایانی گروه قرار دارد (اسلامی، 1384؛ Sadat-Tehrani, 2009). اگر پایان تکیۀ زیروبمی منطبق بر پایان گروه باشد، نواخت کناری روی هجای تکیهبر قرار میگیرد. اگر بین محل وقوع تکیۀ زیروبمی و پایان گروه تکیهای به دلیل وجود واژهبست، یک یا چند هجا وجود داشته باشد، نواخت کناری روی تمام هجاهای بدون تکیه بعد از هجای تکیهبر تا پایان گروه تکیهای گسترده میشود (Sadat-Tehrani, 2009).
ساداتتهرانی (2009) علت وجود نواخت کناری در ساخت آهنگ گفتار فارسی را تفاوت بین نواخت کناریِ گروه تکیهای هسته و پیشهسته میداند. نواخت کناری گروه تکیهای هسته در جملات سادۀ بینشان L- و نواخت کناری گروه تکیهای پیشهسته بهصورت H- است. بنابراین، تفاوت بین گروه تکیهای هسته با گروه تکیهای پیش هسته، نوع نواخت کناری گروه تکیهای است. وی ترادف اهداف نواختی H و L در تکیههای زیروبمی دونواختی L+H* در زبان فارسی را در جایگاههای نوایی پیشهسته، هسته و کانونی بررسی کرده است و نشان میدهد که نقاط گذار L در تمامی گروههای تکیهای بهطور نظاممند مترادف با آغاز هجای تکیهبر است؛ ولی محل ترادف نقاط گذار H بسته به نوع تکیۀ زیروبمی تغییر میکند، بدین معنی که وقوع قلهها در تکیههای زیروبمی پیش هسته نسبت به تکیۀ زیروبمیِ هسته یا کانونی دیرهنگامتر است. البته در ادامه بیان کرده است که نقاط پایانیِ خیز در تمام گروهها صرفنظر از نوع تکیۀ زیروبمی، در هجای بعد از هجای تکیهبر واقع میشود و این به معنای وقوع دیرهنگام قله و یا دیرکرد قلۀ هجا در زبان فارسی است. در تکیههای زیروبمی هسته یا کانونی، H با همخوان آغازیِ هجای بعد از هجای تکیهبر مترادف است؛ ولی در تکیۀ زیروبمی پیشهسته با آغاز واکۀ این هجا مترادف است. ساداتتهرانی (2009:14) ایین تفاوت را به نواختهای مرزی متفاوتِ این تکیهها نسبت داده است.
صادقی (1397) طی پژوهشهایی نشان داده است که هر دو نواخت تکیۀ زیروبمیِ پیشهسته در زبان فارسی با نواحیِ مشخص در ساخت زنجیرهایِ گفتار انطباق پایدار دارد. L بهطور منظم همیشه روی آغازۀ هجای تکیهبر و H همیشه در مرز آغازی واکه بعد از هجای تکیهبر قرار دارد. نتایج مشاهدات صادقی، فرضیۀ اتصال زنجیرهای را اثبات کرده است و نشان داد که دیرش و شیب تغییرات زیروبمی در زبان فارسی ثابت نیست و به نسبت فاصلۀ زمانی بین نقاط انطباق زنجیرهای تغییر میکند. صادقی (1397) مطابق این فرض که اطلاق نشانۀ ستاره به یک نواخت صرفاً به معنی انطباق آن نواخت با زنجیرۀ آواییِ هجای تکیهبر است، تکیۀ زیروبمی پیشهستۀ فارسی را بهصورت L*+H بازنویسی کرده است. طبق این بازنویسی نواختی، نواخت L همواره روی هجای تکیهبر واقع شده است و H همواره با تأخیر روی هجای بعد از هجای تکیهبر واقع میشود.
۴. روش اجرای پژوهش
دادههای نواییِ مدنظر این پژوهش، عبارتهایی هستند که توالی دو تکیه زیروبمی بهصورت H* L+H* (یک نواخت H* و یک گروه زیروبمیِ دونواختیِ L+H*) را شامل میشوند. دو احتمال برای ناحیۀ گذار از H* اول تا H* دوم فرض شده است. در فرضیۀ اول، قاعدۀ درونیابی آوایی پیشبینی شده است که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی شده است. در فرضیۀ دوم، قاعدۀ گسترش اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول میکند؛ زیرا نواخت L تکیۀ زیروبمی دوم تا ابتدای کلمه خود را گسترده میکند. الگوی تغییرات فرکانس پایه براساس این دو فرضیه در شکل (3) ارائه شده است.
شکل ۳ - دو قاعدۀ مدنظر فرضیات پژوهش
Figure 3 – Phonological rules underlying the research hypotheses
1-4. دادههای پژوهش و شرکتکنندگان
دادههای این پژوهش شامل 45 عبارت دوکلمهای است. هر داده از یک پارهگفتار متشکل از دو کلمۀ پشتسرهم تشکیل شده است که با پیبستِ کسرۀ اضافه به هم متصل میشوند. تمامی دادهها براساس واکدار بودن همخوانها در محل حضور محل هجای تکیهبر و اهداف نواختی در پارهگفتار طراحی شدهاند. این پارهگفتارهای دوکلمهای براساس محل هجای تکیهبر در کلمۀ دوم به سه گروه تقسیم شدهاند. مدنظر بود که همخوانها در دو هجای آخر کلمۀ اول و در تمام همخوانهای کلمۀ دوم واکدار باشند. در گروه اول تکیه روی هجای اول کلمۀ دوم قرار دارد، در این حالت کلمۀ دوم یا بهصورت یک کلمۀ یکهجایی و یا یک ساختار پیبستیِ دوهجایی است. در گروه دوم، تکیه روی هجای دوم کلمۀ دوم قرار دارد و در گروه سوم تکیه روی هجای سوم کلمۀ دوم قرار دارد. تمامی سه گروه داده در پایان پژوهش حاضر پیوست شدهاند. یک نمونه از هر گروه داده در ادامه آورده شده است.
(1) آبِ رود گلآلود بود.
(1) [ʔɑ.be rud] ɟelɑlud bud
کلمۀ دوم کلمۀ اول
(2) زیرِ نورِ چراغ بهتر معلوم بود.
(2) [zi.re nu.re] tʃerɑɢ behtar maʔlum bud
کلمۀ دوم کلمۀ اول
(3) چند ماه پیش در مضیقۀ مالی بودند.
(3) tʃand mɑh piʃ dar [maziɢe.je mɑ.li] budand
کلمۀ دوم کلمۀ اول
(4) از محلۀ قدیمی رفته بودند.
(4) ʔaz [mahal.le.je ɢa.di.mi] rafte budand
کلمۀ دوم کلمۀ اول
تعداد 30 نفر شرکتکننده (15 زن و 15 مرد) در این پژوهش از بین رده سنی 30-70 سال انتخاب شدند. تمام این افراد گویشور بومیِ زبان فارسی معیار و دارای تحصیلات دانشگاهی بودند. عباراتی که در مرحله اول طراحی شده بود داخل جملات خبری مناسب قرار داده شدند تا گویشور بهطور طبیعی و بدون تأکید بر روی کلمات خاصی آنها را بخواند. جملات سه گروه داده بهطور تصادفی و نامنظم و بدون اطلاع شرکتکنندگان از نوع و یا تفاوت آنها بر روی کاغذ به آنها ارائه شد. به شرکتکنندگان توضیح داده شد که این جملات صرفاً خبری هستند و بهصورت پرسشی یا تعجبی خوانده نمیشوند. همچنین، به آنان چند دقیقه فرصت داده شد تا جملات را مطالعه کنند که در صورت نیاز دربارۀ کلماتی که شاید برایشان نامفهوم باشد، سؤال بپرسند. به گویشوران توضیحات کامل دربارۀ نحوۀ ضبط دادهها ارائه شد. علامت مکث کردن، علامت خواندنِ دادۀ بعدی و علامت تکرارِ مجدد داده در صورت خطای کلامی و یا نوفه ناگهانی از فضای بیرون برای آنها شرح داده شد. دادهها برای هر گویشور در سه قسمت ضبط شدند. هر 15 داده در یک پروندۀ صوتی با فاصلۀ زمانیِ مکث 5 ثانیهای بین هر داده ضبط شد که با حرکت دست به گویشور برای مکث کردن و یا خواندنِ داده بعدی علامت داده میشد. هر جا گویشور دچار اشتباه کلامی و یا مکث طولانی در میان عبارتِ مدنظر میشد، مجدداً پس از 5 ثانیه مکث، آن داده را تکرار میکرد. در پایان، پژوهشگر یکبار پروندههای صوتی را برای هر گونه خطای احتمالی بررسی کرد تا در صورت نیاز بهصورت جداگانه دادهها مجدداً ضبط شوند.
2-4. روش اندازهگیری و تحلیل دادهها
برای تحلیل دادهها از نرمافزار پرات نسخۀ 16/1/6 (Boersma & Weenink, 2020) استفاده شد. اندازهگیری فواصل مدنظر بهصورت دستی بر روی منحنی فرکانس پایه به کمک شکلِ موج[18] و طیفنگاشت[19] برای یافتن دقیقتر اهداف نواختی انجام شد. مرزهای فواصل در چهار لایۀ فاصلهای[20] زیر تعیین شدند:
1) A: فاصلۀ نواخت H در کلمۀ اول تا نواخت L در کلمۀ دوم
2) B: فاصلۀ نواخت H در کلمۀ اول تا مرکز هجای تکیهبر کلمۀ دوم
3) C: فاصلۀ نواخت H در کلمۀ اول تا اول کلمۀ دوم
4) D: فاصلۀ اول کلمۀ دوم تا مرکز هجای تکیهبر کلمۀ دوم
یک لایۀ نقطهای[21] نیز در لایۀ پنجمِ تحلیل تعریف شد که نشانگر مرزهای لایۀ اول یعنی H و L است.
پس از برچسبدهی و تعیین همۀ فواصل مدنظر در برنامۀ پرات، به کمک برنامۀ ProsodyPro نسخه 6/8/7/5، (Xu, 2013) فواصلِ تعیینشده در هر لایه اندازهگیری شدند و مقادیر آنها در سه پروندۀ اکسل طبق گروه دادههای مدنظر طبقهبندی شدند. در شکل (4) یک نمونه از برچسبدهی لایهای دادهها مشاهده میشود.
شکل ۴ - برچسبدهی لایهای پارهگفتار «بینظمیِ مداوم» از گروه سوم دادهها
Figure 4 – Annotaion of the utterance “binazmi.je mo.dɑ.vem” from the third group of data
شکل (5) میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم را به تفکیک هر گروه نشان میدهد. همان طور که مشاهده میشود، میانگین میزان این فاصله در دادههای گروهِ اول در بازۀ حدودی صفر تا یکدهم ثانیه قرار دارد و در گروه دوم و سوم به ترتیب بین بازۀ حدودی دودهم ثانیه تا سهدهم ثانیه و سهدهم ثانیه تا چهاردهم ثانیه قرار دارد. این تفاوت بینِ میانگینها، نشاندهندۀ تغییراتِ این فاصله به نسبت محل وقوعِ تکیۀ زیروبمی است. این نسبت در تغییرات، به افت تدریجی فرکانس پایه تا ابتدای هجای تکیهبر اشاره دارد؛ زیرا در غیر این صورت، L در هر سه گروه تا ابتدای کلمۀ دوم گسترده شده است و این فاصلۀ زمانی با تفاوت معنادار میان گروههای مختلف همراه نمیشد.
شکل 5- میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم در فواصل هجایی مختلف در سطح تمامیِ دادهها
Figure 5 – The mean distance in time between H (the first peak) and L (the valley) across all data and speakers
همان طور که در شکل بالا مشاهده میشود، تعدادی از دادهها در محدودۀ میانگین گروه خود نیستند. علت این امر آن است که علیرغم اینکه تلاش شده بود دادههایی انتخاب شود که از زنجیرۀ آواهای واکدار تشکیل شده باشند، با این حال در برخی دادهها منحنی فرکانس پایه در محل منطبق با همخوانهای گرفتۀ واکدار دچار پارگی شده بود، طوری که کار اندازه گیری فواصل زمانی را با مشکل مواجه میساخت. بنابراین، برای این دادهها گاهاً اندازهگیریها با در نظر گرفتن تقریبیِ محل وقوع نواختها انجام شده است.
برای بررسی سطح معناداری تفاوتها، آزمون تحلیل واریانس (آنوا[22]) بر روی میزان فاصلۀ H در کلمۀ اول تا L در کلمۀ دوم در سه گروه دادههای پژوهش انجام شد. در این آزمون، محل وقوع تکیۀ زیروبمی (عامل تفکیک گروهها از یکدیگر) بهعنوان عامل مستقل و HtoL بهعنوان متغیر وابسته انتخاب شدند. نتایج آزمون تحلیل واریانس (جدول 3) نشان داد فاصلۀ زمانی H در کلمۀ اول تا L در کلمۀ دوم در گروههای مختلف با یکدیگر تفاوت معنادار دارد.
جدول2 - نتایج آزمون تحلیل واریانس در محاسبۀ سطحِ معناداری فاصلۀ زمانی H در کلمۀ اول تا L در کلمۀ دوم در تمامی دادههای آزمایش
Table 2 – Results of ANOVA analysis for calculating the significance level of the distance in time between H (the first peak) and L (the valley) across all data and speakers
پس از محاسبۀ کلیِ مقدارِ معناداری، آزمونهای تعقیبی نیز بر روی دادهها انجام شد تا با مقایسههای دوبهدو، مقدارِ معناداری میان گروهها نیز بهدست آید.
جدول 3 - نتایج آزمون تعقیبی بر روی دادههای پژوهش به صورت دوبهدو در میان هر سه گروه
Table 3 – Results of post-hoc pairwise tests between each group of data
طبق نتایج آزمونهای تعقیبی که در جدول (3) ارائه شده است، مقدارِ معناداری بین همۀ گروهها بهصورت دوبهدو معادل «00/0» است که به معنی معنادار بودن اختلاف این فاصلۀ زمانی بین تمام گروههای دادههای آزمایش است.
سپس در گامی دیگر، ضریبِ همبستگی[23] بین فاصلۀ زمانیِ HtoL و فاصلۀ زمانیِ HtoSP در هر سه گروه اندازهگیری شد. بهطور کلی نتایج آزمون همبستگی پیرسون نشان داد ارتباطی مستقیم و قوی بین فاصلۀ زمانیِ H در کلمۀ اول تا L در کلمۀ دوم و فاصلۀ زمانیِ H در کلمۀ اول تا مرکز هجای تکیهبر در کلمۀ دوم در هر سه گروه از دادهها وجود دارد (شکل 6). به بیان دیگر، تغییراتِ میزان فاصلۀ تکیۀ زیروبمی در کلمۀ دوم از H در کلمۀ اول، مشابهِ تغییراتِ میزان فاصلۀ L در کلمۀ دوم از H در کلمۀ اول است. طبق مشاهدات و اندازهگیریهای انجامشده، محل وقوع L در اکثر مواقع قبل از شروع هجای تکیهبر قرار دارد. بر این اساس، با دور شدن هجای تکیهبر از H در کلمۀ اول، L نیز از آن دور میشود. این یافته، فرضیۀ اول پژوهش را که مبتنی بر درونیابی آوایی بین این دو هدفِ نواختی است، تأیید میکند؛ زیرا طبق این فرضیه در صورت گسترش L تا ابتدای کلمۀ دوم، محل وقوع آن به صورت یک فلات[24] پایینِ گسترده صورت میگیرد و فاصلۀ H تا L بهطور یکسان برابر با فاصلۀ H تا ابتدای کلمۀ دوم است.
شکل 6 – نمودار رگرسیون فاصلۀ H در کلمۀ اول تا L در کلمۀ دوم (HtoL) بهصورت تابعی از فاصلۀ H در کلمۀ اول تا مرکز هجای تکیهبر در کلمۀ دوم (HtoSP) در تمامی دادههای آزمایش به تفکیک گروه
Figure 6 – The regression of the distance in time between H (the first peak) and L (the valley) as a function of the distance in time between H (the first peak) and the middle of the accented syllable in each group of data
سپس، در گام پایانی برای بررسی الگوی کلی تغییرات زیروبمی در جملات آزمایش، منحنی میانگینِ فرکانس پایه در گروههای جداگانه به کمک نرمافزار ProsodyPro محاسبه شد.[25] این نرمافزار منحنی میانگینِ فرکانس پایه را با استخراج مقادیر F0 از ده نقطه با فواصل منظم در هر پارهگفتار محاسبه میکند.
شکل 7 - میانگین منحنیِ فرکانس پایه به تفکیک گروه در سطحِ تمامیِ دادهها
Figure 7 – The normalized pitch contour in each group of data
همان طور که در شکل (7) مشاهده میشود، منحنیِ فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم افتی تدریجی دارد تا به محل نواخت L برسد. در دادههای گروه اول که در آن تکیه بر روی هجای اول کلمات قرار دارد، F0 افتی نسبتاً تند دارد؛ یعنی با شیبی نسبتاً تند از قلۀ H تکیۀ زیروبمی اول به نواخت L کلمه دوم درونیابی شده است. در گروه دوم، که در آن تکیه بر روی هجای قبل پایانی قرار دارد، افت منحنی فرکانس پایه شیب کندتری دارد و بالأخره اینکه در گروه سوم که در آن تکیه بر روی هجای پایانی کلمات قرار دارد، فرکانس پایه با شیبی بسیار ملایم از قله H کلمه اول به نواخت L کلمه دوم درونیابی شده است.
6- بحث و نتیجهگیری
نتایج بهدستآمده بهطور کلی به تأیید فرضیۀ اول پژوهش اشاره دارد. در این فرضیه، افت فرکانس پایه، تدریجی پیشبینی شده است که براساس قاعدۀ درونیابی آوایی رخ میدهد. نتایج بهدستآمده نشان داد فاصلۀ زمانی بین قلۀ H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) در گروه اول کمتر از گروه دوم و در گروه دوم کمتر از گروه سوم است. به بیان دیگر، هرقدر تکیه نسبت به آغاز کلمه (کلمه دوم) دورتر باشد، به همان اندازه فاصله زمانی HtoL بیشتر میشود. نتایج آزمون تحلیل واریانس نشان داد فاصلۀ زمانی HtoL برای هر سه گروه با یکدیگر اختلاف معنادار دارد. در محاسبۀ ضریب همبستگی بین فاصلۀ قلۀ اول تا L بین دو قلۀ زیروبمی (HtoL) و فاصلۀ قلۀ اول تا مرکز هجای تکیهبر کلمۀ دوم (HtoSP) مشاهده شد که بین مقادیر این دو فاصله ارتباط مستقیم وجود دارد. یعنی با افزایش فاصلۀ HtoL به فاصلۀ HtoSP نیز بیشتر میشود.
همچنین، در بررسی و مقایسه منحنی میانگین فرکانس پایه در سه گروه هدف آزمایش مشاهده کردیم که شیب افت فرکانس پایه از قله H تکیه زیروبمی اول به نواخت L کلمه دوم در گروههای مختلف با یکدیگر تفاوت درخورتوجهی دارد به این صورت که هر قدر محل تکیه (یا محل وقوع تکیه زیروبمی) از آغاز کلمه دورتر میشود، شیب افت فرکانس پایه کندتر میشود.
در مجموع شواهد بهدستآمده از تحلیل دادهها، فرضیۀ اول پژوهش، یعنی فرضیه درونیابی آوایی، را تأیید میکند. گفتیم که بر مبنای قاعدۀ درونیابی آوایی، قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی میشود. بر مبنای این فرضیه، نواخت L تکیۀ زیروبمی دوم که بر روی هجای تکیهبر این کلمه واقع میشود، محل فرود منحنی نزولی فرکانس پایه از قلۀ H تکیه زیروبمی اول است. یعنی دو نواخت H از کلمه اول و L از کلمه دوم با استفاده از یک خط گذار نزولی به یکدیگر درونیابی میشوند. به این ترتیب، شیب تغییرات F0 بین دو نواخت با توجه به فاصله بین قله H تکیه زیروبمی اول و نواخت L کلمه دوم متفاوت است. تمامی آزمونهای این پژوهش، با تأیید فرضیه درونیابی آوایی، نشان میدهد نواختِ L با ابتدای هجای تکیهبر ترادف دارد و در نتیجه گذار نزولی F0 بین قله زیروبمی کلمه اول و دره زیروبمی کلمه دوم شیبی دارد که مقدار تندی آن بسته به محل وقوع تکیه (و یا محل وقوع نواخت L) در سطح کلمه متفاوت است.
در مقابل، یافتههای این پژوهش فرضیۀ دوم یعنی قاعدۀ گسترش نواخت را تأیید نمیکند. گفتیم که بر مبنای این فرضیه انتظار داریم فاصلۀ HtoL با افزایش تعداد هجاها در گروههای تکیهای مختلف بدون تغییر باقی بماند و بین دو متغیر زمانی فاصلۀ HtoL و فاصلۀ HtoW (فاصلۀ قلۀ اول تا ابتدای کلمۀ دوم) همبستگی بالایی وجود داشته باشد؛ زیرا این فرضیه ادعا میکند که نواخت L همواره در ابتدای کلمۀ دوم واقع میشود. این در حالی است که نتایج آزمونهای آماری نشان داد فاصله زمانی HtoL در گروههای تکیهای مختلف بسته به محل وقوع تکیه در کلمه دوم بهطور معناداری با یکدیگر متفاوت است. همچنین، تحلیلهای رگرسیون نشان داد رابطۀ دو پارامتر زمانی HtoL با HtoW در گروههای تکیهای مختلف همبستگی ضعیفی دارد.
بهطور کلی، نتایج این پژوهش دربارۀ رفتار فرکانسی فاصلۀ زمانی بین قله H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) با نظریۀ خودواحد عروضی آهنگ مطابقت دارد. این نظریه منحنی آهنگ را بهصورت توالی از اهداف نواختی L و H (یعنی نقاط گسستۀ بالا و پایین) توصیف میکند که سطح ارتفاع و انطباق آنها با ساخت زنجیری کاملاً پیشبینیپذیر است. ایدۀ اصلی در مدل خودواحد عروضی این است که تمامی هجاها در سطح آهنگ پارهگفتار از نظر ویژگی زیروبمی مشخصهدهی نمیشوند. اهداف نواختی در منحنی آهنگ یک پارهگفتار با فاصله بر روی نقاط زبانشناختی مشخصی در ساخت زنجیری تظاهر مییابند و فاصله بین هر دو هدف با استفاده از یک خط پیوندی (که لزوماً صاف یا مستقیم نیست) به یکدیگر متصل میشود. بر این اساس، تعداد اهداف نواختی با تعداد هجاها برابر نیست، بلکه به طرز معناداری از آن کمتر است. یعنی اغلب هجاها در سطح واجی مشخصدهی نمیشوند، بلکه ویژگی زیروبمی خود را از مختصات خطوط پیوندی بین اهداف به دست میآورند.
صادقی (1397) طی پژوهشی تطابق این نظریه با زبان فارسی را بررسی کرده است که نتایج آن نشان داد حضور درۀ فرکانس پایه بین دو تکیۀ زیروبمی ناشی از یک نواخت مشخص L است. بدین معنی که ترادف و سطح ارتفاع دره صرفنظر از فاصلۀ زمانی بین قلهها ثابت و پایدار است. همچنین، درۀ فرکانس پایه همواره به شکل منظم و پایدار با آغاز هجای تکیهبر ترادف دارد. در پژوهش حاضر نیز نتایج مبنی بر همین امر است و این نشانگر قابلیت مدلسازی منحنی فرکانس پایه در آهنگ گفتار فارسی بهصورت تعدادی هدف نواختی طبق این نظریه است.
از یافتههای این پژوهش میتوان در زمینۀ بازسازی مصنوعی گفتار در بخش تحلیل متنی و آوایی سیستمهای تبدیل متن به گفتار نیز استفاده کرد. پیشبینیِ دقیقتر شکلِ محلی جابهجاییهای منحنی فرکانس پایه در ساخت نوایی نمادین با استفاده از نتایج بهدستآمده منجر به بازسازی گفتار به طور طبیعیتر میشود که در نهایت، بهبود عملکرد سیستمهای تبدیل متن به گفتار را شامل میشود.
[1] tone unit
[2] duration
[3] intensity
[4] phonetic interpolation
[5] tone spreading
[6] A. Arvaniti
[7] D. R. Ladd
[8] A. Schepman
[9] J. B. Pierrehumbert
[10] Autosegmental Metrical Theory
[11] tonal targets
[12] nuclear pitch accent
[13] pre-nuclear pitch accent
[14] accentual phrase
[15] C. Gussenhoven
[16] Accentual Phrase
[17] Intonational Phrase
[18] waveform
[19] spectrogram
[20] interval tier
[21] point tier
[22] ANOVA
[23] مقادیر ضریب همبستگی پیرسون بین مقادیر 5/0 تا 1 (رابطۀ مستقیم) و یا 5/0- تا 1- (رابطۀ معکوس) رابطهای متوسط تا قوی را بین این پارامترها نشان میدهد.
[24] plateau
[25] تعدادی از فواصل زمانی در دادههای هر گروه برای ProsodyPro قابل اندازهگیری نبود. این دادهها از این مرحلۀ تحلیل حذف شدهاند. علت آن عدم امکان محاسبۀ دستیِ نقاطِ موردنظر روی منحنی فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم است.