Phonetics and phonology of the F0 valley in Persian intonation

Document Type : Research Paper

Authors

1 Linguistics department, Faculty of Literature and Human sciences, Tehran University, Tehran ,Iran

2 English and Linguistics Department, Imam Khomeini International University, Qazvin, Iran

3 University of Tehran, Tehran, Iran

Abstract

Abstract
This research aims to improve speech synthesis in Persian and investigate the pitch contour fall between two H* peaks carried out in the framework of the Autosegmental Metrical (AM) theory of intonational phonology. In this paper, we tested two main hypotheses. Firstly, the F0 falls through phonetic interpolation and, secondly, it involves tone spreading. The present paper argues that the first hypothesis is proven to be correct. The data for the present research includes 45 enclitic phrases that were produced using voiced consonants between the two peaks. It means that in the course of producing each phrase, it was taken into consideration that all of the consonants placed between the two peaks would be deliberately and certainly voiced. This is mainly because if the consonants were not voiced, the data analysis results would be affected in Praat. It has to be noted that the distance between the two H* was increased by adding zero to two unstressed syllables. Totally, we recorded 1350 utterances from 30 native Persian speakers. We employed Praat software so as to analyse the utterances. Besides, we utilized SPSS for further analysis. The results of acoustic and statistical analyses showed that the distance between the first peak and the following F0 valley is increased with the addition of the unstressed syllables, demonstrating the alignment of this valley with the beginning of the stressed syllable. Results of statistical analyses revealed that the distance between the H and the following L target is increased significantly with the addition of the unstressed syllables. Furthermore, the normalized pitch contour was computed for all data. This indicates that the fall of the pitch contour between the two H peaks is realized through phonetic interpolation.
Keywords: Speech Synthesis, Phonetic Interpolation, Tone Spreading, Autosegmental Metrical theory (AM), Pitch Accent
 
Introduction
Text-to-speech technology can be used in many different ways such as allowing blind or visually impaired people to read texts. It also assists people with speech impairments to establish verbal communication and/or receive information from a text through listening. Speech intonation and the prosodic structure play a pivotal role in the process of synthetic speech production. The aim of this research is to investigate the pattern of the F0 declination between the H* and L+H* tonal targets in the Persian language. Being systematic, this declination is possible to predict F0 in the same tonal environments and use these predictions in the process of synthetic speech production of Persian phrases.
The current research is carried out employing Autosegmental Metrical (AM) theory of intonational phonology. According to Autosegmental Metrical theory, H and L tones are regarded as abstract phonological elements. The occurrence of a L* pitch accent in a word stands for the fact that its stressed syllable is produced with a low tone and the occurrence of a H* pitch accent means that a stressed syllable with a high tone is produced. In bitonal pitch accents, the starred tone is aligned with the stressed syllable and the un-starred tone appears immediately before or after the starred one (Sadeghi, 2018). The difference between the monotonal H* accent and the bitonal L*+H accent can be shown in terms of the placement of the F0 peak and valley. In the H* accent, the F0 peak is placed on the stressed syllable. In the L*+H accent, the F0 valley is placed on the stressed syllable and the F0 peak occurs slightly after it. The pitch accent in Persian is defined as a bitonal L+H* pitch accent (Mahjani, 2003; Sadat-Tehrani, 2009). This is the consecutive combination of low and high tones. It is to note that both are aligned with the stressed syllable.
This research seeks to determine the type of the F0 declination, which can happen gradually or sharply. The gradual fall of F0 is due to phonetic interpolation. This is while the sudden and sharp decline in F0 is because of tone spreading. Given these considerations, two main hypotheses of this research run as follows: Firstly, the first H peak is interpolated to the L target. Secondly, the first H falls until the beginning of the second word in the phrase since the L in the second pitch accent spreads itself to the begnning of the second word.
 
Materials and Methods
The data for this research comes from phrases that are featured with two pitch accents (H* L+H*). Thus, 45 enclitic phrases were produced based on this pattern, using voiced consonants between the two peaks, and the distance between the two H* was increased by adding zero to two unstressed syllables. In order to collect these utterances, thirty native Persian speakers, including 15 male and 15 female speakers, took part in our project. Below are examples of each group of data:
(a) [ʔɑ.be rud] ɟelɑlud bud
    1st word   2nd word  
(b) tʃand mɑh piʃ dar [maziɢe.je mɑ.li] budand
                                       1st word        2nd word      
(c) ʔaz [mahal.le.je ɢa.di.mi] rafte budand
                    1st word        2nd word      
 
We employed Praat and ProsodyPro software for analysing so as to calculate the distances between the tonal targets. Using SPSS, we carried out other tests with the obtained data in the previous step. These tests included ANOVA and post-hoc tests and the correlation between each group of data.
According to the data analysis, the L tone is commonly placed before the beginning of the stressed syllable. That is to say, the more the distance between the H tone in the first word and the stressed syllable, the more the L tone’s distance becomes. This finding supports the first hypothesis pointing to the phonetic interpolation between the two tonal targets. In order to inspect the overall changes in the pitch contour, the normalized pitch contour was also computed for all the research data.
 
Discussion of Results and Conclusions
The results of analysing data confirm the validity of the phonetic interpolation hypothesis, according to which the L tone, being placed on the stressed syllable of the word, is where the F0 downtrend from the first H tone ends. To put it differently, the H tone in the first word and the L tone in the second word are interpolated to each other through a steady fall. Therefore, the F0 slope is distinct from the two tones. This distinction depends on the distance between the first H and the L tone. All the conducted tests in this research indicate that the L tone is aligned with the beginning of the stressed syllable, confirming that the F0 fall is realized through phonetic interpolation. As a result of the F0 fall between the first peak and the valley, the pitch contour’s slope depends on the placement of the stressed syllable or the L tone.
The findings of this research can be used for synthetic speech production in Persian and in the prosodic pattern determination step of the text-to-speech systems. Predicting the precise changes in the F0 in the produced prosodic structure will result in a more natural production of the synthetic speech which will, in turn, enhance the functionality of the text-to-speech systems.

Keywords

Main Subjects


  1. مقدمه

فناوری تبدیل متن به گفتار می­تواند در زمینه­های متعددی مانند خواندن متون مختلف توسط افراد نابینا و کم­بینا، برقراری ارتباط کلامی توسط افراد با ناتوانی گفتاری و یا دریافت اطلاعات از یک متن از طریق شنیداری (کتاب یا متنِ گویا) راه­گشا باشد. آهنگ گفتار و ساخت نوایی در فرایند بازسازیِ گفتار مصنوعی نقش بسزایی را ایفا می­کنند. در بازسازی­کننده­های گفتاری کافی است که بازسازی‌کننده بتواند واحدهای نوایی[1] اصلی شامل زیروبمی، دیرش[2] و شدت[3] را تغییر بدهد تا با ترکیب آن با قواعد مربوط به آن زبان، بتوان مابقی واحدهای نوایی گفته­شده را به­دست آورد (همایون­پور، 1390). فرکانس پایۀ گفتار از اهمیت بسیاری در پردازش خودکار سیگنال گفتار برخوردار است. اطلاعات نوایی زیروبمی گفتار عمدتاً توسط این پارامتر مشخص می­شوند.

سیستم تبدیل متن به گفتار شامل سه بخش است که یکی از آن، مرحلۀ تحلیل متنی و آوایی است. در این مرحله، بخش مرتبط با نوای گفتار در خروجی­ها مدنظر است. جایگاه­های تکیه و سایر اطلاعات لازم برای انجام تحلیل­های نوایی و تعیین الگوهای شدت و زیروبمی، تکیه و آهنگِ جملات از نتایج حاصل از این بخش است. پیش­بینی نوع نوای گفتار، به علت عدم وضوح اطلاعات معنایی و ساختاری گفتار در ورودی­های سیستم­های متن به گفتار، مشکل است. درک نوای مناسب حتی با وجودِ این نوع از اطلاعات با مشکل مواجه است و علت آن عدمِ وجود تحقیقات کافی در زمینۀ تعاملِ بین مشخصه­های نوایی و همچنین تحت تاثیرِ عوامل ادراکی و متنی بودنِ تبدیل مقوله­های زبانی به پارامترهای آوایی و نوایی است. تعریف پارامترهای مناسب در یک فضای نواختیِ پیش­بینی شده لازمۀ تولید صحیح گفتارِ بازسازی­شده است. یکی از این پارامترها، جا­به­جایی­های محلی نقاطی خاص بر روی منحنی فرکانس پایه در ساخت نوایی نمادین است که در پژوهش حاضر به آن پرداخته شده است.

تمرکز این پژوهش بر روی بررسی قاعده­مند بودن افت فرکانس پایه در حدفاصل اهداف نواختی H* و L+H* در پاره­گفتارهای زبان فارسی است. در صورت قاعده­مند بودن این افت، می­توان فرکانس پایه را در فضاهای مشابه نواختی به­طور دقیق­تری پیش­بینی کرد و از آن در فرایند تولید پاره­گفتارهای مصنوعی در زبان فارسی استفاده کرد.

پرسش اصلیِ این پژوهش تشخیص نوعِ افتِ منحنیِ فرکانس پایه است که می­تواند به دو صورت تدریجی و یا با شیب تندتر انجام گیرد. در صورت رخ دادن نوع افت اول، درون­یابی آوایی[4] رخ داده و در صورت صحیح بودن نوع افت دوم، قاعدۀ گسترش رخ داده است. دو فرضیۀ اصلی این پژوهش براساس این دو نوع افت است. در فرضیۀ اول، قاعدۀ درون­یابی آوایی که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درون­یابی شده، مدنظر است. در فرضیۀ دوم، قاعدۀ گسترشِ نواخت[5] اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول می­کند؛ زیرا نواخت L تکیۀ زیروبمی دوم خود را تا ابتدای کلمه گسترده می­کند.

الگوی نواختی مدنظر در طراحی داده­ها، H* L+H* و محل هجای تکیه­بر در کلمۀ دوم مدنظر بوده است. پارامترهای اندازه­گیری‌شده برای تحلیل و بررسی داده­ها متمرکز بر فاصلۀ H اول تا اهداف نواختی مدنظر در L+H* است. داده­ها به‌طور کلی به دو صورت نرم‌افزاری و آماری تحلیل شدند. در بخش نرم­افزاری فواصل اهداف نواختی اندازه­گیری و در بخش آماری، آزمون­های تحلیل واریانس و تعقیبی و همچنین، محاسبۀ ضریب همبستگی و میانگین منحنی فرکانس پایه بین تمامی داده­ها به تفکیک گروه انجام شد. نتایج تحلیل­ها برمبنای داده­های گردآوری‌شده بیانگر صحت فرضیۀ مبنی بر درون­یابی آوایی بین اهداف نواختی است.

 

  1. پیشینۀ پژوهش

افت فرکانس پایه بین دو قلۀ H در زبان­های دیگر بررسی شده است. آروانیتی[6] و لد[7] (1995) در مقاله­ای، ترکیب نواختی و برهم‌نهادگی تکیه­های زیروبمی پیش­هسته را در زبان یونانی بررسی کردند. داده­های آزمایش براساس فاصلۀ دو تکیۀ زیروبمیِ هدف طراحی شدند طوری که این فاصله با افزودن هجا­های بدونِ تکیه بین این دو هدف نواختی بیشتر می­شد. فرضیۀ مورد پژوهش، چگونگی افت فرکانس پایه در ابتدای تکیۀ زیروبمیِ دوم بود. چنین فرض شد که اگر این افت به علت نزول منحنی بین دو H* رخ دهد، عمق درۀ آن با افزایش تعداد هجاهای بدون تکیه میان دو تکیۀ زیروبمی، بیشتر می­شود؛ و اگر این افت به علت حضور یک نواختِ L مشخص در یک تکیۀ زیروبمیِ دونواختی باشد، برهم­نهادگی و مقدار این نواخت حتی با افزایش تعداد هجاهای بدون تکیه پایدار می­ماند. نتایج این پژوهش نشان داد بازنویسیِ تکیۀ زیروبمی پیش­هسته در این زبان به­صورت L*+H است؛ زیرا نواخت L به‌طور مشخص نتیجۀ نزول منحنی نیست و از لحاظ مقدار و برهم­نهادگی از نواخت H پایدارتر است.

 

شکل1- فاصلۀ ابتدای هجای تکیه­بر تا نواخت H در تکیۀ اول به­صورت تابعی از تعداد هجاهای بدون تکیه بین دو هجای تکیه­بر در سه گویشور زبان یونانی(Cited in Arvaniti & Ladd, 1995).

Figure 1 – The distance of the H tone from the beginning of the first accented syllable as a function of the number of unaccented syllables between accents, for 3 Greek speakers (Cited in Arvaniti & Ladd, 1995).

 

در شکل (1) مشاهده می­شود که فاصلۀ نواخت H از ابتدای هجای تکیه­بر با افزایش تعداد هجاهای بدون تکیه بیشتر می­شود. شیب این منحنی پس از رسیدن به هجای سوم و یا پیش­ از­ هجای ماقبلِ­پایانی کمتر می­شود؛ اما به‌طور کلی با افزایش تعداد هجاهای بدون تکیه بین این دو هدف نواختی تا مقدار سه هجا، نواختِ H از ابتدای هجای تکیۀ زیروبمی دورتر واقع می­شود.

لد و شپمن[8] (2003) نیز در آزمایش­هایی مشابه افت فرکانس پایه را میان دو تکیۀ زیروبمی بالا (H*) در زبان انگلیسی بررسی کردند. هدف آنان بررسی میزان فرورفتگی بین این دو تکیه و ارزیابی مدل ناحیۀ گذار بود که توسط پی­یرهامبرت[9] (1980) ارائه شده­ بود. سه آزمایش در این پژوهش انجام شد. اولین آزمایش مربوط به برهم­نهادگیِ L بر شروع هجای تکیه­بر بود. نتیجۀ این آزمایش نشان داد نقطۀ حداقلی فرکانس پایه با یک نواختِ پایینِ مشخص مطابقت دارد. در آزمایش دوم نشان­ داده شد که برهم­نهادگیِ نقطۀ حداقلی، یک سرنخ ادراکی برای تشخیص عبارت­های مشابه توسط شنونده است. آزمایش سوم ادعای پیرهامبرت دربارۀ فرورفتگی بین دو تکیۀ زیروبمی بالا را به محک آزمون قرار داد. طبق گفتۀ پی­یرهامبرت، فرورفتگی بین این دو تکیه فاقد هدف نواختی پایین (L) است و این درّه با افزایش فاصله بین دو قلۀ فرورفتگی، عمیق­تر می­شود. در این آزمایش تعداد هجاها در فاصلۀ بین دو دو قلۀ زیروبمی از تعداد صفر تا سه هجا افزوده شده و نقطۀ حداقلی فرکانس پایه در این ناحیۀ گذار اندازه­گیری گردید.

 

شکل 2 - داده­های زمانی دو گویشور زبان انگلیسی در آزمایش سوم که نشان­گر طول فواصل بین دره و دو قلۀ زیروبمی است (Cited in Ladd & Schepman, 2003)

Figure 2 – The durational data for two English speakers in Experiment 3 demonstrating the distance between the valley and the two peaks (Cited in Ladd & Schepman, 2003)

 

همان­طور که در شکل (2) مشاهده می­شود، فاصلۀ زمانی بین L و H2 تغییر چندانی با افزایش تعداد هجا نمی­کند که این نشان­گر ثابت بودن محل وقوع L قبل از هجای تکیه­بر است؛ اما فاصلۀ L از H1 با افزایش تعداد هجاها به­طور نظام­مند افزایش می­یابد. نتایج کلی این پژوهش نشان داد فرورفتگی ناحیۀ گذار بین دو قلۀ زیروبمی ناظر بر یک نواخت L مشخص است.

 

  1. چارچوب نظری پژوهش

پژوهش حاضر در چارچوب نظریۀ خودواحد عروضی[10] انجام شده است. هدف اصلی این نظریه توصیف و تبیین تغییرات آواییِ پیوسته در منحنی زیروبمی گفتار است. لد (2008) این هدف کلی را به دو رسالت واجی و رسالت آوایی تقسیم کرده است. رسالت واجیِ این نظریه، ارائه تحلیلی کارآمد از تغییرات پیوستۀ زیروبمی براساس زنجیره­ای از عناصر مقوله­ای و تمایزدهنده و رسالت آواییِ آن تبیین نحوۀ نگاشت عناصر ناپیوستۀ واجی به پارامترهای آکوستیکیِ پیوسته است.

H و L در این نظریه، دو عنصر واجی با ماهیت انتزاعی هستند و ماهیت آوایی ندارند. این دو عنصر ممکن است در شرایط مختلف به گونه­های متفاوت ظاهرشوند. در جدول (1) به‌طور خلاصه به انواع نواخت و محل آن­ها پرداخته شده است.

 

 

 

 

 

 

 

جدول 1 - انواع نواخت در نظریۀ خودواحد عروضی آهنگ

Table 1 – Different types of tones in Autosegmental Metrical Theory

 

 

منحنی زیروبمی در نظریۀ خودواحد عروضی شامل دو نوع ویژگی زیروبمی است. برخی ویژگی­ها محلی و در نقاط خاصی از منحنی هستند و برخی دیگر، به‌صورت گسترۀ زیروبمی بین رویدادهای نواختی دیگر واقع شده و محدودۀ گذار هستند. از بین این دو، فقط رویدادهای نواختیِ محلی اهمیت زبان­شناختی دارند و نوع دوم در این نظریه فاقد اهمیت است. مهم­ترین رویدادهای محلی ساخت نواختی گفتار، تکیۀ زیروبمی و نواخت­های مرزی است. تکیۀ زیروبمی با هجاهای برجسته در ساخت زنجیره­ای و نواخت­های مرزی با مرز واحدهای نوایی منطبق هستند. با توجه به اینکه تکیۀ زیروبمی و نواخت­های مرزی در نواحی نسبتاً مشخصی در زنجیرۀ گفتار رخ می‌دهند، به این رویدادها «اهداف نواختی»[11] گفته می­شود. تمایز بین این دو رویداد تمایزی اساسی در انگارۀ خودواحد عروضی است (صادقی، 1397).

تکیه­های زیروبمی برحسب جایگاهشان درگروه آهنگ به دو دستۀ «تکیۀ زیروبمی هسته»[12] و «تکیۀ زیروبمی پیش­هسته»[13] تقسیم می‌شوند. در اغلب زبان­ها، آخرین تکیۀ زیروبمی گروه آهنگ، تکیۀ زیروبمی هسته و به تکیه­های زیروبمی قبل از آن تکیۀ زیروبمی پیش‌هسته گفته می­شود.

نشانۀ ستاره در نظریۀ خودواحد عروضی به مفهوم انطباق نواخت با هجای تکیه­برِ کلمه یا گروه تکیه­ای است. گروه تکیه­ای[14] در ساخت سلسله­مراتبی آهنگ گفتار از کلمه بزرگتر و از گروهِ آهنگ کوچک­تر است و در آن یک تکیۀ زیروبمی وجود دارد که روی قوی­ترین هجای گروه قرار می­گیرد ( Beckman & Pierrehumbert, 1986)

وقوع تکیۀ زیروبمی L* روی یک کلمه به معنای آن است که هجای تکیه­بر آن با نواخت پایین تولید شده و وقوع تکیه زیروبمی H* به معنی تولید هجای تکیه­برِ کلمه با نواخت بالاست. در تکیه­های زیروبمی دونواختی، نواخت ستاره­دار، با هجای تکیه­بر کلمه انطباق دارد و نواخت بدون ستاره با فاصله کمی قبل و یا بعد آن ظاهر می­شود (صادقی، 1397).

تفاوت تکیۀ تک نواختیH* و تکیۀ دونواختیِ L*+H در محل قله و درۀ فرکانس پایه است. در H* قلۀ فرکانس پایه روی هجای تکیه­بر است. در L*+H درۀ فرکانس پایه روی هجای تکیه­بر قرار دارد و قله کمی بعد از این هجا قرار دارد. لد (1983) و گوسن‌هافن[15] (1984) تمایز بین این دو تکیه را صرفا آواشناختی و غیرمقوله­ای بیان کرده­اند. یعنی قلۀ H تکیۀ تک­نواختیِ H* منطبق بر هجای تکیه­بر و وقوعِ به­هنگام دارد ولی قلۀ H تکیه دونواختی L*+H بعد از هجای تکیه­بر قرار دارد و وقوعِ دیرهنگام دارد. بنابراین L*+H گونه ای ازهمان الگوی نواختی H* است. در تکیه دونواختیِ L+H* نقطۀ شروع خیز، هجای قبل از هجای تکیه­بر و محل پایان آن، ناحیه­ای از هجای تکیه­بر است. در حالی که در L*+H، شروع خیز از هجای تکیه­بر و در ناحیه­ای از هجای بدون تکیه بعد پایان می­یابد.

 

1-3. ساخت آهنگ گفتار فارسی

سادات­تهرانی (2007 & 2009) ساخت آهنگ فارسی را متشکل از دو سطح نوایی گروه تکیه­ای[16](AP) و گروه آهنگی[17](IP) تعریف می­کند. گروه تکیه­ای از یک کلمۀ محتوایی و واژه­بست­های وابسته به آن تشکیل می­شود و گروه آهنگی از یک یا چند گروه تکیه­ای در ترکیب با هم شکل می­گیرد. تکیۀ زیروبمی در زبان فارسی به­صورت تکیۀ دونواختی L+H* تعریف شده ­است (Mahjani, 2003; Sadat-Tehrani, 2009). این تکیه ترکیبِ متوالی یک نواخت پایین(L) و یک نواخت بالا (H) است که هردو با هم با هجای تکیه­بر کلمه انطباق دارد. تکیه دونواختی L+H* در بازنویسی ساخت نواختی کلمات چندهجایی با تکیۀ غیرآغازی استفاده می­شود. در کلمات یک­هجایی یا چند­هجایی با تکیۀ آغازی، L+H*  به‌صورت تکیۀ تک­نواختی H* ظاهر می­شود؛ زیرا فضای کافی برای تظاهر آوایی نواخت L وجود ندارد. اسلامی (1384) معتقد است تکیۀ زیروبمی در زبان فارسی هم به­صورت بسیط L*، H* و هم به­صورت مرکب L+H*، L*+H بازنویسی و توصیف می­شود.

گروهِ آهنگ دارای یکی از نواخت­های مرزی L% یا H% است. L% در پایان جملات خبری و امری و H% در پایان جملات پرسشی ظاهر می­شود. در هر گروه تکیه­ای یک نواخت کناری به­صورت L- یا H- ظاهر می­شود که بین محل وقوع تکیۀ زیروبمی و مرز پایانی گروه قرار دارد (اسلامی، 1384؛ Sadat-Tehrani, 2009). اگر پایان تکیۀ زیروبمی منطبق بر پایان گروه باشد، نواخت کناری روی هجای تکیه­بر قرار می­گیرد. اگر بین محل وقوع تکیۀ زیروبمی و پایان گروه تکیه­ای به دلیل وجود واژه­بست، یک یا چند هجا وجود داشته باشد، نواخت کناری روی تمام هجاهای بدون تکیه بعد از هجای تکیه­بر تا پایان گروه تکیه­ای گسترده می­شود (Sadat-Tehrani, 2009).

سادات­تهرانی (2009) علت وجود نواخت کناری در ساخت آهنگ گفتار فارسی را تفاوت بین نواخت کناریِ گروه تکیه­ای هسته و پیش­هسته می­داند. نواخت کناری گروه تکیه­ای هسته در جملات سادۀ بی­نشان L- و نواخت کناری گروه تکیه­ای پیش­هسته به‌صورت H- است. بنابراین، تفاوت بین گروه تکیه­ای هسته با گروه تکیه­ای پیش هسته، نوع نواخت کناری گروه تکیه­ای است. وی ترادف اهداف نواختی H و L در تکیه­های زیروبمی دونواختی L+H* در زبان فارسی را در جایگاه­های نوایی پیش­هسته، هسته و کانونی بررسی کرده است و نشان­ می­دهد که نقاط گذار L  در تمامی گروه­های تکیه­ای به­طور نظام­مند مترادف با آغاز هجای تکیه­بر است؛ ولی محل ترادف نقاط گذار H بسته به نوع تکیۀ زیروبمی تغییر می­کند، بدین معنی که وقوع قله­ها در تکیه­های زیروبمی پیش هسته نسبت به تکیۀ زیروبمیِ هسته یا کانونی دیرهنگام­تر است. البته در ادامه بیان کرده است که نقاط پایانیِ خیز در تمام گروه­ها صرف­نظر از نوع تکیۀ زیروبمی، در هجای بعد از هجای تکیه­بر واقع می­شود و این به معنای وقوع دیرهنگام قله و یا دیرکرد قلۀ هجا در زبان فارسی است. در تکیه­های زیروبمی هسته یا کانونی، H با همخوان آغازیِ هجای بعد از هجای تکیه­بر مترادف است؛ ولی در تکیۀ زیروبمی پیش­هسته با آغاز واکۀ این هجا مترادف است. سادات­تهرانی (2009:14) ایین تفاوت را به نواخت­های مرزی متفاوتِ این تکیه­ها نسبت داده­ است.

صادقی (1397) طی پژوهش‌هایی نشان داده است که هر دو نواخت تکیۀ زیروبمیِ پیش­هسته در زبان فارسی با نواحیِ مشخص در ساخت زنجیره­ایِ گفتار انطباق پایدار دارد. L به‌طور منظم همیشه روی آغازۀ هجای تکیه­بر و H همیشه در مرز آغازی واکه بعد از هجای تکیه­بر قرار دارد. نتایج مشاهدات صادقی، فرضیۀ اتصال زنجیره­ای را اثبات کرده است و نشان داد که دیرش و شیب تغییرات زیروبمی در زبان فارسی ثابت نیست و به نسبت فاصلۀ زمانی بین نقاط انطباق زنجیره­ای تغییر می­کند. صادقی (1397) مطابق این فرض که اطلاق نشانۀ ستاره به یک نواخت صرفاً به معنی انطباق آن نواخت با زنجیرۀ آواییِ هجای تکیه­بر است، تکیۀ زیروبمی پیش­هستۀ فارسی را به‌صورت L*+H بازنویسی کرده­ است. طبق این بازنویسی نواختی، نواخت L همواره روی هجای تکیه­بر واقع شده است و H همواره با تأخیر روی هجای بعد از هجای تکیه­بر واقع می­شود.

۴. روش اجرای پژوهش

داده­های نواییِ مدنظر این پژوهش، عبارت­هایی هستند که توالی دو تکیه زیروبمی به‌صورت H* L+H* (یک نواخت  H* و یک گروه زیروبمیِ دونواختیِ L+H*) را شامل می­شوند­. دو احتمال برای ناحیۀ گذار از H* اول تا H* دوم فرض شده است. در فرضیۀ اول، قاعدۀ درون­یابی آوایی پیش­بینی شده ­است که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درون­یابی شده است. در فرضیۀ دوم، قاعدۀ گسترش اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول می­کند؛ زیرا نواخت L تکیۀ زیروبمی دوم تا ابتدای کلمه خود را گسترده می­کند. الگوی تغییرات فرکانس پایه براساس این دو فرضیه در شکل (3) ارائه شده است.

 

 

شکل ۳ - دو قاعدۀ مدنظر فرضیات پژوهش

Figure 3 – Phonological rules underlying the research hypotheses

 

1-4. داده­های پژوهش و شرکت­کنندگان

داده­های این پژوهش شامل 45 عبارت دوکلمه­ای است. هر داده از یک پاره­گفتار متشکل از دو کلمۀ پشت­سرهم تشکیل شده است که با پی­بستِ کسرۀ اضافه به هم متصل می­شوند. تمامی داده­ها براساس واکدار بودن همخوان­ها در محل حضور محل هجای تکیه­بر و اهداف نواختی در پاره­گفتار طراحی شده­اند. این پاره­گفتارهای دوکلمه­ای براساس محل هجای تکیه­بر در کلمۀ دوم به سه گروه تقسیم شده­اند. مدنظر بود که همخوان­ها در دو هجای آخر کلمۀ  اول و در تمام همخوان­های کلمۀ دوم واکدار باشند. در گروه اول تکیه روی هجای اول کلمۀ دوم قرار دارد، در این حالت کلمۀ دوم یا به‌صورت یک کلمۀ یک­هجایی و یا یک ساختار پی­بستیِ دوهجایی است. در گروه دوم، تکیه روی هجای دوم کلمۀ دوم قرار دارد و در گروه سوم تکیه روی هجای سوم کلمۀ دوم قرار دارد. تمامی سه گروه داده در پایان پژوهش حاضر پیوست شده­اند. یک نمونه از هر گروه داده در ادامه آورده شده است.

(1) آبِ رود گل­آلود بود.

(1) [ʔɑ.be rud] ɟelɑlud bud

کلمۀ دوم    کلمۀ اول    

(2) زیرِ نورِ چراغ بهتر معلوم بود.

(2) [zi.re nu.re] tʃerɑɢ behtar maʔlum bud

   کلمۀ دوم    کلمۀ اول       

(3) چند ماه پیش در مضیقۀ مالی بودند.

(3) tʃand mɑh piʃ dar [maziɢe.je mɑ.li] budand

                                              کلمۀ دوم    کلمۀ اول        

(4) از محلۀ قدیمی رفته بودند.

(4) ʔaz [mahal.le.je ɢa.di.mi] rafte budand

         کلمۀ دوم         کلمۀ اول                        

 

تعداد 30 نفر شرکت­کننده (15 زن و 15 مرد) در این پژوهش از بین رده سنی 30-70 سال انتخاب شدند. تمام این افراد گویشور بومیِ زبان فارسی معیار و دارای تحصیلات دانشگاهی بودند. عباراتی که در مرحله اول طراحی شده بود داخل جملات خبری مناسب قرار داده شدند تا گویشور به‌طور طبیعی و بدون تأکید بر روی کلمات خاصی آن‌ها را بخواند. جملات سه گروه داده به‌طور تصادفی و نامنظم و بدون اطلاع شرکت­کنندگان از نوع و یا تفاوت آن­ها بر روی کاغذ به آن‌ها ارائه شد. به شرکت­کنندگان توضیح داده شد که این جملات صرفاً خبری هستند و به‌صورت پرسشی یا تعجبی خوانده نمی­شوند. همچنین، به آنان چند دقیقه فرصت داده شد تا جملات را مطالعه کنند که در صورت نیاز­ دربارۀ کلماتی که شاید برایشان نامفهوم باشد، سؤال بپرسند. به گویشوران توضیحات کامل دربارۀ نحوۀ ضبط داده‌­ها ارائه شد. علامت مکث کردن، علامت خواندنِ دادۀ بعدی و علامت تکرارِ مجدد داده در صورت خطای کلامی و یا نوفه ناگهانی از فضای بیرون برای آن­ها شرح داده­ شد. داده­ها برای هر گویشور در سه قسمت ضبط شدند. هر 15 داده در یک پروندۀ صوتی با فاصلۀ زمانیِ مکث 5 ثانیه­ای بین هر داده ضبط شد که با حرکت دست به گویشور برای مکث کردن و یا خواندنِ داده­ بعدی علامت داده می‌شد. هر جا گویشور دچار اشتباه کلامی و یا مکث طولانی در میان عبارتِ مدنظر می­شد، مجدداً پس از 5 ثانیه مکث، آن داده را تکرار می­کرد. در پایان، پژوهشگر یک­بار پرونده­های صوتی را برای هر گونه خطای احتمالی بررسی کرد تا در صورت نیاز به‌صورت جداگانه داده­ها مجدداً ضبط ­شوند.

 

2-4. روش اندازه­گیری و تحلیل داده­ها

برای تحلیل داده­ها از نرم­افزار پرات نسخۀ 16/1/6 (Boersma & Weenink, 2020) استفاده شد. اندازه­گیری فواصل مدنظر به‌صورت دستی بر روی منحنی فرکانس پایه به کمک شکلِ موج[18] و طیف­نگاشت[19] برای یافتن دقیق­تر اهداف نواختی انجام شد. مرزهای فواصل در چهار لایۀ فاصله­ای[20] زیر تعیین شدند:

1) A: فاصلۀ نواخت H در کلمۀ اول تا نواخت L در کلمۀ دوم

2) B: فاصلۀ نواخت H در کلمۀ اول تا مرکز هجای تکیه­بر کلمۀ دوم

3) C: فاصلۀ نواخت H در کلمۀ اول تا اول کلمۀ دوم

4) D: فاصلۀ اول کلمۀ دوم تا مرکز هجای تکیه­بر کلمۀ دوم

یک لایۀ نقطه­ای[21]  نیز در لایۀ پنجمِ تحلیل تعریف شد که نشان­گر مرزهای لایۀ اول یعنی H و L است.

پس از برچسب­دهی و تعیین همۀ فواصل مدنظر در برنامۀ پرات، به کمک برنامۀ ProsodyPro نسخه 6/8/7/5، (Xu, 2013) فواصلِ تعیین­شده در هر لایه اندازه­گیری شدند و مقادیر آن­ها در سه پروندۀ اکسل طبق گروه داده­های مدنظر طبقه­بندی شدند. در شکل (4) یک نمونه از برچسب­دهی لایه­ای داده­ها مشاهده می­شود.

شکل ۴ - برچسب­دهی لایه­ای پاره­گفتار «بی­نظمیِ مداوم» از گروه سوم داده­ها

Figure 4 – Annotaion of the utterance “binazmi.je mo.dɑ.vem” from the third group of data

 

  1. 5. نتایج

شکل (5) میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم را به تفکیک هر گروه نشان می­دهد. همان­ طور که مشاهده می‌شود، میانگین میزان این فاصله در داده­های گروهِ اول در بازۀ حدودی صفر تا یک­دهم ثانیه قرار دارد و در گروه دوم و سوم به ترتیب بین بازۀ حدودی دو­دهم ثانیه تا سه­دهم ثانیه و سه­دهم ثانیه تا چهاردهم ثانیه قرار دارد. این تفاوت بینِ میانگین­ها، نشان­دهندۀ تغییراتِ این فاصله به نسبت محل وقوعِ تکیۀ زیروبمی است. این نسبت در تغییرات، به افت تدریجی فرکانس پایه تا ابتدای هجای تکیه­بر اشاره دارد؛ زیرا در غیر این صورت، L در هر سه گروه تا ابتدای کلمۀ دوم گسترده شده است و این فاصلۀ زمانی با تفاوت معنادار میان گروه­های مختلف همراه نمی­شد.

 

شکل 5- میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم در فواصل هجایی مختلف در سطح تمامیِ داده­ها

Figure 5 – The mean distance in time between H (the first peak) and L (the valley) across all data and speakers

 

همان ­طور که در شکل بالا مشاهده می­شود، تعدادی از داده­ها در محدودۀ میانگین گروه خود نیستند. علت این امر آن است که علی­رغم اینکه تلاش شده بود داده­هایی انتخاب شود که از زنجیرۀ آواهای واکدار تشکیل شده باشند، با این حال در برخی داده­ها منحنی فرکانس پایه در محل منطبق با همخوان­های گرفتۀ واکدار دچار پارگی شده بود، طوری که کار اندازه گیری فواصل زمانی را با مشکل مواجه می‌ساخت. بنابراین، برای این داده­ها گاهاً اندازه­گیری­ها با در نظر گرفتن تقریبیِ محل وقوع نواخت­ها انجام شده است.

برای بررسی سطح معناداری تفاوت­ها، آزمون تحلیل واریانس (آنوا[22]) بر روی میزان فاصلۀ H  در کلمۀ اول تا L در کلمۀ دوم در سه گروه داده­های پژوهش انجام شد. در این آزمون، محل وقوع تکیۀ زیروبمی (عامل تفکیک گروه­ها از یکدیگر) به‌عنوان عامل مستقل و HtoL به‌عنوان متغیر وابسته انتخاب شدند. نتایج آزمون تحلیل واریانس (جدول 3) نشان داد فاصلۀ زمانی H در کلمۀ اول تا L در کلمۀ دوم در گروه­های مختلف با یکدیگر تفاوت معنادار دارد.

 

جدول2 - نتایج آزمون تحلیل واریانس در محاسبۀ سطحِ معناداری فاصلۀ زمانی H  در کلمۀ اول تا L در کلمۀ دوم در تمامی داده­های آزمایش

Table 2 – Results of ANOVA analysis for calculating the significance level of the distance in time between H (the first peak) and L (the valley) across all data and speakers

پس از محاسبۀ کلیِ مقدارِ معناداری، آزمون­های تعقیبی نیز بر روی داده­ها انجام شد تا با مقایسه­های دوبه­دو، مقدارِ معناداری میان گروه­ها نیز به­دست آید.

 

جدول 3 - نتایج آزمون تعقیبی بر روی داده­های پژوهش به صورت دوبه­دو در میان هر سه گروه

Table 3 – Results of post-hoc pairwise tests between each group of data

 

 

طبق نتایج آزمون­های تعقیبی که در جدول (3) ارائه شده است، مقدارِ معناداری بین همۀ گروه­ها به‌صورت دوبه­دو معادل «00/0» است که به معنی معنادار بودن اختلاف این فاصلۀ زمانی بین تمام گروه­های داده­های آزمایش است.

سپس در گامی دیگر، ضریبِ همبستگی[23] بین فاصلۀ زمانیِ HtoL و فاصلۀ زمانیِ HtoSP در هر سه گروه اندازه­گیری شد. به‌طور کلی نتایج آزمون همبستگی پیرسون نشان داد ارتباطی مستقیم و قوی بین فاصلۀ زمانیِ H در کلمۀ اول تا L در کلمۀ دوم و فاصلۀ زمانیِ H در کلمۀ اول تا مرکز هجای تکیه­بر در کلمۀ دوم در هر سه گروه از داده­ها وجود دارد (شکل 6). به بیان دیگر، تغییراتِ میزان فاصلۀ تکیۀ زیروبمی در کلمۀ دوم از H در کلمۀ اول، مشابهِ تغییراتِ میزان فاصلۀ L در کلمۀ دوم از H در کلمۀ اول است. طبق مشاهدات و اندازه‌گیری­های انجام‌شده، محل وقوع L در اکثر مواقع قبل از شروع هجای تکیه­بر قرار دارد. بر این اساس، با دور شدن هجای تکیه­بر از H در کلمۀ اول، L نیز از آن دور می­شود. این یافته، فرضیۀ اول پژوهش را که مبتنی بر درون­یابی آوایی بین این دو هدفِ نواختی است، تأیید می­کند؛ زیرا طبق این فرضیه در صورت گسترش L تا ابتدای کلمۀ دوم، محل وقوع آن به صورت یک فلات[24] پایینِ گسترده صورت می­گیرد و فاصلۀ H تا L به‌طور یکسان برابر با فاصلۀ H تا ابتدای کلمۀ دوم است.

 

شکل 6 نمودار رگرسیون فاصلۀ H  در کلمۀ اول تا L در کلمۀ دوم (HtoL) به‌صورت تابعی از فاصلۀ H در کلمۀ اول تا مرکز هجای تکیه­بر در کلمۀ دوم (HtoSP) در تمامی داده­های آزمایش به تفکیک گروه

Figure 6 – The regression of the distance in time between H (the first peak) and L (the valley) as a function of the distance in time between H (the first peak) and the middle of the accented syllable in each group of data

سپس، در گام پایانی برای بررسی الگوی کلی تغییرات زیروبمی در جملات آزمایش، منحنی میانگینِ فرکانس پایه در گروه­های جداگانه به کمک نرم­افزار ProsodyPro محاسبه شد.[25] این نرم­افزار منحنی میانگینِ فرکانس پایه را با استخراج مقادیر F0 از ده نقطه با فواصل منظم در هر پاره­گفتار محاسبه می­کند.

 

 

شکل 7 - میانگین منحنیِ فرکانس پایه به تفکیک گروه در سطحِ تمامیِ داده­ها

Figure 7 – The normalized pitch contour in each group of data

 

همان ­طور که در شکل (7) مشاهده می­شود، منحنیِ فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم افتی تدریجی دارد تا به محل نواخت L برسد. در داده­های گروه اول که در آن تکیه بر روی هجای اول کلمات قرار دارد، F0 افتی نسبتاً تند دارد؛ یعنی با شیبی نسبتاً تند از قلۀ H تکیۀ زیروبمی اول به نواخت L کلمه دوم درون­یابی شده است. در گروه دوم، که در آن تکیه بر روی هجای قبل پایانی قرار دارد، افت منحنی فرکانس پایه شیب کندتری دارد و بالأخره اینکه در گروه سوم که در آن تکیه بر روی هجای پایانی کلمات قرار دارد، فرکانس پایه با شیبی بسیار ملایم از قله H کلمه اول به نواخت L کلمه دوم درون­یابی شده است.  

 

6- بحث و نتیجه­گیری

نتایج به­دست­آمده به­طور کلی به تأیید فرضیۀ اول پژوهش اشاره دارد. در این فرضیه، افت فرکانس پایه، تدریجی پیش­بینی شده است که براساس قاعدۀ درون­یابی آوایی رخ می­دهد. نتایج به‌دست‌آمده نشان داد فاصلۀ زمانی بین قلۀ H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) در گروه اول کمتر از گروه دوم و در گروه دوم کمتر از گروه سوم است. به بیان دیگر، هرقدر تکیه نسبت به آغاز کلمه (کلمه دوم) دورتر باشد، به همان اندازه فاصله زمانی HtoL بیشتر می­شود. نتایج آزمون تحلیل واریانس نشان داد فاصلۀ زمانی HtoL برای هر سه گروه با یکدیگر اختلاف معنادار دارد. در محاسبۀ ضریب همبستگی بین فاصلۀ قلۀ اول تا L بین دو قلۀ زیروبمی (HtoL) و فاصلۀ قلۀ اول تا مرکز هجای تکیه­بر کلمۀ دوم (HtoSP) مشاهده شد که بین مقادیر این دو فاصله ارتباط مستقیم وجود دارد. یعنی با افزایش فاصلۀ HtoL به فاصلۀ HtoSP نیز بیشتر می­شود.

همچنین، در بررسی و مقایسه منحنی میانگین فرکانس پایه در سه گروه هدف آزمایش مشاهده کردیم که شیب افت فرکانس پایه از قله H تکیه زیروبمی اول به نواخت L کلمه دوم در گروه­های مختلف با یکدیگر تفاوت درخورتوجهی دارد به این صورت که هر قدر محل تکیه (یا محل وقوع تکیه زیروبمی) از آغاز کلمه دورتر می­شود، شیب افت فرکانس پایه کندتر می­شود.

در مجموع شواهد به­دست­آمده از تحلیل داده­ها، فرضیۀ اول پژوهش، یعنی فرضیه درون­یابی آوایی، را تأیید می­کند. گفتیم که بر مبنای قاعدۀ درون­یابی آوایی، قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درون­یابی می­شود. بر مبنای این فرضیه، نواخت L تکیۀ زیروبمی دوم که بر روی هجای تکیه­بر این کلمه واقع می­شود، محل فرود منحنی نزولی فرکانس پایه از قلۀ H تکیه زیروبمی اول است. یعنی دو نواخت H از کلمه اول و L از کلمه دوم با استفاده از یک خط گذار نزولی به یکدیگر درون­یابی می­شوند. به این ترتیب، شیب تغییرات F0 بین دو نواخت با توجه به فاصله بین قله H تکیه زیروبمی اول و نواخت L کلمه دوم متفاوت است. تمامی آزمون­های این پژوهش، با تأیید فرضیه درون­یابی آوایی، نشان می­دهد نواختِ L با ابتدای هجای تکیه­بر ترادف دارد و در نتیجه گذار نزولی F0 بین قله زیروبمی کلمه اول و دره زیروبمی کلمه دوم شیبی دارد که مقدار تندی آن بسته به محل وقوع تکیه (و یا محل وقوع نواخت L) در سطح کلمه متفاوت است.   

در مقابل، یافته­های این پژوهش فرضیۀ دوم یعنی قاعدۀ گسترش نواخت را تأیید نمی­کند. گفتیم که بر مبنای این فرضیه انتظار داریم فاصلۀ HtoL با افزایش تعداد هجاها در گروه­های تکیه­ای مختلف بدون تغییر باقی بماند و بین دو متغیر زمانی فاصلۀ HtoL و فاصلۀ HtoW (فاصلۀ قلۀ اول تا ابتدای کلمۀ دوم) همبستگی بالایی وجود داشته باشد؛ زیرا این فرضیه ادعا می­کند که نواخت L همواره در ابتدای کلمۀ دوم واقع می­شود. این در حالی است که نتایج آزمون­های آماری نشان داد فاصله زمانی HtoL در گروه­های تکیه­ای مختلف بسته به محل وقوع تکیه در کلمه دوم به‌طور معناداری با یکدیگر متفاوت است. همچنین، تحلیل­های رگرسیون نشان داد رابطۀ دو پارامتر زمانی HtoL با HtoW در گروه­های تکیه­ای مختلف همبستگی ضعیفی دارد.

به‌طور کلی، نتایج این پژوهش دربارۀ رفتار فرکانسی فاصلۀ زمانی بین قله H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) با نظریۀ خودواحد عروضی آهنگ مطابقت دارد. این نظریه منحنی آهنگ را به‌صورت توالی از اهداف نواختی L و H (یعنی نقاط گسستۀ بالا و پایین) توصیف می‌کند که سطح ارتفاع و انطباق آن‌ها با ساخت زنجیری کاملاً پیش­بینی‌پذیر است. ایدۀ اصلی در مدل خودواحد عروضی این است که تمامی هجاها در سطح آهنگ پاره­گفتار از نظر ویژگی زیروبمی مشخصه­دهی نمی­شوند. اهداف نواختی در منحنی آهنگ یک پاره­گفتار با فاصله بر روی نقاط زبان‌شناختی مشخصی در ساخت زنجیری تظاهر می­یابند و فاصله بین هر دو هدف با استفاده از یک خط پیوندی (که لزوماً صاف یا مستقیم نیست) به یکدیگر متصل می‌شود. بر این اساس، تعداد اهداف نواختی با تعداد هجاها برابر نیست، بلکه به طرز معناداری از آن کمتر است. یعنی اغلب هجاها در سطح واجی مشخص­دهی نمی‌شوند، بلکه ویژگی زیروبمی خود را از مختصات خطوط پیوندی بین اهداف به دست می‌آورند.

صادقی (1397) طی پژوهشی تطابق این نظریه با زبان فارسی را بررسی کرده است که نتایج آن نشان داد حضور درۀ فرکانس پایه بین دو تکیۀ زیروبمی ناشی از یک نواخت مشخص L است. بدین معنی که ترادف و سطح ارتفاع دره صرف­نظر از فاصلۀ زمانی بین قله­ها ثابت و پایدار است. همچنین، درۀ فرکانس پایه همواره به شکل منظم و پایدار با آغاز هجای تکیه­بر ترادف دارد. در پژوهش حاضر نیز نتایج مبنی بر همین امر است و این نشان­گر قابلیت مدل­سازی منحنی فرکانس پایه در آهنگ گفتار فارسی به‌صورت تعدادی هدف نواختی طبق این نظریه است.

از یافته­های این پژوهش می­توان در زمینۀ بازسازی مصنوعی گفتار در بخش تحلیل متنی و آوایی سیستم­های تبدیل متن به گفتار نیز استفاده کرد. پیش­بینیِ دقیق­تر شکلِ محلی جابه­جایی­های منحنی فرکانس پایه در ساخت نوایی نمادین با استفاده از نتایج به­دست­آمده منجر به بازسازی گفتار به طور طبیعی­تر می­شود که در نهایت، بهبود عملکرد سیستم­های تبدیل متن به گفتار را شامل می­شود.

 

[1] tone unit

[2] duration

[3] intensity

[4] phonetic interpolation

[5] tone spreading

[6] A. Arvaniti

[7] D. R. Ladd

[8] A. Schepman

[9] J. B. Pierrehumbert

[10] Autosegmental Metrical Theory

[11] tonal targets

[12] nuclear pitch accent

[13] pre-nuclear pitch accent

[14] accentual phrase

[15] C. Gussenhoven

[16] Accentual Phrase

[17] Intonational Phrase

[18] waveform

[19] spectrogram

[20] interval tier

[21] point tier

[22] ANOVA

[23] مقادیر ضریب همبستگی پیرسون بین مقادیر 5/0 تا 1 (رابطۀ مستقیم) و یا 5/0- تا 1- (رابطۀ معکوس) رابطه­ای متوسط تا قوی را بین این پارامترها نشان می­دهد.

[24] plateau

[25]  تعدادی از فواصل زمانی در داده­های هر گروه برای ProsodyPro قابل اندازه­گیری نبود. این داده­ها از این مرحلۀ تحلیل حذف شده­اند. علت آن عدم امکان محاسبۀ دستیِ نقاطِ موردنظر روی منحنی فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم است.

 اسلامی، محرم. (1384). واج شناسی: تحلیل نظام آهنگ زبان فارسی. تهران: سمت.
  صادقی، وحید. (1397). ساخت نوایی زبان فارسی: تکیه واژگانی و آهنگ. تهران: سمت.
همایون­پور، محمد­مهدی. (1390). پژوهشنامۀ تبدیل متن به گفتار. تهران: دبیرخانه شورای عالی اطلاع­رسانی.
 
References
Arvaniti, A., & Ladd, D. R. (1995). Tonal alignment and the representation of accentual targets. Proceedings of the 13th International Congress of Phonetic Science 4, 220-223.
Beckman, M. E. & Pierrehumbert, J. B. (1986). Intonational structure in English and Japanese. Phonology Yearbook 3, 255-310.
Boersma, P. & Weenink, D. (2020). Praat: Doing phonetics by computer [Computer program]. Version 6.1.16, retrieved December 2020 from http://www.praat.org/
Eslami, M. (2005). Phonology: Analyzing the intonation system of Persian. Tehran: SAMT. [In Persian]
Gussenhoven, C. (1984). On the grammar and semantics of sentence accents, Dordrecht: Foris.
Homayounpour, M. (2011). Text to speech system. Tehran: Supreme Council of Information and Communications Technology. [In Persian]
IBM SPSS Statistics for Windows, version 25, IBM Corp., Armonk, N.Y., USA.
Ladd, D. R. (2008). Intonational phonology (2nd ed.). Cambridge: Cambridge University Press.
Ladd, D. R., & Schepman, A. (2003). “Sagging transitions” between high pitch accents in English: experimental evidence. Journal of Phonetics 31, 81-112.
Ladd, D. R. (1983). Phonological features of intonational peaks. Language 59, 721-759.
Mahjani, B. (2003). An instrumental study of prosodic features and intonations in Modern Farsi (Persian). MS thesis, University of Edinburgh.
Pierrehumbert, J. B. (1980). The Phonology and phonetics of English intonation. Ph.D. Dissertation, Massachusetts Institute of Technology.
Sadat-Tehrani, N. (2009). The alignment of L+H* pitch accents in Persian intonation. Journal of the International Phonetic Association 39(2), 205-230.
Sadat-Tehrani, N. (2007). The Intonational grammar of Persian. Ph.D. Dissertation, the university of Manitoba.
Sadeghi, V. (2018). The Prosodic structure of  Persian language: Lexical stress and intonation. Tehran: SAMT. [In Persian]
Xu, Y. (2013). ProsodyPro — A Tool for large-scale systematic prosody analysis. In Proceedings of Tools and Resources for the Analysis of Speech Prosody (TRASP 2013), Aix-en-Provence, France. 7-10.