Acoustic Correlations of Speech Rhythms in Persian Based on Variability of Between-speakers Characteristics

Document Type : Research Paper

Authors

1 PhD Candidate, Department of Foreign Languages and Linguistics, Faculty of Literature and Humanities, Shiraz University, Shiraz,

2 Department of Foreign Languages and Linguistics, Faculty of Literature and Humanities, Shiraz University, Shiraz, Iran

3 Department of Foreign Languages, Faculty of Literature and Humanities, Shahid Bahonar University of Kerman, Kerman, Iran

Abstract

Abstract
The durational variability of phonetic intervals is considered as one of the properties of speech rhythm. These intervals include segmental, vowel, consonantal, vocalic, intervocalic, voiced, unvoiced, syllable, and syllable peak intervals. The durational variability measure for some of these intervals, such as vowel, consonantal, vocalic, intervocalic intervals, determines the classification of languages based on their rhythm. Besides, in some cases, the speaker identification is only possible through the person's voice. The segmental and suprasegmental properties of a language can be used to identify the speaker. In this study, the acoustic correlations of Persian speech rhythm in a reading text are calculated by various durational measures. Also, the between-speaker rhythmic variability is considered to find the best rhythmic measures for Persian speaker identification. The results confirm that Persian is near to the syllable-based languages. Moreover, the results from segmental and supra-segmental consideration demonstrate significant between-speaker variability in Persian. Among phonetic intervals, nPVI-VC and V% (percentage of vocalic intervals) best discriminate between-speaker variability in Persian.
Keywords: Speech rhythm, Durational variability, Acoustic correlations, Between-speaker variability, Rhythmic measures
 
Introduction
The rhythmic properties of languages have been one of the controversial issues in linguistics in recent studies. Early studies on the classification of different rhythm types in language focused on the syllable and foot durations in which the speech rhythm was defined in terms of isochrony (Abercrombie, 1967; Lloyd James, 1940; Pike, 1945). They believed that Germanic languages had a simultaneous foot; that is why they were called "stress-timed" languages. It was also believed that Romance languages had similar syllables, so they were called "syllable-timed" languages.
However, such approaches can be easily violated in spontaneous speech (Dauer, 1987). Dauer argued that languages with different rhythms also differ in syllable weight and vowel reduction. Stress-timed languages usually have a complex syllable structure and a higher rate of vowel reduction. Ramus, Nesper, and Mahler (1999) examined this hypothesis by measuring the standard deviation of vocalic (∆V) and consonantal intervals (∆C) as well as the percentage of vocalic intervals (%V) for each sentence. Then Grabe and Low (2002) introduced the pairwise variability index (PVI) to measure durational variability between sequences of vocalic and consonantal intervals (nPVI-V and rPVI-C). Besides, Dellwo (2010) proposed other normalization methods for the speech rate, including the coefficient of variation (Varco) and the natural logarithm. Arvantini (2012) introduced amplitude envelope-based rhythm measure based on which she investigated the repetition of acoustic information rather than segmental units.
Another application of rhythm measures is in forensic sciences. As the speakers of a typical language have different voices, one of the aspects of forensic sciences is considering different voices between different speakers (Rose, 2004). Dellwo, Leeman, and Kolly (2015) cited three reasons for this diversity: the nature of the articulatory system, linguistic factors, and prosodic factors. Thus, we are faced with a variety of speakers' voices, which is called between-speaker variability. Recently, evidence from various datasets suggested that measuring rhythm based on different phonetic intervals could vary significantly in a language as a function of speakers (Leeman, Kollyand Dellwo, 2014; Wiget et al., 2010; Yoon, 2010).
 
Materials & Methods
Ten native speakers of contemporary standard Persian (5 men and 5 women) read a Persian text from the book "North Wind and the Sun" in the acoustic room at Shiraz University. The Persian version of this story contains seven complex sentences. Therefore, the dataset of this test comprised 70 tokens (10 speakers × 7 sentences).
This research corpus was acoustically analyzed in Praat (v 6.1.09, in which six tiers of TextGrids were created. In the first tier, the offset and onset of each segment were determined manually and transcribed according to IPA. Then in the second tier, the vowels and consonants were tagged. In the third tier, the vowel and consonants intervals were labeled based on the number of consonants and vowels. In the fourth tier, the vocalic and consonantal intervals were determined. In the fifth layer, the boundary between the existing syllables was tagged manually. Finally, in the sixth tier, the peak of each syllable was automatically identified according to the principle of sonority by a script written by Dellwo[1]. Then, speech rhythm measures from previous works were used. All measures were automatically calculated using the existing script written by Dellwo.
The mean and standard deviation of the results obtained from the scripts was calculated in SPSS (v 23) to classify the Persian language rhythm. Moreover, Pearson correlation and one-way ANOVA test were used to distinguish the most robust between-speaker measure.
 
Discussion of Results and Conclusions
The results confirm that Persian is near to the syllable-based languages. Besides, it was revealed that seven metrics are statistically significant (Speech rate (syl/s), VarcoC, %V, nPVI-V, nPVI-VC, ∆C(ln), ∆Peak(ln)). Based on the present study results, nPVI-VC and V% are the most powerful measures to show the between-speakers variability in Persian.
 



[1] https://www.cl.uzh.ch/de/people/team/phonetics/vdellw.html

Keywords

Main Subjects


1. مقدمه

بررسی ویژگی‌های ریتم زبان‌های مختلف ازجمله موضوعات بحث‌برانگیز زبان‌شناسی در پژوهش‌های اخیر است. زمان دقیق وارد شدن بحث ریتم در حوزۀ گفتار به‌طور دقیق مشخص نیست؛ اما می‌توان تصور کرد که ابتدا به حوزۀ موسیقی وارد ‌شده ‌است. پژوهش‌های اولیه دربارۀ ریتم گفتار تنها به‌بررسی ریتم در شعر می‌پرداختند؛ با این فرض که ریتم در گفتار عادی تظاهر ‌پیدا نمی‌کند؛ اما اکنون مطالعات ریتم به تمام شاخه‌های زبان‌شناسی راه پیدا‌ کرده ‌است و در آواشناسی نیز نتایج جالبی را به خود اختصاص داده‌ است. اکنون بالغ بر هشت دهه است که زبان‌ها را براساس ریتم آنها تقسیم‌بندی می‌کنند. در سال‌های اخیر نیز تلاش‌های مهمی در راستای بررسی ریتم گفتار در ارتباطات زبانی به‌خصوص در آواشناسی قضایی[1] انجام ‌شده‌ است.

در اولین برخورد ممکن است موضوع ریتم زبان به‌مثابه ویژگی زبانی کم‌اهمیتی تلقی شود؛ زیرا ریتم اثر مستقیمی در واج‌شناسی و در فرایند ارتباط زبانی ندارد. به‌علاوه، برخلاف دیگر ویژگی‌های نوایی مانند آهنگ، نمی‌توانیم معنای دو عبارت، دو جمله یا دیگر واحدهای گفتار را براساس ریتم آنها متمایز کنیم. همچنین، ریتم از جنبۀ فرازبانی نیز ویژگی بارزی ندارد؛ برای مثال، نمی‌توان تنها براساس ریتم، دو احساس متفاوت را بیان کرد.(Dellwo, 2010)  بنا به دلایل ذکرشده، این پرسش مطرح می‌شود که اهمیت ریتم گفتار[2] در چیست؟ 

تاکنون مطالعات ریتم زبان در زمینۀ آکوستیک حداقل در چهار حوزۀ اصلی نتایج مفیدی را عرضه کرده‌اند:

1. گفتار کودک و یادگیری زبان دوم (Milne, 1955; Adams, 1979; Polyanskaya & Ordin, 2015)

 2. فناوری گفتار (Barbosa and Bailly, 1994)

3. آسیب‌شناسی گفتار[3] (Liss et al., 2009White, Liss & Dellwo, 2010;Leong & Goswami, 2014; )

4. شناسایی گوینده (Leeman, Kolly & Dellwo, 2014; Dellwo, Leeman & Kolly, 2012 )

در این پژوهش‌ها، هنوز توافقی در تعریف ریتم گفتار حاصل نشده است؛ اما دو جنبۀ زمان‌بندی و برجستگی طیفی، مکانیسم‌های قابل قبولی هستند که اساس این پدیده را تشکیل می‌دهند (Nolan & Jeon, 2015). با وجود‌ این، جالب است که تقریباً تمام مدل‌های ریتم به‌نوعی براساس ویژگی‌های دیرشی گفتار بنا شده‌اند.

در پژوهش حاضر برآنیم تا به بررسی همبسته‌های دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی، از جمله فواصل واحدهای زبانی، فواصل همخوانی و واکه‌‌ای، فواصل واک‌داری و بی‌واکی، فواصل هجایی و فواصل قلۀ هجا بپردازیم و سنجه‌های مناسب تشخیص میان‌گوینده[4] را در زبان فارسی معرفی‌کنیم؛ با این هدف که درک نظری ما دربارل ویژگی‌های ریتمیک فردی گوینده ارتقا یابد. انتظار می‌رود یافته‌های پژوهش حاضر در آینده در محیط تشخیص گوینده اعمال شود. پرسش‌های این پژوهش عبارت‌اند از:

الف. همبسته‌های آکوستیک[5] زبان فارسی با توجه به سنجه‌های موجود چگونه عمل می‌کنند؟

ب. آیا تفاوت‌های میان‌گوینده در ویژگی‌های زمانی زنجیری و زبرزنجیری زبان فارسی وجود دارد؟

ج. کدام سنجۀ زمانی زنجیری و زبرزنجیری تفاوت‌های میان‌گوینده را بیشتر منعکس می‌کند؟

 

2. پیشینۀ پژوهش

گمانه‌زنی‌های اولیه دربارۀ طبقه‌بندی ریتم زبان‌های مختلف متمرکز بر مدت‌زمان هجاها و پایه‌ها[6] هستند که در آنها ریتم گفتار از‌نظر جنبه‌های هم‌زمانی[7] در نظر گرفته می‌شود. ابرکرومبای[8] (1967)، پایک[9] (1945) و لیودجیمز[10] (1940) معتقدند زبان‌های ژرمنی[11] از قبیل انگلیسی، آلمانی و هلندی دارای پایه‌های هم‌زمان هستند؛ یعنی دیرش فواصل بین تکیه‌ها در گفتار آنها باهم برابر است؛ از این ‌رو، به آنها «تکیه‌زمانی»[12] گفته می‌شود. همچنین، آنها بر این باورند که زبان‌های رومی‌تبار[13] مانند فرانسه، ایتالیایی و اسپانیایی دارای هجاهای همسان هستند؛ یعنی مدت زمان هجایی برابر دارند؛ از این رو، زبان‌های «هجا‌زمانی»[14] خوانده می‌شوند. به‌علاوه در زبان‌های تکیه‌زمانی مانند انگلیسی، می‌توان تعدادی از هجاهای بدون تکیه را بین هجاهای تکیه‌دار قرارداد، بدون اینکه دیرش پایه‌ها به‌طور چشمگیری تغییر کند؛ اما به ‌نظر می‌رسد برای زبان‌های هجا‌زمانی مانند زبان فرانسه هجاهای تکیه‌دار یا بی‌تکیه، مدت‌زمان مشابهی دارند.

با وجود این، چنین رویکردی را می‌توان به راحتی در گفتار بداهه[15] نقض‌کرد؛ زیرا سنجه‌های اولیة اندازه‌گیری دیرش پایه و هجا نتوانسته چنین الگوهای یکسانی را در زمان‌بندی نشان‌ دهند (Bertrán, 1999; Dauer, 1983; Pointon, 1980; Roach, 1982). تا آنجا‌که نسپر[16] (1990) استفاده از اصطلاحات تکیه‌زمانی و هجا‌زمانی را نیز نمی‌پذیرد. در هر صورت، نتایج تعداد بی‌شماری از پژوهش‌ها تأیید می‌کنند که زبان‌هایی که ازنظر ریتم باهم فرق دارند، در بزرگ‌سالان، نوزادان و حتی حیوانات ازنظر ادراک نیز دارای تفاوت درخورتوجه هستند (Nazi, Jusczyk & Johnson, 2000; Ramus et al., 2000; Ramus & Mehler, 1999; Ramus, Nasper & Mehler, 1999; Nazzi, Bertoncini & Mehler, 1998; Bosch & Sebastián-Gallés, 1997).

درادامه، پژوهشگران شروع به بررسی ویژگی‌های دیرش سایر واحدهای گفتار می‌کنند و معیارهای دیگری را برای تعیین کمّیت تفاوت‌های ریتم بین زبان‌ها پیشنهاد می‌دهند. دائر[17] (1983, 1987) استدلال‌ می‌کند زبان‌هایی که ریتم متفاوتی دارند از نظر وزن هجا و کاهش واکه‌ای نیز متفاوت هستند؛ به ‌این ‌صورت که زبان‌های تکیه‌زمانی معمولاً دارای ساختار هجایی پیچیده‌تر و میزان بالاتری از کاهش واکه‌ای هستند؛ در صورتی‌ که زبان‌های هجا‌زمانی دارای ساختار هجایی ساده‌تر و میزان کمتر کاهش واکه‌ای هستند.

راموس، نسپر و مهلر[18] (1999) به بررسی این فرضیه با اندازه‌گیری انحراف معیار دیرش فواصل همخوانی و واکه‌ای ∆C) و(∆V و همچنین، درصد واکه‌ای بودن ((%V هر جمله می‌پردازند. سپس، گریب و لو[19] (2002) شاخص تغییرپذیری دوتایی (PVI) را برای اندازه‌گیری تغییرپذیری دیرش فواصل واکه‌ای و همخوانی متوالی (nPVI-V و rPVI-C) معرفی‌می‌کنند. علاوه‌بر این، دلوو[20] (2001, 2009)چند روش نرمال‌سازی مانند ضریب تغییر وارکو (varco) و لگاریتم طبیعی (تبدیل لگاریتمی)،[21] که به اختصار ln نامیده می‌شود، را به‌منظور خنثی‌سازی سرعت گفتار ارائه می‌دهد.

در همین ‌حین، رویکردهای دیگری در مطالعۀ ریتم گفتار ظهور می‌کنند؛ مانند: مدل نوسانگر[22] همراه (O’Dell & Nieminen, 1999)، مدل فاز مدولاسیون دامنه[23] (Leong et al., 2014)، مدل طرح اولیۀ شنوایی[24] (Lee & Todd, 2004)، و مدل طیفی از دامنه[25] (Tilsen & Johnson, 2008). از میان این پژوهش‌ها، تنها مدل طیفی از دامنه (Tilsen & Johnson, 2008) در حوزۀ موردِبررسی پژوهش حاضر است که به توضیح آن خواهیم پرداخت. آروینتینی[26] (2012) روش دیگری برای اندازه‌گیری ریتم گفتار معرفی می‌کند که سنجه‌های ریتم بستۀ دامنه[27] نام دارد. در این روش کمتر به خصوصیت‌های مربوط به واحدهای زبانی[28] پرداخته می‌شود و بیشتر به تکرار اطلاعات صوت‌شناختی مانند دامنۀ ضربه‌های حاصل از دامنۀ گفتار می‌پردازد. این رویکرد بر این نظریه استوار است که هجا دارای یک مرکز ادراکی[29] است که همبسته‌های صوتی آن شامل ترکیب پیچیده‌‌ای از قله‌های[30] بستۀ دامنه، حرکات فرکانس پایه[31] و کیفیت‌های مربوط به واحدهای زبانی هستند (Morton et al., 1976). همچنین، ویژگی‌های زمانی ضرب‌های هجا از نظر خصوصیت‌های درک ریتم گفتار برجسته‌تر از مرزهای هجایی یا مربوط به واحدهای زبانی هستند (Tilsen & Johnson, 2008Tilsen & Arvintini, 2013; ).

از دیگر حوزه‌هایی که سنجه‌های ریتم در آن بررسی می‌شود مطالعات علوم قضایی است. علوم قضایی در گفتار یک حوزۀ میان‌رشته‌ای است که پیوندی را میان نظریه‌ها و روش‌های آواشناسی اجتماعی، زبان‌شناسی اجتماعی، فیزیک گفتار، فناوری و پردازش گفتار و فعالیت‌های عملی در بافت‌های دادگاهی برقرار می‌کند (Jessen, 2008). یکی از جنبه‌های آواشناسی قضایی بررسی تغییرات میان‌گوینده و درون‌گوینده[32] در گفتار و آواهای تولیدشده توسط انسان است؛ زیرا گویشوران مختلف یک زبان صداهای متفاوتی دارند (Rose, 2004). بنابراین، ما با تنوع میان گویشوران مواجه هستیم که آن را تنوعات میان‌گوینده می‌نامند. اگرچه یک فرض کلی وجود دارد که افراد مختلف دارای صداهای مختلفی هستند، درک این نکته ضروری است که حتی صدای یک گویشور نیز در موقعیت‌های مختلف متفاوت خواهد بود. رز (1996) بیان می‌کند که این یک حقیقت آوایی است که هیچ‌کس تا به‌ حال یک گفتار را دقیقاً یکسان تولید نکرده است. رز (2004) چنین تنوعاتی را درون‌گوینده می‌نامد.

دلوو، لیمن و کولی[33] (2015) سه دلیل برای این تنوعات بیان می‌کنند، که عبارت‌اند از: طبیعت اندام‌های تولید گفتار، عوامل زبان‌شناختی و عوامل نوایی. صدای هر گویشوری منحصر به فرد[34] است؛ به همین دلیل است که معمولاً شنوندگان می‌توانند گویندگان را براساس صدای آنها تا حد نسبتاً دقیقی تشخیص ‌دهند. ویژگی‌های متغیر زمان گفتار مانند کیفیت صدا یا ویژگی‌های دامنۀ فرکانس مانند فرکانس پایه و هارمونیک‌های آن، فرکانس سازه‌های[35] واکه‌ها و ویژگی‌های کلی بستۀ طیفی[36] نقش مهمی در شناسایی گویندگان انسانی و خودکار دارند (Dellwo, Huckvale & Ashby, 2007; McDougall, 2004 ; 2006; Nolan, 2002). دلیل منطقی آن این است که پارامترهای دامنۀ فرکانس تا حد زیادی نتیجۀ ویژگی‌های فیزیولوژیکی فردی اندام‌های تولید گفتار هر گوینده است؛ برای مثال، اندازۀ چاکنای و حنجره به‌ترتیب با میزان رزنانس چاکنای و میزان لرزش تارآواها ارتباط دارد (Dellwo et al., 2015).

در حال حاضر شواهد موجود از مجموعه داده‌های مختلف نشان‌ می‌دهد که اندازه‌گیری ریتم براساس فواصل واکه‌ای و همخوانی می‌تواند در یک زبان به‌عنوان تابعی از گویشور به‌طوردرخور‌توجهی متفاوت باشد (Leeman, Kolly & Dellwo, 2014; Loukina et al., 2012; Arvintini, 2012; Wiget, et al., 2010; Yoon, 2010 ). ویگت و همکاران (2010) با بررسی ریتم گفتار زبان انگلیسی نشان می‌دهند که در زبان انگلیسی V% و VarcoV از تغییرپذیری میان‌گوینده بیشتری نسبت به nPVI برخوردار هستند. یوون (2010) همین نتایج را برای گفتار بداهۀ انگلیسی‌زبانان شمال آمریکا به ‌دست می‌آورد. همچنین، اطلاعات گوینده‌ویژهدر دیرش فواصل واک‌داری و بی‌واکی در پژوهش‌های لیمن، کولی و دلوو[37] (2014) و دلوو و فورسین[38] (2013) در زبان آلمانی سوییس گزارش می‌شود.

 در سال‌های اخیر پژوهش‌هایی در زمینۀ ویژگی‌های آکوستیک ریتم زبان فارسی انجام شده‌ است. از جمله ابوالحسنی‌زاده و همکاران (2013) و ابوالحسنی‌زاده و تقوی (1398) که با بررسی تغییرپذیری دیرش[39] فواصل واکه‌ای و میان واکه‌ای (nPVI-V و rPVI-C) زبان فارسی را جزو زبان‌های هجا‌زمانی قرار می‌دهند. پژوهش دیگری که دربارۀ همبسته‌های آکوستیک ریتم زبان فارسی انجام‌ شده‌ است، اثر اسدی و همکاران (2018) است. در این پژوهش تفاوت‌های درون‌گوینده و بین‌گویندۀ فارسی در یک متن خوانشی با 5 سرعت متفاوت در ده گویشور زبان فارسی معیار بررسی می‌‌شود. یافته‌های این پژوهش بیانگر این است که در %V, ∆V [ln], ∆C [ln], nPVI-V تفاوت معنی‌دار میان‌گوینده وجود دارد؛ همچنین، تأکید می‌کنند که %V به بهترین شکل تمایزهای میان‌گوینده را منعکس می‌کند.

در پژوهش ابوالحسنی‌زاده و همکاران (2013) و ابوالحسنی‌زاده و تقوی (1398) با استفاده از داده‌هایی که از خوانش جمله‌ها به دست آمده است، فقط به بررسی تغییرپذیری دیرش فواصل واکه‌ای و میان واکه‌ای (nPVI-V و rPVI-C) زبان فارسی پرداخته شده است. در پژوهش اسدی و همکاران (2018) نیز تمایزات میان‌گوینده در سه سطح واحدهای زبانی، همخوانی و واکه‌‌ای و هجایی در سرعت‌های مختلف گفتار بررسی شده است.

 

3. مبانی نظری

سنجه‌های ریتم گفتار به دو دسته تقسیم‌بندی می‌شوند:

الف. سنجه‌های وابسته به دیرش فواصل گفتار (فاصله‌مبنا)،[40] که خود به سه دسته تقسیم می‌شود:

-                     سنجه‌های ضریب دیرش همخوانی و واکه‌ای، مانند درصد واکه‌ای بودن گفتار (Ramus, Nesper & Mehler, 1999). این سنجه‌ها به بررسی درصد واکه‌ای بودن گفتار (%V) و درصد واکدار بودن گفتار (%VO) می‌پردازند.

-                     سنجه‌های تغییرپذیری دیرش همخوانی و واکه‌ای که شامل ∆C  و∆V می‌شوند و به بررسی انحراف معیار دیرش فواصل واکه‌ای و همخوانی ( (Ramus, Nesper & Mehler, 1999 می‌پردازند. همچنین، میانگین تفاوت دیرشی بین فواصل همخوانی و واکه‌ای متوالی (Grabe & Low, 2002) که شاخص تغییرپذیری دوتایی (PVI) نام دارد و برای اندازه‌گیری تغییرپذیری دیرش فواصل واکه‌ای و همخوانی متوالی استفاده می‌شوند.

-                     سنجه‌های تغییرپذیری واکه‌ای و همخوانی نرمال‌شدۀ سرعت، مانند ضریب تغییر دیرش فواصل واکه‌ای و همخوانی (Dellwo, 2009; Dellwo, 2006) که ضریب تغییر وارکو (varco) و لگاریتم طبیعی (تبدیل لگاریتمی) نامیده می‌شود و برای خنثی‌سازی سرعت گفتار به‌کار می‌روند. دیگر سنجه نرمال‌شده شاخص تغییرپذیری دوتایی نرمال‌شده (nPVI) است که به بررسی میانگین تفاوت میان فواصل واکه‌ای و همخوانی متناسب با دیرش فواصل دوتایی نرمال‌شده می‌پردازد (Grabe & Low, 2002).

ب. سنجه‌های ریتم بستۀ دامنه که در آن به خصوصیت‌های زمانی هجا پرداخته می‌شود ((Arvintini, 2012 و به تکرار اطلاعات صوت‌شناختی مانند دامنۀ ضربه‌های حاصل از دامنۀ گفتار می‌پردازد.

در پژوهش حاضر همبسته‌های دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی، از جمله فواصل واحدهای زبانی، فواصل همخوانی و واکه‌‌ای، فواصل واک‌داری و بی‌واکی، فواصل هجایی و فواصل قلۀ هجا بررسی می‌شوند و سنجه‌های مناسب تشخیص میان‌گوینده در زبان فارسی معرفی ‌می‌شوند.

در پژوهش حاضر همبسته‌های دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی با توجه به سنجه‌های ذکرشده بررسی می‌شوند.

 

4. روش پژوهش

با توجه ‌به ‌اینکه روش پژوهش حاضر آماری و آزمایشگاهی است، در این قسمت به معرفی گویشوران این پژوهش، چگونگی جمع‌آوری داده‌ها، ویرایش داده‌ها، سنجه‌های زمانی موردِاستفاده و تحلیل‌های آماری پژوهش پرداخته می‌شود.

 

1-4. گویشوران

شرکت‌کنندگان این پژوهش شامل ده گویشور (5 مرد و 5 زن) زبان فارسی هستند که همگی با لهجۀ معیار صحبت ‌می‌کنند و هیچ‌یک از آنها لهجۀ محلی و نارسایی گفتاری و شنوایی ندارند. بازۀ سنی گویشوران بین 23 تا 40 سال با میانگین سنی 18/32 و : SD 4.79 است. از نظر گروه اجتماعی تلاش شده است که گروه همسانی از گویشوران انتخاب شوند. به همین دلیل تمامی گویشوران از استادان و دانشجویان دانشگاه شیراز هستند.

 

2-4. داده‌ها

داده‌های پژوهش حاضر در اتاق آکوستیک دانشگاه شیراز با استفاده از ریکوردر zoom h4 با مشخصات 24-bit/96 kHzو قابلیت خشه‌گیری 120- dBu EIN، ضبط شد. به‌ صورتی که میکروفون به‌وسیلۀ یک پایه به فاصلۀ بیست سانتی‌متری از دهان شرکت‌کنندگان به‌صورت مورب قرار‌ گرفت.از آنجا که این پژوهش بر تفاوت میان‌گوینده تمرکز دارد برای به حداقل رساندن تنوعات گفتاری سعی شد شرایط یکسانی برای تمامی شرکت‌کنندگان ایجاد شود و همۀ شرکت‌کنندگان یک متن واحد را با سرعت گفتار معمولی قرائت ‌کنند. در همین راستا، متن فارسی داستان «باد شمال و خورشید» برای این پژوهش انتخاب شد. نمونۀ ضبط‌شدۀ این متن به زبان‌های مختلف در سایت  [41]IPA نیز موجود است و تاکنون کارهای متعددی در سراسر دنیا با استفاده از این متن انجام شده است[42] ازجمله پژوهش آروینتینی (2012) و گریب و لو (2002). نسخۀ فارسی این متن شامل هفت جملۀ پیچیده است. تنها تفاوتی که متن این پژوهش با صدای ضبط‌شدۀ زبان فارسی موجود در سایت  IPAدارد، وجود واژۀ «لبّاده» است که باتوجه‌به نامأنوس ‌بودن این واژه برای گویشوران معاصر، به «پالتو» تغییر پیدا کرد. متن داستان پیش از مصاحبه در اختیار گویشوران قرار می‌گرفت تا آن را مطالعه کنند. در زمان مصاحبه نیز به آنها گفته می‌شد که هر چند‌مرتبه که لازم بدانند می‌توانند از روی متن بخوانند تا به وضعیت دلخواه خود برسند؛ اگر در خواندن جمله‌ای دچار اشتباه می‌شدند از آنها خواسته می‌شد آن جمله را تکرار کنند.

 

1-2-4. ویرایش داده‌ها

داده‌های پژوهش در نرم‌افزار پِرَت، نسخۀ 09. 1. 6 مورد تجزیه‌وتحلیل آکوستیکی قرار می‌گیرد. به این صورت که شش لایه شبکۀ متنی[43] ساخته می‌شود. در لایۀ اول آغازه و پایانۀ‌ هر واحد زبانی به‌دقت مشخص می‌شود و با توجه ‌به آوانگاری IPA آوانویسی می‌شوند‌؛[44] مکث‌های موجود در اول، درون و آخر جمله‌ها مشخص می‌شوند. سپس، در لایۀ دوم، واکه‌ها و همخوان‌ها برچسب‌گذاری می‌شوند. در لایۀ سوم، فواصل‌ همخوانی و واکه‌ای براساس تعداد همخوان‌ها و واکه‌ها تعیین می‌شوند؛ در لایۀ چهارم، فواصل‌ همخوانی و واکه‌ای بدون نگارش تعداد واکه‌ها و همخوان‌های موجود در هریک از فاصله‌ها مشخص می‌شوند. در لایۀ پنجم، مرز بین هجاهای موجود تعیین می‌شوند؛ درنهایت در لایۀ ششم، قلۀ هر هجا برحسب اصل رسایی به‌صورت خودکار توسط برنامۀ ‌رایانه‌ای،[45]، نوشته‌‌شده توسط دلوو[46]، مشخص می‌شوند. نمونه‌ای از شبکۀ متنی ساخته‌شده در شکل (1) آورده می‌شود.

 

3-4. سنجه‌های زمانی مورد استفاده

در پژوهش حاضر، از تعدادی از سنجه‌های زمانی پژوهش‌های پیشین ریتم گفتار (Dellwo et al., 2015; Ramus et al., 1999; Tilsen & Arvintini, 2013; Dellwo et al., 2012; Dellwo, 2010 and 2009; White & Mattis, 2007; Grabe & Low, 2002.) استفاده می‌شود. تمامی سنجه‌ها به‌صورت خودکار با استفاده ‌از برنامۀ رایانه‌ای موجود[47] نگارش‌شده توسط دلوو، محاسبه می‌شوند. این سنجه‌ها برحسب لایه‌های شبکه ‌متنی در جدول (1) آورده‌ می‌شوند.

 

 

شکل 1. نمونۀ شبکۀ متنی ساخته‌شده برای این پژوهش (جملۀ دوم متن داستان باد شمال و خورشید)

Fig 1- An example of a TextGrid for this study (the second sentence of "The north wind and the sun" story)

 

 

 

 

 

 

 

 

 

 

جدول 1- سنجه‌های محاسبه‌شدۀ این مقاله براساس لایه‌های شبکۀ متنی

Table 1- The measures of this study based on the tiers of the TextGrids

لایه

نام لایه

سنجه

1

segment

rateSeg

meanSeg

 

2

cv segment

rateCon       meanCon, meanConLn, ∆Con, ∆ConLn, varcoCon, rPVI_Con       nPVI_Con, ,rateVow, meanVow, meanVowLnt, ∆Vow, ∆VowLn         varcoVow,rPVI_Vow,nPVI_Vow

4

cv interval

rateC, meanC, meanCLn, ∆C, ∆CLn, varcoC, rPVI_C, nPVI_C             rateV,  meanV,            meanVLn, ∆V, ∆VLn, varcoV, rPVI_V, nPVI_V, %V,

5

syllable

rateSyl, meanSyl, meanSylLn, ∆Syl, ∆SylLn, varcoSyl, rPVI-Syl, nPVI-Syl

6

peak tier

meanPeak, ratePeak, meanPeakLn, ∆Peak, ∆PeakLn, varcoPeak            rPVI_peak, nPVI_peak

4

cv interval

rateCV, meanCV, meanCVLn, ∆CV, ∆CVLn, VarcoCV, nPVI-CV, rPVI-CV, %VO, nVoiced, meanVoiced, meanVoicedLn, ∆Voiced, ∆VoicedLn, varcoVoiced, rPVI_Voiced, nPVI_Voiced, nUnvoiced, meanUnvoiced    meanUnvoicedLn, ∆Unvoiced, ∆UnvoicedLn, varcoUnvoiced           ,rPVI_Unvoiced            nPVI_Unvoiced

 

در این قسمت، از هر نمونه سنجه یک مورد توضیح داده می‌شود.

-            درصد واکه‌ای بودن گفتار (%V) و درصد واکدار بودن گفتار (%VO):

(1)

که در این فرمول   تعداد فواصل واکه‌ای،  تعداد فواصل همخوانی،  دیرش فواصل واکه‌ای و  دیرش فواصل همخوانی است.

-            سرعت فواصل مختلف براساس معادلۀ زیر محاسبه می‌شود. فرمول (2) سرعت فواصل همخوانی و واکه‌ای را نشان می‌دهد؛ مانند فرمول (2):

(2)

در این فرمول  تعداد فواصل واکه‌‌ای یا همخوانی در جمله است و  دیرش جمله بدون درنظرگرفتن مکث‌ها است.

 

-            دیرش فواصل مختلف انحراف معیار سرعت نرمال‌شده ( (Varco، انحراف معیار تقسیم ‌بر میانگین که varco نام دارد؛  مانند فرمول (3):

 (3)  

در این فرمول  انحراف معیار دیرش فواصل واکه‌ای و  میانگین دیرش فواصل واکه‌ای است.

-            تغییرپذیری دوتایی دیرش فواصل مختلف نرمال‌شده؛  مانند فرمول (4):

-     (4)

که در آن  تعداد فواصل واکه‌ای و  دیرش فواصل kth

-            سنجه‌هایی که پسوند Ln دارند نسخه‌های نرمال‌نشده همتای بدون Ln خود هستند؛ برای مثال فرمول (5):

  (5)  

در این معادله  (فواصل مورد نظر هستند، واکه‌ای، همخوانی یا قله‌ای) و N تعداد این فواصل مورد نظر است.

 

4-4. تحلیل‌های آماری

تمام محاسبه‌های مربوط به اندازه‌گیری سنجه‌های ریتم به‌وسیلۀ برنامۀ رایانه‌ای موجود در نرم‌افزار پِرَت که توسط دلوو[48] نوشته شده ‌است، محاسبه‌ می‌شود. سپس، برای بررسی پرسش اول این پژوهش مبنی‌بر عملکرد همبسته‌های آکوستیکی براساس سنجه‌های موجود، میانگین و انحراف معیار نتایج به‌دست‌آمده از برنامۀ رایانه‌ای، در برنامۀ SPSS نسخه 23 بررسی می‌شود و با نتایج پژوهش‌های پیشین مقایسه می‌شود. لی و دلوو[49] (2016) نشان ‌می‌دهند که  نمرۀ [50]z در سنجه‌های ریتم برای پایگاه داده‌های بزرگ مفید است؛ به ‌همین ‌دلیل، در پژوهش حاضر از این تحلیل آماری استفاده نمی‌شود. در پاسخ به پرسش‌های دوم و سوم پژوهش دربارۀ وجود تفاوت در ویژگی‌های زمانی زنجیری و زبرزنجیری میان‌گوینده زبان فارسی در مرحلۀ اول با استفاده از تحلیل همبستگی پیرسون[51] سنجه‌هایی که با یکدیگر همبستگی کم‌تری دارند، انتخاب می‌شوند؛ زیرا بررسی دو یا چند پارامتر با همبستگی بالا در پژوهش‌های آواشناسی حقوقی توجیه منطقی ندارد. سپس، با استفاده از آزمون آنوا یک‌طرفه،[52] که متغیر مستقل آن گویندگان و متغیر وابسته سنجه‌های ریتم هستند، قوی‌ترین سنجه‌ای که نشان‌دهندۀ تمایزات میان‌گوینده در داده‌های این پژوهش است مشخص می‌شود و در نمودارهای boxplot نمایش داده می‌شود.

 

5. یافته‌ها

همان ‌طور که در بخش‌های قبل اشاره شد، تمرکز این پژوهش بر عملکرد سنجه‌های ریتم به‌کارگرفته‌شده در پژوهش‌های پیشین دربارۀ زبان فارسی و شناسایی سنجه‌هایی است که تفاوت‌های میان‌گوینده را بیشتر منعکس می‌کند. در این پژوهش، از 70 جملۀ زبان فارسی معیار (7 جمله × 10 گویشور) استفاده‌ می‌شود. تعداد دیرش فواصل بررسی‌شده به شرح زیر است:

فواصل مربوط به واحدهای زبانی: 4081، فواصل هجایی: 2016، فواصل میان‌واکه‌ای: 1918، فواصل واکه‌ای:[53] 1802،  فواصل همخوانی-واکه‌ای: 3920، فواصل همخوان: 1148، فواصل واکه: 1766، فواصل بین قله‌ای: 1905، فواصل واک‌داری: 1802، فواصل بی‌واکی: 1918

 

1-5. همبسته‌های ریتم زبان فارسی

میانگین و انحراف معیار تمامی سنجه‌های ذکرشده در جدول (1)، برای داده‌های این پژوهش در جدول (2) نشان ‌داده ‌می‌شود. در این جدول سنجه‌های مربوط به واحدهای زبانی با «Seg»، سنجه‌های مربوط به هجا با «Syl» سنجه‌های مربوط به فواصل میان‌واکه‌ای با «C»، سنجه‌های مربوط به فواصل واکه‌ای «V»، سنجه‌های مربوط به فواصل همخوانی‌-واکه‌ای با «CV»، سنجه‌های مربوط به دیرش هم‌خوان‌ها با «Con»، سنجه‌های مربوط به دیرش واکه‌ها با «Vow»، سنجه‌های مربوط به فواصل واک‌داری با «Voiced»، سنجه‌های مربوط به فواصل بی‌واکی با «Unvoiced»، و درنهایت سنجه‌های مربوط به فواصل بین-قله‌ها با «Peak» مشخص شده‌اند.

راموس و همکاران (1999) با محاسبۀ %V، ∆V، ∆C پیوستاری را برای ریتم زبان‌های مختلف در نظر گرفته‌اند که در یک سر آن زبان‌های تکیه‌زمانی و در سر دیگر آن زبان‌های هجا‌زمانی قرار دارند. آنها زبان انگلیسی را جزو زبان‌های تکیه‌زمانی و زبان فرانسه را نمایندۀ مناسبی برای زبان‌های هجا‌زمانی می‌دانند و کاتالان را در میانۀ این پیوستار قرار می‌دهند. دربارۀ نتایج این پژوهش، همان ‌طور که در جدول (2) مشاهده می‌شود، انحراف معیار %V داده‌های پژوهش حاضر برابر 85/3 است، درحالی‌که انحراف معیار %V زبان انگلیسی براساس یافته‌های راموس و همکاران (1999) برابر 4/5 و زبان فرانسه 5/4 و زبان ژاپنی 4/3 است. علاوه‌بر این، میانگین ∆V و ∆C این پژوهش به‌ترتیب 03/0 و 57/0 است و ∆V و ∆C زبان انگلیسی، براساس یافته‌های راموس و همکاران (1999)، 1.25 و 1.63 و برای زبان فرانسه 1.21 و 0.74 است. درنتیجه، یافته‌های این پژوهش، زبان فارسی را در میانۀ پیوستار هجازمانی-تکیه‌زمانی نزدیک به هجا‌زمانی قرار می‌دهد.

 

 

 

 

 

 

 

 

 

جدول 2- میانگین و انحراف معیار سنجه‌های ریتم زبان فارسی معیار

Table 2- Mean and standard deviation for measuers of Standard Persain rhythm

سنجه

میانگین

انحراف معیار

 

سنجه

میانگین

انحراف معیار

∆Syl

.126

.0434

 

varcoCon

.409

.0665

∆SylLn

.490

.083

 

rPVI_Con

4.247

.775

varcoSyl

.545

.134

 

nPVI_Con

50.363

9.388

rPVI-Syl

11.495

3.251

 

rateVow

13.903

2.100

nPVI-Syl

51.03

9.343

 

meanVow

.074

.018

rateC

8.453

1.039

 

meanVowLn

-2.692

.147

meanC

.120

.015

 

∆Vow

.028

.008

meanCLn

-2.255

.114

 

∆VowLn

.392

.064

∆C

.057

.0135

 

varcoVow

.378

.067

∆CLn

.543

.094

 

rPVI_Vow

3.172

.900

varcoC

.474

.079

 

nPVI_Vow

43.070

7.736

rPVI_C

5.965

1.526

 

meanPeak

.241

.035

nPVI_C

51.814

9.045

 

ratePeak

4.226

.590

rateV

13.648

1.998

 

meanPeakLn

-1.758

.169

meanV

.075

.0116

 

∆Peak

.185

.049

meanVLn

-2.679

.144

 

∆PeakLn

.943

.228

∆V

.03

.007

 

varcoPeak

.759

.131

∆VLn

.402

.057

 

rPVI_peak

18.007

4.300

varcoV

.394

.060

 

nPVI_peak

82.138

15.606

rPVI_V

3.36

.854

 

%Voiced

29.537

3.847

nPVI_V

44.462

7.154

 

meanVoiced

.075

.011

%V

29.537

3.847

 

meanVoicedLn

-2.679

.1449

rateCV

8.719

1.129

 

∆Voiced

.03

.007

meanCVLn

-2.381

.104

 

∆VoicedLn

.402

.057

∆CV

.103

.032

 

varcoVoiced

.394

.060

∆CVLn

.63

.073

 

rPVI_Voiced

3.36

.854

varcoCV

.868

.188

 

nPVI_Voiced

44.462

7.154

rPVI_CV

7.874

1.440

 

meanUnvoiced

.120

.015

nPVI_CV

64.463

8.067

 

meanUnvoicedLn

-2.255

.114

rateCon

11.768

1.260

 

∆Unvoiced

.057

.013

meanCon

.086

.009

 

∆UnvoicedLn

.543

.094

meanConLn

-2.554

.117

 

varcoUnvoiced

.474

.079

∆Con

.03501

.005

 

rPVI_Unvoiced

5.964

1.526

∆ConLn

.47253

.102

 

nPVI_Unvoiced

51.813

9.045

مقایسۀ nPVI_V به‌دست‌آمده از این پژوهش nPVI_V) :44.46) با نتایج کار گریب و لو (2002) نیز زبان فارسی را بین زبان فرانسه nPVI_V) :43.05) و زبان کاتالان nPVI_V) :45) قرار می‌دهد. البته باید در نظر داشت که در این دو پژوهش ذکرشده جمله‌هایی انتخاب می‌شدند که مکث درون جمله‌ای نداشتند به همین دلیل تغییرپذیری دیرش آنها کمی متفاوت از این پژوهش است. همچنین، به ‌همین‌ دلیل است که در کار ابوالحسنی و همکاران (2013) و ابوالحسنی‌زاده و تقوی (1398) نیز، تاحدودی nPVI_V با یافته‌های این پژوهش متفاوت است و زبان فارسی را نزدیک‌تر به یافته‌های دو پژوهش یادشده و نزدیک‌تر به هجا‌زمانی‌ها نشان‌ داده ‌است. در پژوهش حاضر، به‌دلیل نزدیک‌تر شدن داده‌ها به گفتار عادی گویشوران، جمله‌های دارای مکث نیز لحاظ می‌شوند؛ در هر صورت، برنامۀ ‌رایانه‌ای استفاده‌شده در این پژوهش قادر به حذف مکث‌ها است.

در راستای اثبات توزیع مناسب داده‌ها دربارۀ متغیر‌های این پژوهش با استفاده از نرم‌افزار spss و تحلیل همبستگی پیرسون سنجه‌هایی که همبستگی کم‌تری باهم داشتند، انتخاب می‌شوند و سپس، با استفاده از نمودار Q_Q plot بررسی می‌شوند. در زیر این نمودارها ارائه می‌شود.

 

 
 
 

 

 

 

 

 

 

 

 

 

 
 
 

 

 

 

 

 

 

 

 

 

 

 

 

شکل 2- مجموعه نمودارهای Q-Q Plot سنجه‌های ریتم زبان فارسی

Fig 2- Q-Q Plot graphs for measuers of Persain rhythm

 

 

 

همان ‌طور که ملاحظه می‌شود، متغیرهای انتخاب‌شده با توزیع داده‌ها مطابقت دارند؛ زیرا تا حد درخورتوجهی خوشه‌های نقطه‌ها در خط مستقیم قرار گرفته‌اند. همچنین، خطی‌بودن نقطه‌ها نشان می‌دهد که داده‌ها به‌صورت معمولی توزیع یافته‌اند.

 

2-5. سنجه‌های نشانگر تغییرات میان‌گوینده در زبان فارسی

در این پژوهش، به‌منظور یافتن سنجه‌هایی که تفاوت‌های میان‌گوینده زبان فارسی را منعکس می‌کنند، از آزمون آنوا یک‌طرفه استفاده‌ می‌شود. به‌ این ‌صورت که برای سنجه‌هایی که در قسمت (1-5) با استفاده از تحلیل همبستگی پیرسون انتخاب شدند، گویندگان متغیر مستقل و همبسته‌های ریتم، متغیرهای وابسته در نظر گرفته شدند. براساس عدد معنی‌داری که 05.0   ≤  است، تعداد پنج سنجه از آنها معنادار بودند که به‌تفصیل در جدول (3) بررسی می‌شوند. در این آزمون آمارۀ F نشان‌دهندۀ نسبت تغییرات میان‌گوینده به تغییرات درون‌گوینده است. بنابراین، هرچه این عدد بالاتر باشد بیانگر این است که تغیرات میان‌گوینده این پارامتر نسبت به تغییرات درون‌گویندۀ آن بیشتر است و آن پارامتر تأثیر بیشتری را در نشان‌دادن تغییرات میان‌گوینده دارد. همان ‌طور که ملاحظه می‌شود، از میان متغیرهایی که معنی‌دار هستند متغیر nPVI_CV به‌دلیل داشتن آمارۀF بالاتر، سنجۀ قوی‌تری برای نشان‌دادن تمایزات میان‌گوینده براساس داده‌های این پژوهش است؛ دومین سنجۀ نشانگر تمایزات میان‌گوینده rateSyl و سومین آنها %V است. در شکل (3) تغییرات این سنجه‌ها برای ده گویشور این پژوهش با استفاده از نمودار BoxPlot نشان داده شده‌است.

 

جدول 3- نتایج آزمون آنوا یک‌طرفه برای نشان‌دادن تاثیر گوینده بر سنجه‌های ریتم گفتار

Table 3- ANOVA one-way to show the effects of speaker on the rhythm measures

 سنجه

مجموع مجذورات

آمارۀF

عدد معناداری

%V

1021.319

3.095

0.004

rateSyl

7.018

3.131

0.004

nPVI_CV

4490.128

4.448

0.000

nPVI_V

869.617

2.178

0.036

VarcoC

0.117

2.444

0.019

∆Con

0.000

1.290

0.261

∆PeakLn

0.191

0.374

0.943

 

 

 

 

 

 

 

 

 
 
 

 

 

 

 

 

 

 
 
 

 

 

 

 

 

 

 

 

 

 

 

شکل 3- مجموعه نمودارهای BoxPlot داده‌ها براساس گویندگان

Fig 3- BoxPlot diagrams based on the speakers

 

6. بحث و نتیجه‌گیری

در این پژوهش، به‌منظور بررسی ویژگی‌های ریتم زبان فارسی معیار از رویکردهای پژوهش‌های پیشین ریتم استفاده شد و همبسته‌های ریتم زبان فارسی با استفاده از سنجه‌های مختلف ریتم زبان تعیین شد. این سنجه‌ها به بررسی دیرش فواصل مختلف مربوط به واحدهای زبانی، واکه‌ای و همخوانی، واک‌داری و بی‌واکی، هجایی و بین‌قله‌ای می‌پردازند. در این قسمت به پرسش‌های ذکرشده در بخش مقدمه، پاسخ داده می‌شود.

در زمینۀ پاسخ بهپرسش اول، نتایج این پژوهش نشان می‌دهد جایگاه ریتم زبان فارسی معیار نزدیک به زبان‌های هجا‌زمانی قرار ‌داد. بررسی دیگر لهجه‌های زبان فارسی می‌تواند تفاوت ریتم دیگر لهجه‌های این زبان را مشخص کند. همچنین، بررسی همبسته‌های دیگر زبان‌های به‌کارگرفته‌شده در ایران می‌تواند ویژگی‌های ریتم بین‌زبانی و تأثیر آنها بر یکدیگر را مشخص کند.

در خصوص ویژگی‌های ریتم بین زبانی شواهد رفتاری قوی وجود دارد که شنوندگان تفاوت بین زبان‌ها را براساس نوع تغییرپذیری دیرشی که در این پژوهش استفاده شد، درک می‌کنند. آزمایش‌ها نشان داده‌ است که شنوندگانی که بالغ هستند (Ramus & Mehler, 1999) و همچنین، نوزادان تازه (Nazzi, Jusczyk & Johnson, 2000) می‌توانند زبان‌ها را با توجه به دسته‌بندی‌های مختلف ریتم تشخیص دهند؛ چنین ویژگی‌هایی در مرحلۀ پیشازبانی[54] به دست می‌آیند و ممکن است شنوندگان؛ به‌عنوان مثال نوزادانی که در یک محیط دوزبانه رشد می‌کنند، را قادر سازد که بین زبان‌های مختلف تفکیک قائل شوند (Ramus et al., 1999).از آنجا که ویژگی‌های دیرشی فواصل همخوانی و واکه‌ای بین زبان‌ها به‌طور محسوسی درخور‌توجه ‌است، به‌ نظر می‌رسد تنوع بین‌گوینده نیز دارای اهمیت است.

در پاسخ به پرسش دوم، یافته‌های پژوهش نشان داد که سنجه‌های ریتم مبتنی بر مدت‌زمان فاصلۀ همخوانی و واکه‌ای و همچنین ویژگی‌های بستۀ دامنه، مانند فواصل هجایی و قلۀ هجا به‌شدت در میان‌گوینده متفاوت است. به‌ نظر می‌رسد مکانیسم‌های کنترل اندام‌های تولید گفتار هر گویشور مسئول ایجاد چنین تفاوتی است. در اینجا این پرسش ممکن است مطرح شود: «چگونه حرکت اندام‌های گفتار هر فرد منجر به الگوهای فردی سنجه‌های ریتم می‌شود؟»دلوو، لیمن و کولی (2015) برای این منظور از دو نوع سنجه استفاده می‌کنند: 1. سنجۀ میزان واکه‌ای (%V)، بی‌واکی %Voiced ، سنجۀ تغییرپذیری دیرشی ∆V[ln]) و (∆V و 2. تغییرپذیری قلۀ دامنۀ درون هجا ∆Peak[ln]) و(∆Peak. نتایج معناداری از تفاوت میان‌گوینده این مطالعه به‌وسیلۀ این سنجه‌ها به‌دست‌ آمد (,%V:0.004 ,%Voiced:.004, ∆V:0.009, ∆VLn:.013 (∆Peak:.000. نتایج چنین مطالعاتی نشان‌دهندۀ این است که حرکت منحصربه‌فرد اندام‌های گفتار می‌تواند به‌دلیل زیستی، اکتسابی یا هر دو  باشد.

در پاسخ به پرسش سوم این پژوهش، با استفاده از تحلیل همبستگی پیرسون و همچنین آزمون آنوا مشخص شد که متغیر nPVI_CV بالاترین نسبت تغییرات میان‌گوینده به درون‌گوینده را دارد و نشان‌دهندۀ این است که این سنجه، توانایی بیشتری را در انعکاس تمایزات میان‌گوینده دارد. این متغیر در لایۀ چهارم شبکه‌های ‌متنی بررسی می‌شود. در این لایه، مرز دقیق فواصل همخوانی و واکه‌ای مشخص شده است و nPVI_CV تغییرپذیری این فواصل را نشان ‌می‌دهد. بنابراین، می‌توان نتیجه‌ گرفت که تغییرپذیری فواصل همخوانی-واکه‌ای متغیر مناسبی برای تمایزات میان‌گوینده در این سبک از زبان فارسی است.

نکته‌ای که در اینجا درخورذکر است این است که نتایج پژوهش حاضر، تفاوت معنی‌داری را در سنجه‌های فاصله‌ای هجایی نشان دادند (rateSyl:0.003, meanSyl:0.002, meanSylLn:0.015, ∆Syl:.001, ∆SylLn:.037, varcoSyl:.007,). بنابراین، سنجه‌های مربوط به فواصل هجایی نیز نشان‌دهندۀ تمایزات میان‌گوینده در زبان فارسی هستند. دلیل آن می‌تواند وجود انسدادی چاکنایی ʔ// باشد. از آنجا که ساختار هجایی زبان فارسی مجوز شروع هجا با واکه را نمی‌دهد، در آغاز هجاهایی مانند «است» /ʔast/ یک انسدادی چاکنایی قرار می‌گیرد (حق‌شناس، 1384). داده‌های این پژوهش نشان‌ می‌دهند که در گفتار به‌هم‌پیوسته، این انسدادی چاکنایی اگر در اول هجاهایی که با واکه شروع می‌شوند مانند /ʔast/ قرار گیرد دو حالت در تلفظ این هجا به وجود می‌آید. در حالت اول، گوینده ʔ// را ادا می‌کند، که در این صورت ساختار هجای دو واژۀ متوالی مانند «بیشتر است» به‌صورت /CVC CVC CVCC/ است. در حالت دوم، ممکن است گوینده ʔ// را تولید نکند، در چنین مواردی عدم تولید این انسدادی باعث تغییر ساختار هجا می‌شود؛ بنابراین، ساختار هجای دو واژۀ متوالی ذکرشده به‌صورت /CVC CV CVCC/ درمی‌آید. این امر باعث می‌شود تمایزات معنی‌دار میان‌گوینده در ویژگی‌های مربوط به هجا به ‌وجود آیند. می‌توان در پژوهش‌های آتی با استفاده از پیکره‌های بزرگ‌تر  به بررسی دقیق‌تر این پدیده پرداخت.

همان‌ طور که در جدول (3) ملاحظه شد، %V که درصد واکه‌ای بودن گفتار را نشان می‌دهد نیز جزو قوی‌ترین سنجه‌های نشان‌دهندۀ تمایزات میان‌گوینده برای داده‌های این پژوهش است. این نتیجه، هم‌راستا با یافته‌های اسدی و همکاران (2018) و نیز دلوو، لیمن و کولی (2015) است. بنابراین، از درصد واکه‌ای بودن گفتار نیز می‌توان به‌عنوان یک سنجۀ متمایزکنندۀ گوینده استفاده کرد.

پرسش دیگری که در اینجا مطرح می‌شود این است که تنوع ریتم میان‌گوینده چه کاربردهایی می‌تواند داشته باشد؟نتایج پژوهش حاضر می‌تواند برای هر نوع برنامۀ کاربردی که اطلاعات گوینده‌ویژه[55] در آن نقش ایفا می‌کند، مورداستفاده قرار گیرد. برنامه‌های شناسایی گوینده از متغیرهای دامنۀ فرکانس مانند فرکانس‌های پایه و سازه یا کل ویژگی‌های بستۀ طیفی استفاده می‌کنند؛ زیرا توسط ویژگی‌های آناتومیک چاکنای شکل می‌گیرند. با این حال، این متغیرها از کانال‌های دیگر برای انتقال اطلاعات کاربردی زبانی و فرازبانی استفاده می‌کنند. در حالی که گفتار در زمان بسیار سازمان‌یافته، عمل می‌کند. واضح به‌ نظر می‌رسد که سازمان‌دهی‌های زمانی زبرزنجیری، عملکرد واضحی را برای انتقال اطلاعات زبان‌شناختی و فرازبان‌شناختی به کار نمی‌‌گیرند. در مواردی که گویشوران از متغیرها برای ایجاد تضادهای عملکردی در گفتار استفاده می‌کنند، برای تعدیل آنها باید بر این ویژگی‌ها کنترل داشته باشند و باید سیستم ادراکی گویشوران روی آنها تنظیم شود.با این توصیفات، گویشور توانایی کنترل کم‌تری بر پارامترهای ریتمیک به نسبت آهنگ و تکیه دارد (Dellwo, Leeman & Kolly, 2015). این ویژگی در شناسایی گویشور در موارد قضایی دارای اهمیت است.

 

قدردانی

در این قسمت وظیفۀ خود می‌دانیم که یاد استاد گران‌قدر دانشگاه شیراز، مرحوم دکتر مهرزاد منصوری، را گرامی ‌بداریم که با همت و کوشش ایشان اتاق آواشناسی دانشگاه شیراز راه‌اندازی شد. روحشان شاد، نامشان جاودان.

همچنین، از ده شرکت‌کنندۀ این پژوهش که همگی از استادان و دانشجویان دانشگاه شیراز بودند و با ما در انجام این پژوهش همکاری کردند نهایت تشکر را داریم.



[1]. Forensic phonetics

[2]. speech rhythm

[3]. speech pathology

[4]. between-speakers

[5]. acoustic correlations

[6]. feet

[7]. isocrony

[8]. D. Abercrombie

[9]. K. Pike

[10]. A. Lloyd James

[11]. Germanic

[12]. stress-based

[13]. Romance

[14]. syllable-based

[15]. spontaneous

[16]. I. Nespor

[17]. R. Dauer

[18]. F. Ramus, M. Nespor, & J. Mehler

[19]. E. Grabe & E. L. Low

[20]. V. Dellwo

[21]. logarithmic transform

[22]. the coupled-oscillator model

[23]. amplitude modulation phase model

[24]. auditory primal sketch model

[25]. amplitude modulation phase model

[26]. A. Arvaniti

[27]. amplitude envelope-based rhythm measure

[28]. segmental

[29]. p-center

[30]. peaks

[31]. F0

[32]. within-speaker

[33]. V.Dellwo, A. Leemann & M. J. Kolly

[34]. speaker-idiosyncratic

[35]. formants

[36]. spectral envelope

[37]. A. Leemann, M.-J. Kolly & V. Dellwo

[38]. V. Dellwo & A. Fourcin

[39]. durational variability

[40]. interval-based

[41]. International Phonetics Association

[42]. https://www.internationalphoneticassociation.org/content/ipa-handbook-downloads

[43]. TextGrid

[44]. https://www.internationalphoneticassociation.org/content/ipa-chart

[45]. script

[46]. Volker Dellwo, Associate Professor of Phonetics, Zurich University, Switzerland. (https://www.cl.uzh.ch/de/people/team/phonetics/vdellw.html)

[47]. https://www.cl.uzh.ch/de/people/team/phonetics/vdellw/software.html

[48] https://www.cl.uzh.ch/de/people/team/phonetics/vdellw.html

[49]. L. He & V. Dellwo,

[50]. z-score

[51]. Pearson Correlation

[52]. Anova one-way

[53]. vocalic

[54]. pre-linguistic stage

[55]. speaker-specific information

ابوالحسنی‌زاده، وحیده و تقوی، نفیسه. (1398). بررسی و مقایسه ریتم زبان فارسی و زبان انگلیسی. دوفصلنامه زبان و ادبیات تفسیری-تطبیقی، (1)4، 1-10.
حق‌شناس، علی‌محمد. (1384). آواشناسی (فونتیک). تهران: نشر آگه.
Abercrombie, D. (1967). Elements of General Phonetics. Edinburgh, UK: Edinburgh University Press.
Abolhasani Zadeh, V., Taghva, N., Sharifi Moghadam, A., & Golshan, A. (2013). The effect of Farsi language rhythm on Iranian traditional non metric instrumental music. Aion-linguistica, 2, 11-19.
Abolhasani Zadeh, V., & Taghva, N. (2019). Study and comparison of Persian language and English language rhythm. Bialingual Interpretive-Comparative Journal of Language and Literature, 4(6), 1-10. [In Persian]
Adams, C. (1979). English Speech Rhythm and the Foreign Learner. The Hague:
Mouton.
Arvaniti, A. (2012). The usefulness of metrics in the quantification of speech rhythm. Journal of Phonetics, 40, 351–373.
Asadi, H., Nourbakhsh, M., He, L., Pelligrino, E., & Dellwo, V. (2018). Between-speaker rhythmic variability is not dependent on language rhythm, as evidence
from Persian reveals. The International Journal of Speech, Language and the Law, 25(2), 151-172.
Barbosa, P., & Bailly, G. (1994). Characterisation of rhythmic patterns for text-tospeech synthesis. Speech Communication, 15, 127-137.
Bertrán, A. P. (1999). Prosodic typology: On the dichotomy between stress-timed and syllable-timed languages. Language Design, 2, 103-131.
Bosch, L., & Sebastián-Gallés, N. (1997). The role of prosody in infants’ native language discrimination abilities: The case of two phonologically close languages. Paper presented in EUROSPEECH-1997, Rhodes, Greece, 231-234.
Dauer, R. (1983). Stress-timing and syllable-timing reanalyzed. Journal of Phonetics, 11, 51-62.
Dauer, R. (1987). Phonetic and phonological components of language rhythm. Paper presented at International Congress of Phonetic Science (ICPhS) XI, Tallinn, Estonia.
Dellwo, V. (2006). Rhythm and Speech Rate: A Variation Coefficient for delta C. In P. Karnowski & I. Szigeti (Eds.), Language and language-processing (pp. 231-241). Frankfurt am Main: Peter Lang.
Dellwo, V., Huckvale, M., & Ashby, M. (2007). How is individuality expressed in voice? An introduction to speech production & description for speaker classification. In C. Müller (Ed.). Speaker Classification I (pp. 1-20). Berlin: Springer.
Dellwo, V. (2009). Choosing the right rate normalization method for measurements of speech rhythm. In S. Schmid, M. Schwarzenbach, and D. Studer (Eds.), La Dimensione Temporale del Parlato: Atti del 5° Convegno Nazionale AISV 2009 (pp. 13-32). Torriana, Italy: EDK Editore.
Dellwo, V. (2010). Influences of speech rate on the acoustic correlates of speech rhythm: An experimental phonetic study based on acoustic and perceptual evidence. [Unpublished doctoral dissertation]. Bonn University.
Dellwo, V., Leemann, A., & Kolly, M-J. (2012). Speaker idiosyncratic rhythmic features in the speech signal. Proceedings of Interspeech, Portland (USA).
Dellwo, V. & Fourcin, A. (2013). Rhythmic characteristics of voice between and within languages. Revue Tranel (Travaux neuchâtelois de linguistique), 59, 87-107.
Dellwo, V., Leemann, A., & Kolly, M-J. (2015). Rhythmic variability between speakers: articulatory, prosodic, and linguistic factors. Journal of the Acoustical Society of America, 137, 1513-1528.
Grabe, E., & Low, E. L. (2002). Durational variability in speech and rhythm class hypothesis. In C. Gussenhoven and N. Warner (Eds.), Laboratory Phonology 7 (pp. 514-546). Berlin, Germany: Mouton de Gruyter.
Haghshenas, A. (2004). Phonetics. Tehran: Agah. [In Persian]
Liss, J. M., White, L., Mattys, S., Lansford, K., Lotto, K. A. J., Spitzer, S. M., & Caviness, J. N.  (2009). Quantifying speech rhythm abnormalities in the dysarthrias. Journal of Speech Language and Hearing Research, 52, 1334–1352.
He, L. (2017). Speaker idiosyncratic intensity variability in the speech signal. [Doctoral dissertation]. Zurich University.
He, L., & Dellwo, V. (2016). The role of syllable intensity in between speaker rhythmic variability. The International Journal of Speech, 23(2), 243-273.
Jessen, M. (2008). Forensic Phonetics. Language and Linguistics Compass, 2(4), 671–711.
Lee, C. S., & Todd, N. P. M. (2004). Towards an auditory account of speech rhythm: application of a model of the auditory “primal sketch” to two multilanguage corpora. Cognition, 93, 225-254.
Leemann, A., Kolly, M-J., Dellwo, V. (2014). Speaker-individuality in suprasegmental temporal features: Implications for forensic voice comparison. Forensic Science International, 238, 59-67.
Leong, V., Stone, M. A., Turner, R. E., & Goswami, U. (2014). A role for amplitude modulation phase relationships in speech rhythm perception. Journal of the Acoustical Society of America, 136, 366–381.
Leong, V., & Goswami, U. (2014). Impaired extraction of speech rhythm from temporal modulation patterns in speech in developmental dyslexia. Frontiers in Human Neuroscience, 8(96), 1-14.
Lioyd James, A. (1940). Speech Signals in Telephony. London: Sir Isaac Pitman & Sons.
Loukina, A., Kochanski, G., Rosner, B., Keane, E., & Shih, C.  (2011). Rhythm measures and dimensions of durational variation in speech. Journal of Acoustic Society of America, 129, 3258-3270.
McDougall, K. (2004). Speaker-Specific Formant Dynamics: An Experiment on Australian English /aI/. International Journal of Speech, Language and the Law, 11, 103–130.
McDougall, K. (2006). Dynamic features of speech and the characterisation of speakers: Towards a new approach using formant frequencies. International Journal of Speech, Language and the Law, 13, 89–126.
Milne, B. L. (1955). Modern speech rhythm exercises. London: Macmillan.
Morton, J., Marcus, S., & Frankish, C. (1976). Perceptual centers (P-centers). Psychological Review, 83, 405–408.
Nazzi, T., Bertoncini, J., & Mehler, J. (1998). Language discrimination by newborns: Towards an understanding of the role of rhythm. Journal of ExperimentalPsychology: Human Perception and Performance, 24, 756-766.
Nazzi, T., Jusczyk, P. W., & Johnson, E. K. (2000). Language discrimination by English-learning 5-month-olds: Effect of rhythm and familiarity. Journal ofMemory and Language, 43, 1-19.
Nespor, I. (1990). On the rhythm parameter in phonology. In I. Roca (Ed.), Logical Issues in Language Acquisition (pp. 157-195). Dordrecht: Foris.
Nolan, F. (2002). Intonation in speaker identification: an experiment on pitch alignment Features. Forensic Linguistics, 9, 1–21.
Nolan, F., & Jeon, H. S. (2015). Speech rhythm: a metaphor? Philosophical Transactions of the Royal Society B, 369(1658), 1-11.
O’Dell, M. L., & Nieminen, T. (1999). Coupled oscillator model of speech rhythm. In Proceedings of the 14th International Congress of Phonetic Sciences (ICPhS) 1075–1078. San Francisco, USA.
Payne, E., Post, B., Astruc, L., Prieto, P., & Vanrell, M. (2012). Measuring child rhythm. Language and Speech, 55(2), 203–229.
Pike, K. (1945). The intonation of American English. Ann Arbor: University of Michigan Press.
Pointon, G. E. (1980). Is Spanish really syllable-timed? Journal of Phonetics, 8, 293-304.
Polyanskaya, L., & Ordin, M. (2015) Acquisition of speech rhythm in first language. Journal of the Acoustical Society of America, 138, 199–204.
Ramus, F., & Mehler, J. (1999). Language identification with suprasegmental cues: A study based on speech resynthesis. Journal of the Acoustical Society of America. 105, 512-521.
Ramus, F., Nespor, M., & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.
Ramus, F., Hauser, M. D., Miller, C., Morris, D., & Mehler, J. (2000). Language discrimination by human newborns and by cotton-top Tamarin monkeys. Science, 288, 349-351.
Roach, P. (1982). On the distinction between “stress-timed” and “syllabletimed” languages. In D. Crystal (Ed.), Linguistic Controversies (pp. 73-79). London: Edwards Arnold.
Rose, P. (1996). Speaker verification under realistic forensic conditions. In P. McCormak and A. Russell (Eds), Proceedings of the Sixth Australian International Conference on Speech Science and Technology, Australian Speech Science and Technology Association, Canberra (pp. 109-114).
Rose, P. (2004). Forensic Speaker Identification. Boca Raton, FL: CRC Press.
Tilsen, S., & Johnson, K. (2008). Low-frequency Fourier analysis of speech rhythm. Journal of Acoustic Society of America, 124, 34-39.
Tilsen, S. & Arvaniti, A. (2013). Speech rhythm analysis with decomposition of the amplitude envelope: Characterizing rhythmic patterns within and across languages. Journal of Acoustic Society of America, 134, 628-639.
Wiget, L., White, L., Schuppler, B., Grenon, I., Rauch, O., & Mattys, S. L. (2010). How stable are acoustic metrics of contrastive speech rhythm? Journal of Acoustic Society of America, 127, 1559– 1569.
White, L., & Mattys, S. L. (2007). Calibrating rhythm: First language and second language studies. Journal of Phonetics, 35, 501–522.
White, L., Liss, J., & Dellwo, V. (2010) Assessment of rhythm. In A. Lowit & R. D. Kent (Eds.) Assessment of motor speech disorders (pp. 312–352). San Diego: Plural Publishing.
Yoon, T. J. (2010). Capturing inter-speaker invariance using statistical measures of speech rhythm. Proceedings of Speech Prosody 5, Chicago/Ill. 1-4.