Document Type : Research Paper
Authors
1 PhD Candidate, Department of Foreign Languages and Linguistics, Faculty of Literature and Humanities, Shiraz University, Shiraz,
2 Department of Foreign Languages and Linguistics, Faculty of Literature and Humanities, Shiraz University, Shiraz, Iran
3 Department of Foreign Languages, Faculty of Literature and Humanities, Shahid Bahonar University of Kerman, Kerman, Iran
Abstract
Keywords
Main Subjects
1. مقدمه
بررسی ویژگیهای ریتم زبانهای مختلف ازجمله موضوعات بحثبرانگیز زبانشناسی در پژوهشهای اخیر است. زمان دقیق وارد شدن بحث ریتم در حوزۀ گفتار بهطور دقیق مشخص نیست؛ اما میتوان تصور کرد که ابتدا به حوزۀ موسیقی وارد شده است. پژوهشهای اولیه دربارۀ ریتم گفتار تنها بهبررسی ریتم در شعر میپرداختند؛ با این فرض که ریتم در گفتار عادی تظاهر پیدا نمیکند؛ اما اکنون مطالعات ریتم به تمام شاخههای زبانشناسی راه پیدا کرده است و در آواشناسی نیز نتایج جالبی را به خود اختصاص داده است. اکنون بالغ بر هشت دهه است که زبانها را براساس ریتم آنها تقسیمبندی میکنند. در سالهای اخیر نیز تلاشهای مهمی در راستای بررسی ریتم گفتار در ارتباطات زبانی بهخصوص در آواشناسی قضایی[1] انجام شده است.
در اولین برخورد ممکن است موضوع ریتم زبان بهمثابه ویژگی زبانی کماهمیتی تلقی شود؛ زیرا ریتم اثر مستقیمی در واجشناسی و در فرایند ارتباط زبانی ندارد. بهعلاوه، برخلاف دیگر ویژگیهای نوایی مانند آهنگ، نمیتوانیم معنای دو عبارت، دو جمله یا دیگر واحدهای گفتار را براساس ریتم آنها متمایز کنیم. همچنین، ریتم از جنبۀ فرازبانی نیز ویژگی بارزی ندارد؛ برای مثال، نمیتوان تنها براساس ریتم، دو احساس متفاوت را بیان کرد.(Dellwo, 2010) بنا به دلایل ذکرشده، این پرسش مطرح میشود که اهمیت ریتم گفتار[2] در چیست؟
تاکنون مطالعات ریتم زبان در زمینۀ آکوستیک حداقل در چهار حوزۀ اصلی نتایج مفیدی را عرضه کردهاند:
1. گفتار کودک و یادگیری زبان دوم (Milne, 1955; Adams, 1979; Polyanskaya & Ordin, 2015)
2. فناوری گفتار (Barbosa and Bailly, 1994)
3. آسیبشناسی گفتار[3] (Liss et al., 2009White, Liss & Dellwo, 2010;Leong & Goswami, 2014; )
4. شناسایی گوینده (Leeman, Kolly & Dellwo, 2014; Dellwo, Leeman & Kolly, 2012 )
در این پژوهشها، هنوز توافقی در تعریف ریتم گفتار حاصل نشده است؛ اما دو جنبۀ زمانبندی و برجستگی طیفی، مکانیسمهای قابل قبولی هستند که اساس این پدیده را تشکیل میدهند (Nolan & Jeon, 2015). با وجود این، جالب است که تقریباً تمام مدلهای ریتم بهنوعی براساس ویژگیهای دیرشی گفتار بنا شدهاند.
در پژوهش حاضر برآنیم تا به بررسی همبستههای دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی، از جمله فواصل واحدهای زبانی، فواصل همخوانی و واکهای، فواصل واکداری و بیواکی، فواصل هجایی و فواصل قلۀ هجا بپردازیم و سنجههای مناسب تشخیص میانگوینده[4] را در زبان فارسی معرفیکنیم؛ با این هدف که درک نظری ما دربارل ویژگیهای ریتمیک فردی گوینده ارتقا یابد. انتظار میرود یافتههای پژوهش حاضر در آینده در محیط تشخیص گوینده اعمال شود. پرسشهای این پژوهش عبارتاند از:
الف. همبستههای آکوستیک[5] زبان فارسی با توجه به سنجههای موجود چگونه عمل میکنند؟
ب. آیا تفاوتهای میانگوینده در ویژگیهای زمانی زنجیری و زبرزنجیری زبان فارسی وجود دارد؟
ج. کدام سنجۀ زمانی زنجیری و زبرزنجیری تفاوتهای میانگوینده را بیشتر منعکس میکند؟
2. پیشینۀ پژوهش
گمانهزنیهای اولیه دربارۀ طبقهبندی ریتم زبانهای مختلف متمرکز بر مدتزمان هجاها و پایهها[6] هستند که در آنها ریتم گفتار ازنظر جنبههای همزمانی[7] در نظر گرفته میشود. ابرکرومبای[8] (1967)، پایک[9] (1945) و لیودجیمز[10] (1940) معتقدند زبانهای ژرمنی[11] از قبیل انگلیسی، آلمانی و هلندی دارای پایههای همزمان هستند؛ یعنی دیرش فواصل بین تکیهها در گفتار آنها باهم برابر است؛ از این رو، به آنها «تکیهزمانی»[12] گفته میشود. همچنین، آنها بر این باورند که زبانهای رومیتبار[13] مانند فرانسه، ایتالیایی و اسپانیایی دارای هجاهای همسان هستند؛ یعنی مدت زمان هجایی برابر دارند؛ از این رو، زبانهای «هجازمانی»[14] خوانده میشوند. بهعلاوه در زبانهای تکیهزمانی مانند انگلیسی، میتوان تعدادی از هجاهای بدون تکیه را بین هجاهای تکیهدار قرارداد، بدون اینکه دیرش پایهها بهطور چشمگیری تغییر کند؛ اما به نظر میرسد برای زبانهای هجازمانی مانند زبان فرانسه هجاهای تکیهدار یا بیتکیه، مدتزمان مشابهی دارند.
با وجود این، چنین رویکردی را میتوان به راحتی در گفتار بداهه[15] نقضکرد؛ زیرا سنجههای اولیة اندازهگیری دیرش پایه و هجا نتوانسته چنین الگوهای یکسانی را در زمانبندی نشان دهند (Bertrán, 1999; Dauer, 1983; Pointon, 1980; Roach, 1982). تا آنجاکه نسپر[16] (1990) استفاده از اصطلاحات تکیهزمانی و هجازمانی را نیز نمیپذیرد. در هر صورت، نتایج تعداد بیشماری از پژوهشها تأیید میکنند که زبانهایی که ازنظر ریتم باهم فرق دارند، در بزرگسالان، نوزادان و حتی حیوانات ازنظر ادراک نیز دارای تفاوت درخورتوجه هستند (Nazi, Jusczyk & Johnson, 2000; Ramus et al., 2000; Ramus & Mehler, 1999; Ramus, Nasper & Mehler, 1999; Nazzi, Bertoncini & Mehler, 1998; Bosch & Sebastián-Gallés, 1997).
درادامه، پژوهشگران شروع به بررسی ویژگیهای دیرش سایر واحدهای گفتار میکنند و معیارهای دیگری را برای تعیین کمّیت تفاوتهای ریتم بین زبانها پیشنهاد میدهند. دائر[17] (1983, 1987) استدلال میکند زبانهایی که ریتم متفاوتی دارند از نظر وزن هجا و کاهش واکهای نیز متفاوت هستند؛ به این صورت که زبانهای تکیهزمانی معمولاً دارای ساختار هجایی پیچیدهتر و میزان بالاتری از کاهش واکهای هستند؛ در صورتی که زبانهای هجازمانی دارای ساختار هجایی سادهتر و میزان کمتر کاهش واکهای هستند.
راموس، نسپر و مهلر[18] (1999) به بررسی این فرضیه با اندازهگیری انحراف معیار دیرش فواصل همخوانی و واکهای ∆C) و(∆V و همچنین، درصد واکهای بودن ((%V هر جمله میپردازند. سپس، گریب و لو[19] (2002) شاخص تغییرپذیری دوتایی (PVI) را برای اندازهگیری تغییرپذیری دیرش فواصل واکهای و همخوانی متوالی (nPVI-V و rPVI-C) معرفیمیکنند. علاوهبر این، دلوو[20] (2001, 2009)چند روش نرمالسازی مانند ضریب تغییر وارکو (varco) و لگاریتم طبیعی (تبدیل لگاریتمی)،[21] که به اختصار ln نامیده میشود، را بهمنظور خنثیسازی سرعت گفتار ارائه میدهد.
در همین حین، رویکردهای دیگری در مطالعۀ ریتم گفتار ظهور میکنند؛ مانند: مدل نوسانگر[22] همراه (O’Dell & Nieminen, 1999)، مدل فاز مدولاسیون دامنه[23] (Leong et al., 2014)، مدل طرح اولیۀ شنوایی[24] (Lee & Todd, 2004)، و مدل طیفی از دامنه[25] (Tilsen & Johnson, 2008). از میان این پژوهشها، تنها مدل طیفی از دامنه (Tilsen & Johnson, 2008) در حوزۀ موردِبررسی پژوهش حاضر است که به توضیح آن خواهیم پرداخت. آروینتینی[26] (2012) روش دیگری برای اندازهگیری ریتم گفتار معرفی میکند که سنجههای ریتم بستۀ دامنه[27] نام دارد. در این روش کمتر به خصوصیتهای مربوط به واحدهای زبانی[28] پرداخته میشود و بیشتر به تکرار اطلاعات صوتشناختی مانند دامنۀ ضربههای حاصل از دامنۀ گفتار میپردازد. این رویکرد بر این نظریه استوار است که هجا دارای یک مرکز ادراکی[29] است که همبستههای صوتی آن شامل ترکیب پیچیدهای از قلههای[30] بستۀ دامنه، حرکات فرکانس پایه[31] و کیفیتهای مربوط به واحدهای زبانی هستند (Morton et al., 1976). همچنین، ویژگیهای زمانی ضربهای هجا از نظر خصوصیتهای درک ریتم گفتار برجستهتر از مرزهای هجایی یا مربوط به واحدهای زبانی هستند (Tilsen & Johnson, 2008Tilsen & Arvintini, 2013; ).
از دیگر حوزههایی که سنجههای ریتم در آن بررسی میشود مطالعات علوم قضایی است. علوم قضایی در گفتار یک حوزۀ میانرشتهای است که پیوندی را میان نظریهها و روشهای آواشناسی اجتماعی، زبانشناسی اجتماعی، فیزیک گفتار، فناوری و پردازش گفتار و فعالیتهای عملی در بافتهای دادگاهی برقرار میکند (Jessen, 2008). یکی از جنبههای آواشناسی قضایی بررسی تغییرات میانگوینده و درونگوینده[32] در گفتار و آواهای تولیدشده توسط انسان است؛ زیرا گویشوران مختلف یک زبان صداهای متفاوتی دارند (Rose, 2004). بنابراین، ما با تنوع میان گویشوران مواجه هستیم که آن را تنوعات میانگوینده مینامند. اگرچه یک فرض کلی وجود دارد که افراد مختلف دارای صداهای مختلفی هستند، درک این نکته ضروری است که حتی صدای یک گویشور نیز در موقعیتهای مختلف متفاوت خواهد بود. رز (1996) بیان میکند که این یک حقیقت آوایی است که هیچکس تا به حال یک گفتار را دقیقاً یکسان تولید نکرده است. رز (2004) چنین تنوعاتی را درونگوینده مینامد.
دلوو، لیمن و کولی[33] (2015) سه دلیل برای این تنوعات بیان میکنند، که عبارتاند از: طبیعت اندامهای تولید گفتار، عوامل زبانشناختی و عوامل نوایی. صدای هر گویشوری منحصر به فرد[34] است؛ به همین دلیل است که معمولاً شنوندگان میتوانند گویندگان را براساس صدای آنها تا حد نسبتاً دقیقی تشخیص دهند. ویژگیهای متغیر زمان گفتار مانند کیفیت صدا یا ویژگیهای دامنۀ فرکانس مانند فرکانس پایه و هارمونیکهای آن، فرکانس سازههای[35] واکهها و ویژگیهای کلی بستۀ طیفی[36] نقش مهمی در شناسایی گویندگان انسانی و خودکار دارند (Dellwo, Huckvale & Ashby, 2007; McDougall, 2004 ; 2006; Nolan, 2002). دلیل منطقی آن این است که پارامترهای دامنۀ فرکانس تا حد زیادی نتیجۀ ویژگیهای فیزیولوژیکی فردی اندامهای تولید گفتار هر گوینده است؛ برای مثال، اندازۀ چاکنای و حنجره بهترتیب با میزان رزنانس چاکنای و میزان لرزش تارآواها ارتباط دارد (Dellwo et al., 2015).
در حال حاضر شواهد موجود از مجموعه دادههای مختلف نشان میدهد که اندازهگیری ریتم براساس فواصل واکهای و همخوانی میتواند در یک زبان بهعنوان تابعی از گویشور بهطوردرخورتوجهی متفاوت باشد (Leeman, Kolly & Dellwo, 2014; Loukina et al., 2012; Arvintini, 2012; Wiget, et al., 2010; Yoon, 2010 ). ویگت و همکاران (2010) با بررسی ریتم گفتار زبان انگلیسی نشان میدهند که در زبان انگلیسی V% و VarcoV از تغییرپذیری میانگوینده بیشتری نسبت به nPVI برخوردار هستند. یوون (2010) همین نتایج را برای گفتار بداهۀ انگلیسیزبانان شمال آمریکا به دست میآورد. همچنین، اطلاعات گویندهویژهدر دیرش فواصل واکداری و بیواکی در پژوهشهای لیمن، کولی و دلوو[37] (2014) و دلوو و فورسین[38] (2013) در زبان آلمانی سوییس گزارش میشود.
در سالهای اخیر پژوهشهایی در زمینۀ ویژگیهای آکوستیک ریتم زبان فارسی انجام شده است. از جمله ابوالحسنیزاده و همکاران (2013) و ابوالحسنیزاده و تقوی (1398) که با بررسی تغییرپذیری دیرش[39] فواصل واکهای و میان واکهای (nPVI-V و rPVI-C) زبان فارسی را جزو زبانهای هجازمانی قرار میدهند. پژوهش دیگری که دربارۀ همبستههای آکوستیک ریتم زبان فارسی انجام شده است، اثر اسدی و همکاران (2018) است. در این پژوهش تفاوتهای درونگوینده و بینگویندۀ فارسی در یک متن خوانشی با 5 سرعت متفاوت در ده گویشور زبان فارسی معیار بررسی میشود. یافتههای این پژوهش بیانگر این است که در %V, ∆V [ln], ∆C [ln], nPVI-V تفاوت معنیدار میانگوینده وجود دارد؛ همچنین، تأکید میکنند که %V به بهترین شکل تمایزهای میانگوینده را منعکس میکند.
در پژوهش ابوالحسنیزاده و همکاران (2013) و ابوالحسنیزاده و تقوی (1398) با استفاده از دادههایی که از خوانش جملهها به دست آمده است، فقط به بررسی تغییرپذیری دیرش فواصل واکهای و میان واکهای (nPVI-V و rPVI-C) زبان فارسی پرداخته شده است. در پژوهش اسدی و همکاران (2018) نیز تمایزات میانگوینده در سه سطح واحدهای زبانی، همخوانی و واکهای و هجایی در سرعتهای مختلف گفتار بررسی شده است.
3. مبانی نظری
سنجههای ریتم گفتار به دو دسته تقسیمبندی میشوند:
الف. سنجههای وابسته به دیرش فواصل گفتار (فاصلهمبنا)،[40] که خود به سه دسته تقسیم میشود:
- سنجههای ضریب دیرش همخوانی و واکهای، مانند درصد واکهای بودن گفتار (Ramus, Nesper & Mehler, 1999). این سنجهها به بررسی درصد واکهای بودن گفتار (%V) و درصد واکدار بودن گفتار (%VO) میپردازند.
- سنجههای تغییرپذیری دیرش همخوانی و واکهای که شامل ∆C و∆V میشوند و به بررسی انحراف معیار دیرش فواصل واکهای و همخوانی ( (Ramus, Nesper & Mehler, 1999 میپردازند. همچنین، میانگین تفاوت دیرشی بین فواصل همخوانی و واکهای متوالی (Grabe & Low, 2002) که شاخص تغییرپذیری دوتایی (PVI) نام دارد و برای اندازهگیری تغییرپذیری دیرش فواصل واکهای و همخوانی متوالی استفاده میشوند.
- سنجههای تغییرپذیری واکهای و همخوانی نرمالشدۀ سرعت، مانند ضریب تغییر دیرش فواصل واکهای و همخوانی (Dellwo, 2009; Dellwo, 2006) که ضریب تغییر وارکو (varco) و لگاریتم طبیعی (تبدیل لگاریتمی) نامیده میشود و برای خنثیسازی سرعت گفتار بهکار میروند. دیگر سنجه نرمالشده شاخص تغییرپذیری دوتایی نرمالشده (nPVI) است که به بررسی میانگین تفاوت میان فواصل واکهای و همخوانی متناسب با دیرش فواصل دوتایی نرمالشده میپردازد (Grabe & Low, 2002).
ب. سنجههای ریتم بستۀ دامنه که در آن به خصوصیتهای زمانی هجا پرداخته میشود ((Arvintini, 2012 و به تکرار اطلاعات صوتشناختی مانند دامنۀ ضربههای حاصل از دامنۀ گفتار میپردازد.
در پژوهش حاضر همبستههای دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی، از جمله فواصل واحدهای زبانی، فواصل همخوانی و واکهای، فواصل واکداری و بیواکی، فواصل هجایی و فواصل قلۀ هجا بررسی میشوند و سنجههای مناسب تشخیص میانگوینده در زبان فارسی معرفی میشوند.
در پژوهش حاضر همبستههای دیرشی ریتم زبان فارسی در سطوح مختلف فواصل آوایی با توجه به سنجههای ذکرشده بررسی میشوند.
4. روش پژوهش
با توجه به اینکه روش پژوهش حاضر آماری و آزمایشگاهی است، در این قسمت به معرفی گویشوران این پژوهش، چگونگی جمعآوری دادهها، ویرایش دادهها، سنجههای زمانی موردِاستفاده و تحلیلهای آماری پژوهش پرداخته میشود.
1-4. گویشوران
شرکتکنندگان این پژوهش شامل ده گویشور (5 مرد و 5 زن) زبان فارسی هستند که همگی با لهجۀ معیار صحبت میکنند و هیچیک از آنها لهجۀ محلی و نارسایی گفتاری و شنوایی ندارند. بازۀ سنی گویشوران بین 23 تا 40 سال با میانگین سنی 18/32 و : SD 4.79 است. از نظر گروه اجتماعی تلاش شده است که گروه همسانی از گویشوران انتخاب شوند. به همین دلیل تمامی گویشوران از استادان و دانشجویان دانشگاه شیراز هستند.
2-4. دادهها
دادههای پژوهش حاضر در اتاق آکوستیک دانشگاه شیراز با استفاده از ریکوردر zoom h4 با مشخصات 24-bit/96 kHzو قابلیت خشهگیری 120- dBu EIN، ضبط شد. به صورتی که میکروفون بهوسیلۀ یک پایه به فاصلۀ بیست سانتیمتری از دهان شرکتکنندگان بهصورت مورب قرار گرفت.از آنجا که این پژوهش بر تفاوت میانگوینده تمرکز دارد برای به حداقل رساندن تنوعات گفتاری سعی شد شرایط یکسانی برای تمامی شرکتکنندگان ایجاد شود و همۀ شرکتکنندگان یک متن واحد را با سرعت گفتار معمولی قرائت کنند. در همین راستا، متن فارسی داستان «باد شمال و خورشید» برای این پژوهش انتخاب شد. نمونۀ ضبطشدۀ این متن به زبانهای مختلف در سایت [41]IPA نیز موجود است و تاکنون کارهای متعددی در سراسر دنیا با استفاده از این متن انجام شده است[42] ازجمله پژوهش آروینتینی (2012) و گریب و لو (2002). نسخۀ فارسی این متن شامل هفت جملۀ پیچیده است. تنها تفاوتی که متن این پژوهش با صدای ضبطشدۀ زبان فارسی موجود در سایت IPAدارد، وجود واژۀ «لبّاده» است که باتوجهبه نامأنوس بودن این واژه برای گویشوران معاصر، به «پالتو» تغییر پیدا کرد. متن داستان پیش از مصاحبه در اختیار گویشوران قرار میگرفت تا آن را مطالعه کنند. در زمان مصاحبه نیز به آنها گفته میشد که هر چندمرتبه که لازم بدانند میتوانند از روی متن بخوانند تا به وضعیت دلخواه خود برسند؛ اگر در خواندن جملهای دچار اشتباه میشدند از آنها خواسته میشد آن جمله را تکرار کنند.
1-2-4. ویرایش دادهها
دادههای پژوهش در نرمافزار پِرَت، نسخۀ 09. 1. 6 مورد تجزیهوتحلیل آکوستیکی قرار میگیرد. به این صورت که شش لایه شبکۀ متنی[43] ساخته میشود. در لایۀ اول آغازه و پایانۀ هر واحد زبانی بهدقت مشخص میشود و با توجه به آوانگاری IPA آوانویسی میشوند؛[44] مکثهای موجود در اول، درون و آخر جملهها مشخص میشوند. سپس، در لایۀ دوم، واکهها و همخوانها برچسبگذاری میشوند. در لایۀ سوم، فواصل همخوانی و واکهای براساس تعداد همخوانها و واکهها تعیین میشوند؛ در لایۀ چهارم، فواصل همخوانی و واکهای بدون نگارش تعداد واکهها و همخوانهای موجود در هریک از فاصلهها مشخص میشوند. در لایۀ پنجم، مرز بین هجاهای موجود تعیین میشوند؛ درنهایت در لایۀ ششم، قلۀ هر هجا برحسب اصل رسایی بهصورت خودکار توسط برنامۀ رایانهای،[45]، نوشتهشده توسط دلوو[46]، مشخص میشوند. نمونهای از شبکۀ متنی ساختهشده در شکل (1) آورده میشود.
3-4. سنجههای زمانی مورد استفاده
در پژوهش حاضر، از تعدادی از سنجههای زمانی پژوهشهای پیشین ریتم گفتار (Dellwo et al., 2015; Ramus et al., 1999; Tilsen & Arvintini, 2013; Dellwo et al., 2012; Dellwo, 2010 and 2009; White & Mattis, 2007; Grabe & Low, 2002.) استفاده میشود. تمامی سنجهها بهصورت خودکار با استفاده از برنامۀ رایانهای موجود[47] نگارششده توسط دلوو، محاسبه میشوند. این سنجهها برحسب لایههای شبکه متنی در جدول (1) آورده میشوند.
شکل 1. نمونۀ شبکۀ متنی ساختهشده برای این پژوهش (جملۀ دوم متن داستان باد شمال و خورشید)
Fig 1- An example of a TextGrid for this study (the second sentence of "The north wind and the sun" story)
جدول 1- سنجههای محاسبهشدۀ این مقاله براساس لایههای شبکۀ متنی
Table 1- The measures of this study based on the tiers of the TextGrids
لایه |
نام لایه |
سنجه |
||
1 |
segment |
|
||
2 |
cv segment |
rateCon meanCon, meanConLn, ∆Con, ∆ConLn, varcoCon, rPVI_Con nPVI_Con, ,rateVow, meanVow, meanVowLnt, ∆Vow, ∆VowLn varcoVow,rPVI_Vow,nPVI_Vow |
||
4 |
cv interval |
rateC, meanC, meanCLn, ∆C, ∆CLn, varcoC, rPVI_C, nPVI_C rateV, meanV, meanVLn, ∆V, ∆VLn, varcoV, rPVI_V, nPVI_V, %V, |
||
5 |
syllable |
rateSyl, meanSyl, meanSylLn, ∆Syl, ∆SylLn, varcoSyl, rPVI-Syl, nPVI-Syl |
||
6 |
peak tier |
meanPeak, ratePeak, meanPeakLn, ∆Peak, ∆PeakLn, varcoPeak rPVI_peak, nPVI_peak |
||
4 |
cv interval |
rateCV, meanCV, meanCVLn, ∆CV, ∆CVLn, VarcoCV, nPVI-CV, rPVI-CV, %VO, nVoiced, meanVoiced, meanVoicedLn, ∆Voiced, ∆VoicedLn, varcoVoiced, rPVI_Voiced, nPVI_Voiced, nUnvoiced, meanUnvoiced meanUnvoicedLn, ∆Unvoiced, ∆UnvoicedLn, varcoUnvoiced ,rPVI_Unvoiced nPVI_Unvoiced |
در این قسمت، از هر نمونه سنجه یک مورد توضیح داده میشود.
- درصد واکهای بودن گفتار (%V) و درصد واکدار بودن گفتار (%VO):
(1)
که در این فرمول تعداد فواصل واکهای، تعداد فواصل همخوانی، دیرش فواصل واکهای و دیرش فواصل همخوانی است.
- سرعت فواصل مختلف براساس معادلۀ زیر محاسبه میشود. فرمول (2) سرعت فواصل همخوانی و واکهای را نشان میدهد؛ مانند فرمول (2):
(2)
در این فرمول تعداد فواصل واکهای یا همخوانی در جمله است و دیرش جمله بدون درنظرگرفتن مکثها است.
- دیرش فواصل مختلف انحراف معیار سرعت نرمالشده ( (Varco، انحراف معیار تقسیم بر میانگین که varco نام دارد؛ مانند فرمول (3):
(3)
در این فرمول انحراف معیار دیرش فواصل واکهای و میانگین دیرش فواصل واکهای است.
- تغییرپذیری دوتایی دیرش فواصل مختلف نرمالشده؛ مانند فرمول (4):
- (4)
که در آن تعداد فواصل واکهای و دیرش فواصل kth
- سنجههایی که پسوند Ln دارند نسخههای نرمالنشده همتای بدون Ln خود هستند؛ برای مثال فرمول (5):
(5)
در این معادله (فواصل مورد نظر هستند، واکهای، همخوانی یا قلهای) و N تعداد این فواصل مورد نظر است.
4-4. تحلیلهای آماری
تمام محاسبههای مربوط به اندازهگیری سنجههای ریتم بهوسیلۀ برنامۀ رایانهای موجود در نرمافزار پِرَت که توسط دلوو[48] نوشته شده است، محاسبه میشود. سپس، برای بررسی پرسش اول این پژوهش مبنیبر عملکرد همبستههای آکوستیکی براساس سنجههای موجود، میانگین و انحراف معیار نتایج بهدستآمده از برنامۀ رایانهای، در برنامۀ SPSS نسخه 23 بررسی میشود و با نتایج پژوهشهای پیشین مقایسه میشود. لی و دلوو[49] (2016) نشان میدهند که نمرۀ [50]z در سنجههای ریتم برای پایگاه دادههای بزرگ مفید است؛ به همین دلیل، در پژوهش حاضر از این تحلیل آماری استفاده نمیشود. در پاسخ به پرسشهای دوم و سوم پژوهش دربارۀ وجود تفاوت در ویژگیهای زمانی زنجیری و زبرزنجیری میانگوینده زبان فارسی در مرحلۀ اول با استفاده از تحلیل همبستگی پیرسون[51] سنجههایی که با یکدیگر همبستگی کمتری دارند، انتخاب میشوند؛ زیرا بررسی دو یا چند پارامتر با همبستگی بالا در پژوهشهای آواشناسی حقوقی توجیه منطقی ندارد. سپس، با استفاده از آزمون آنوا یکطرفه،[52] که متغیر مستقل آن گویندگان و متغیر وابسته سنجههای ریتم هستند، قویترین سنجهای که نشاندهندۀ تمایزات میانگوینده در دادههای این پژوهش است مشخص میشود و در نمودارهای boxplot نمایش داده میشود.
5. یافتهها
همان طور که در بخشهای قبل اشاره شد، تمرکز این پژوهش بر عملکرد سنجههای ریتم بهکارگرفتهشده در پژوهشهای پیشین دربارۀ زبان فارسی و شناسایی سنجههایی است که تفاوتهای میانگوینده را بیشتر منعکس میکند. در این پژوهش، از 70 جملۀ زبان فارسی معیار (7 جمله × 10 گویشور) استفاده میشود. تعداد دیرش فواصل بررسیشده به شرح زیر است:
فواصل مربوط به واحدهای زبانی: 4081، فواصل هجایی: 2016، فواصل میانواکهای: 1918، فواصل واکهای:[53] 1802، فواصل همخوانی-واکهای: 3920، فواصل همخوان: 1148، فواصل واکه: 1766، فواصل بین قلهای: 1905، فواصل واکداری: 1802، فواصل بیواکی: 1918
1-5. همبستههای ریتم زبان فارسی
میانگین و انحراف معیار تمامی سنجههای ذکرشده در جدول (1)، برای دادههای این پژوهش در جدول (2) نشان داده میشود. در این جدول سنجههای مربوط به واحدهای زبانی با «Seg»، سنجههای مربوط به هجا با «Syl» سنجههای مربوط به فواصل میانواکهای با «C»، سنجههای مربوط به فواصل واکهای «V»، سنجههای مربوط به فواصل همخوانی-واکهای با «CV»، سنجههای مربوط به دیرش همخوانها با «Con»، سنجههای مربوط به دیرش واکهها با «Vow»، سنجههای مربوط به فواصل واکداری با «Voiced»، سنجههای مربوط به فواصل بیواکی با «Unvoiced»، و درنهایت سنجههای مربوط به فواصل بین-قلهها با «Peak» مشخص شدهاند.
راموس و همکاران (1999) با محاسبۀ %V، ∆V، ∆C پیوستاری را برای ریتم زبانهای مختلف در نظر گرفتهاند که در یک سر آن زبانهای تکیهزمانی و در سر دیگر آن زبانهای هجازمانی قرار دارند. آنها زبان انگلیسی را جزو زبانهای تکیهزمانی و زبان فرانسه را نمایندۀ مناسبی برای زبانهای هجازمانی میدانند و کاتالان را در میانۀ این پیوستار قرار میدهند. دربارۀ نتایج این پژوهش، همان طور که در جدول (2) مشاهده میشود، انحراف معیار %V دادههای پژوهش حاضر برابر 85/3 است، درحالیکه انحراف معیار %V زبان انگلیسی براساس یافتههای راموس و همکاران (1999) برابر 4/5 و زبان فرانسه 5/4 و زبان ژاپنی 4/3 است. علاوهبر این، میانگین ∆V و ∆C این پژوهش بهترتیب 03/0 و 57/0 است و ∆V و ∆C زبان انگلیسی، براساس یافتههای راموس و همکاران (1999)، 1.25 و 1.63 و برای زبان فرانسه 1.21 و 0.74 است. درنتیجه، یافتههای این پژوهش، زبان فارسی را در میانۀ پیوستار هجازمانی-تکیهزمانی نزدیک به هجازمانی قرار میدهد.
جدول 2- میانگین و انحراف معیار سنجههای ریتم زبان فارسی معیار
Table 2- Mean and standard deviation for measuers of Standard Persain rhythm
سنجه |
میانگین |
انحراف معیار |
|
سنجه |
میانگین |
انحراف معیار |
∆Syl |
.126 |
.0434 |
|
varcoCon |
.409 |
.0665 |
∆SylLn |
.490 |
.083 |
|
rPVI_Con |
4.247 |
.775 |
varcoSyl |
.545 |
.134 |
|
nPVI_Con |
50.363 |
9.388 |
rPVI-Syl |
11.495 |
3.251 |
|
rateVow |
13.903 |
2.100 |
nPVI-Syl |
51.03 |
9.343 |
|
meanVow |
.074 |
.018 |
rateC |
8.453 |
1.039 |
|
meanVowLn |
-2.692 |
.147 |
meanC |
.120 |
.015 |
|
∆Vow |
.028 |
.008 |
meanCLn |
-2.255 |
.114 |
|
∆VowLn |
.392 |
.064 |
∆C |
.057 |
.0135 |
|
varcoVow |
.378 |
.067 |
∆CLn |
.543 |
.094 |
|
rPVI_Vow |
3.172 |
.900 |
varcoC |
.474 |
.079 |
|
nPVI_Vow |
43.070 |
7.736 |
rPVI_C |
5.965 |
1.526 |
|
meanPeak |
.241 |
.035 |
nPVI_C |
51.814 |
9.045 |
|
ratePeak |
4.226 |
.590 |
rateV |
13.648 |
1.998 |
|
meanPeakLn |
-1.758 |
.169 |
meanV |
.075 |
.0116 |
|
∆Peak |
.185 |
.049 |
meanVLn |
-2.679 |
.144 |
|
∆PeakLn |
.943 |
.228 |
∆V |
.03 |
.007 |
|
varcoPeak |
.759 |
.131 |
∆VLn |
.402 |
.057 |
|
rPVI_peak |
18.007 |
4.300 |
varcoV |
.394 |
.060 |
|
nPVI_peak |
82.138 |
15.606 |
rPVI_V |
3.36 |
.854 |
|
%Voiced |
29.537 |
3.847 |
nPVI_V |
44.462 |
7.154 |
|
meanVoiced |
.075 |
.011 |
%V |
29.537 |
3.847 |
|
meanVoicedLn |
-2.679 |
.1449 |
rateCV |
8.719 |
1.129 |
|
∆Voiced |
.03 |
.007 |
meanCVLn |
-2.381 |
.104 |
|
∆VoicedLn |
.402 |
.057 |
∆CV |
.103 |
.032 |
|
varcoVoiced |
.394 |
.060 |
∆CVLn |
.63 |
.073 |
|
rPVI_Voiced |
3.36 |
.854 |
varcoCV |
.868 |
.188 |
|
nPVI_Voiced |
44.462 |
7.154 |
rPVI_CV |
7.874 |
1.440 |
|
meanUnvoiced |
.120 |
.015 |
nPVI_CV |
64.463 |
8.067 |
|
meanUnvoicedLn |
-2.255 |
.114 |
rateCon |
11.768 |
1.260 |
|
∆Unvoiced |
.057 |
.013 |
meanCon |
.086 |
.009 |
|
∆UnvoicedLn |
.543 |
.094 |
meanConLn |
-2.554 |
.117 |
|
varcoUnvoiced |
.474 |
.079 |
∆Con |
.03501 |
.005 |
|
rPVI_Unvoiced |
5.964 |
1.526 |
∆ConLn |
.47253 |
.102 |
|
nPVI_Unvoiced |
51.813 |
9.045 |
مقایسۀ nPVI_V بهدستآمده از این پژوهش nPVI_V) :44.46) با نتایج کار گریب و لو (2002) نیز زبان فارسی را بین زبان فرانسه nPVI_V) :43.05) و زبان کاتالان nPVI_V) :45) قرار میدهد. البته باید در نظر داشت که در این دو پژوهش ذکرشده جملههایی انتخاب میشدند که مکث درون جملهای نداشتند به همین دلیل تغییرپذیری دیرش آنها کمی متفاوت از این پژوهش است. همچنین، به همین دلیل است که در کار ابوالحسنی و همکاران (2013) و ابوالحسنیزاده و تقوی (1398) نیز، تاحدودی nPVI_V با یافتههای این پژوهش متفاوت است و زبان فارسی را نزدیکتر به یافتههای دو پژوهش یادشده و نزدیکتر به هجازمانیها نشان داده است. در پژوهش حاضر، بهدلیل نزدیکتر شدن دادهها به گفتار عادی گویشوران، جملههای دارای مکث نیز لحاظ میشوند؛ در هر صورت، برنامۀ رایانهای استفادهشده در این پژوهش قادر به حذف مکثها است.
در راستای اثبات توزیع مناسب دادهها دربارۀ متغیرهای این پژوهش با استفاده از نرمافزار spss و تحلیل همبستگی پیرسون سنجههایی که همبستگی کمتری باهم داشتند، انتخاب میشوند و سپس، با استفاده از نمودار Q_Q plot بررسی میشوند. در زیر این نمودارها ارائه میشود.
شکل 2- مجموعه نمودارهای Q-Q Plot سنجههای ریتم زبان فارسی
Fig 2- Q-Q Plot graphs for measuers of Persain rhythm
همان طور که ملاحظه میشود، متغیرهای انتخابشده با توزیع دادهها مطابقت دارند؛ زیرا تا حد درخورتوجهی خوشههای نقطهها در خط مستقیم قرار گرفتهاند. همچنین، خطیبودن نقطهها نشان میدهد که دادهها بهصورت معمولی توزیع یافتهاند.
2-5. سنجههای نشانگر تغییرات میانگوینده در زبان فارسی
در این پژوهش، بهمنظور یافتن سنجههایی که تفاوتهای میانگوینده زبان فارسی را منعکس میکنند، از آزمون آنوا یکطرفه استفاده میشود. به این صورت که برای سنجههایی که در قسمت (1-5) با استفاده از تحلیل همبستگی پیرسون انتخاب شدند، گویندگان متغیر مستقل و همبستههای ریتم، متغیرهای وابسته در نظر گرفته شدند. براساس عدد معنیداری که 05.0 ≤ است، تعداد پنج سنجه از آنها معنادار بودند که بهتفصیل در جدول (3) بررسی میشوند. در این آزمون آمارۀ F نشاندهندۀ نسبت تغییرات میانگوینده به تغییرات درونگوینده است. بنابراین، هرچه این عدد بالاتر باشد بیانگر این است که تغیرات میانگوینده این پارامتر نسبت به تغییرات درونگویندۀ آن بیشتر است و آن پارامتر تأثیر بیشتری را در نشاندادن تغییرات میانگوینده دارد. همان طور که ملاحظه میشود، از میان متغیرهایی که معنیدار هستند متغیر nPVI_CV بهدلیل داشتن آمارۀF بالاتر، سنجۀ قویتری برای نشاندادن تمایزات میانگوینده براساس دادههای این پژوهش است؛ دومین سنجۀ نشانگر تمایزات میانگوینده rateSyl و سومین آنها %V است. در شکل (3) تغییرات این سنجهها برای ده گویشور این پژوهش با استفاده از نمودار BoxPlot نشان داده شدهاست.
جدول 3- نتایج آزمون آنوا یکطرفه برای نشاندادن تاثیر گوینده بر سنجههای ریتم گفتار
Table 3- ANOVA one-way to show the effects of speaker on the rhythm measures
سنجه |
مجموع مجذورات |
آمارۀF |
عدد معناداری |
%V |
1021.319 |
3.095 |
0.004 |
rateSyl |
7.018 |
3.131 |
0.004 |
nPVI_CV |
4490.128 |
4.448 |
0.000 |
nPVI_V |
869.617 |
2.178 |
0.036 |
VarcoC |
0.117 |
2.444 |
0.019 |
∆Con |
0.000 |
1.290 |
0.261 |
∆PeakLn |
0.191 |
0.374 |
0.943 |
شکل 3- مجموعه نمودارهای BoxPlot دادهها براساس گویندگان
Fig 3- BoxPlot diagrams based on the speakers
6. بحث و نتیجهگیری
در این پژوهش، بهمنظور بررسی ویژگیهای ریتم زبان فارسی معیار از رویکردهای پژوهشهای پیشین ریتم استفاده شد و همبستههای ریتم زبان فارسی با استفاده از سنجههای مختلف ریتم زبان تعیین شد. این سنجهها به بررسی دیرش فواصل مختلف مربوط به واحدهای زبانی، واکهای و همخوانی، واکداری و بیواکی، هجایی و بینقلهای میپردازند. در این قسمت به پرسشهای ذکرشده در بخش مقدمه، پاسخ داده میشود.
در زمینۀ پاسخ بهپرسش اول، نتایج این پژوهش نشان میدهد جایگاه ریتم زبان فارسی معیار نزدیک به زبانهای هجازمانی قرار داد. بررسی دیگر لهجههای زبان فارسی میتواند تفاوت ریتم دیگر لهجههای این زبان را مشخص کند. همچنین، بررسی همبستههای دیگر زبانهای بهکارگرفتهشده در ایران میتواند ویژگیهای ریتم بینزبانی و تأثیر آنها بر یکدیگر را مشخص کند.
در خصوص ویژگیهای ریتم بین زبانی شواهد رفتاری قوی وجود دارد که شنوندگان تفاوت بین زبانها را براساس نوع تغییرپذیری دیرشی که در این پژوهش استفاده شد، درک میکنند. آزمایشها نشان داده است که شنوندگانی که بالغ هستند (Ramus & Mehler, 1999) و همچنین، نوزادان تازه (Nazzi, Jusczyk & Johnson, 2000) میتوانند زبانها را با توجه به دستهبندیهای مختلف ریتم تشخیص دهند؛ چنین ویژگیهایی در مرحلۀ پیشازبانی[54] به دست میآیند و ممکن است شنوندگان؛ بهعنوان مثال نوزادانی که در یک محیط دوزبانه رشد میکنند، را قادر سازد که بین زبانهای مختلف تفکیک قائل شوند (Ramus et al., 1999).از آنجا که ویژگیهای دیرشی فواصل همخوانی و واکهای بین زبانها بهطور محسوسی درخورتوجه است، به نظر میرسد تنوع بینگوینده نیز دارای اهمیت است.
در پاسخ به پرسش دوم، یافتههای پژوهش نشان داد که سنجههای ریتم مبتنی بر مدتزمان فاصلۀ همخوانی و واکهای و همچنین ویژگیهای بستۀ دامنه، مانند فواصل هجایی و قلۀ هجا بهشدت در میانگوینده متفاوت است. به نظر میرسد مکانیسمهای کنترل اندامهای تولید گفتار هر گویشور مسئول ایجاد چنین تفاوتی است. در اینجا این پرسش ممکن است مطرح شود: «چگونه حرکت اندامهای گفتار هر فرد منجر به الگوهای فردی سنجههای ریتم میشود؟»دلوو، لیمن و کولی (2015) برای این منظور از دو نوع سنجه استفاده میکنند: 1. سنجۀ میزان واکهای (%V)، بیواکی %Voiced ، سنجۀ تغییرپذیری دیرشی ∆V[ln]) و (∆V و 2. تغییرپذیری قلۀ دامنۀ درون هجا ∆Peak[ln]) و(∆Peak. نتایج معناداری از تفاوت میانگوینده این مطالعه بهوسیلۀ این سنجهها بهدست آمد (,%V:0.004 ,%Voiced:.004, ∆V:0.009, ∆VLn:.013 (∆Peak:.000. نتایج چنین مطالعاتی نشاندهندۀ این است که حرکت منحصربهفرد اندامهای گفتار میتواند بهدلیل زیستی، اکتسابی یا هر دو باشد.
در پاسخ به پرسش سوم این پژوهش، با استفاده از تحلیل همبستگی پیرسون و همچنین آزمون آنوا مشخص شد که متغیر nPVI_CV بالاترین نسبت تغییرات میانگوینده به درونگوینده را دارد و نشاندهندۀ این است که این سنجه، توانایی بیشتری را در انعکاس تمایزات میانگوینده دارد. این متغیر در لایۀ چهارم شبکههای متنی بررسی میشود. در این لایه، مرز دقیق فواصل همخوانی و واکهای مشخص شده است و nPVI_CV تغییرپذیری این فواصل را نشان میدهد. بنابراین، میتوان نتیجه گرفت که تغییرپذیری فواصل همخوانی-واکهای متغیر مناسبی برای تمایزات میانگوینده در این سبک از زبان فارسی است.
نکتهای که در اینجا درخورذکر است این است که نتایج پژوهش حاضر، تفاوت معنیداری را در سنجههای فاصلهای هجایی نشان دادند (rateSyl:0.003, meanSyl:0.002, meanSylLn:0.015, ∆Syl:.001, ∆SylLn:.037, varcoSyl:.007,). بنابراین، سنجههای مربوط به فواصل هجایی نیز نشاندهندۀ تمایزات میانگوینده در زبان فارسی هستند. دلیل آن میتواند وجود انسدادی چاکنایی ʔ// باشد. از آنجا که ساختار هجایی زبان فارسی مجوز شروع هجا با واکه را نمیدهد، در آغاز هجاهایی مانند «است» /ʔast/ یک انسدادی چاکنایی قرار میگیرد (حقشناس، 1384). دادههای این پژوهش نشان میدهند که در گفتار بههمپیوسته، این انسدادی چاکنایی اگر در اول هجاهایی که با واکه شروع میشوند مانند /ʔast/ قرار گیرد دو حالت در تلفظ این هجا به وجود میآید. در حالت اول، گوینده ʔ// را ادا میکند، که در این صورت ساختار هجای دو واژۀ متوالی مانند «بیشتر است» بهصورت /CVC CVC CVCC/ است. در حالت دوم، ممکن است گوینده ʔ// را تولید نکند، در چنین مواردی عدم تولید این انسدادی باعث تغییر ساختار هجا میشود؛ بنابراین، ساختار هجای دو واژۀ متوالی ذکرشده بهصورت /CVC CV CVCC/ درمیآید. این امر باعث میشود تمایزات معنیدار میانگوینده در ویژگیهای مربوط به هجا به وجود آیند. میتوان در پژوهشهای آتی با استفاده از پیکرههای بزرگتر به بررسی دقیقتر این پدیده پرداخت.
همان طور که در جدول (3) ملاحظه شد، %V که درصد واکهای بودن گفتار را نشان میدهد نیز جزو قویترین سنجههای نشاندهندۀ تمایزات میانگوینده برای دادههای این پژوهش است. این نتیجه، همراستا با یافتههای اسدی و همکاران (2018) و نیز دلوو، لیمن و کولی (2015) است. بنابراین، از درصد واکهای بودن گفتار نیز میتوان بهعنوان یک سنجۀ متمایزکنندۀ گوینده استفاده کرد.
پرسش دیگری که در اینجا مطرح میشود این است که تنوع ریتم میانگوینده چه کاربردهایی میتواند داشته باشد؟نتایج پژوهش حاضر میتواند برای هر نوع برنامۀ کاربردی که اطلاعات گویندهویژه[55] در آن نقش ایفا میکند، مورداستفاده قرار گیرد. برنامههای شناسایی گوینده از متغیرهای دامنۀ فرکانس مانند فرکانسهای پایه و سازه یا کل ویژگیهای بستۀ طیفی استفاده میکنند؛ زیرا توسط ویژگیهای آناتومیک چاکنای شکل میگیرند. با این حال، این متغیرها از کانالهای دیگر برای انتقال اطلاعات کاربردی زبانی و فرازبانی استفاده میکنند. در حالی که گفتار در زمان بسیار سازمانیافته، عمل میکند. واضح به نظر میرسد که سازماندهیهای زمانی زبرزنجیری، عملکرد واضحی را برای انتقال اطلاعات زبانشناختی و فرازبانشناختی به کار نمیگیرند. در مواردی که گویشوران از متغیرها برای ایجاد تضادهای عملکردی در گفتار استفاده میکنند، برای تعدیل آنها باید بر این ویژگیها کنترل داشته باشند و باید سیستم ادراکی گویشوران روی آنها تنظیم شود.با این توصیفات، گویشور توانایی کنترل کمتری بر پارامترهای ریتمیک به نسبت آهنگ و تکیه دارد (Dellwo, Leeman & Kolly, 2015). این ویژگی در شناسایی گویشور در موارد قضایی دارای اهمیت است.
قدردانی
در این قسمت وظیفۀ خود میدانیم که یاد استاد گرانقدر دانشگاه شیراز، مرحوم دکتر مهرزاد منصوری، را گرامی بداریم که با همت و کوشش ایشان اتاق آواشناسی دانشگاه شیراز راهاندازی شد. روحشان شاد، نامشان جاودان.
همچنین، از ده شرکتکنندۀ این پژوهش که همگی از استادان و دانشجویان دانشگاه شیراز بودند و با ما در انجام این پژوهش همکاری کردند نهایت تشکر را داریم.
[1]. Forensic phonetics
[2]. speech rhythm
[3]. speech pathology
[4]. between-speakers
[5]. acoustic correlations
[6]. feet
[7]. isocrony
[8]. D. Abercrombie
[9]. K. Pike
[10]. A. Lloyd James
[11]. Germanic
[12]. stress-based
[13]. Romance
[14]. syllable-based
[15]. spontaneous
[16]. I. Nespor
[17]. R. Dauer
[18]. F. Ramus, M. Nespor, & J. Mehler
[19]. E. Grabe & E. L. Low
[20]. V. Dellwo
[21]. logarithmic transform
[22]. the coupled-oscillator model
[23]. amplitude modulation phase model
[24]. auditory primal sketch model
[25]. amplitude modulation phase model
[26]. A. Arvaniti
[27]. amplitude envelope-based rhythm measure
[28]. segmental
[29]. p-center
[30]. peaks
[31]. F0
[32]. within-speaker
[33]. V.Dellwo, A. Leemann & M. J. Kolly
[34]. speaker-idiosyncratic
[35]. formants
[36]. spectral envelope
[37]. A. Leemann, M.-J. Kolly & V. Dellwo
[38]. V. Dellwo & A. Fourcin
[39]. durational variability
[40]. interval-based
[41]. International Phonetics Association
[42]. https://www.internationalphoneticassociation.org/content/ipa-handbook-downloads
[43]. TextGrid
[44]. https://www.internationalphoneticassociation.org/content/ipa-chart
[45]. script
[47]. https://www.cl.uzh.ch/de/people/team/phonetics/vdellw/software.html
[48] https://www.cl.uzh.ch/de/people/team/phonetics/vdellw.html
[49]. L. He & V. Dellwo,
[50]. z-score
[51]. Pearson Correlation
[52]. Anova one-way
[53]. vocalic
[54]. pre-linguistic stage
[55]. speaker-specific information