Persian vowel space normalization

Document Type : Research Paper

Authors

1 PhD in Linguistics, University of Isfahan

2 Associate Professor, Department of Linguistics, University of Isfahan

Abstract

This study is to evaluate vowel normalization procedures in Persian, from IRIB broadcasters, on the basis of their effectiveness in neutralizing differences in vowel formant data due to inter-speaker physiological and anatomical-gender- differences. The selection among various normalization techniques (hertz, Mel, Bark, Erb, Gertsmann, Lobanov, Neary, Watt, and Fabricius) depends on their significance in the previous literature and the kind of measurement involved in the provided database. The assessment is mainly performed based on two factors,vowel space overlapping and discriminant analysis . The first factor is done on the basis of increasing in mapping between speaker‘s vowel spaces along the degree of overlap between the two vowel spaces, expressed in terms of that percentage of the male speakers‘ s vowel spaces which overlaps with the female speaker‘s vowel spaces and vice versa.The second part of analysis is devoted to for the importance of maintaining vowels information’s and the power of vowel separation. The results indicate that Neary is the best way in minimizing the physiological effect in Persian while keeping vowel separation’s power safe.

Keywords


 


1. مقدمه
مطالعه صوت‌شناختی واکه‌ها که منجر به تعیین مشخصه‌های نمودهای آوایی واکه‌ها می‌شود با نمودار فضای واکه‌ای نشان داده می‌شود. نمودار فضای واکه‌ای یک روش گرافیکی است که نشان می‌دهد یک واکه در چه ناحیه‌ای از فضای تولیدی و فیزیکی و شنیداری واقع شده است. این کار اولین بار توسط اسنر (1947) و جوس (1948) (به نقل از هرینگتون ،2010) انجام شد و از آن زمان به بعد طرح F2* F1 به‌عنوان یکی از شیوه‌های استاندارد در مقایسه کیفیت واکه‌ای در کل مطالعات آواشناختی شناخته شد. منتهی همان‌طورکه فلین (2011) بیان می‌کند یکی از مشکلات اصلی در بررسی فضای واکه‌ای ‌این است که گویندگان دارای مجرای صوتی با ابعاد و مشخصات یکسان نمی‌باشند و‌ این منجر به‌ این امر می‌شود که نتوان تفاوت موجود در ارزش‌های سازه‌ای را در اثر تغییرات واکه‌ای در نظام واکه‌ای و یا در اثر تفاوت‌های آناتومیکی و فیزیولوژیکی در میان گویندگان شناسایی کرد. در این رابطه پیترسون و بارنی (1952) و پوتر و استاینبرگ (1950) با نمایش طیفی از واکه‌های یکسان تولید‌شده توسط اشخاص متفاوت بیان داشتند که تفاوت‌های قابل‌ملاحظه‌ای در سازه‌های واکه‌ای بالاخص در میان گروه‌های جنسیتی و سنی وجود دارد. هرینگتون (2010) علت‌ این نوع تنوعات اکوستیکی را تفاوت در شکل و اندازه مجرای صوتی در افراد مختلف می‌داند. لدفوگد و برادبنت (1957) نیز با پرداختن به موضوع مذکور، ‌این نوع تنوعات را به‌ عنوان تنوعات وابسته به گوینده نامگذاری و ‌آنها را به دو گروه تنوعات شخصی و تنوعات اجتماعی–زبانی تقسیم‌بندی می‌کنند. منشا تنوعات شخصی در سیگنال مربوط به تفاوت میان گویندگان در شکل و اندازه مجرای صوتی و حنجره و منشا تنوعات اجتماعی-زبانی مربوط به تفاوت‌های شخصیت‌های اجتماعی گویندگان (همچون سطح تحصیلاتی، جنسیت، قومیت و غیره) می‌شود. پولس و همکاران (1973) نیز با بررسی تنوعات موجود در بسامد سازه‌ها، علت تنوعات را وابسته به سه منبع واکه، گوینده و خطای اندازه‌گیری می‌دانند. لدفوگد (1976)، پیترسون و بارنی (1952) پوتر و استاینبرگ (1950) نیز با کنترل متغیر واکه و خطای اندازه‌گیری متذکر ‌شدند که بسامد سازه‌های واکه‌ای تفاوت قابل ملاحظه‌ای در یک واکه‌ی یکسان برای گویندگان مختلف نشان می‌دهد. به عبارت دیگر، واکه‌های تولید شده توسط افراد مختلف، در نقاط متفاوتی بر روی نمودار قرار می‌گیرند .به‌عنوان مثال، از آنجایی‌که طول مجرای صوتی زنان حدود 15% کوچک‌تر از طول مجرای صوتی مردان است، بنابراین مقادیر سازه‌ای آنها متفاوت خواهد بود. بدین‌صورت یکی از مهمترین مسائل در تحلیل آکوستیکی واکه‌ به امر حذف و یا کمینه‌کردن تاثیرات تفاوت مجرای صوتی در بسامد نسبی سازه‌های پایین درگویندگان مختلف اختصاص پیدا می‌کند.
تکنیکی که در مطالعات صوت‌شناختی جهت کمینه نمودن نتایج صوت‌شناختی حاصل از منابع ‌ایجاد‌کننده تغییر به‌کار‌برده می‌شود بهنجار‌سازی واکه‌ای نام دارد. می‌توان بهنجار‌سازی واکه‌ای را‌ ایجاد گشتار بر روی نمودهای آکوستیکی نمونه‌های واکه‌ای دانست که هدف آن، کمینه کردن نتایج آکوستیکی منابع مختلف در نمود آکوستیکی واکه است. به عبارت دیگر، هدف بهنجار‌سازی واکه‌ای حذف تنوعات سازه‌ای ناشی از منابع‌ ایجاد تغییر در سازه‌ها همچون تفاوت‌های فیزیولوژیکی میان گویندگان است. به‌نظرمی‌رسد چنین فرایندی معرف رفتار شنوندگان به هنگام تعیین کیفیت واکه شنیده شده و انتساب آن واکه به گروه واکه‌ای خاص باشد؛ چرا که پیش‌فرض ‌این رفتار، حذف مشخصه‌های شخصی گویندگان به جهت دست‌یابی به نقطه هدف‌واکه‌ای به منظور ادراک واکه مورد‌نظر است. بنابراین یکی از مسائل اصلی در تحلیل آکوستیکی واکه، تلاش در جهت حذف تأثیرات فیزیولوژیکی گویندگان بر بسامد سازه‌های پایین واکه‌ها می‌باشد. از این‌رو، یکی از اهداف اصلی در بررسی آکوستیکی واکه‌ها تنظیم‌ فرمول‌های قابل اجرا در جهت حذف تأثیرات تفاوت‌های گویندگان در رخدادهای آوایی یکسان از طریق 'اصلاح' ابعاد سازه‌ای است (نری ، 1978) چراکه نمی‌‌توان بسامد‌های سازه‌ای خام در مقیاس هرتز را در گویندگان مختلف مستقیماً مورد بررسی قرار داد.
تکنیک‌های بهنجار‌سازی واکه‌ای توسط‌ آینسورث (1975) و نری (1989) بنا به نوع داده‌ای که در فرایند به‌کار می‌رود به دو دسته واکه-درون‌گرا و واکه-برون‌گرا تقسیم‌بندی می‌شوند. فرایند بهنجار‌سازی واکه-درون‌گرا، به هدف ارائه مدل‌سازی در واکه‌های ادراکی انسان، تنها از اطلاعات آکوستیکی درون یک واکه استفاده می‌کند و شامل استفاده از مقیاسهای هرتز، بارک، مل و ارب در بهنجار‌سازی می‌شود. ‌این در‌حالی است که فرایند بهنجار‌سازی واکه-برون‌گرا، به هدف ارائه الگوریتم تشخیص خودکار گفتار، به اطلاعاتی بیش از یک واکه‌ی گفته‌شده توسط گوینده نیاز دارد و در برگیرنده تکنیک‌های مطرح شده توسط گرستمان، لبانو، نری، وات و فابریشوز و غیره می‌شود.
در حوزۀ ادراک گفتار، مطالعات در تأیید ‌یکی از انواع بهنجار‌سازی درون‌گرا یا برون‌گرا دلالت بر عدم توافق عمومی زباشناسان دارد. جوس (1948)، لدفوگد و برادبنت (1957) بر‌ این اعتقاد هستند که بهنجار‌سازی می‌بایست برون‌گرا باشد چراکه واکه‌های یک گوینده مفروض در رابطه با واکه‌های ممیز همان گوینده ادراک می‌شود. از طرف دیگر آسمن و همکاران (1982)، وربراگ و استرانگ (1976) بیان می‌کنند که برای شنوندگان هیچ تفاوتی در شناسایی واکه‌ها در محیط‌های مختلف همچون تغییرگوینده به هنگام تولید یک واکه نسبت به واکه قبل وجود ندارد. بعلاوه مسأله اختلاف‌نظر تنها محدود به انتخاب دو رویکرد درون‌گرا یا برون‌گرا نمی‌شود بلکه در انتخاب فرایندهای مطرح در هر رویکرد نیز اتفاق‌نظر وجود ندارد.
بخشی از‌ این عدم اجماع در انتخاب و معرفی یک رویکرد و یا فرایند بهنجار‌سازی خاص به ‌این علت است که فرایند بهنجار‌سازی یک امر مطلق نیست بلکه بسته به زبان مورد بررسی، فرایندی ممکن است در حذف تنوعات بهتر از فرایندهای دیگر عمل کند. بنابراین فرایند بهنجار‌سازی یک امر وابسته به زبان است و یک فرایند بهنجار‌سازی نمی‌تواند برای همه زبانها موثرترین فرایند محسوب شود (فراری-دیسنر ،1980). در اینجا شایان ذکر است که علیرغم نبود اتفاق‌نظر در میان زبان‌شناسان در ارائه الگوریتم‌های متفاوت بهنجار‌سازی، همگی یک مجموعه اهداف کلی را در انجام ‌این فرایند مشخص می‌کنند که به‌صورت زیر بیان می‌شود (هیندل ، 1978; فراری-دیسنر، 1980; توماس ، 2002; لانگ استروف ، 2006؛ توماس و کندال ، 2007؛ فابریشوز و همکاران ، 2009؛ کلاپر ، 2009 و فلین، 2011):
الف( حذف‌ و یا کمینه‌کردن تنوعات میان گویندگان که ناشی از تفاوت‌های ذاتی-فیزیولوژیکی باشد؛
ب( حفظ تنوعات میان گویندگان که ناشی از تفاوت‌های میان طبقات اجتماعی همچون سن، جنسیت، گویش و یا تغییرات آوایی باشد؛
ج( حفظ طبقات واکه‌ای و تفاوت‌های واجی
د( الگوبرداری‌ از فرایندهای شناختی که به شنوندگان ‌این مجال را می‌دهد که واکه‌های تولید ‌شده توسط گویندگان مختلف را بهنجار‌سازی کنند.
البته، رعایت همه ‌این اهداف تا حدی آرمان‌گرایانه می‌نماید چرا‌که هیچ الگوریتم بهنجار‌سازی نمی‌تواند به‌طور همزمان همه اهداف بالا را برآورده سازد (فلین، 2011؛ توماس،2002؛ آدانک و همکاران، 2004؛ بیگهام ، 2008؛ توماس و کندل ، 2007). بنابراین زبان‌شناسان بسته به طبعیت و هدف بررسی، اهمیت بیشتری را برای یک هدف نسبت به اهداف دیگر قائل می‌شوند. به‌عنوان مثال در مطالعات آوایی-اجتماعی به حفظ تنوعات اجتماعی بیشتر تأکید می‌شود. یا در مطالعات برپایه ادراک، هدف بهنجار‌سازی نزدیک‌شدن به فرایند ادراکی انسانی تعریف می‌شود )فلین، 2011؛ روسنر و پیکرینگ ، 1994 و سیردال و گوپال ، 1986).
در این بررسی، پیش‌فرض مطالعه ‌این است که شنوندگان جهت طبقه‌بندی واکه‌های شنیده شده از گویندگان مختلف تنها تنوعات واجی را در سیگنال صوت انتخاب می‌کنند و به تنوعات آناتومیکی و فیزیولوژیکی توجهی ندارند. در این رویکرد انتخاب شده در حوزه ادراک، بهنجار‌سازی واکه‌ای یک فرایند مجزا در ادراک واکه محسوب می‌شود که به‌وسیله آن شنوندگان قادر می‌شوند که اطلاعات ثابت واجی را از سیگنال صوتی جهت طبقه‌بندی واکه‌ای انتخاب کنند )آدانک، 2003). بنابراین، ‌این بررسی علاوه بر اهمیت و الگوبرداری از فرایندهای شناختی، حذف تفاوت‌های فیزیولوژیکی را در اولویت قرار می‌دهد و با توجه به مطلق نبودن فرایندهای بهنجارسازی در زبان‌های مختلف در ‌این بررسی در ابتدا جهت بهنجار‌کردن داده‌های زبان فارسی در جهت حذف اثر فیزیولوژیکی به ارزیابی شیوه‌های مختلف بهنجار‌سازی در زبان فارسی پرداخته می‌‌شود. هدف بررسی تعیین مطلوب‌ترین تکنیک بهنجار‌سازی در زبان فارسی در جهت حذف تأثیر جنسیت بر مقادیر سازه‌ای می‌باشد. در اینجا لازم به ذکر است که از آنجایی‌که حفظ تفاوت‌های واجی از جمله ضوابط اساسی در فرایند بهنجار‌سازی محسوب می‌شود، ‌این امر نباید تحت فرایند بهنجار‌سازی دچار خدشه گردد. به‌عبارت‌دیگر بهنجار‌سازی‌ای که در آن حذف تنوعات فیزیولوژیکی منجر به خسارت سنگین در حوزه حفظ تنوعات واجی گردد پذیرفته نمی‌شود. از این‌رو پس از ارزیابی تکنیک‌ها براساس معیار اول که به حذف تنوعات فیزیولوژیکی می‌پردازد تکنیک اعلام شده مجددا با معیار دوم، معیار تحلیل تشخیصی، ارزیابی می‌شود.
معیار تعریف شده در ارزیابی فرایندهای بهنجار‌سازی در جهت کاهش تنوعات آناتومیکی و فیزیولوژیکی به میزان‌ ترفیع انطباق فضاهای مختلف واکه‌ای اختصاص داده شده و معیار انتخابی در ارزیابی تکنیک‌های بهنجار‌سازی درحفظ اطلاعات واجی یک تحلیل آماری است که در آن از ماتریس کوواریانس متغیرهای اکوستیکی جهت طبقه‌بندی نمونه‌ها استفاده می‌شود. در نهایت براساس نتیجه‌ی به‌دست‌آمده از ارزیابی تکنیک‌های بدست آمده با دو معیار بیان شده داده‌های زبان فارسی بهنجارسازی می‌شود و فضای واکه‌ای در فضای F1*F2 به تفکیک دو گروه واکه تکیه‌بر و بی‌تکیه در زبان فارسی ‌ارایه می‌گردد.

2. روش تحقیق
داده‌های زبان فارسی براساس‌ فارسی معیار و از طریق ضبط مستقیم اخبار پخش شده توسط 10 گوینده اخبار شبکه سراسری سیمای جمهوری‌اسلامی‌ایران که از کاربران حرفه‌ای زبان معیار محسوب می‌شوند در آبان ماه 1391جمع آوری و در چارچوب آواشناسی ‌آزمایشگاهی مورد تجزیه و تحلیل قرار می‌گیرند. ضبط مستقیم از طریق اتصال USB به درگاه خروجی تلویزیون درجهت جلوگیری از آلوده شدن داده‌های تحقیق توسط منابع تولیدکننده خش در محیط صورت گرفته است. در اینجا لازم به ذکر است که از آن‌جا که داده‌های گردآوری‌شده براساس گفتار پیوسته صورت گرفته و امکان تفکیک بافتی در آن‌ها میسر نبوده است با پیروی از مک‌نی‌لاگ (1970)، دانیلوف و هامربرگ (1973)، وینی فرد استرانگ (1989) قطعه‌ایستای واکه، قطعه هدف در نظر گرفته می‌شود. جهت شناسایی نقطه هدف واکه‌ای با استفاده از تکنیک هرینگتون (2010) که دلالت بر بیشینه بودن میزان بسامد در نقطه هدف واکه‌ای و همچنین مشاهدات چشمی حدود 4000 نمونه متغیر سازه اول و دوم در 2000 طیف صوتی با استفاده از نرم افزار پرات ویرایش 5.2.1.2 اندازه‌گیری و مورد تجزیه و تحلیل قرار گرفته‌اند. تحلیل‌های صوت‌شناختی فضاهای واکه‌ای به تفکیک دو متغیر جنسیت )مرد و زن( و بافت آوایی هجا )تکیه‌بر و بی‌تکیه( در چهار گروه مردان تکیه‌بر، مردان بی‌تکیه، زن تکیه‌بر و زنان بی‌تکیه انجام می‌گیرند. با توجه به کنترل متغیرهایی همچون سن، گویش، تحصیلات، سرعت گفتار و غیره منشا تفاوت‌های موجود در ارزش‌های سازه‌ای را می‌توان در اثر تفاوت فیزیولوژیکی در میان گویندگان دانست.

3. مبانی نظری: بررسی شیوه‌های بهنجار‌سازی
همان‌طور‌که بیان شد به‌طور سنتی شیوه‌های بهنجار‌سازی واکه‌ای توسط ‌آینسورث (1975) و نری (1989) به دو دسته واکه-درون‌گرا و واکه-برون‌گرا تقسیم‌بندی می‌شوند. در تکنیک‌های بهنجار‌سازی واکه-درون‌گرا همه اطلاعات لازم جهت ‌این نوع بهنجار‌سازی تنها در یک نمونه واکه‌ای نهفته است و از ‌ترکیب ارزش‌های سازه‌ایF1 و F2، معمولاً F3 و بندرتF4 و گاهی پهنای باند ‌‌سازه‌ای به‌دست می‌آید. ‌این در حالی است که در فرایندهای بهنجار‌سازی واکه-برون‌گرا از اطلاعات صوتی آن واکه و واکه‌های دیگر زبان استفاده می‌شود. به عبارت دیگر، متغیرهای بهنجار‌سازی واکه-برون‌گرا به مقایسه ارزش‌های سازه‌ای واکه‌های مختلف تولید شده توسط گوینده مفروض می‌پردازند. جهت آشنایی بیشتر با این دو شیوه بهنجارسازی، اهداف، مقیاس‌ها و معادلات مطرح در آنها ارائه می‌شود.
3-1. شیوه‌های بهنجارسازی واکه-درون‌گرا
انگیزه اصلی در بهنجار‌سازی درون‌گرا نزدیک شدن به شیوه ادراک انسان از واکه‌ است که‌ این هدف توسط سیردال و گوپال (1986) از طریق ‌ایجاد گشتار در مقیاس هرتز پایه‌ریزی شده است. مقیاس هرتز (HZ) روشی خطی در ارائه بسامد سازه‌ها است، درحالی‌که مقیاس‌های ادراکی، غیرخطی هستند و می‌توانند از طریق نزدیک‌تر کردن بازنمایی بسامدی گفتار به عملکرد اندام حلزونی گوش انسان جنبه‌های ادراکی آواهای زبان را بهتر از مقیاس هرتز مشخص کنند (ترانمولر ،1981). بنابراین فرایند بهنجار‌سازی درون‌گرا شامل تبدیل مقیاس هرتز به مقیاس‌های غیرخطی همچون بارک، مل ، ارب می‌شوند که به‌ شرح آن‌ها می‌پردازیم.
مقیاس بارک یک مقیاس آوایی- ذهنی‌ است که توسط ابرهارد زوییکر در سال 1961 در مدل بلندی رسائی صوت مطرح شده است. در این مدل تأثیرات گوش میانی و بیرونی در انتقال صوت مورد بررسی قرار می‌گیرد. سیستم شنیداری انسان را می‌توان متشکل از مجموعه‌ای از فیلترها و به عبارتی دیگر باندهای‌ بحرانی دانست. اصطلاح باند‌بحرانی به دامنه‌ی موثر بسامدی اطلاق می‌شود که به آن همۀ نقاط غشاء پایۀ گوش پاسخ می‌دهند (فلتچر ،1940). بدین‌صورت اندازه‌گیری پهنای باند بحرانی معمولاً شامل آزمایش در حوزۀ بلندی صوت است. زوییکر در تقسیم محدوده بسامدی شنیداری به باند بحرانی متذکر می‌شود که‌این باندها از طریق اندازه‌گیری‌های دقیق در آزمایش بر روی آستانه آواهای مرکب در ادارک گفتار و بلندی آواهای مرکب انجام شده است (ترانمولر، 1981).
معادله ترانمولر (1990) بیشترین انطباق را با جدول باند بحرانی زوییکر (1961) برقرار می‌کند که به قرار زیر است:

معادله 3-1
.
مقیاس مل، یک مقیاس ادراکی در زیروبمی است که در سال 1940 توسط استیونز و همکاران نامگذاری شده است. نام مل از کلمه ملودی گرفته شده است که حاکی از آن است که ‌این مقیاس بر‌اساس مقایسات زیروبمی استوار است. این مقیاس حاصل آزمایش بر اصوات ساده سینوسی می‌باشد که در آن از شنوندگان خواسته می‌شود که اندازۀ فاصله زیروبمی موجود میان یک جفت نواختی را به چهار فاصله مساوی ادراکی و در نتیجه سه نواخت تقسیم کنند. بنابراین بسامد جفت نواختی در طی آزمایش مرتب تغییر می‌کند. معادلۀ تبدیل هرتز به مل در 3-2 بیان شده است (استیونز و همکاران،1940):

معادله 3-2
. .
امروزه استفاده از مقیاس مل، تنها به علت اولویت تاریخی آن است چرا که‌ این مقیاس بسیار نزدیک به مقیاس درجه باند بحرانی ارزیابی شده است.
مقیاس ارب یا باند بحرانی مستطیلی متساوی‌الاضلاع، مقیاسی است که توسط مور و گلسبرگ (1983) با ویرایش مدل بلندی زوییکر بدست آمده است. هر دو مقیاس از عملکرد غشاء پایه در اندام حلزونی گوش داخلی برای تجزیۀ امواج صوتی به بسامد‌های سازنده بدست آمده‌اند. تنها تفاوت گشتار ارب با گشتار بارک را می‌توان در دو نکته خلاصه کرد. اول ‌اینکه گشتار ارب خیلی بیشتر از گشتار بارک به مقیاس لگاریتمی محض نزدیک است که‌ این مسئله بالاخص برای بسامد‌های پایین‌تر صدق می‌کند. ثانیاً، مقیاس ارب در پهنای باند‌بحرانی باریک‌تر و کوچکتر از مقیاس بارک نمایش داده می‌شود (آدانک، 2003).
بررسی‌های مور وگلسبرگ حاکی از آن است که انتخاب بسامد‌های شنیداری بر اساس باند‌بحرانی مستطیلی متساوی‌الاضلاع به‌عنوان تابعی از بسامد مرکزی صورت می‌گیرد. تابع تبدیل بسامد به ارب توسط مور وگلسبرگ (1983) در معادله 3-3 مطرح می‌شود:

معادله 3-3
. .
در اینجا ذکر این مسئله لازم است که اگرچه در سالهای اخیر بهنجار‌سازی غیر‌خطی بسامد به یک رویکرد شناخته‌شده جهت کاهش تنوعات نظام‌مند در آناتومی مجرای صوتی تبدیل شده است ولیکن شواهد موجود حاکی از آن هستند که تکنیک‌های بهنجار‌سازی برون‌گرا در کاهش تفاوت میان گویندگان دارای عملکردی بهتری می‌باشند (فراری-دیسنر1980).

3-2. شیوه‌های بهنجارسازی واکه-برون‌گرا
انگیزه اصلی در بهنجار‌سازی برون‌گرا رسیدن به طبقه‌بندی صحیح واکه‌ها جهت به کار‌بستن در حوزه تشخیص خودکار گفتار(ASR) است که توسط گرستمان (1968) پایه‌ریزی شده است .سیستم تشخیص خودکار گفتار، رایانه را قادر به شناسایی کلمات گفته شده توسط افراد می‌کند. بنابراین تنها عامل اصلی در عملکرد ‌این سیستم تنوعات میان گویندگان می‌باشد و آنچه مورد نیاز است تکنیک یا گشتاری است که بتواند تفاوت‌های میان گویندگان را مجزا نماید. بدین‌ترتیب نمود آکوستیکی واکه را تعیین می‌نمایند.
فرایند بهنجار‌سازی گرستمان (1968) از مجموعه‌های مختلفی از پارامترهای آوایی به‌عنوان درونداد داده‌ای استفاده می‌کند. در نخستین ویرایش‌ این فرایند، گرستمان ارزش‌های کمینه و بیشینه سازه‌های اول و دوم را برای هریک از نظام‌های واکه‌ای گویندگان در سطوح ثابت 0 تا 999 هرتز قرار می‌دهد. در ویرایش‌های بعدی ارزش‌های سازه‌ای را برای سازه‌های اول در کمینه 250 هرتز و بیشینه 750 هرتز و برای سازه دوم در کمینه 850 و بیشینه 2250 تعریف می‌کند که ‌این مقادیر معرف نوع بهتری از گفتار می‌باشند. وی مقادیر اولین و دومین سازه در هر واکه برای هر گوینده را در معادله 3-4 قرار می‌دهد تا مقادیر بهنجار‌شده آن حاصل شود.

معادله 3 -4
.

در فرمول از ارزش کمینه Fi حاصل از همه واکه‌ها برای گوینده t و از بیشینه ارزش همه واکه‌ها در همان گوینده حاصل می‌شود.
روش بهنجار‌سازی لبانو (1971) اگرچه یکی از قدیمی‌ترین تکنیک‌های بهنجار‌سازی واکه–برون‌گرا محسوب می‌شود هنوز در میان بهترین و موثرترین معادلات قرار می‌گیرد. تکنیک لبانو بر گشتار داده‌ها به z-score استوار است که از طریق تفریق میانگین بسامدی گوینده و تقسیم آن بر انحراف از معیار برای هر پارامتر به طور جداگانه محاسبه می‌شود (معادله 3 -5)به عبارت دیگر ‌این گشتار از مرکز فضای واکه‌ای و همچنین پراکندگی میانگین از مرکز جهت کمینه کردن تفاوت میان گویندگان بهره می‌جوید.

معادله 3-5
.
Fi در فرمول مقدار میانگین بسامد سازه‌ای است که با در نظر‌گرفتن همه واکه‌های یک گوینده برای یک سازه تعریف می‌شود و SDi به انحراف معیار از مقدار میانگین اشاره می‌کند. بدین‌طریق تأثیر ‌این گشتار بر فضای واکه‌ای هر گوینده‌ این است که آن را در مرکزیت صفر میانه قرار می‌دهد و بنابراین محورها بر اساس میزان انحراف از معیار از میانگین گوینده تعریف می‌شوند. در فرایند بهنجار‌سازی لبانو سیستم واکه‌ای بر مرکز آن ثابت نگه داشته می‌شود در حالی‌که در فرایند بهنجار‌سازی گرستمان سیستم واکه‌ها در نقاط انتهایی ثابت فرض می‌شود. از آنجایی‌که تمایزات واجی نسبتاً کمی در این منطقه حاصل می‌شود بنابراین انتظار می‌رود که‌ این فرایند مداخله کمتری در مکان واکه‌ها در فضای آوایی نسبت به دیگر تکنیک‌هایی مانند گرستمان ‌ایجاد کند (فراری-دیسنر ،1980).
نری (1978) از معادله لگاریتمی در جهت‌ ایجاد گشتار در سازه واکه‌ها استفاده می‌کند. از مقیاس لگاریتمی در اصل به‌عنوان مقیاس در زیروبمی آهنگین استفاده می‌شده است و از آنجا که بسامد پایه دو نت معرف فاصلۀ آهنگین خاص بوده‌اند، تفاوت میان بسامد‌های لگاریتمی در این فاصله ثابت درنظر گرفته ‌شده است (نری، 1978 و آدانک، 2003). در معادله نری، فضاهای واکه‌ای گویندگان از طریق هم‌راستا شدن در بسامد سازه‌ای میانگین گویندگان با هم مقایسه می‌شوند و بدین‌طریق، لگاریتم طبیعی ارزش ‌سازه‌ای یک گوینده محاسبه می‌شود و در نهایت، میانگین لگاریتم بسامد سازه‌ای همه واکه‌های گوینده از آن کسر می‌شود )معادله 3-6 ) (فلین،2011)
معادله 3-6
.
وات و فابریشوز (2002) برای هر گوینده در فضای واکه‌ایF1*F2 یک مرکز ثقل(S) تعریف می‌کنند. مرکز ثقل بر اساس اندازه‌گیری بسامد سازه‌های واکه‌های ممیز[i u a] محاسبه می‌شود چراکه پیش‌فرض در‌ این انتخاب‌ این است که ‌این واکه‌ها معرف ارزش‌های کمینه و بیشینه گویندگان برای سازه‌های F1 و F2 هستند، به‌طوری‌که[i] دارای ارزش کمینه درF1 و ارزش بیشینه در F2 است در حالی‌که[a] دارای ارزش کمینه درF1 و F2 می‌باشد). بدین طریق مرکز‌ ثقل(S) از طریق محاسبه میانگینFr برای واکه‌های [ u,a,i ] محاسبه می‌شود و سپس همۀ اندازه‌گیری‌های انجام شده درF بر ارزش S تقسیم می‌گردد.

معادله 3-7
. .
.
.
در این پژوهش، انتخاب فرایندهای بهنجار‌سازی چه درون‌گرا و چه برون‌گرا کاملاً بر اساس نتیجه کارایی فرایندها در بررسی‌های پیشین و همچنین نوع داده و اندازه‌گیری‌های مورد نیاز در فرایندها بوده است. در نهایت به‌طور خلاصه می‌توان روش‌های بهنجار‌سازی بررسی‌شده را در جدول 3-1 خلاصه نمود:

جدول3-1) انواع روش‌های بهنجارسازی استفاده شده در این تحقیق
فرایندهای بهنجار‌سازی واکه-درون‌گرا
هرتز وضعیت مرجع، بسامد سازه در Hz
بارک گشتار بارک بر روی مقیاس بسامد
مل گشتار مل بر روی مقیاس بسامد
ارب گشتار ارب بر روی مقیاس بسامد
فرایندهای بهنجار‌سازی واکه-برون‌گرا
گرستمان فرایند بهنجار‌سازی گرستمان (1968)
لبانو فرایند z-score لبانو (1971)
نری فرایند میانگین لگاریتم نری (1978)
وات و فابریشوز فرایند محاسبه مرکز ثقل وات و فابریشوز (2002)

4-معیارهای‌ ارزیابی شیوه‌های بهنجار‌سازی
4-1. معیار همپوشانی فضاهای واکه‌ای
در بررسی حاضر جهت ارزیابی تکنیک‌های بهنجار‌سازی به جهت حذف و یا کمینه‌کردن تاثیرات آناتومیکی از معیار همپوشانی فضاهای واکه‌ای بهره‌ می‌بریم. از این معیار زبان‌شناسان بسیار در بررسی‌های خود استفاده کرده‌اند که ما در اینجا به لحاظ روشن شدن مباحث نظری به ذکر بررسی وات و فابریشوز (2002) و فلین (2011) اکتفا می‌کنیم. وات و فابریشوز (2002) از این معیار در ارزیابی تکنیک بهنجار‌سازی ارائه‌شده توسط خود به جهت‌ ترفیع در انطباق فضاهای مختلف واکه‌ای گویندگان در فضای F1*F2 با دیگر تکنیک‌های بهنجار‌سازی و فلین (2011) در ارزیابی شیوه‌های بهنجار‌سازی استفاده می‌کنند.
در روش وات و فابریشوز فضای واکه‌ای بر اساس مثلث واکه‌ای و بر اساس اندازه‌گیری‌های بسامد سازه‌ای در واکه‌های ممیز [a], [u], [i] محاسبه می‌شود. در این روش میزان مطابقت مثلث‌های واکه‌ای بر اساس دو پارامتر سنجیده می‌شود. در ابتدا نسبت مساحت مثلث واکه‌ای گویندگان زن نسبت به مساحت مثلث واکه‌ای گویندگان مرد و سپس درجه همپوشانی میان دو مثلث واکه‌ای که بر اساس درصد همپوشانی مثلث واکه‌ای مردان با زنان و یا بالعکس محاسبه می‌گردد. در این معیار، ‌وجود شباهت بیشتر در فضای واکه‌ای گویندگان و همچنین همپوشانی بیشتر در فضاها حاکی از حذف تنوعات ناشی از تفاوت‌های فیزیولوژیکی میان گویندگان می‌باشد.
فلین (2011) به ارزیابی 20 تکنیک بهنجار‌سازی واکه‌ای با تکنیکی مشابه با تکنیک ذکرشده و البته با الهام گرفتن از تکنیک فابریشوز (2009) و وات و فابریشوز (2002) می‌پردازد. وی ارزیابی فرایندها را براساس توانایی هر فرایند در مساوی‌ و هم‌راستا نمودن فضاهای واکه‌ای گویندگان مختلف در فضای واکه‌ای چهار ضلعی انجام می‌دهد. در‌ روش فلین، فضای واکه چهار ضلعی متشکل از چهار زاویه است که مختصات آن عبارت از نقاط بیشینه F2– کمینه F1، کمینه F2- کمینه F1، کمینه F2 - بیشینه F1، و بیشینه F1 می‌باشد.
فرمول کلی برای سنجش میزان یکسان نمودن فضاهای واکه‌ای در هر فرایند، از طریق معادله مساحت چهار ضلعی حاصل می شود. شایان ذکر است از آنجا که مساحت‌های ارزیابی‌شده در هر فرایند بهنجار‌سازی بر اساس واحدهای آن فرایند تعریف می‌شود، امکان مقایسه مستقیم فضاهای واکه‌ای وجود ندارد. به همین علت فابریشوز و همکاران (2009) و به پیروری از آنها فلین (2011) از مربع ضریب همبستگی واریانس (SCV) استفاده می‌کنند. تفسیر مربع ضریب همبستگی واریانس این‌گونه است که فرایند بهنجار‌سازی که در آن SCV پایین‌تر باشد، آن فرایند در کاهش واریانس مساحت فضای واکه‌ای میان گویندگان و نهایتاً یکسان نمودن مساحت فضاها موفق‌تر عمل کرده است.
هم‌راستا بودن فضاهای واکه‌ای گویندگان نیز امری بسیار مهم می‌باشد که باید در محاسبات مورد توجه واقع شود چرا که ممکن است دو فضای واکه‌ای با اشکال مختلف و حتی همپوشانی ضعیف مساحت یکسان داشته باشند. جهت محاسبه هم‌راستا بودن فضاهای واکه‌ای از معیار میزان همپوشانی فضاها استفاده می‌شود. با توجه به وجود مقیاس‌های مختلف در فرایندهای بهنجار‌سازی، همپوشانی کلی فضاهای واکه‌ای با میزان درصد محاسبه می‌شود. بنابراین درصد بالای همپوشانی در یک فرایند به ‌‌این معنا است که آن فرایند در هم راستا نمودن فضاهای واکه‌ای عملکرد مطلوبی داشته است.
حال با توضیحات ارائه شده در این معیار، تنها مسئله باقیمانده به موضوع مثلث و یا چهار ضلعی واکه‌ای و در نظر گرفتن کل اضلاع فضای واکه‌ای اختصاص داده می‌شود. جوس (1948)، لیبرمن و همکاران (1972) بیان می‌کنند که واکه‌های ممیز [ i, u, a] را می‌توان به‌عنوان متعادل‌کننده‌های اصلی در نظام واکه‌ای در نظر گرفت. به‌علاوه محققان در حوزه ادراک بیان می‌کنند که یک شنونده با شنیدن واکه‌های ممیز می‌تواند طبقه‌بندی نمونه‌های واکه‌ای تولید شده توسط یک گوینده جدید را بهتر انجام دهند (آدانک، 2003). همچنین بیان شده است که واکه‌های‌ ممیز، محتمل‌ترین کاندیدها جهت ارائه نظام واکه‌ای هستند زیرا‌ این واکه‌ها جایگاه‌های کرانه‌ای را در فضای واکه‌ای تولیدی گوینده اشغال می‌کنند و به‌صورت بسامد‌های سازه‌ای نهایی در فضای واکه‌ای آکوستیکی ظاهر می‌شوند. لیلینکرانتس و لیندبلام (1972) نیز در باب ارجحیت واکه‌های ممیز متذکر می‌شوند که از آنجا که واکه‌های ممیز در نهایتِ فضای واکه‌ای ممکن قرار می‌گیرند، از نظر صوت‌شناختی کاملاً از هم متمایز هستند و احتمال اشتباه شنونده در ادراک‌ این سه واکه وجود ندارد.
بنابر مستندات ارائه شده در نظر گرفتن واکه‌های ممیز در مثلث واکه‌ای جهت ارزیابی مساحت، کافی به‌نظر می‌رسد منتهی یکی از انتقادات مطرح در انتخاب مثلث واکه‌ای ‌این است که در این روش با مبنا قرار دادن سه واکه، تغییرات حوزه‌ای دیگر واکه‌ها نادیده گرفته می‌شود و در نهایت دقت لازم در بررسی اعمال نمی‌شود. با توجه به منطقی بودن انتقاد مذکور، در این بررسی مبنای مساحتی به منظور افزایش دقت محاسباتی بر پایه شش ضلع ‌ایجاد شده در فضای واکه‌ای صورت می‌پذیرد.

4-2. معیار تحلیل تشخیصی
تحلیل تشخیصی یک تکنیک تشخیصی استاندارد است که در آن از ماتریس کوواریانس متغیرهای اکوستیکی جهت طبقه‌بندی نمونه‌ها استفاده می‌شود. از این معیار نری (1978)، سیردال (1984)، آدانک و همکاران (2004) جهت ارزیابی تکنیک‌های بهنجار‌سازی درحفظ اطلاعات واجی بهره گرفته‌اند. معیار تحلیل تشخیصی یک تحلیل آماری است که جهت پیش‌بینی ‌متغیر وابسته از طریق متغیرهای غیروابسته عمل می‌کند. در این روش از متغیرهای اکوستیکی به‌عنوان متغیر غیر وابسته و یا عامل پیش‌بینی‌کننده و از گروه واکه‌ای مورد نظر به‌عنوان متغیر وابسته استفاده می‌شود. در صورتی‌که تکنیک بهنجار‌سازی مورد نظر درصد بالایی را در طبقه‌بندی صحیح واکه‌ای دارا باشد ‌این بدان معنا است که آن تکنیک در حفظ تنوعات واجی موفق عمل کرده است.
به طور کلی می‌توان اهداف استفاده از تکنیک تحلیل تشخیصی را به‌صورت زیر بیان نمود:
الف) طبقه‌بندی نمونه‌ها در گروه‌ها
ب) ارزیابی یک نظریه از نظر طبقه‌بندی نمونه‌ها طبق پیش‌بینی
ج) تعیین اقتصادی‌ترین روش در تمایز میان گروهی
د) بررسی مشخصه‌ای که بر اساس آن گروه‌بندی به بهترین نحو انجام شود.
اگرچه همگی اهداف بیان شده در یک جهت می‌باشند و آن عبارت از کمینه کردن احتمال طبقه‌بندی اشتباه در نمونه‌ها است ولیکن هدف الف یعنی طبقه‌بندی نمونه‌ها در گروه‌ها در این بررسی مورد استفاده قرار گرفته است.

5-تجزیه و تحلیل شیوه‌های بهنجار‌سازی در زبان فارسی
5-1. تجزیه و تحلیل شیوه‌های بهنجار‌سازی با معیار میزان همپوشانی فضاهای واکه‌ای
در این قسمت، شاخصه نسبت همپوشانی فضاهای واکه با هدف شناسایی مقیاسی که نسبت به سایرین بهتر بتواند اثر شخص را حذف کند ارائه می‌گردد. منظور از حذف اثر شخص در این شاخصه انطباق فضاهای واکه‌ای 10 گوینده بر یکدیگر می‌باشد. منظور از فضای واکه‌ای ناحیۀ محصور میان چندضلعی‌ای است که از اتصال 6 واکه بدست می‌آید. مقیاس یا روش بهنجار‌سازی مناسب قادر خواهد بود فضای واکه‌ای‌ این 10 شخص را حتی‌الامکان بر یکدیگر منطبق نماید. انطباق بیشتر فضاهای واکه‌ای 10 شخص به معنای ‌این است که مساحت بیشتری از فضای دو بعدی تشکیل شده از مقیاس مورد بررسی در فضای واکه‌ای هر 10 نفر وجود داشته باشد. این مساحت با عنوان مساحت ناحیه مشترک در فضاهای واکه‌ای نامگذاری می‌شود. برای قابل مقایسه بودن‌ این مقدار در روش‌های مختلف بهنجار‌سازی کافی است که آن را بر مساحت اجتماع فضاهای واکه‌ای تقسیم کنیم. منظور از ناحیۀ اجتماع فضاهای واکه‌ای، ناحیه‌ای از فضای دو بعدی است که حداقل در یکی از فضاهای واکه‌ای قرار گرفته باشد. نسبت مساحت ناحیه مشترک در فضاهای واکه‌ای بر مساحت اجتماع فضاهای واکه‌ای همان شاخصه مورد نظر است که با عنوان تناسب مساحتی نامگذاری می‌شود.
در دو جدول 5-1 و 5-2 مساحت فضای واکه‌ای زبان فارسی برای هرشخص همراه با مساحت ناحیه مشترک در فضاهای واکه‌ای و مساحت اجتماع فضاهای واکه‌ای در مقیاس‌های مختلف نشان داده شده است.

جدول 5-1) مساحت فضای واکه، مساحت مشترک، مساحت اجتماع و تناسب برای هرشخص در مقیاس‌های بهنجارسازی درون‌گرا
Scale
Person HZ Mel Bark Erb
1 168844.9 84422.5 6.740630 12.30055
2 107421.8 53413.52 4.268828 7.726098
3 145321.2 73416.74 5.898785 10.65933
4 126136.4 63466.65 5.069716 9.2628
5 112842.2 55340.59 4.416973 7.959246
6 195060.6 80867.82 6,279091 10.87848
7 208994.0 92918.06 7.336637 12.8074
8 197601.9 88243.26 6.931605 12.25601
9 195894.8 85020.19 6.669921 11.63034
10 237832.0 105602.1 8.275764 14.6711
Intersection area 43965.77 21116.63 1.692824 2.969823
Union area 340568 154797.8 1.218005 2.177845
Ratio 0.129 0.136 0.139 0.136
Rank 5 4 3 4

جدول 5-2) مساحت فضای واکه، مساحت مشترک، مساحت اجتماع و تناسب برای هرشخص در مقیاس‌های بهنجارسازی برون‌گرا
Scale
Person Gerstman Lobanov Neary1 Watt &Fabricious
1 231553.6 168844.9 0.2457217 0.2152019
2 157808.5 107421.8 0.1527363 0.1329540
3 214101.9 145321.2 0.2110864 0.1913277
4 204814.7 126136.4 0.1853474 0.1606064
5 172711.7 112842.2 0.1563961 0.1399790
6 278465.8 195060.6 0.2006872 0.1835661
7 198563.1 208994.0 0.241374 0.2212098
8 289999.9 197601.9 0.2332502 0.2405694
9 200227.8 195894.8 0.2176764 0.1956755
10 279687.3 237832.0 0.2795693 0.2945615
Intersection area 55494.86 43925.81 0.1207648 0.08380059
Union area 488303 340124.4 0.3432165 0.3763751
Area Ratio 0.114 0.129 0.352 0.223
Rank 6 5 1 2
همان‌طورکه ذکر شد با در نظر گرفتن بیشتر بودن میزان تناسب مساحتی به معنای مطلوبتر بودن فرایند، مقیاس نری به‌عنوان شیوه برتر معرفی می‌گردد زیرا در این مقیاس فضاهای واکه‌ای 10 نفر تطابق بیشتری می‌یابند.
در شکل 5-1 فضاهای واکه‌ای بهنجارسازی شده 10 شخص فارسی‌زبان همراه با ناحیۀ اشتراک و اجتماع در فضاهای واکه‌ای در روش‌های مختلف بهنجار‌سازی نشان داده شده است.

HZ

MEL

BARK


ERB

GERSTMAN

LOBANOV



NEARY

WATT
شکل 5-1) نمود دیداری فضاهای واکه‌ای بهنجارسازی شده 10 شخص (چپ) همراه با ناحیۀ اشتراک و اجتماع در فضاهای واکه‌ای (راست) در روش‌های مختلف بهنجار‌سازی

همان‌طورکه در شکل 5-1 نیز مشهود است بیشترین میزان همپوشانی در فضای واکه‌ای اشخاص مختلف در جهت حذف و یا کمینه کردن تاثیرات فیزیولوژیکی با در نظر گرفتن شش ضلعی واکه‌ای در تکنیک نری ‌ایجاد می‌شود.
واضح است که تکنیک نری چه از نظر محاسباتی و چه از نظر شهودی بهترین تکنیک در حذف اثر جنسیت در نظام واکه‌ای زبان فارسی محسوب می‌گردد. تکنیک لبانو نیز پس از تکنیک نری در یکسان نمودن تناسب مساحتی و میزان همپوشانی فضاها موفق‌تر از دیگر تکنیک ها عمل نموده است.
بنابراین می‌توان‌ گفت که نتیجه به‌دست آمده از ارزیابی تکنیک‌های مختلف بهنجار‌سازی در حذف اثر فیزیولوژیکی در اشخاص مختلف بر پایه شش ضلعی واکه‌ای، شیوه نری را بعنوان موثرترین روش در نظام واکه‌ای زبان فارسی معرفی می‌کند.

5-2. تجزیه و تحلیل شیوه‌های بهنجار‌سازی با معیار تحلیل تشخیصی
در بررسی حاضر، از معیار تحلیل تشخیصی در دو بخش متفاوت استفاده می‌شود. در بخش اول قدرت انواع روش‌های بهنجار‌سازی در حفظ اطلاعات واجی و یا به عبارت فنی‌تر تفکیک‌کردن واکه‌ها سنجیده می‌شود که در نتیجه آن مطلوب‌ترین تکنیک در تفکیک واکه‌ای تعیین می‌گردد و در بررسی‌های که لازمه آن ‌ایجاد تفکیک واکه‌ای بهتر است قابل استفاده و استناد قرار می‌گیرد. در بخش دوم، قدرت مقیاس نری به‌عنوان موثرترین تکنیک در حذف تاثیر فیزیولوژیکی، در حفظ اطلاعات واجی و تفکیک کردن واکه‌ها بررسی می‌گردد زیرا همانطور‌که قبلا نیز به آن اشاره گردید اگرچه روش بهنجار‌سازی مطلوب در این بررسی در جهت حذف و یا کمینه کردن اثر شخص و جنس تعیین گردیده ولی انتظار ما از ‌این روش آن است که بتواند اثر واکه‌ها را حفظ و آن‌ها را به ‌خوبی تفکیک نماید و با ‌ایجاد گشتار در داده‌ها لطمۀ جدی به امر تفکیک واکه‌ای وارد نسازد. از این‌رو در این بخش قدرت تفکیک واکه‌ای نری نسبت به تکنیک برتر ارزیابی می‌شود.
تحلیل تشخیصی برای مدل‌هایی با متغیر وابسته با مقادیر رسته‌ای (categorical variable) که مرتبط با یک یا چند متغیر پیشگو هستند کاربرد دارد. در مدل واکه‌ای زبان فارسی طبقات واکه‌ای که شامل 6 گروه واکه است به‌عنوان متغیر وابسته و متغیرهای F1 و F2 به‌عنوان متغیرهای پیشگو تعریف می‌شوند. ‌این تحلیل به تفکیک اشخاص مختلف انجام می‌گردد و در نهایت با محاسبه میانگین آن‌ها میزان قدرت تفکیک واکه‌ای اعلام می‌شود. شیوه‌ای که دارای قدرت تفکیک بالاتر برای واکه‌ها باشد در این رویکرد مطلوب ارزیابی می‌شود.
میزان قدرت تفکیک با توجه به شاخصی بنام درصد رده‌بندی درست (classified percentages correctly) بررسی می‌گردد. ‌این شاخص درصد مواردی را که براساس مدل در نظر گرفته‌شده به درستی تشخیص و تفکیک می‌شوند را اعلام می‌کند. در حالت بررسی قدرت تفکیک واکه بزرگ‌تر بودن درصد رده‌بندی درست، هدف تعریف می‌گردد. در جدول 5-3 میانگین درصد رده‌بندی درست در اشخاص مختلف در ستون average نشان داده شده است. در این تحلیل از آنجا که مقادیر بزرگ‌تر مطلوب‌تر می‌باشند بر این اساس انواع روش‌های بهنجار‌سازی رتبه‌بندی شده و رتبه آن‌ها در ستون rank مشخص شده است.

جدول 5-3) میانگین درصد رده‌بندی درست در اشخاص مختلف در مقیاس‌های مختلف بهنجارسازی جهت بررسی قدرت تفکیک واکه‌ای
Person
Scale 1 2 3 4 5 6 7 8 9 10 Average Rank
M1=HZ 89.5 79.6 91.0 86.2 84.9 77.6 86.7 79.5 91.5 80.5 84.70 5.12 4
M2=Mel 90.4 81.5 89.9 87.5 87.7 80.6 88.0 80.8 91.5 82.9 86.08 4.21 1
M3=bark 90.4 81.5 89.9 87.5 87.7 80.6 85.3 80.8 89.8 82.9 85.64 3.93 2
M4=Erb 89.5 80.6 88.8 87.5 87.7 79.1 85.3 80.8 89.8 82.9 85.20 4.04 3
M5=Gerstman 89.5 79.6 91.0 86.2 84.9 77.6 86.7 79.5 91.5 80.5 84.70 5.12 4
M6=lobanov 89.5 79.6 91.0 86.2 84.9 77.6 86.7 79.5 91.5 80.5 84.70 5.12 4
M7=Neary1 88.6 81.5 87.6 85.0 87.7 79.1 85.3 80.8 88.1 82.9 84.66 3.41 5
M8=Watt &Fabricious 89.5 79.6 91.0 86.2 84.9 77.6 86.7 79.5 91.5 80.5 84.70 5.12 4
براساس جدول 5-3 دو روشی که بالاترین رتبه‌ها را درتفکیک واکه‌ای به خود اختصاص می‌دهند مقیاس‌های مل و بارک هستند. البته در روش نری هر چند میانگین نسبت به سایر روش‌ها بیشتر بوده و در نتیجه رتبه بالاتری دارد ولی مقدار انحراف استاندارد در این روش نسبت به سایر روش‌ها کمتر می‌باشد که از محاسن آن به‌شمار می‌رود.
در مرحلۀ دوم که هدف ارزیابی قدرت تفکیک واکه‌ای نری نسبت به تکنیک مل است، به‌دنبال روش یا روش‌هایی هستیم که با مقیاس مل در تفکیک واکه‌ای تفاوت معناداری نداشته باشند. از این‌رو روش مل را با هر یک از روش‌های دیگر به‌طور مجزا از طریق آزمون پارامتری t-زوجی مقایسه می‌کنیم. فرض صفر در این آزمون‌ها برابری قدرت تفکیک واکه در دو روش مورد بررسی می‌باشد. در اینجا متذکر می‌شویم که می‌توان از 7 آزمون، t-زوجی را به عنوان پس‌آزمونی برای آزمون اندازه‌های‌تکرار شده استفاده نمود. از آنجاکه این آزمون‌ها با علم به عدم برابری هشت روش و رد شدن فرض صفر در آزمون اندازه‌های‌تکرار‌شده انجام می‌شود، لذا سطح معناداری را به‌جای 05/0 با حاصل 05/0 تقسیم بر 7 مقایسه می‌کنیم که 7 تعداد آزمون های t-زوجی است. نتایج آزمون در جدول 5-4 نشان داده شده است.

جدول 5 -4) پس‌آزمون جهت مقایسه مقیاس برتر با سایرمقیاس‌ها در قدرت تفکیک واکه‌ای
Mean Std. Deviation Std. Error Mean Sig=.05/7=.00714

Pair 1 m2 – m1 1.380 1.259 .398 3.467 9 .00708
Pair 2 m2 - m3 .440 .957 .303 1.454 9 .17997
Pair 3 m2 - m4 .880 .914 .289 3.045 9 .01390
Pair 4 m2 - m5 1.380 1.259 .398 3.467 9 .00708
Pair 5 m2 - m6 1.380 1.259 .398 3.467 9 .00708
Pair 6 m2 - m7 1.420 1.321 .418 3.398 9 .00790
Pair 7 m2 - m8 1.380 1.259 .398 3.467 9 .00708

در جدول 5-4 سطح معناداری مربوط به مقایسۀ روش دوم (مل) با روش‌های 3، 4 و 7 که به‌ترتیب مربوط به روش‌های بارک، ارب و نری است از 00714/0 بیشتر می‌باشد. پس فرض صفر در این موارد رد نمی‌شود. بدین معنا که فرض برابری قدرت تفکیک واکه در روش مل با روش‌های بارک، ارب و نری رد نمی‌شود و می‌توان این روش‌ها را به اندازه روش مل مناسب دانست.
بنابراین به عنوان نتیجه‌گیری کلی از تجزیه و تحلیل روش‌های بهنجار‌سازی روش نری را به‌عنوان بهترین روش در کمینه کردن اثر فیزیولوژیکی شخص با حفظ تمایزات واجی و قدرت بالا در تفکیک واکه‌ای پیشنهاد می‌کنیم.
حال پس از مشخص شدن بهترین روش جهت بهنجارسازی فضای واکه‌ای زبان فارسی، در ابتدا نمودار فضای واکه‌ای بر اساس تجزیه و تحلیل متغیرهای صوت‌شناختی سازه‌های اول و دوم واکه‌ها در دو هزار نمونه واکه‌ای با در نظر گرفتن دو متغیر جنسیت (مرد و زن) و بافت آوایی هجا (تکیه‌بر و بی‌تکیه) در چهار گروه مردان تکیه‌بر، مردان بی‌تکیه، زنان تکیه‌بر و زنان بی‌تکیه در شکل 5-2 نشان داده شده است.

شکل 5-2: نمودار فضای واکه‌ای به تفکیک چهارگروه پس از حذف داده‌های پرت

همان‌طورکه در شکل 5-2 مشخص است فضای واکه‌ای در گروه زنان چه در حالت تکیه‌بر، چه در حالت بی‌تکیه بزرگتر از فضای واکه‌ای در گروه مردان است.
ارزیابی شیوه‌های بهنجار‌سازی (هرتز، مل، بارک، ارب، گرستمان، لبانو، نری، وات و فابریشوز) بر اساس معیار میزان همپوشانی و تناسب فضاهای واکه‌ای دو گروه زنان و مردان صورت گرفته شده است. در میان شیوه‌های بررسی‌شده شیوه بهنجار‌سازی نری با داشتن رتبه یک در انطباق فضاهای واکه‌ای مردان و زنان به عنوان مطلوب‌ترین شیوه در زبان فارسی در جهت حذف و یا کمینه‌کردن اثر فیزیولوژیکی اشخاص با مزیت حفظ اطلاعات واجی معرفی شد. بر این اساس فضاهای واکه‌ای بهنجار‌سازی‌شده در زبان فارسی به‌صورت شکل 5-3 می‌باشد.


شکل 5-3) فضاهای واکه‌ای بهنجار‌سازی‌شده در زبان فارسی
لازم به‌ذکر است که در شکل 5-3 باتوجه به این‌که با انجام فرایند بهنجارسازی، تفاوت‌های میان دو گروه جنسیتی زنان و مردان به کمینه مقدار خود رسیده است نمودار فضای واکه‌ای تنها به تفکیک تکیه‌بر و بی‌تکیه ترسیم شده است. این شکل تفاوت واکه‌ها را در بافت تکیه‌دار و بی‌تکیه نشان می‌دهد. همان‌گونه که مشخص است واکۀ پسین افراشته در بافت تکیه‌دار پسین‌تر از بافت بدون تکیه است و بیشترین تفاوت را نسبت به سایر واکه‌ها نشان می‌دهد. در ضمن واکه افتاده پیشین در بافت بی‌تکیه افتاده‌تر از حالت تکیه‌دار است.

6- نتیجه‌گیری
در این بررسی بهنجار‌سازی واکه‌ای در زبان فارسی با هدف حذف و یا کمینه کردن ‌تنوعات سازه‌ای ناشی از تفاوت‌های فیزیولوژیکی میان گویندگان صورت گرفته شده است. نتیجه‌ کلی تجزیه و تحلیل بهنجار‌سازی، روش نری را به‌عنوان بهترین روش در کمینه کردن اثر فیزیولوژیکی شخص با حفظ تمایزات واجی و قدرت بالا در تفکیک واکه‌ای پیشنهاد می‌کند. پس از بهنجارسازی فضای واکه‌ای، فضای واکه‌ای زبان فارسی نشان داده شد و مشخص گردید که فضای واکه‌ای در گروه زنان چه در حالت تکیه‌بر، چه در حالت بی‌تکیه بزرگتر از فضای واکه‌ای در گروه مردان نشان داده شده است.

Adank, P. (2003). Vowel Normalization: a Perceptual-Acoustic Study of Dutch Vowels. PhD thesis. University of Nijmegan.
 Adank, P., Van Hout, R. & Smiths, R. (2004). “A comparison of vowel normalization procedures for language variation research”. Journal of the Acoustical Society of America 116(5), 3099-3107.
Ainsworth, W. A. (1975). “Intinsic and extrinsic factors in vowel judgement”. in Auditory analysis and Perception of Speech, edited by G. Fant and M. A. A. Tatham . Pp. 103-113.  London: Academic Press.
Assman, P. F., Neary, T. M. ,& Hogan, J.T. (1982). "Vowel identification: Orthographic, perceptual, and acoustic aspects". Journal of the Acoustical Society of America, 71, 975-989.
Bigham, D. (2008). Dialect Contact and Accommodation among Emerging Adults in a University Setting. Ph.D. thesis, The University of Texas at Austin.
Clopper, C. (2009) “Computational methods for normalizing acoustic vowel data for talker differences”.In Language & Linguistic Compass 3(6),1430-1420.
Daniloff, R. & Hammarberg, R. (1973). "On defining coarticulation". Journal of Phonetics 1, 239-348.
Essner, G. (1947). "Recherche sur la structure des voyelles orales". Archives Neerlandaises de Phonetique Experimentale 20, 40-77.
 Fabricius, A. H., Watt. D. & Johnson. D. E. (2009). “A comparison of the three speaker-intrinsic vowel formant frequency normalization algorithms for sociophonetics”. Language Variation and Change 21, 413-434
Ferrari-Disner, S. (1980). “Evaluation of vowel normalization procedures”. Journal of the Acoustical Society of America 67. Pp. 253-261.
 Ferrari-Disner, S. (1984). “Insights on vowel spacing. In Maddieson”. Patterns of sounds, Pp. 136-155. Cambridge: Cambridge University Press.
 Flecther, H. (1940). “Auditory patterns”. Review of modern physics 12, 47-65.
Flynn, N. (2011) “Comparing vowel formant normalization procedures”. York Papers in Linguistic Series 2, 1-13.
Gerstmann, L. (1968). “Classification of self-normalized vowels”. IEEE Transactions of Audio Electroacoustics 16(1), 78-80.
 Gimson, A. C. (1989). An Introduction to the Pronunciation of English. 4th ed. London: Edward Arnold.
Harrington, J. (2010). Phonetic Analysis of Speech Corpora. London: Wiley-Blackwell publication.
Hindle, D.  (1978). “Approaches to formant normalization in the study of natural speech”. Pp. 161-72. In Linguistic Variation: Models and Methods”. New York: Academic Press.
Joos, M. (1948). Acoustic Phonetics. Language Monograph, 23. Baltimore: The Linguistic Society of America.
Klein, W., Plomp. R. & Pols. L. W. S. (1970). “Vowel spectra, vowel spaces and vowel identification”. The Journal of Acoustical Society of America 48, 999-1009.
Ladefoged, P. (1976). Three Areas of Experimental Phonetics. Oxford: Oxford University Press.
Ladefoged, P., and Broadbent, D. E. (1957). “Information conveyed by vowels”. Journal of the Acoustical Society of America 29, 88-104.
 Langstrof, Ch. (2006). Vowel Change in New Zealand English-Patterns and Implications. PhD Dissertation. Christchurch, New Zealand: University of Canterbury.
 Lieberman, P., Crelin, E. S., & Klatt, D. H.  (1972). “Phonetic ability and related anatomy of the newborn and adult man, neanderthal man and the chimpanzee”. American Anthropologist 74, 287-307.
Liljencrants, J. & Lindblom, B. (1972). “Numerical simulation of vowel quality systems: the role of perceptual contrast”. Language 48, 839-862.
Lobanov, B. M. (1971) “Classification of Russian vowels spoken by different speakers”. Journal of the Acoustical Society of America 49, 606-608.
Moore. B. C. J. & Glasbery. B. R. (1983). “Suggested formulae for calculating auditory filter band width and excitation patterns”. The Journal of Acoustical Society of America 74, 750-753.
Neary, T. M. (1978). Phonetic Feature System for Vowels. Indian university: Linguistic Club.
 Neary, T. M. (1989). “Static, dynamic and relational properties in speech perception”. Journal of the Acoustical Society of America 85,  2088-2113.
 Peterson, G. E. & Barney, H. L. (1952). “Control methods used in a study of the vowels”. Journal of the Acoustical Society of America 24, 175-84.
 Pols, L. C. W., Tromp. H. R. C. & Plomp, R. (1973).“Frequency analysis of Dutch vowels from 50 male speakers”. Journal of the Acoustical Society of America 53, 1093-1101.
  Potter, R. K. & Steinberg, J. C. (1950). “Toward the specification of speech”. Journal of Acoustical Society of America 22, 807-820.
Rosner, B. S. & Pickering, J. B. (1994). Vowel Perception and Production. Oxford: Oxford University Press.
Stevens, S. & Volkman. S. J. (1940). “The relation of pitch to frequency: a revised scale”. Journal of the Acoustical Society of America 53, 329-353.
Strange, W. (1989). "Evolving theories of vowel perception". Journal of the Acoustical Society of America 85, 2081-2087.
Syrdal, A. K. (1984). “Aspects of a model of the auditory representation of American English vowels”. Speech Communication 4, 121-135.
Syrdal, A. K., Gopal, H.S. (1986). “A perceptual model of vowel recognition based on auditory representation of American English vowels”. Journal of the Acoustical Society of America 79(4), 1086-1100.
Thomas, E. & Kendall, T. (2007). NORM: The Vowel Normalization and Plotting Suite. Online resource. URL:http:[ncslɒp.lib.ncsu.edu/tools/norm]
 Thomas, E.  (2002). Instrumental Phonetics. In The Handbook of Language Variation and Change. Oxford: Blackwell.
Tranmuller, H. (1981). “Perceptual dimension of openness in vowels”. Journal of the Acoustical Society of America 69, 1465-1475.
Tranmuller, H. (1990). “Analytical expression for the tonotopic sensory scale”. Journal of the Acoustical Society of America 88, 97-100.
Watt, D. & Fabricius, A. (2002).“Evaluation of a technique for improving the mapping of multiple speaker s vowel spaces in the F1~ F2 plane”. Leeds Working Papers in Linguistics and Phonetics 9, 159-173.
 Verbrugge, R. R. & strange. W. (1976). “What information enables a listener to map a talkers vowel space?” Journal of the Acoustical Society of America 60, 198-212 
Zwicker, E. (1961). “Subdivision of the audible frequency range into critical bands as a function of frequency”. Journal of the Acoustical Society of America 33, 248.