Extracting Parallel English/Persian Sentences from Comparable Corpora using Syntactic Information

Document Type : Research Paper

Authors

1 University of Isfahan, Iran

2 Isfahan University, Iran

Abstract

Parallel corpora have always been considered among the richest resources in the field of natural language processing. These corpora include translated texts from two or more languages that are usually aligned at the different levels of word, clause, or sentence. Notwithstanding the many uses of these corpora in different studies such as linguistic researches, statistical machine translation, and cross language information retrieval; unfortunately parallel corpora have always been rare and limited in number and quality.. Accordingly, in this paper an automatic method for extracting parallel sentences from comparable resources is introduced which exploits syntactic information. In this method, by using syntactic information of the sentences, an alignment model is trained. The highest practical accuracy of the alignment model on the test set (208 pairs of sentences) was measured to be 77% and the highest precision on the training set (830 pairs of sentences) was 97.7%. Considering the tiny size of the golden corpora, n-fold cross validation technique was used in all training algorithms. To attain higher precision, a new similarity search algorithm was implemented which increased the practical accuracy on the test set from77% to 85.15%. The final outcome of this research was an alignment toolkit and framework which was named "Isfahan University Parallel Corpus Framework" or IPCF, which can be used by the researchers in the field of computational processing of Persian language to construct standard parallel corpora.

Keywords


. مقدمه

پیکره‌های موازی[1] به‌صورت عام در مباحث زبانشناسی، و به‌صورت خاص در حوزه پردازش زبان طبیعی، به‌ویژه در حیطه ترجمه ماشینی، از غنی‌ترین و ارزشمندترین منابع محسوب می‌شوند. پیکره‌های موازی، به بیان مختصر، پیکره‌هایی هستند که در آن‌ها جملات هم‌ترجمه از دو یا چند زبان مختلف معادل یکدیگر قرارگرفته‌اند. این پیکره‌هامی‌توانند در سطوح کلمه، عبارت، جمله و یا پاراگراف هم‌تراز شده باشند (جورافسکی و مارتین[2]، 2009).

پیکره‌های موازی کاربردهای بسیاری در مطالعات زبانی و پژوهش‌های مربوط به پردازش زبان طبیعی دارند. یکی از مهم‌ترین کاربردهای پیکره‌های موازی دوزبانه در بحث ساخت ماشین ترجمه به روش آماری است (میتکو[3]، 2005). اما کاربرد پیکره‌های موازی دوزبانه تنها به ساخت ماشین ترجمه با روش‌های آماری محدود نمی‌شود و می‌توان از این پیکره‌ها در مطالعات زبانی و میان زبانی، تصحیح ترجمه انسانی، مطالعات و ارائه روش‌ها و ابزارهای بهبود ترجمه انسانی، سامانه‌های حافظه ترجمه[4]، ارزیابی کیفیت ترجمه انسانی، و سامانه‌های خودکار بازیابی اطلاعات میان زبانی (CLIR) [5] و غیره استفاده کرد (چه‌آن و یانگ جونگ[6]، 2017).

تولید پیکره‌های موازی دو یاچندزبانه از پرهزینه‌ترین امور تولید محتوا برای پردازش زبان طبیعی محسوب می‌شود (مک انری و زایو[7]، 2007؛ براون، 2005). ازآنجایی که برای تولید و گسترش پیکره‌های موازی مناسب، لازم است معیارهای زیادی مدنظر قرار گیرد، در عمل تعداد پیکره‌های موازی استاندارد به خصوص در جفت‌های زبانی که یک عضو آن‌ها زبان فارسی است (مانند جفت زبانی فارسی-انگلیسی)، بسیار پایین است.

. در تولید پیکره‌های موازی می‌بایست معیارهایی مانند به‌روز بودن داده‌ها، حجم مناسب (هان و سایرین،  2009)، دقت در هم‌ترازی (محمدی و قاسم آقایی، 2010)، کیفیت داده‌ها (زاری و صدرالدینی، 1392)، توجه به نوع ترجمه (مفهومی، تحت‌اللفظی، کلمه به کلمه، و غیره)، نویز[8] پایین (تقی پور و سایرین،2010؛ پیله‌ور و سایرین، 2011) را مدنظرقرارداد. مسئله نویز در پیکره موازی به‌خصوص هنگامی اهمیت بیشتری پیدا می‌کند، که هدف استفاده از پیکره موازی ایجادشده در تولید ماشین ترجمه باشد. هنگامی‌که یک مترجم انسانی متنی را ترجمه می‌کند، در مواردی ناچار به حذف و اضافه کردن قسمت‌هایی از متن است، به این حذف و اضافه‌ها که می‌تواند برای یادگیری مدل ترجمه توسط ماشین ترجمه گیج‌کننده باشد، نویز گفته می‌شود (تقی پور و سایرین، 2010).

برای تولید پیکره‌های موازی می‌بایست جملات هم‌ترجمه از دو زبان، هم‌تراز شوند. به عمل جداسازی جملات موازی (هم ترجمه) از متون دوزبانه (ترجیحاً ترجمه‌شده) و قرار دادن آن‌ها در مقابل یکدیگر، هم‌ترازی جملات گفته می‌شود(جورافسکی و مارتین، 2009) و به این جملات که ترجمه یکدیگر محسوب می‌شوند و در برابر هم دیگر قرار دارند، جملات هم‌تراز می­گویند (گیل و چرچ[9]، 1993). جملات هم‌تراز می‌توانند به انواع ترجمه‌ای 0-1 (جمله حذف‌شده)، 1-0 (جمله اضافه‌شده توسط مترجم)، 1-2 (ترجمه دو جمله به یک جمله)، 2-1 (ترجمه یک جمله به دو جمله)، 1-1  (ترجمه یک جمله به یک جمله) تقسیم‌بندی شوند.

پیکره‌های موازی را می‌توان به سه روش دستی، نیمه‌خودکار و خودکار ایجاد نمود. در روش دستی با استفاده از نیروی انسانی و متخصص جملات هم‌ترجمه ایجاد یا انتخاب می‌شوند و در پیکره نهایی قرار می‌گیرند؛ پیکره‌هایی که به این شکل ایجاد می‌شوند پیکره‌های موازی طلایی محسوب می‌شوند (جورجیو و همکاران[10]، 2006). در روش نیمه‌خودکار با به‌کارگیری روش‌های آموزش ماشینی و مدل‌سازی، جملات هم‌ترجمه اولیه توسط ماشین انتخاب می‌شوند. سپس این جملات توسط یک تیم کوچک انسانی مورد بازبینی قرارگرفته و جملات نامطلوب حذف می‌شوند. این عمل منجر به تولید پیکره‌های موازی نقره‌ای می‌شود. در روش‌های خودکار با استفاده از روش‌های رایانشی مانند یادگیری ماشینی، سنجش میزان شباهت، روش‌های احتمالاتی و دیگر روش‌ها به کشف و استخراج جملات موازی از منابع زبانی پرداخته می‌شود. امروزه این روش‌ها به دلیل سرعت قابل‌توجه خود در پردازش حجم انبوهی از منابع متنی، موردتوجه هستند. یکی از منابعی که در روش‌های خودکار موردتوجه است، استفاده از منابع پیکره‌های مقایسه‌ای به‌منظور استخراج جملات هم‌تراز است. پیکره‌های مقایسه‌ای شامل متونی از دو زبان جداگانه اما در یک حوزه خاص هستند. جملات موجود در پیکره‌های مقایسه‌ای الزاماً ترجمه یکدیگر نیستند، اما می‌توان انتظار داشت که در این نوع از پیکره‌ها جملات هم‌ترجمه کشف شوند (راف و شونک[11]، 2011). همان‌طور که مشخص است، به دلیل سادگی تولید این پیکره‌ها، و حجم بالای آنها (بارزیلی و الحداد[12]، 2003)، پیکره‌های مقایسه‌ای منابع بسیار خوبی برای استخراج جملات هم‌تراز محسوب می‌شوند.

تفاوت پیکره‌های موازی و پیکره‌ها یا منابع مقایسه‌ای در این است که در مورد پیکره‌های موازی این اطمینان وجود دارد که منابع در سطوح مورد نظر مانند کلمه، عبارت، جمله، بند، یا مقاله، بدون تردید ترجمه یکدیگر هستند و از معیارهای مورد نظر پیروی می‌کنند، اما در مورد منابع یا پیکره‌های مقایسه‌ای این اطمینان وجود ندارد. هرچند ممکن است بتوان در منابع مقایسه‌ای مقالاتی پیدا کرد که در سطح جمله هم‌ترجمه باشند، اما این الزام وجود ندارد که این ترجمه‌ها دقیق باشند، یا از استانداردهای مورد نظر برخوردار باشند. به بیان دقیق‌تر، از طریق همترازسازی منابع مقایسه‌ای این اطمینان حاصل می‌شود که جملات دقیقاً ترجمه یکدیگر هستند و از معیارها و استانداردهایی که مورد نظر هستند پیروی می‌کنند.

تاکنون پژوهش‌های بسیاری به‌منظورارائه روش‌های استخراج جملات هم‌تراز انجام‌گرفته‌ است (محمدی و قاسم آقایی، 2010؛ تقی پور و سایرین؛ پیله‌ور و سایرین؛ جکیان طوسی، 1391؛ رحیمی و همکاران[13]، 2012) اما بسیاری از این پژوهش‌ها به ارائه یک ابزار کاربردی متناسب با ویژگی‌های زبان فارسی منجر نشده‌اند. همچنین پیکره‌های حاصل از بسیاری از این پژوهش‌ها یا به دلایل مختلف مانند عدم انتشار در دسترس عموم پژوهشگران قرار ندارند (مانند پیکره امیرکبیر (‌جباری و ضیاع‌بری[14]، 2012)) یا از استانداردهای لازم به‌منظور کاربرد در پردازش زبان فارسی برخوردار نیستند (مانند نویز بالا در پیکره میزان). مقاله حاضر به معرفی روشی برای استخراج جملات هم‌تراز از منابع مقایسه‌ای می‌پردازد. در این راستا، مقالات ترجمه‌شده دانشنامه آزاد ویکی‌پدیا[15] به علت در دسترس بودن و عدم نیاز به کسب مجوزهای خاص به‌عنوان پیکره مقایسه‌ای مورداستفاده قرار گرفته است. وجود جملات ترجمه‌شده با نرخ رخداد بالا در این منبع و همچنین توجه نگارندگان ویکی‌پدیا به رعایت مصوبات نگارشی فرهنگستان در مقالات این دانشنامه، احتمال کشف جملات هم‌تراز با کیفیت مطلوب در این منبع را افزایش می‌دهد. لازم به ذکر است که در طراحی الگوریتم نهایی دقت لازم به‌عمل‌آمده است که جملاتی که نویز پایینی دارند از منابع استخراج شوند؛ بنابراین جملاتی که، به‌عنوان‌مثال، به شکل آزاد در دانشنامه ویکی‌پدیاترجمه‌شده‌اند، توسط ابزار و مدل هم‌ترازی ارائه‌شده در این روش در خروجی دیده نخواهند شد. روش حاضر با بهره‌گیری از اطلاعات نحوی و زبانی جملات، یک مدل هم‌ترازی برای جفت‌های زبانی انگلیسی و فارسی ایجاد می‌کند. این مدل به شکل کاربردی وروی داده­های آزمون جملات هم‌تراز را با دقت 77% استخراج می‌کند. گفتنی است براساس یافته­های پژوهش حاضر با استفاده از الگوریتم‌های جست‌وجوی شباهت بر اساس داده‌های یک فرهنگ لغت، دقت مدل را می‌توان تا بیش از 85% افزایش داد. علاوه بر این، در پژوهش حاضر، در نهایت با استفاده از مدل هم‌ترازی به‌دست‌آمده، چارچوب و ابزاری برای استخراج پیکره موازی از متون مقایسه‌ای ایجاد شد که می‌تواند نیاز پژوهشگران حوزه پردازش زبان فارسی درزمینۀ تولید پیکره‌های موازی را تا حد قابل قبولی مرتفع نماید.

2. سوال تحقیق و روشکار

با در نظر داشتن مشکلات پیش روی بحث پردازش زبان فارسی، و با توجه به پیشرفت علم پردازش زبان طبیعی در مورد سایر زبان‌ها و همچنین با عنایت به اولویت‌بندی نیازهای امور پردازش زبان فارسی با توجه به مسیر آینده، ساخت ابزارهایی که بتوانند به شکل خودکار و در حجم و کیفیت قابل قبول، منابع زبانی را برای زبان فارسی فراهم کنند یک نیاز بنیادین محسوب می‌شود. یکی از این منابع پیکره‌های موازی هستند که کاربردهای پردازشی بی‌شماری دارند. در این راستا سوال تحقیق مطرح در این مقاله این است که، از چه طریق می‌توان به شکل خودکار به ایجاد پیکره‌های موازی از پیکره‌های مقایسه‌ای اقدام نمود و در عین حال از سرعت روش ارائه شده و رعایت معیارهای لازم در این روش اطمینان حاصل نمود؟

    بعد از بررسی پیشینه پژوهشی، و در نظر داشتن میزان موفقیت روش‌های مختلف، هزینه (مالی و پردازشی) این روش‌ها، پیچیدگی این راهکارها و قابلیت پیاده‌سازی و در صورت نیاز گسترش سریع و آسان آن‌ها، این فرضیه مطرح شد که می‌توان با بهره‌برداری از اطلاعات نحوی جملات در دو زبان، به شمارش برچسب‌های دستوری جملات اقدام نموده و با استفاده از روش‌های یادگیری ماشینی یک مدل همترازی ایجاد نمود و از این مدل برای استخراج جملات همتراز از منابع مقایسه‌ای استفاده کرد.

     استفاده از روش ارائه شده در این پژوهش، میزان موفقیت استخراج جملات همتراز از دانشنامه آزاد ویکی‌پدیا در پژوهش‌های پیشین را از رقم 21% (محمدی و قاسم‌آقایی، 2010) و 12/49 % (انصاری و سایرین، 2014) (مربوط به آستانه 1/0 که آزادی بیشتری به الگوریتم می‌دهد) به بیش از 77 % افزایش داده است.

3. پیشینه پژوهش

اکثر روش‌های خودکار تشخیص جملات هم‌تراز، با بهره‌گیری از سنجش میزان شباهت جملات در دو زبان مبدأ و مقصد کار می‌کنند. درعین‌حال، در یک دسته‌بندی کلی می‌توان روش‌های تشخیص جملات هم‌تراز را به دودسته «مبتنی بر طول» و «مبتنی بر اطلاعات زبانی» تقسیم کرد.

از اولین روش‌های مبتنی بر اطلاعات زبانی روش چن (1993) است. کار چن ساخت یک مدل ترجمه ساده کلمه به کلمه در حین جست‌وجو برای جملات موازی است. ادعای چن این است که روش او، برخلاف سایر روش‌های کشف جملات موازی، به اطلاعات زبانی توجه کافی دارد و درعین‌حال از سرعت قابل قبولی برخوردار است. در روش چن آن دسته از جملات هم‌ترازی در پیکره نهایی قرار می‌گیرند که احتمال ایجاد پیکره موازی را بیشینه نمایند. مدل چن با استفاده از 100 جمله که به شکل دستی مرتب‌شده‌اند خود راه‌اندازی[16]می‌شود. بعدازاینکه پارامترهای مدل او روی 20000 جمله موازی دیگر و با استفاده از الگوریتم EM[17] باز تخمین زده شد، در یک مرحله، جملات موازی استخراج می‌شوند. خود چن دقت روش خود را 6/99 % گزارش می‌کند، اما بررسی‌های آینده نشان داد که دقت روش او پایین‌تر از این رقم است (مننینگ و شوتز[18]، 1999).

روش گیل و چرچ (1993) از اولین روش‌های استخراج جملات هم‌تراز مبتنی بر طول است. اساس کار روش گیل و چرچ سنجش میزان شباهت جملات بر اساس طول آن‌هابرحسب تعداد نویسه‌های[19]به‌کاررفته در هر جمله می‌باشد. به عبارتی، در نظر گیل و چرچ جملاتی که از یک زبان به زبان دیگر ترجمه می‌شود به ‌احتمال ‌زیاد دارای طول یکسانی هستند. روش گیل و چرچ دقت 96 % را گزارش می‌کند.

سایر روش‌های استخراج جملات هم‌تراز به‌نوعی از روش‌های اشاره‌شده در بالا الگوبرداری می‌کنند. روش سیمارد و سایرین[20] (1993) بر این ایده استوار است که جملات هم ترجمه به شکل معمول بیشترین میزان اشتراک کلمات هم‌ریشه را دارند. در نظر آن‌ها کلماتی هم‌ریشه هستند که در جمله مبدأ و جمله مقصد قطعاً وجود خواهند داشت و به یک بیان ترجمه می‌شوند. به‌عنوان‌مثال کلمه «تهران» همواره به کلمه «Tehran» ترجمه می‌شود و برعکس. یا یک جمله سؤالی همواره به یک جمله سؤالی ترجمه خواهد شد. دقت الگوریتم آن‌ها 4/90% گزارش‌شده است. در پژوهشی دیگر پایپریدیس و همکاران[21] (2000) مهم‌ترین عامل در شناسایی جملات هم‌تراز را کلماتی می‌دانند که بار معنایی جملات را منتقل می‌کنند. در تعریف آن‌ها این کلمات شامل گروه‌های دستوری اسم، فعل، قید و صفت می‌شود و به‌احتمال بسیار زیاد تعداد این کلمات در یک جمله از زبان مبدأ و در ترجمه همین جمله در زبان مقصد دارای رابطه نزدیکی هستند. آن‌ها با استفاده از رگرسیون خطی چند متغیره (MLR) و با حدود 3000 جمله برای جفت زبانی انگلیسی-یونانی به دقت 99% دست یافتند. روش آن‌ها در سایر تحقیقات مورد ارزیابی و بازسازی علمی قرار گرفت و در مورد جفت زبانی پرتغالی-انگلیسی دقت 84/97 % گزارش شد (کاسلی و نانس[22]، 2003).

مونتانا و مارکو[23] (2005) با به‌کارگیری یک طبقه‌بندی آنتروپی بیشینه[24] روشی را برای شناسایی جملات هم‌ترازارائه می‌کنند. در روش آن‌ها در مقالات ورودی، با استفاده از مدل‌های زبانی و با استفاده از یک فرهنگ لغت جملات نماینده انتخاب می‌شوند. سپس با به‌کارگیری یک طبقه بند ME جملات نهایی استخراج می‌شوند. یکی از معیارهای آن‌ها استفاده از میزان شباهت کلمات بر اساس فرهنگ لغت است. روش آن‌ها برای جفت زبانی عربی-انگلیسی دقت 86% - 94% را گزارش می‌کند. فتاح و همکاران (2006) با ترکیب داده‌های زبانی مختلف و استفاده از یک طبقه‌بندی جدید جملات هم‌تراز نوع 1-1 را با دقت 1/98% در پیکره نهایی خود قراردادند. استفانسکو و همکاران[25] (2012) روشی متفاوت برای استخراج جملات هم‌تراز از پیکره‌های مقایسه‌ای ارائه می‌کنند. آن‌ها با استفاده از روشی مبتنی بر CLIR به جست‌وجوی جملات موازی اقدام می‌کنند. آن‌ها در طی چند مرحله و با روش‌های جست‌وجوی مختلف، فضای جست‌وجوی خود برای کشف جملات موازی را کوچک‌تر می‌کنند. سپس در فضای جست‌وجو با اندازه مناسب با استفاده از معیار «شباهت ترجمه» جملات موازی را انتخاب می‌کنند. معیار شباهت ترجمه، درواقع ترکیبی از تعداد کلمات مشترک، طول جملات، و داده‌های فرهنگ لغت است. میزان دقت در روش آن‌ها 80 % گزارش شده است.

محمدی و قاسم آقایی (2010) الگوریتمی را برای استخراج جملات هم‌تراز از دانشنامه آزاد ویکی‌پدیا ارائه می‌کنند. روش آن‌ها دقت 21% را گزارش می‌کند که آن‌ها دلیل پایین بودن دقت را املاهای متفاوت زبان فارسی مانند نویسه‌های عربی «ک» و «ی» عنوان می‌کنند. روش محمدی و قاسم آقایی مشابه روش گیل و چرچ (1993) است. جکیان طوسی (1391) با استفاده از بردار ویژگی که شامل برچسب‌های دستوری و طول جملات و داده‌های فرهنگ لغت می‌شود به ارزیابی الگوریتم‌های طبقه‌بندی مختلف می‌پردازد. شاخص F روش جکیان طوسی (1391) به شکل میانگین 35/90% گزارش‌شده است.

انصاری و همکاران (2014) با ارائه یک سیستم جدید بازیابی اطلاعات مبتنی بر ترجمه ماشینی، به استخراج جملات موازی از ویکی‌پدیا پرداخته‌اند. در روش پیشنهادی آن‌ها ابتدا با استفاده از ابزار دیکودر موزز[26] جملات زبان مبدأ را به جملات زبان مقصد ترجمه می‌کنند، و سپس با سنجش میزان شباهت جملات ترجمه‌شده با جملات موجود در زبان مقصد و تعیین یک عنصر آستانه  (به‌عنوان‌مثال درصورتی‌که طول جمله بیشتر از حد مورد نظر باشد) جملات موازی را استخراج می‌کنند. دقت سیستم آن‌ها در بهترین حالات 94% (آستانه حساسیت 8/0 که تعداد زیادی از جملات هم‌ترجمه را نیز حذف می‌کند و تنها 73 جمله در خروجی ارائه میکند) و در پایین‌ترین حالت 12/49 % (آستانه حساسیت 1/0 با خروجی 289 جمله) گزارش شده است. یکی از مشکلات روش ارئه شده توسط انصاری و سایرین (2014) پیچیدگی پیاده‌سازی و راحتی کاربرد است. زاری و صدرالدینی (1392) در کنار استفاده از روش طبقه‌بندی آنتروپی بیشینه به معرفی چهار دسته از ویژگی‌ها برای جملات هم‌تراز پرداخته و در هر مرتبه الگوریتم هم‌ترازی را با استفاده از یکی از این ویژگی‌ها پیاده‌سازی می‌کنند. در بهترین حالت دقت الگوریتم آن‌ها 22/89 %گزارش شده است.

همان‌طور که مشاهده می‌شود، برخی از روش‌های استخراج خودکار جملات هم‌تراز یا در مورد زبان فارسی پیاده‌سازی نشده‌اند، یا از دقت بالایی برای زبان فارسی برخوردار نیستند؛ مانند روش محمدی و قاسم آقایی (2010) برای استخراج جملات هم‌تراز از دانشنامه ویکی‌پدیا که دقت 21% را گزارش می‌کند. در صورت گزارش دقت‌های بالا نیز این موارد صرفاً در محیط آزمایشگاهی پیاده‌سازی و ارزیابی‌شده‌اند، و تنها در شرایط خاص می‌توان به این دقت‌ها دست‌یافت و این گزارش‌ها مورد بازسازی علمی-پژوهشی و ارزیابی در شرایط جدید قرار نگرفته‌اند. برخی روش‌ها نیز دارای پیچیدگی‌های پردازشی بالا و مراحل رایانشی متعدد هستند. همچنین مواردی که از دقت قابل‌قبول برخوردار هستند و قابلیت پیاده‌سازی راحتی دارند به ارائه ابزار نهایی منجر نشده‌اند. در این مقاله به معرفی روشی با پیچیدگی زمانی خطی[27] و دقت قابل‌قبول می‌پردازیم که می‌توان از آن به‌راحتی در تولید ابزار کاربردی تولید پیکره‌های موازی استفاده نمود. همچنین با توجه به کارایی‌ها و قابلیت‌های ابزارها و روندهای پردازشی مورد استفاده در تولید ابزار نهایی، در طراحی ابزار ارائه‌شده در پژوهش حاضر، توجه کافی به ویژگی‌های خاص زبان فارسی مانند شناسایی نسبی با هم‌آیی‌ها، به کار بردن نویسه‌های عربی به‌جای نویسه‌های فارسی و سایر موارد شده است.

4. مبانی نظری

در ابتدا به ارائه تعریف صوری عمل هم‌ترازی جملات پرداخته می‌شود. اگر جملات زبان مبدأ  فرض شوند و ترجمه این جملات در زبان مقصد،  فرض شود، لیست S مجموعه جملات موازی می‌باشد به‌صورت: . هر جفت جمله  را می‌توان به‌صورت زیر تعریف کرد (کوئن[28]، 2009) :

 

(1)                         

 

فرض بر این است که جملات به ترتیب ترجمه یکدیگر هستند. یا به بیان ریاضی:

 

(2)                                                     

(3)                                                             

همچنین داریم:

(4)                                                                                         

 

نوع هم‌ترازی، با توجه به اینکه چه تعداد جمله در هم‌ترازی وجود دارند و چند جمله از زبان مبدأ به چند جمله در زبان مقصدترجمه ‌شده‌اند، می‌تواند به شکل زیر تعریف شود:

 

(5)

 

 

 

طبق تعریف در رابطه 5، نوع ترجمه 1-1 ترجمه‌ای است که در آن یک جمله از زبان مبدأ به یک جمله از زبان مقصد ترجمه می‌شود. در یک ترجمه 1-2 دو جمله از زبان مبدأ به یک جمله از زبان مقصد ترجمه می‌شود و الی‌آخر. در الگوریتم‌های هم‌ترازی، باید تمامی جملات پردازش شوند و هر جمله باید تنها یک‌بار در پیکره نهایی ذکر شود. به بیان کلی مجموعه جملات موازی S = {S1 , …. , Sn} مورد جست‌وجو است که رابطه 6 را ارضاء کند:

 

(6)

 

 

این تابع را می‌توان با به‌کارگیری روش‌های مختلفی پیاده‌سازی نمود. در مقاله حاضر تابع match بر اساس معیار شباهت جملات بر اساس اطلاعات نحوی آن‌ها شامل داده‌های تعداد اسامی، افعال، قیود و صفت‌ها در دو جمله انگلیسی و فارسی تعریف شده است که خروجی مدل هم‌ترازی می‌باشد.

 اساس نظری روش ارائه‌شده توسط پایپریدیس و همکاران (2000) برای استخراج جملات هم‌تراز بر این ایده نظری استوار است که هدف اصلی مترجم در هنگام ترجمه هر جمله‌ای حفظ و انتقال پیام است. بر همین اساس در نظر پایپریدیس و همکاران (2000)، طبقه کلمات باز که با برچسب‌های دستوری فعل، اسم، صفت و قید مشخص می‌شوند، بیشترین وزن و اهمیت را در انتقال مفهوم دارند. در همین راستا، بار معنایی[29] یک جمله را می‌توان مجموع تعداد تمامی کلماتی در آن جمله دانست که برچسب‌های دستوری اسم، فعل، صفت و قید به آن‌ها داده می‌شود. بنابراین می‌توان این فرض را مطرح کرد که رابطه «هم‌ترازی» بین دو جمله صحیح منطقی است (به این معنی که رابطه هم‌ترازی بین دو جمله وجود دارد یا یک جمله هم ترجمه جمله دیگر است)، اگر و فقط اگر بار معنایی جمله در زبان مقصد به شکل معنی‌داری نزدیک بار معنایی جمله‌ای از زبان مبدأ باشد. یا به بیانی دیگر، اگر و فقط اگر مجموع تعداد کلمات خانواده‌های اسم، فعل، قید و صفت در دو جمله نزدیک هم باشند (پایپریدیس و همکاران، 2000).

یکی از روش‌های پیاده‌سازی این دیدگاه استفاده از رگرسیون خطی چند متغیره[30]به‌منظور ساخت مدل هم‌ترازی است. این مدل را می‌توان با استفاده از داده‌های یک پیکره موازی که از قبل موجود است به دست آورد. برای پیاده‌سازی این روش،  مجموع برچسب‌های اسم، فعل، قید و صفت، در جمله زبان مقصد فرض می‌شود و  برابر تعداد برچسب‌های یک گروه دستوری خاص (به‌عنوان ‌مثال  برابر تعداد کلمات دارای برچسب دستوری فعل در جمله زبان مبدأ) در جمله زبان مبدأ فرض می‌شود. ارتباط خطی  و  را می‌توان با استفاده از رابطه 7 بیان نمود. که در این رابطه  مجموع تعداد تمامی کلماتی است که در جمله زبان مبدأ برچسب فعل دریافت کرده‌اند،  تعداد کلمات با برچسب اسم،  برچسب صفت و  تعداد کلماتی است که برچسب قید دریافت کرده‌اند. تخمین میزان وزن‌ها یا همان  ها و همچنین میزان خطا در هنگام آموزش مدل رخ می‌دهد (پایپریدیس و همکاران، 2000).

 

(7)

 

 

باید توجه داشت که هرچند روش پایپریدیس بسیار کارآمد است، اما در این پیاده‌سازی عملاً داده‌های مربوط به تعداد برچسب‌های مجزای اقسام دستوری در جمله زبان مقصد باهم جمع ریاضی شده و در   ذخیره ‌شده است و بردار ویژگی کوچک‌تر شده است و عملاً این داده‌های ارزشمند آموزشی حذف می‌شوند. بنابراین، می‌بایست از سایر روش‌های آموزش ماشینی مانند ماشین بردار پشتیبان[31] استفاده کرد که قابلیت استفاده از این داده‌ها را فراهم می‌کنند، که در پژوهش حاضر نیز به همین شکل عمل شده است.

آنچه باید در مورد الگوریتم‌های هم‌ترازی در نظر داشت این است که الگوریتم نهایی باید:

  • رامپذیر[32] باشد. راه‌حل ارائه‌شده برای کشف جملات موازی باید دارای پیچیدگی زمانی خطی باشد و پیچیدگی فضایی آن مدیریت پذیر باشد.
  • برای داده‌های فرامتنی مانند جدول‌ها، شکل‌ها، زیرنویس‌ها، و سایر مواردی که در متن ترجمه نمی‌شوند تمهیدات پردازشی لازم انجام شده باشد.
  • قابلیت گسترش، تغییر و اضافه کردن مدل‌ها و زبان‌های جدید را داشته باشد.
  • نیاز به ورودی‌های با پیش‌پردازش‌های فراوان نداشته باشد و از برون‌داد متن شلوغ، دارای نویسه‌های غیرمتعارف، نامنظم، غیرقابل‌خواندن توسط انسان و نیازمند به پس پردازش‌های فراوان خودداری کند (پایپریدیس و همکاران، 2000).

روش پیاده‌سازی شده در این مقاله دارای پیچیدگی خطی می‌باشد، ابزار نهایی تا حد امکان موارد فرامتنی را شناسایی و حذف می‌کند، به‌راحتی می‌توان مدل را برای سایر جفت‌های زبانی آموزش داد و ایجاد نمود، همچنین خروجی ابزار ایجادشده صرفاً جملات به‌صورت متن هستند و متن خروجی به‌راحتی توسط انسان و ماشین قابل‌خواندن است، و نیاز به پردازش‌های مجزا ندارد.

5. روش پیشنهادی

با توجه به آنچه گفته شد، روش ارائه‌شده در این مقاله به این صورت است که در ابتدا به‌منظور آموزش الگوریتم‌های طبقه‌بندی مانند ماشین بردار پشتیبان، یک پیکره موازی آموزشی که دارای استانداردهای مورد نظر است تهیه می‌شود. به بیان دیگر، ورودی اصلی الگوریتم آموزش، یک پیکره موازی طلایی در حوزه علوم انسانی دارای 1038 جفت جمله است، که در سطح جمله هم‌تراز شده‌اند، و تنها جملاتی که به صورت تحت اللفظی ترجمه شده‌اند در آن قرار گرفته‌اند. اطلاعات این اسناد و این پیکره آموزشی در جدول (2) ارائه‌شده ‌است. سپس بردارهای ویژگی که شامل تعداد برچسب‌های دستوری گروه‌های نحوی اسم، فعل، قید، و صفت برای هر جمله فارسی و انگلیسی و همچنین طول جملات هر دو جمله در دو زبان می‌باشد، برای هر جفت جمله این پیکره آموزشی ایجاد می‌شوند (مانند داده‌های شکل (1)). برچسب‌های دستوری به شکل کاملاً خودکار و با استفاده از ابزارهای برچسب‌گذاری دانشگاه فردوسی مشهد (FEP)، ابزار برچسب گذاری دانشگاه استنفورد (SPT)، و ابزار HunPos به اجزای سخن تخصیص داده می‌شوند. در مرحله بعد، با استفاده از این بردارهای ویژگی ایجادشده به آموزش و ارزیابی میزان موفقیت الگوریتم‌های طبقه‌بندی و یادگیری ماشینی مختلف پرداخته می‌شود. درنهایت با مقایسه میزان موفقیت الگوریتم‌های طبقه‌بندی مختلف در امر شناسایی جملات هم‌تراز، بهترین گزینه برای ایجاد مدل هم‌ترازی نهایی انتخاب می‌شود. این مدل در ابزار استخراج جملات هم‌ترازقرارگرفته و با استفاده از یک الگوریتم جست‌وجوی میزان شباهت جملات بر اساس داده‌های یک فرهنگ لغت دو زبانه فارسی-انگلیسی، دقت این مدل افزایش پیدا می‌کند.

دلیل عدم گنجاندن داده‌های فرهنگ لغت در مدل هم‌ترازی و بردار ویژگی‌هادر مرحله آموزش (به جای استفاده در گام فیلترینگ نهایی) این بوده است که درواقع هدف ِبکارگیری الگوریتم جست‌وجوی شباهت بر اساس داده‌های فرهنگ لغت، بیشتر استفاده از آن به‌عنوان یک پالایه در خروجی ابزار بوده است تا بتواند خروجی‌هایی که به دلیل ریاضیاتی بودن مدل، هم‌تراز در نظر گرفته می‌شوند را فیلتر کند. به‌عنوان‌مثال، اگر تنها میزان شباهت تعداد برچسب‌های دستوری (یک عنصر ریاضی و غیرزبانی) دو جمله «This is a pencil» و «این یک کتاب است» را در نظر بگیریم، مدل آماری، این دو جمله را به‌اشتباه هم‌تراز درنظر گرفته و در خروجی ارائه می‌کند. لذا با استفاده از سنجش میزان شباهت لغوی، این دو جمله در خروجی حذف شده و به‌عنوان جملات هم‌ترازارائه نمی‌شوند. استفاده از فرهنگ لغت به‌عنوان یک پالایه، به صورتی که در این پژوهش پیاده‌سازی و استفاده شده است، توجه به اطلاعات زبانی را بیشتر می‌کند و ابزار نهایی تنها به داده‌های آماری متکی نخواهد بود. هرچند استفاده از فرهنگ لغت به این شکل مشکلاتی مانند کلمات خارج از دامنه فرهنگ لغت[33] (کلماتی که در فرهنگ لغت وجود ندارند) یا عدم توانایی فرهنگ لغت در ترجمه عبارات یا ضرب‌المثل‌ها را به همراه دارد، اما به هر صورت همان‌طور که اشاره خواهد شد، استفاده از فرهنگ لغت دقت برنامه را افزایش می‌دهد.

در مرحله نخست، یک پیکره طلایی به شکل دستی و با استفاده از جملات مقالات ترجمه‌شده در زمینه‌های مختلف مانند زبانشناسی، ادبیات، حقوق، اقتصاد، روانشناسی، علوم اجتماعی و غیره تشکیل شد. در مرحله تولید پیکره، از انتخاب جملاتی که بیشتر به‌صورت مفهومی ترجمه‌شده بودند، خودداری شد. علت حذف جملات با ترجمه مفهومی به این دلیل است که جملاتی که به این شکل ترجمه می‌شوند، به دلیل حذف و اضافه‌های بسیار، تنها موجب ایجاد نویز در پیکره نهایی می‌شوند. جدول 1 نمونه‌ای از جملات این پیکره طلایی را نشان می‌دهد. در جدول 2 می‌توان مشخصات کلی این پیکره مانند تعداد جملات و کلمات موجود در این پیکره و توزیع برچسب‌های دستوری مختلف در این پیکره را مشاهده نمود.

 

جدول 1- جملات نمونه پیکره طلایی کوچک ایجادشده برای مدل‌سازی

جملات زبان انگلیسی

جملات زبان فارسی

A commonly cited management axiom is

یک از اصول متعارف مدیریت که به آن بسیار اشاره می‌شود این است.

What you measure is what you get

آنچه در پایان تحویل می‌گیرید همان چیزی است که اندازه‌گیری می‌کنید.

However, there is much evidence of their over-representation among disadvantaged groups of all kinds

اما، شواهد بسیاری گواه بر حضور بیشتر این افراد درگروهای آسیب‌پذیر جامعه است.

There have been few studies of children in care who are educationally successful

تحقیقات اندکی به بررسی کودکان تحت مراقبت که به موفقیت تحصیلی رسیده‌اند نیز وجود دارد.

These killings are often conducted in ways meant to ensure the secrecy of the killers' identities

این قتل‌ها اغلب طوری انجام می‌شوند که هویت قاتلان آن محرمانه بماند.

Obviously, the household cannot spend more than the extra dollar (without borrowing)

بدیهی است که آن خانوار نمی‌تواند بیشتر از یک دلار اضافی خرج کند (بدون استقراض).

 

جدول 2- آماره‌های پیکره طلایی ایجادشده به‌منظور آموزش الگوریتم‌های طبقه‌بندی

مشخصه

پیکره فارسی

پیکره انگلیسی

تعداد جملات

1038

1038

تعداد کلمات

22392

19207

میانگین طول جملات (به حرف)

۷۹/۸۶

۷۲/۹۴

تعداد برچسب‌های اسم (میانگین در جمله)

9074 (۷۴/۸)

5917 (۷/۵)

تعداد برچسب‌های فعل (میانگین در جمله)

2315 (۲۳/۲)

3046 (۹۳/۲)

تعداد برچسب‌های صفت (میانگین در جمله)

2121 (۰۴/۲)

1959 (۸۸/۱)

تعداد برچسب‌های قید (میانگین در جمله)

458 (۴۴/۰)

910 (۸۷/۰)

 

ازآنجایی‌که هدف این پژوهش ساخت بردار ویژگی بر اساس تعداد برچسب‌های دستوری جملات بود ابتدا  باید از بین ابزارهای برچسب‌زنی موجود برای زبان‌های فارسی و انگلیسی، آنهایی که از دقت کافی برخوردار بودند انتخاب می­شد که پس از بررسی‌های صورت گرفته ابزارهای HunPos با دقت 58/96 % برای زبان انگلیسی (هالاکسی[34]، 2007) و با دقت 9/96 % برای زبان فارسی (سراجی، 2011) و ابزار برچسب‌گذاری دستوری دانشگاه فردوسی با دقت 97% برای زبان فارسی و ابزار دانشگاه استنفوردبا دقت 28/97 % برای زبان انگلیسی (مننینگ، 2014) مدنظر قرار گرفتند؛ البته در مورد این ابزارها نیز می‌بایست در صورت نیاز متن پیکره برای آنهاپ ش‌پردازش و آماده‌سازی می‌شد. ابزارهای دانشگاه فردوسی و استنفورد نیاز به پردازش‌های خاصی نداشتند، اما ابزار HunPos نیازمند ورودی‌های خاص بود. به‌عنوان‌مثال جملات باید با یک خط فاصله از هم جدا می‌شدند و تمامی کلمات هر جمله به‌صورت «هر خط یک کلمه» تبدیل می‌شدند، یا هر کلمه از هر جمله می‌بایست در خط جداگانه‌ای قرار می‌گرفت.

بعد از آماده‌سازی متن پیکره برای ابزارهای برچسب‌گذاری، می‌بایست داده‌های پیکره به این ابزارها داده می‌شد و اطلاعات آن‌هابه‌منظور کاربرد در یادگیری ماشینی استخراج می‌شدند. شکل (1) نمونه‌ای از این داده‌ها را نشان می‌دهد که به‌صورت فایل متنی ذخیره شده است. در این شکل 5 ستون اول مربوط به داده‌های جملات زبان انگلیسی و داده‌های 5 ستون دوم مربوط به داده‌های به‌دست‌آمده از جملات زبان فارسی می‌باشد. این ستون‌ها به ترتیب برای هر دو زبان عبارت‌اند از تعداد برچسب‌های اسم، تعداد برچسب‌های فعل، تعداد برچسب‌های صفت، و تعداد برچسب‌های قید برای دو جمله. ستون پنجم در هر دو زبان طول جملات برحسب تعداد نویسه‌های جملات می‌باشد. ستون یازدهم ستون هدف است که در آن 2 به معنی هم‌ترازی و 1 به معنی عدم وجود هم‌ترازی است. تعداد داده‌های آموزش برای تمام الگوریتم‌ها 80 %کل داده‌ها و 1660 عدد است. تعداد داده‌های آزمون 416 عدد است.

 

 

شکل 1- داده‌های نهایی به‌دست‌آمده از پردازش جملات پیکره

بعد از ایجاد داده‌های آموزش، باید به ارزیابی الگوریتم‌های یادگیری و طبقه‌بندی مختلف روی داده‌ها پرداخت. در ابتدا یک ارزیابی کلی از الگوریتم‌های طبقه‌بندی روی داده‌های به‌دست‌آمده از ابزارهای دانشگاه استنفورد و فردوسی انجام شد که نتایج آن در جدول (3 ) ارائه‌شده است و همان‌طور که مشاهده می‌شود، الگوریتم ماشین بردار پشتیبان بالاترین میزان دقت را گزارش می‌کند. بعد از این ارزیابی اولیه، داده‌ها در 2 مرحله کلی مورد ارزیابی قرار گرفتند. در فاز اول الگوریتم‌های طبقه‌بندی ماشین بردار پشتیبان و جنگل تصادفی[35]روی‌داده‌های به‌دست‌آمده از ابزار HunPos و همچنین ابزارهای دانشگاه فردوسی و استنفورد بدون در نظر داشتن معیار طول مورد ارزیابی قرار گرفتند. سپس داده‌های مربوط به معیار طول نیز به بردارهای ویژگی اضافه شدند و الگوریتم‌ها دوباره مورد ارزیابی قرار گرفتند. که نتایج این بررسی ها در شکل‌های (2) و (3) به شکل جزئی‌تر ارائه شده است. جدول (3 ) میزان موفقیت الگوریتم‌های طبقه‌بندی مختلف روی داده‌هایی که با استفاده از ابزارهای دانشگاه فردوسی و استنفورد از روی پیکره به‌دست‌آمده است را نشان می‌دهد. اعداد این جدول با استفاده از الگوریتم‌های طبقه‌بندی که به شکل پیش‌فرض در بسته‌های نرم‌افزاری  متلب[36] موجود هستند به‌دست‌آمده‌اند. هدف، انجام یک ارزیابی اولیه بوده است.

 

جدول 3- میزان دقت الگوریتم‌های یادگیری طبقه‌بندی روی داده‌های ابزارهای دانشگاه فردوسی و استنفورد

دقت

نام الگوریتم

۹/۶۴%

Tree/Complex Tree

۹/۶۰%

Tree/Medium Tree

۱/۵۲%

Tree/Simple Tree

۳/۴۷%

Linear Discriminant

۹/۷۳%

Quadratic Discriminant

۲/۴۷%

Logistic Regression

۳/۴۸%

Linear SVM

۷/۷۴%

Quadratic SVM

۸/۷۱%

Cubic SVM

۷/۶۰%

Fine Gaussian SVM

۴/۷۰%

Medium Gaussian SVM

۶/۵۷%

Coarse Gaussian SVM

۰/۶۱%

Fine KNN

۴/۶۷%

Medium KNN

۶/۶۶%

Coarse KNN

۴/۶۹%

Cosine KNN

۵/۶۶%

Cubic KNN

۰/۶۶%

Weighted KNN

۶/۶۶%

Ensemble/Boosted Trees

۳/۶۶%

Ensemble/Bagged Trees

۲/۴۷%

Ensemble/Subspace Discriminant

۳/۵۴%

Ensemble/Subspace KNN

۸/۶۳%

Ensemble/RUSBoosted Trees

 

شکل (2) آماره‌های آموزش الگوریتم‌های طبقه‌بندی روی داده‌های آموزش بدون معیار طول را گزارش می‌کند. در این شکل مشخصه‌های MR, ECM, NECM, Specificity, Sensitivity, Accuracy, Precision, Recall, F-measure, Consistency, و Practical Accuracy به ترتیب عبارت‌اند از میزان طبقه‌بندی اشتباه، میزان هزینه طبقه‌بندی اشتباه، نرخ نرمال شده هزینه طبقه‌بندی اشتباه، نرخ تمایز، میزان حساسیت، صحت، دقت، فراخوانی مجدد، شاخص F ، معیار توازن، و دقت عملیاتی. در این شکل عبارت «FPT+SPT» منظور داده‌های بدست آمده از ابزارهای برچسب‌گذاری دستوری دانشگاه فردوسی برای زبان فارسی و ابزار برچسب‌گذاری دستوری دانشگاه استنفورد برای زبان انگلیسی است. همچنین عبارت‌های «RF» و «SVM» به ترتیب به معنی «الگوریتم جنگل تصادفی» و «ماشین بردار پشتیبان» هستند. شکل (3 ) آماره‌های آموزش الگوریتم‌های طبقه‌بندی روی داده‌های پیکره آموزشی با در نظر داشتن معیار طول است. توضیحات این شکل مانند توضیحات شکل (2) است.

 

   

شکل 2- مقایسه عملکرد الگوریتم‌های طبقه‌بندی روی داده‌های پیکره بدون در نظر داشتن معیار طول جملات

شکل 3- مقایسه عملکرد الگوریتم‌های طبقه‌بندی روی داده‌های پیکره با در نظر داشتن معیار طول جملات

 

در جدول فوق مخفف MR (Misclassification Rate) عبارت است از نرخ کلاس‌بندی اشتباه، ECM (Expect Cost of Misclassification) یا هزینه کلاس‌بندی اشتباه، و NECM (Normalized Expect Cost of Misclassification) عبارت است از نرمال‌شده هزینه کلاس‌بندی اشتباه. این آماره‌ها توسط ماژول‌های ارزیابی دقت مدل در نرم افزار متلب ارزیابی و ارایه می‌شوند. این آماره‌ها در ارزیابی کیفیت مدل و کارایی آن از اهمیت بالایی برخوردار هستند.

به لحاظ پژوهشی می‌بایست نتایج روش جکیان طوسی (1391) با نتایج ارایه شده در شکل‌های (2) و (3) در مورد پژوهش حاضر نیز مقایسه شوند اما از این جهت که روش حل مسئله جکیان طوسی (1391) و همچنین مدل سازی جکیان طوسی (1391) با روش ارایه شده در این پژوهش تفاوت‌های پایه‌ای و اساسی دارد از ارایه آماره‌های روش جکیان طوسی (1391) در این شکل ها خودداری می‌شود. چرا که متاسفانه اساساً در هیچ یک از مستندات ارایه شده توسط جکیان طوسی (1391) این آماره‌ها ارایه نمی‌شوند و از آنجایی که دستیابی به داده‌های جکیان طوسی (1391) فراهم نبود امکان بازسازی و گزارش این آماره‌ها فراهم نشد. اما می‌توان با مقایسه دقت و شاخص F این دو پژوهش و همچنین توجه به مدل سازی و روش برخورد با مسئله، تفاوت میان این روش ها را مشاهده نمود. همچنین پژوهش حاضر بیشتر به جنبه کاربردی بودن و ارایه محصول کاربردی برای جامعه زبانشناسی رایانشی زبان فارسی توجه داشته است در حالی که روش جکیان طوسی (1391) بیشتر جنبه آزمایشگاهی و آزمون ایده بوده است. جدول (6) می‌تواند این تفاوت ها را آشکار کند.

همان‌طور که نتایج نشان می‌دهد بهترین گزینه برای ایجاد مدل هم‌ترازی، الگوریتم ماشین بردار پشتیبان و با استفاده از داده‌های ابزارهای برچسب‌گذاری دانشگاه فردوسی و دانشگاه استنفورد و با در نظر داشتن معیار طول است. هرچند شاید داده‌های ابزار HunPos در مرحله آموزش میزان موفقیت 97% را نشان بدهد اما همان‌طور که مشاهده می‌شود موفقیت عملیاتی مدل‌های هم‌ترازی ایجادشده با استفاده از این داده‌ها بسیار پایین است و این مدل‌ها قدرت تمیز بالایی روی داده‌های آزمون ندارند و نمی‌توان از آن‌ها به شکل کاربردی استفاده کرد.

6. ساخت ابزار نهایی

در گام نهایی این پژوهش سعی شد تا با استفاده از مدل هم‌ترازی به‌دست‌آمده، یک ابزار کاربردی با در نظر داشتن معیارهای ایجاد پیکره موازی استاندارد و توجه به ویژگی‌های زبان فارسی به‌منظور استخراج جملات هم‌تراز و پیکره‌های موازی ایجاد شود. در این مرحله بعد از ساخت مدل‌های مختلف هم‌ترازی، و آزمودن آن‌ها به لحاظ عملیاتی بودن، بهترین مدل برای کاربرد در ابزار نهایی انتخاب شد. این ابزار تحت عنوان «چارچوب ایجاد پیکره موازی دانشگاه اصفهان» یا به‌اختصارIPCF[37] ارائه‌شده است. در ساخت این ابزار از زبان‌های برنامه‌نویسی متلب، VB.Net، و C# استفاده شده است. در حال حاضر مدل هم‌ترازی با دقت 77% در این ابزار قرار دارد. ذکر این نکته ضروری است که این دقت، دقت عملیاتی مدل هم‌ترازی است. به عبارتی، همان‌طور که نتایج آزمون‌ها نیز نشان می‌دهد، دقت مدل هم‌ترازی در شرایط آزمایشگاهی و در مرحله آموزش به 97% نیز می‌تواند برسد، اما ازآنجایی‌که هدف ایجاد مدلی با کاربرد عملیاتی بوده است، ارزیابی مدل روی داده‌های آزمون مختلف نیز انجام شده و دقت %77 حاصل شده است. به‌بیان‌دیگر، منظور از دقت عملیاتی این است که می‌توان از این مدل هم‌ترازی انتظار داشت که بتواند با دقت %77 در شرایط غیر آزمایشگاهی به استخراج جملات موازی از متون مقایسه‌ای بپردازد. همچنین امکان فیلتر کردن نتایج نهایی ابزار با استفاده از الگوریتم جست‌وجوی شباهت با استفاده از داده‌های فرهنگ لغت نیز در این برنامه وجود دارد که دقت ابزار و مدل هم‌ترازی را از %77 به بیش از %85 افزایش می‌دهد. شکل (4)  نمای کلی ابزار ایجادشده را نشان می‌دهد. همانطور که در شکل دیده می‌شود، ابزار توانسته جملات هم‌تراز را از یک متن مقایسه‌ای استخراج نماید.

    مقالات مورد استفاده که در این ابزار و در شکل (4) مشاهده میشوند. مقالات ترجمه شده دانشنامه ویکی‌پدیا هستند که در ابزار قرار گرفته اند و تنها جنبه مثال دارند. به این معنی که کاربر میتواند مقالات و جملات خود را به برنامه اضافه نماید. این مقالات به شکل کاملا تصادفی از دانشنامه ویکی‌پدیا انتخاب شده‌اند و تنها وجه مشترک بین مقالات این است که مقالات مربوط به حوزه علوم انسانی هستند. طول این مقالات برحسب تعداد جمله بین 1 تا 60 جمله متغیر است.

 

 

شکل4-  نمای کلی ابزار استخراج جملات موازی

7. الگوریتم فرهنگ لغت

همان‌طور که قبلاً اشاره شد هدف استفاده از فرهنگ لغت، حذف موارد ناخواسته‌ای است که به دلیل ماهیت آماری مدل هم‌ترازی به شکل ناخواسته هم‌تراز تشخیص داده می‌شوند. نحوه کار الگوریتم جست‌وجوی شباهت بر این اساس است که ابتدا 10 جمله از متن ورودی در هر دو زبان خوانده می‌شود (اگر جملات بیش از 10 مورد باشد در پنجره‌های بعدی پردازش می‌شوند). علت انتخاب پنجره‌های با اندازه 10 جمله این مسئله است که انتخاب پنجره‌های کوچک‌تر علاوه بر افزایش بار پردازشی، درصورتی‌که فاصله جملات هم ترجمه زیاد باشد، دقت ابزار را کاهش می‌دهد. با انتخاب پنجره‌های بزرگ‌تر از 10 جمله دقت کار ابزار به دلیل احتمال انتخاب نامزدهای هم‌ترازی بیشتر کاهش پیدا می‌کند. بعد از خواندن 10 جمله از ورودی، این جملات برچسب دهی دستوری می‌شوند، و پردازش‌های لازم روی آن‌ها صورت می‌گیرد. سپس به ازای هر جمله فارسی، تمامی 10 جمله انگلیسی به مدل هم‌ترازی داده می‌شوند و تمامی جملاتی که توسط مدل هم‌تراز جمله فارسی تشخیص داده می‌شوند استخراج می‌شوند. بعدازاین مرحله، تمامی این جملات منتخب توسط داده‌های فرهنگ لغت مورد ارزیابی قرار می‌گیرند. جمله‌ای که بیشترین میزان شباهت به لحاظ کلمات مشترک در فرهنگ لغت را داشته باشد به‌عنوان جمله هم ترجمه و هم‌تراز انتخاب می‌شود. این میزان بیشینه باید از حساسیت تعین شده توسط کاربر بیشتر باشد. این الگوریتم استاندارد «تنها یک جمله» را مدنظر قرار می‌دهد. به‌بیان‌دیگر این الگوریتم به این مسئله توجه دارد که یک جمله تنها می‌تواند به یک جمله ترجمه شود و نمی‌تواند چندین ترجمه داشته باشد. الگوریتم‌های سنجش میزان شباهت لغوی جملات که در این ابزار پیاده‌سازی شده‌اندالگوریتم‌هایSimple Matching Algorithm Jaccard, Modified Jaccard, و sorensen هستند. الگوریتم Modified Jaccard  از رابطه 8 استفاده می‌کند. سایر الگوریتم‌ها از رابطه‌های مرسوم و معیار استفاده می‌کنند.

(8)                                           

8. ارزیابی تأثیر استفاده از فرهنگ لغت

به جهت سنجش میزان تأثیر استفاده از الگوریتم جست‌وجوی میزان شباهت لغوی جملات، می‌توان با آزمودن برنامه روی داده‌های پیکره‌های مطمئن و طلایی از صحت کار برنامه مطلع شد. به همین دلیل تعداد 100 جفت جمله که از هم‌تراز بودن آن‌ها به شکل انسانی و دستی اطمینان حاصل شد از پیکره میزان استخراج شدند. سپس تعداد 100 جمله که نمی‌توانستند ترجمه یکدیگر باشند اما در پیکره میزان وجود داشتند نیز از پیکره میزان استخراج شدند.این جملات هم‌تراز و غیر هم‌تراز به شکل تصادفی باهم ترکیب شدند تا یک پیکره آزمون نهایی حاصل شود. بعد از اجرای برنامه روی داده‌های این پیکره آزمون نتایج جدول 4 حاصل شد که نشان‌دهنده میزان تأثیر استفاده از الگوریتم جست‌وجوی میزان شباهت لغوی جملات در بهبود دقت مدل هم‌ترازی است.

 

جدول 4- میزان عملکرد مدل هم‌ترازی و تأثیر استفاده از فرهنگ لغت در بهبود دقت نهایی ابزار

SVM2+Dictionary

SVM2

 

85.18%

52.38%

Precision

69%

77%

Recall

76.24%

62.34%

F-Measure

 

9. ارزیابی و مقایسه

هرچند مقایسه روش‌های مختلف همترازی، از آنجایی که از نظر اهداف و روش‌های پیاده سازی با یکدیگر تفاوت های بنیادین دارند به شکل کامل امکان پذیر نباشد اما در اینجا به منظور مقایسه، به بررسی یکی از کارهایی که از جهت روش با مقاله حاضر قرابت بسیاری دارد پرداخته می‌شود.

    روش جکیان طوسی (1391)، از آنجایی که تنها روشی است که از برچسب‌های دستوری در مورد جفت زبانی فارسی-انگلیسی به منظور شناسایی جملات همتراز استفاده کرده است، مطرح می‌شود. جکیان طوسی (1391) از الگوریتم‌های آموزش ماشینی بسیاری برای ساخت مدل استفاده می‌کند. به عنوان مثال جدول (5) نشان دهند میزان موفقیت الگوریتم سیستم MDT در مورد پیکره FEP6000 است که نسخه ویرایش شده پیکره TEP می‌باشد.

 

جدول 5- موفقیت یکی از پیاد‌ه‌سازی‌های جکیان طوسی (1391)

TEP10000

FEP6000

انواع بردار

ویژگی

1-1

1-2

2-1

W-AVG

1-1

1-2

2-1

W-AVG

0.89

0.40

0.63

0.7702

0.96

0.65

0.70

0.9035

LPT

0.89

0.42

0.63

0.7709

0.96

0.66

0.64

0.8999

L

0.89

0.41

0.63

0.7686

0.94

0.64

0.67

0.8834

LP

0.88

0.40

0.60

0.7622

0.96

0.55

0.71

0.9008

CLP

0.87

0.33

0.52

0.7403

0.95

0.54

0.59

0.8874

CLPT

0.86

0.23

0.39

0.7090

0.94

0.24

0.34

0.8538

T

 

در جدول فوق روش ساخت مدل‌های آموزش ماشینی بر اساس بردارهای ویژگی را نشان می‌دهد. حرف L نماینده استفاده از معیار شباهت طول، حرف P نشانه مدل مبتنی بر معیار شباهت برچسب های دستوری و حرف T نشانه مدل مبتنی بر میزان شباهت دو جمله از لحاظ ترجمه کلمه به کلمه میباشد. حال مدل‌های ترکیبی LPT به عنوان نمونه مدلی است که از هرسه معیار L و P و T استفاده کرده است. حرف C نشانه ایجاد مدل‌های ترکیبی وزنی معیارهای اشاره شده است. از آنجایی که مدل مورد استفاده در روش جکیان طوسی (1391) با مدل ایجاد شده در این پژوهش تفاو‌ت‌های بسیار اساسی و مهم دارد مقایسه و ارایه آماره‌های مربوط به نتایج به دست آمده در این پژوهش در این جدول معنی‌دار نخواهد بود چرا که روش‌های پیاده‌سازی و مدل‌سازی تفاوت جدی دارند.

    هرچند شاید در نگاه اول روش جکیان طوسی (1391) روش موفق‌تری نسبت به روش پژوهش حاضر به نظر برسد (شاخص F در بهترین حالت در مقاله حاضر 8/89% بوده است)، اما باید در نظر داشت که در روش این مقاله،تمام سعی بر این بوده که از ابزار های کاملاً خودکار در تمامی مراحل استفاده شود. به بیان دیگر جکیان طوسی (1391) برای ایجاد داده‌های آموزش، برچسب گذاری دستوری و اصلاحات نگارشی از روش‌های دستی استفاده کرده است، اما در پژوهش حاضر این مراحل به شکل خودکار انجام می‌شوند که منجر به تولید ابزاری خودکار و یکپارچه شده است که نیازی به پیش پردازش و ویرایش‌های خاص ندارد. جدول (6) به شکل کلی به مقایسه این روشها می‌پردازد.

 

جدول 6- مقایسه روش جکیان طوسی (1391) با روش ارائه شده در پژوهش حاضر

ویژگی

روش طوسی (1391)

روش پژوهش حاضر

خودکار بودن

نیمه‌خودکار

خودکار

ارائه ابزار کاربردی

ندارد

دارد

راحتی کار با ابزار

-

دارد

شاخص Fگزارش‌شده

35/90%

24/76%

مشخصه دقت

آزمایشگاهی

عملیاتی-کاربردی

پیکره خروجی ابزار

ندارد

دارد

ویژگی ورودی ابزار

متن باید در سطح پاراگراف هم‌تراز شود

نیازی به ویرایش خاص ندارد. فیلترهای در نظر گرفته شده به شکل خودکار متن را ویرایش می‌کنند.

حوزه خاص

ندارد

دارد (در ویرایش فعلی ابزار، تنها علوم انسانی)

قابلیت تشخیص جملات ترجمه‌شده به شکل محاوره‌ای

ندارد

ندارد

استفاده از دیکشنری

الگوریتم Sorensen

Sorensen

Modified Jaccard

Jaccard

SMP

قابلیت بسط برای سایر زبان‌ها

دارد

دارد

تشخیص انواع هم‌ترازی

1-1

1-2

2-1

2-2

1-1

2-1

1-2

2-2

 

10. خلاصه و نتیجه‌گیری

در این مقاله به پیاده‌سازی و بررسی یک روش کاربردی به‌منظور استخراج پیکره‌های موازی از متون ترجمه‌شده و مقایسه‌ای پرداخته شد. اساس کار مدل هم‌ترازی در این روش شباهت دستوری و نحوی جملات در دو زبان است و درصورتی‌که بتوان ابزارهای برچسب‌گذاری برای زبان‌های دیگر ایجاد نمود می‌توان این ابزار و روش را به سایر جفت‌های زبانی به‌غیراز فارسی و انگلیسی نیز گسترش داد. برای پیاده‌سازی و ارزیابی این روش ابتدا یک پیکره طلایی کوچک حاوی 1038 جفت جمله هم‌تراز ایجاد شد. سپس با برچسب‌گذاری دستوری جملات این پیکره با استفاده از ابزارهای HunPos و ابزارهای برچسب‌گذاری دانشگاه فردوسی و دانشگاه استنفورد داده‌های آموزش ایجاد شد. که 1660 عدد از این داده‌هابه‌منظور آموزش الگوریتم‌های طبقه‌بندی و 416 عدد به‌منظور آزمون موفقیت این الگوریتم‌ها اختصاص داده شدند. بعد از ارزیابی‌های مختلف  بهترین مدل هم‌ترازی مدل ماشین بردار پشتیبان روی داده‌های ابزارهای برچسب‌گذاری دانشگاه فردوسی و دانشگاه استنفورد با موفقیت 77% تشخیص داده شد. البته سایر مدل‌ها میزان موفقیت 97% در حین آموزش را نیز گزارش می‌کردند که البته دقت عملیاتی این مدل‌ها پایین تشخیص داده شد. در پایان با استفاده از بهترین مدل و همچنین با طراحی یک الگوریتم سنجش میزان شباهت لغوی جملات، دقت ابزار هم‌ترازی به 85% افزایش یافت.

یکی از چالش‌های پیش روی پژوهش حاضر وجود کلمات خارج از دامنه فرهنگ لغت است. به این معنی که کلماتی که در فرهنگ لغت وجود نداشته باشند اما در جملات ورودی کاربر موجود باشند میزان شباهت لغوی جملات را پایین آورده و در کار الگوریتم سنجش شباهت لغوی ایجاد اشکال می‌کنند. همچنین به شکل کلی برچسب‌گذاری دستوری باهم‌آیی‌ها و عبارت یکی از چالش‌های ابزارهای برچسب‌گذاری محسوب می‌شود. به‌عنوان ‌مثال هیچ‌وقت نمی‌توان با ترجمه کلمه به کلمه عبارت انگلیسی «kick the bucket» به عبارتی دست‌یافت که بیشترین میزان اشتراک برچسب‌های دستوری با عبارت اصلی را داشته باشد. به همین جهت ایجاد ابزارهای برچسب‌گذاری که بتوانند باهم‌آیی‌ها را تشخیص دهند و همچنین ارائه الگوریتم‌هایی برای مرتفع کردن مشکلات کلمات خارج از دامنه فرهنگ لغت از کارهایی است که برای آینده پژوهشی پیشنهاد می‌شود.



[1] Parallel corpus

[2]D. Jurafsky & J. H.Martin

[3]R. Mitkov

[4]translation memory systems

[5]Cross Language Information Retrieval

[6]J. Cheon & K. O. Youngjoong

[7]A. McEnery & R. Xiao

[8]noise

[9] W.A. Gale & K.W. Church

[10] P.Georgiou et al.

[11] S.A. Rauf & H. Schwenk

[12] R. Barzilay & N. Elhadad

[13] Z. Rahimi et al.

[14] M. FattanehJabbari & S. M. Ziabary

[15] Wikipedia

[16] bootstrapping

[17] expectation maximization

[18] C. D. Manning & H. Schütze

[19] characters

[20] M. Simard et al.

[21] S. Piperidis et al.

[22] H. M. Caseli and M. G.V. Nunes

[23] D. S. Munteanu & Marcu

[24] maximum entropy classifier

[25] D. Ștefănescu et al.

[26] Moses Decoder

[27] linear time complexity

[28]P.Koehn

[29]semantic load

[30]multiple linear regression

[31]support vector machine

[32]tractable

[33]out of vocabulary

[34] P. Halácsy

[35]Random Forest

[36]Matlab

[37]Isfahan University Parallel Corpus Framework

زاری، علیمه؛ صدرالدینی، محمد (1392). شناسایی جملات هم ترجمه با استفاده از طبقه بند آنتروپی بیشینه، دوازدهمین کنفرانس ملی سیستم‌های هوشمند، انجمن سیستم‌های هوشمند ایران. (صص 716-721)
جکیان طوسی، سید احمد (1391). ارائه رهیافتی جدید برای تولید پیکره موازی انگلیسی-فارسی، پایان‌نامه دوره کارشناسی ارشد، دانشکده مهندسی دانشگاه فردوسی
Ansari, E., Sadreddini, M. H., Tabebordbar, A., & Wallace, R. (2014). Extracting Persian-English parallel sentences from document level aligned comparable corpus using bi-directional translation. Advances in Computer Science: an International Journal, 3, 59-65.
Barzilay, R., & Elhadad, N. (2003). Sentence alignment for monolingual comparable corpora. Proceedings of the 2003 conference on Empirical methods in natural language processing, 25-32. Stroudsburg: Association for Computational Linguistics.
Brown, K. (2005). Encyclopedia of Language and Linguistics, 14-Volume Set. Elsevier Science.
Caseli, H. M. and Nunes, M. G. V. (2003). Evaluation of sentence alignment methods on portuguese-english parallel texts. Scientia, 14, 1-14.
Chen, S. F. (1993). Aligning sentences in bilingual corpora using lexical information. Proceedings of the 31st annual meeting on Association for Computational Linguistics, 9-16. Stroudsburg: Association for Computational Linguistics.
Cheon, J., & Youngjoong, K. O. (2017). Automatically Extracting Parallel Sentences from Wikipedia Using Sequential Matching of Language Resources. IEICE Transactions on Information and Systems .100 (2),405-408.
Fattah M.A., Ren F., Kuroiwa S. (2006) Text-Based English-Arabic Sentence Alignment. In DS. Huang, K.  Li & G.W. Irwin (eds.) Computational Intelligence. ICIC 2006. Lecture Notes in Computer Science, vol 4114. 748-753. Berlin, Heidelberg: Springer.
Gale, W. A., & Church, K. W. (1993). A program for aligning sentences in bilingual corpora. Computational linguistics, 19, 75-102.
Georgiou, P., Sethy, P., Shin, J., & Narayanan, S. (2006). An English-Persian Automatic Speech Translator: Recent Developments in Domain Portability and User Modeling. Proceedings of the International Conference on Intelligent Systems and Computing, Cyprus: ISYC.
Halácsy, P., Kornai, A., & Oravecz, C. (2007). HunPos: an open source trigram tagger. Proceedings of the 45th annual meeting of the ACL on interactive poster and demonstration sessions,  209-212. Prague, Czech Republic: Association for Computational Linguistics (ACL). 
Han, X., Li, H., & Zhao, T. (2009). Train the machine with what it can learn: corpus selection for SMT. In P. FungP. Zweigenbaum  & R. Rapp (eds.)  Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: from Parallel to Non-parallel Corpora, 27-33. Singapore: Association for Computational Linguistics (ACL)
Jabbari, F. & Ziabary,  M. (2012). Developing an open-domain English-Farsi translation system using AFEC: Amirkabir bilingual Farsi-English corpus. The Fourth Workshop on Computational Approaches to Arabic Script-based Languages proceedings, 17-24. San Diego: AMTA
Jurafsky, D., & Martin, J. H. (2009). Speech and Language Processing (2Nd Edition). Upper Saddle River, NJ, USA: Prentice-Hall, Inc.
Koehn, P. (2009). Statistical Machine Translation. Cambridge University Press.
Manning, C. D. & Schütze, H. (1999). Foundations of statistical natural language processing. Cambridge MA: The MIT Press.
Manning, C., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S., & McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. In K. Bontcheva Z. Jingbo (eds.) Proceedings of 52nd Annual Meeting of the Association for computational linguistics: system demonstrations, 55-60. Baltimore, Maryland: Association for Computational Linguistics (ACL).
McEnery, A., & Xiao, R. (2007). Parallel and comparable corpora:  What are they up to? In G. James and G. Anderman (eds.) Incorporating Corpora: The Linguist and the Translator, 18-31.  Clevedon, UK: Multilingual Matters.
Mitkov, R. (ed.) (2005). The Oxford handbook of computational linguistics. Oxford University Press: New York.
Mohammadi, M., & GhasemAghaee, N. (2010). Building bilingual parallel corpora based on wikipedia. Second International Conference on Computer Engineering and Applications (ICCEA), 264-268. Bali Island, Indonesia: Institute of Electrical and Electronics Engineers (IEEE).
Munteanu, D. S., & Marcu, D. (2005). Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, 31, 477-504.
Pilevar M.T., Faili H., Pilevar A.H. (2011) TEP: Tehran English-Persian Parallel Corpus. In A. Gelbukh (ed.) Computational Linguistics and Intelligent Text Processing. CICLing 2011. Lecture Notes in Computer Science, vol 6609. pp. 68-79. Berlin, Heidelberg: Springer.
Piperidis, S., Papageorgiou, H., & Boutsis, S. (2000). From sentences to words and clauses.  In J. Véronis (ed.)Parallel text processing: Alignment and Use of Translation Corpora. 117-138. Dordrecht: Springer.
Rahimi, Z., Taghipour, K., Khadivi, S., & Afhami, N. (2012). Document and sentence alignment in comparable corpora using bipartite graph matching. 2012 Sixth International Symposium on Telecommunications (IST), 817-821. Piscataway, NJ: Institute of Electrical and Electronics Engineers (IEEE).
Rauf, S. A., & Schwenk, H. (2011). Parallel sentence generation from comparable corpora for improved SMT. Machine translation. 25, 341-375.
Seraji, M. (2011). A statistical part-of-speech tagger for Persian. In B. S. Pedersen, G. Nešpore and I. Skadiņa (eds.). Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA, 340-343. Riga, Latvia: Northern European Association for Language Technology (NEALT).
Simard, M., Foster, G. F., & Isabelle, P. (1993). Using cognates to align sentences in bilingual corpora. Proceedings of the 1993 conference of the Centre for Advanced Studies on Collaborative research: distributed computing-Volume 2, 1071-1082. Toronto: IBM Press
Ștefănescu, D., Ion, R., & Hunsicker, S. (2012). Hybrid parallel sentence mining from comparable corpora. Proceedings of the 16th Conference of the European Association for Machine Translation,  137-144.Trento: Fondazione Bruno Kessler (FBK).
Taghipour, K., Afhami, N., Khadivi, S., & Shiry, S. (2010). A discriminative approach to filter out noisy sentence pairs from bilingual corpora. 2010  5th International Symposium on Telecommunications(IST), 537-541. Institute of Electrical and Electronics Engineers (IEEE): Curran Associates, Inc.