استخراج خودکار معادل‎های واژگانی از پیکره‎های دو زبانه موازی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشیار گروه زبان شناسی دانشگاه پیام نور

2 کارشناس ارشد گروه کامپیوتر دانشگاه پیام نور

چکیده

 امروزه به مدد ظهور انواع فناوری‌های رایانه‌ای، پیکره‌های زبانی نقش بسیار مهمی در حل انواع مختلف مسائل زبانشناختی ایفا می‎کنند. پیکره‌های دو زبانه موازی در سطح جمله و در سطح واژه می‎توانند برای بازیابی واحدهای تک‌واژه‌ای و یا حتی چند واژه‎ای براحتی مورد‌ استفاده قرار‎گیرند که این امر کاربردهای مفیدی در حوزه‎های مختلف رایانه و زبان خواهد‎ داشت. هدف این مقاله به‌کارگیری یک پیکره موازی انگلیسی– فارسی از‎قبل طراحی‎شده در‎جهت ساخت یک مطابقه[1] (کشف اللغات) دو زبانۀ کارآمد با‎ استفاده از آمارۀ اطلاعات متقابل است. در اینجا از آماره اطلاعات متقابل استفاده می‎شود تا همترازی در سطح واژه بین جملات انگلیسی و فارسی پیکرۀ مورد ‎نظر صورت‎گیرد. یک پیکرۀ زبانی همتراز‌شده در سطح واژه مسلماً کاربردهای زیادی از جمله در تهیه نرم‎افزار حافظۀ ترجمه، مدیریت مجموعه اصطلاحات، بازیابی اطلاعات دوزبانه، سیستم ترجمه ماشینی مبتنی ‎بر‎آمار و مانند آن دارد. با استفاده از یک الگوریتم ابتکاری آزمایشی ترتیب‎ داده ‎شده و مقایسه‎ای بین برونداد همترازسازی خودکار با جملات همتراز‎شده توسط مترجم انسانی صورت‎گرفت. نتایج این آزمایش نشان‎ داد که برنامه مطابقه گزارش‌شده در این تحقیق می‌تواند صحتی معادل 75‎ درصد را به دست‌آورد. [1] concordance

کلیدواژه‌ها


عنوان مقاله [English]

Automatic extraction of lexical equivalences from bilingual parallel corpora

نویسندگان [English]

  • Tayebeh Mosavi Miangah 1
  • Mahshid Shakiba 2
1 Payame Noor University
2 Payame Noor University
چکیده [English]

Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for single-word as well as multi-word units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting English-Persian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrase-based translation memory software, terminology management, cross-language information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.

کلیدواژه‌ها [English]

  • Parallel Corpus
  • parallel concordance
  • phrase-based translation
  • English-Persian translation
  • Mutual Information
  • word-level alignment
  1. مقدمه

در سالهای اخیر ساخت و استفاده از انواع مختلف پیکره‌های زبانی، از جمله کاربردهای رایانه‌ای هستند که در اختیار پژوهشگران حوزه ترجمه ماشینی، آموزش و یادگیری زبان، مطالعات ترجمه، بازیافت اطلاعات دو زبانه، واژه‌نگاری و غیره قرار‎گرفته‎اند. تا قبل‎از توسعه فناوری اطلاعات و ارتباطات، پیکره‎ها و نرم‎افزارهای کشف‎اللغات بندرت در‎ دسترس پژوهشگران زبان قرارداشتند تا بتوانند در مورد زبان، محتوا، و یا امور مربوط به ترجمه اطلاعاتی را از درون آن‌ها استخراج نمایند. 

ولی امروزه با ظهور فناوری‎های رایانه‌ای و تولید حجم وسیع متون ترجمه، منابع پیکره‎ای قابل‎دسترس برای محققان اشتیاق زیادی را در آنان برای ساخت و بهره‎برداری از پیکره‎ها به وجود ‎آورده ‎است. پیکره‎های ترجمه یا پیکره‌های موازی در رشته زبانشناسی رایانه‌ای بویژه در سیستم‌های ترجمه ماشینی کاربردهای وسیعی دارند. در حقیقت، پیکره‌های موازی ابزار اصلی برای انتخاب ترجمه‌های ممکن واحدهای واژگانی و متعاقب آن یافتن محتمل‎ترین ترجمه‎ها در یک سیستم ترجمه ماشینی مبتنی‎ بر آمار هستند.

مطابقه نرم‎افزاری است برای مشاهده پیکره  که فهرستی از رخدادهای یک واژۀ خاص، قسمتی از یک واژه یا ترکیبی از چند واژه را در بافت نشان‎می‎دهد. به واحد جستار کلیدواژه گفته ‎می‌شود. رایج‎ترین شکل نمایش در یک  مطابقه نشان‌دادن تعدادی سطر است با  ساختار کلیدواژه در بافت[1] که در آن هر کلیدواژه با طول بافت معینی از هر دو ‎طرف در مرکز سطر نشان ‎داده ‎می‎شود. نمونه‎ای از یک  مطابقه دو زبانه انگلیسی– فارسی (موسوی میانگاه، 2009) در شکل (1) نشان‌ داده‌ شده‎است.    

 

 

شکل 1( رکوردهای تولیدشده توسط مطابقه موازی درسطح جمله برای جستار "حقوق بشر"

 

تمام پیکره‌های ماشین‎خوان[2] به محققان در محاسبه فراوانی رخداد واژه یا عبارت مورد ‎جستجو (جستار) کمک ‌می‎کنند تا با انتخاب واژه یا عبارت مورد نظر تمام رکوردها (سطور)  مطابقه که در آن جستار مورد نظر وجود دارد در صفحه نمایش ظاهر شود. بعلاوه، اکثر بسته‌های تحلیل پیکره شامل مطابقه نیز می‌باشند که محققان را در یافتن تمام رخدادهای جستارهای موردنظر با امکان مرتب‎کردن داده‎های نمایش ‎داده‎ شده در صفحه و نیز همراه با محدوده بافت متعلقه از سمت چپ و راست یاری‎ می‎نمایند (هیرویوکی و توشیکو، 1996). واژه‎های خاص، قسمتی از یک واژه، یا گروهی از واژه‌ها که توسط برنامه مطابقه نمایش‌ داده‌ می‎شوند همه از یک پیکرۀ متنی استخراج می‎شوند. بدیهی است که هرچه حجم پیکره بیشتر باشد، برونداد برنامه دقیق‎تر خواهد بود. درواقع، مطابقه‏های دوزبانه از جمله ابزاری هستند که کار سخت ترجمه را آسان‏تر می‎نمایند.

یک  مطابقه موازی از این جهت با یک  مطابقه یک‏زبانه متفاوت است که درمورد اول برنامه  مطابقه براساس مجموعه‏ای از متون یک‏زبانه ساخته ‎می‎شود مثل برنامه مایکروکانکورد (جونز، 1986) و ورد اسمیت (اسکات، 2000)، درحالی‌که درمورد دوم برنامه مطابقه براساس مجموعه‎ای از متون موازی دو یا چندزبانه ساخته‎ می‎شود. این بدان معناست که در  مطابقه‌های موازی کاربر می‌تواند جستار خود را به یک زبان نوشته و جملات متناظر برای آن جستار را نه تنها به همان زبان بلکه به زبان یا زبان‌های دیگر دریافت ‌نماید. دو نمونه از پرکاربردترین  مطابقه‌های موازی پاراکانکورد (بارلو، 2002) و مولتی‌کانکورد (جونز، 1998) هستند.  

از طرف دیگر،  مطابقه موازی در سطح واژه نوع خاصی از  مطابقه دوزبانه است که در آن جستجوی کاربر برای یک زنجیره در زبان مبدأ منتهی به یافتن جملات متناظر با آن جستار در هر دو زبان مبدأ و مقصد شده، درحالی‌که زنجیره جستار در جمله زبان مبدأ و  ترجمه آن در جمله مقصد پررنگ و کاملاً مشخص‎شده است. داشتن این توانایی برای  مطابقه‎ها مستلزم دستیابی به فنون پیشرفته همترازسازی[3] در سطح واژه است. البته در بسیاری از موارد هم شناسایی ترجمۀ دقیق جستار مورد نظر امکان پذیر نمی باشد. 

در سال‌های اخیر بسیاری از سیستم‌های ترجمۀ ماشینی با استفاده از همترازسازی در سطح واژه، پیکره‎های موازی که توسط مدل‌های آی‌بی‌ام (براون و همکاران، 1993) و بسته جیزاپلاس‎پلاس[4] (اوچ، 2000 و اوچ و نی، 2003) تولید شده طراحی شده‎اند. اما این پژو هش روشی نسبتاً ابتکاری و نوین برای استخراج تناظرها در سطح واژه از پیکره موازی همتراز‎شده در سطح جمله  و با استفاده از آماره اطلاعات متقابل[5] ارائه می‌نماید. در بخش‌های زیر پس از مرور تحقیقات انجام‎گرفته در این حوزه، پیکره دوزبانه‎ای که برای این پژوهش مورد‎استفاده قرارگرفته معرفی‎می‎شود و متعاقب آن روش تحقیق بکاررفته برای انجام آزمایشی در رابطه با ارزیابی کیفی این برنامه  مطابقه همراه با ارائه الگوریتم آن مورد بحث قرارخواهدگرفت. آزمایش و نتایج حاصل از آن در بخش 4 و 5 گزارش‎خواهندشد. این مقاله با ملاحظات جمع‌بندی و بحث در مورد کارهای آتی به‎ پایان ‎خواهد رسید.   

 

 

  1. مروری بر پژوهش­های پیشین

تاکنون تحقیقات زیادی در زمینه پیکره‎های موازی صورت‎گرفته‎است. تلاش تمام این تحقیقات به سمت استفاده از کاربردهای چنین پیکره‎هایی به منظور حل مسائل مختلف زبانشناسی رایانشی مانند ترجمه ماشینی مبتنی ‎بر آمار (براون و همکاران، 1993)، بازیابی اطلاعات دوزبانه (نظارات و  موسوی میانگاه، 1390)، یادگیری زبان (وو و همکاران، 2003)، ترجمۀ انسانی (موسوی میانگاه، 2006) و نظیر آن بوده است. برخی از محققان سعی‎کرده‎اند تا روش‎های جدیدی برای همترازسازی پیکره‌های دوزبانه در سطح جمله بیابند (سیمارد و پلامندن، 1998 و اوچ و نی، 2001 ). برخی دیگر از آنها به سمت استفاده از روش‎های آماری (گیل و چرچ، 1991؛ کاپیک، 1993؛ داگان و همکاران، 1993؛ اینو و ناگایتو، 1993 و فانگ، 1995) یا زبانی (یاماماتو و ساکاماتو، 1993؛ کومانو و هیراکاوا، 1994 و ایشیماتو و ناگااو، 1994) برای همترازسازی پیکره‎های دوزبانه در سطح واژه روی‎آورده‎اند. روش‎های آماری از فراوانی واژه‎ها استفاده‎ می‎کنند و میزان ارتباط بین واژه‎های متناظر در دوزبان موجود در پیکره موازی را محاسبه می‎نمایند. این در حالیست که روش‎های زبانی تناظرهای واژگانی در دو زبان را با استفاده از یک واژه‏نامه دوزبانه پیدا می‏کنند.   

ونگ لکسم یک برنامه مطابقه موازی انگلیسی _ چینی طراحی ‎نموده‎ است و کاربردهای آموزشی آن در زبان‎های انگلیسی و چینی را از طریق مثال‎هایی از آزمایش‎های آموزش و یادگیری نشان ‎داده ‎است، و بدین ترتیب روش یادگیری داده‎محور را پیاده‏سازی‏ نموده‏ است. درواقع، در پژوهش او، این ارزش آموزشی  مطابقه موازی است که مورد توجه ‎قرارگرفته و نه روش یافتن تناظرهای واژگانی در پیکره موازی (ونگ، 2001 ).   

همینطور یک سیستم  مطابقه انگلیسی-چینی مبتنی ‎بر شبکه بنام توتال‎ریکال[6] به منظور افزایش استفاده مجدد از ترجمه‎ها و نیز تشویق به استفاده از منابع موثق و طبیعی در نگارش زبان دوم توسط وو و همکارانش طراحی‎شده‎است. توتال‎ریکال پیشرفته‎تر از مطابقه‎های قبلی است چرا که در این سیستم کاربر نه تنها می‎تواند تمام سوابق مربوط به واحد واژگانی مورد جستجو را ببیند بلکه می‌تواند معادل‎های ترجمانی آن را به صورت برجسته مشاهده ‎نماید. این سیستم در حقیقت نوعی مطابقه موازی همترازشده در سطح واژه است که نسبت به مطابقه‎های قبلی کاربردهای بسیار بیشتری دارد (وو و همکاران، 2003). 

پاراکانکورد مطابقۀ موازی و چندزبانه‌ای است که چهار متن موازی از چهار زبان متفاوت، یا یک متن اصلی و سه ترجمۀ متفاوت از سه زبان دیگر را می‏پذیرد. این برنامه دربرگیرنده نوار ابزاری برای برجسته‌سازی ترجمه‎های کاندید شده و نیز یک بخش خودکار بنام هات ‎وردز[7] است که از اطلاعات بسامدی استفاده‌ می‎کند تا اطلاعاتی در مورد ترجمه‎های ممکن جستار موردنظر فراهم ‎نماید (بارلو، 2002).   

موزر و همکارانش یک سیستم همترازسازی در سطح واژه برای ترجمۀ ماشینی آماری ارائه‎دادند که بطور همزمان جملۀ متن مقصد را طوری مجدداً مرتب‎سازی می‏کرد که با ترتیب واژه‏ها در جمله متن مقصد متناظر خود منطبق باشد. ایده اصلی کار آن‌ها تولید یک الگوریتم یکنواخت[8] بین جملۀ مقصد و یک شبکه‏بندی تبدیلی بود که نشان‎دهندۀ مرتب‏سازی‎های مجدد متفاوت واژه‎ها در جملۀ مبدأ باشد. آن‌ها نشان‎ دادند که سیستم‌های ترجمه‎ای که با روش پیشنهادی آن‌ها کار می‎کنند بهتر و یا حداقل در همان حد سیستم‎هایی که با بستۀ نرم افزاری جیزاپلاس‎پلاس کار‎می‌کنند عمل می‎کنند (مازر و همکاران، 2006).   

 

  1. پیکرۀ موازی انگلیسی-فارسی

پیکرۀ موازی انگلیسی-فارسی در ابتدا به صورت بانک داده‎ای متنی متشکل از متون اصلی به زبان انگلیسی و ترجمه‎های آن‌ها به زبان فارسی و نیز متون اصلی به زبان فارسی و ترجمه‎های آن‌ها به زبان انگلیسی گردآوری‎ شد. اگرچه میزان دسترسی به متون دوزبانه که شامل زبان فارسی باشند به دلیل تراکم پایین متون فارسی در سراسر دنیا و وجودنداشتن چنین متونی در برخی گونه‎ها و زمینه‌های خاص بسیار پایین می‌باشد، ما موفق به تهیۀ بانک داده‌ای دوزبانۀ نسبتاً حجیمی متشکل از صدهزار جمله انگلیسی و فارسی شدیم. متون در این پیکره به انواع زیر طبقه‌بندی شده‌اند: مذهبی، ادبی، سیاسی، اقتصادی، علمی، شعر، اصطلاحات و ضرب‌المثلها، ورزشی، متفرقه، پزشکی، و فرهنگی. نوع متن با جستجوی هر جمله درکنار آن ظاهر می‌شود. پایگاه داده‌ای این پیکره به‌صورت  اکسس[9] و  اس کیو ال[10] موجود می‌باشد و مطابقه مبتنی ‌بر آن نیز به‌صورت تحت‌ ویندوز و تحت ‌وب تهیه‌شده‌ است. پیکرۀ تولیدشده پیکره‌ای درحال پیشرفت است، بدین معنا که پیکره‌ایست باز که برحسب نیاز و با گذشت زمان مطالبی به آن اضافه خواهد شد (موسوی میانگاه، 2009).

 

آماده‌سازی و همترازسازی پیکره

متون خامی که از منابع گوناگون استخراج می‌شوند برای ورود به پیکره باید پیش‌پردازش شوند. دانلودکردن، تبدیل فرمت و هنجارسازی (عادی‌سازی) متون از جمله مراحل بسیار وقت‌گیر در آماده‌سازی پیکره به شمار می‌رود. برخی از صفحات که نامربوط هستند و نیز تمام شکل‌ها، جداول و عکس‌ها قبل از اینکه وارد پیکره شوند باید حذف‌گردند. در برخی موارد که یک جمله یا قسمتی از آن ترجمه نشده باشد، قسمت‌های ترجمه نشده باید حذف شوند. بعد از بازبینی و تأیید، تمام متون به طور هماهنگ به فرمت ایکس ام ال[11] رمزگذاری می‌شوند تا پیکره بتواند مستقل از کاربرد بوده و از طریق اینترنت به راحتی قابل مبادله باشد.

به منظور استخراج اطلاعات از پیکرۀ موازی، لازم است متون دوزبانۀ این پیکره در مرحلۀ نخست در سطوح پاراگراف، جمله و واژه همتراز شوند. منظور از همتراز‌سازی ایجاد وابستگی بین قطعاتی از متن در یک زبان و ترجمه‌ها یا متون معادل آن‌ها در زبان دیگر است. همترازسازی در سطح پاراگراف کار نسبتاً ساده‌ای است، چون مرزهای پاراگرافی معمولاً مشخص هستند، درضمن اینکه این نوع همترازسازی برای استفاده‌های بعدی از پیکره‌های موازی در امر پژوهش خیلی هم مفید به نظر نمی‌رسند. همترازسازی در سطح واژه به معنای تعیین‌کردن جفت‌واژه‌های متناظر در دو زبان می باشد. این نوع همترازسازی کاری بسیار دشوار بوده و نیاز به الگوریتم های پیچیده‌ای دارد. بنابراین اکثر پیکره‌های موازی در سطح جمله همتراز می‌شوند. 

در پیکرۀ موازی انگلیسی- فارسی طراحی‌شده توسط نویسنده، همترازسازی در سطح جملات گرچه می‌توانست با روش‌های کاملاً خودکار یا نیمه‌خودکار انجام شود (رنسیک، 1998، 1999)، لیکن تماماً به طور دستی انجام شده است تا صحت همترازسازی به 100 درصد برسد. قصد ما این است که این پیکره در حل مسائلی مانند پردازش خودکار متن و ترجمۀ ماشینی آماری و ساختن نرم افزار حافظۀ ترجمه که در آن‌ها دقت بالا بسیار مهم می باشد مورداستفاده قرارگیرد.

پیکره‌ی موازی انگلیسی– فارسی فوق در انجمن منابع زبانی اروپا به ثبت رسیده و دستیابی به آن از طریق مراجعه به کاتالوگ این انجمن که آدرس آن در زیر آورده می‌شود امکان‌پذیر می‌باشد:

http://catalog.elra.info/product_info.php?products_id=1111

 

ساخت یک پیکره به‌خودی‌خود هدف محسوب نمی‌شود بلکه معمولاً به عنوان قسمتی از یک پروژه تحقیقاتی درنظرگرفته می‌شود. درواقع هنگامی که ساخت پیکره به پایان می‌رسد کار اصلی شروع می‌شود.

 

  1. الگوریتم همترازسازی در سطح واژه

پس از این‌که همترازسازی پیکره مورد نظر در سطح جمله صورت‌گرفت، مرحلۀ بعدی تشخیص تناظرهای واژگانی در جفت‌ جملات متناظر است. به‌عبارت دیگر، هدف اصلی در اینجا این است که مشخص شود کدام واژه در جمله انگلیسی با کدام واژه در جمله فارسی متناظر آن مطابقت دارد. این دو واژه معادل در جفت جملات متناظر برجسته یا پررنگ می‌شوند. 

از آنجاکه میان طول یک جستار و سرعت پاسخ‌دهی رابطۀ عکس برقرار است، یعنی هرچقدر یک جستار تعداد واژه‌های بیشتری را دربرگیرد احتمال تهی بودن نتیجه بیشتر است، در این روش عمدتاً یک واژه  به عنوان جستار درنظر گرفته شده است.  همچنین، از آنجایی که واحد اصلی جستار در امور مربوط به نمایه از قبیل بازیابی اطلاعات در بیشتر موارد اسم‌های مجزا هستند، تمام واژه‌های قاموسی[12] زبان فارسی باید با تمام واژه‌های محتوایی زبان انگلیسی مقایسه‌ شوند تا از محاسبات اضافی و اختلال ممانعت به‌عمل‌آید. تشخیص واژه‌های محتوایی از واژه‌های دستوری[13] ازطریق برچسب‌زن اجزای کلام که با استفاده از سیستم برچسب‌زن کلاز[14] در‌مورد واژه‌های انگلیسی اعمال می‌شود براحتی امکان‌پذیر است. درمورد زبان فارسی نیز از سیستم برچسب زن اجزای کلام فارسی‌تگ[15] استفاده می‌شود (موسوی میانگاه، 2015). از آنجا که واژه‌های دستوری در هر زبانی مقولات بسته‌ای را تشکیل می‌دهند با خارج‌کردن این مقولات از واژگان، بقیه واژه‌ها محتوایی درنظرگرفته شده‌اند. درمواردی که بین این دو گروه واژه‌های محتوایی و دستوری هم‌پوشانی وجود داشته نیز سیستم‌های برچسب زن مذکور که عمدتاً سیستم‌های مبتنی‌ بر قاعده هستند تاحد زیادی قادر به تشخیص آن‌ها بوده‌اند.

اکنون زمان آن رسیده تا مطابقه موازی در سطح جمله به شکل یک بسته نرم‌افزاری ساخته‌ شود تا کاربر قادر باشد به‌وسیله آن واژۀ خاصی را در زبان انگلیسی یا فارسی جستجوکرده و فهرستی از تمام جملات به زبان مورد‌جستجو شامل آن واژه خاص همراه با جملات متناظر به زبان دیگر را دریافت ‌نماید و این در حالی است که جستار موردنظر و  معادل آن به زبان دیگر به طور ‌برجسته نشان‌ داده‌شده است. به عبارت دیگر، جستجو می‌تواند بر‌اساس هرکدام از زبان‌های موجود در پیکره انجام شود.

اگر دو جملۀ انگلیسی و فارسی ترجمۀ یکدیگر باشند، انتظار می‌رود که یک واژۀ فرضی در جملۀ فارسی دارای یک ترجمۀ انگلیسی در جملۀ انگلیسی متناظر خود داشته ‌باشد. جدول (1) پیوندهای مناسب در دو جملۀ متناظر انگلیسی و فارسی را که توسط مترجم انسانی همتراز شده نشان می‌دهد.  

 

For true colonialism to exist two conditions are necessary.

  8         7             6        5       4                    3         2      1

برای وجود استعمار حقیقی دو شرط لازم است.

1       2       3        4     5    6     7    8  

 

جدول 1) همترازسازی در سطح واژه در یک نمونۀ ساده از جفت جملۀ انگلیسی و فارسی

Englishà Persian

1à1

2à4

3à3

4à2

5à5

6à6

7à8

8à7

 

 لازم به ذکر است که زبان فارسی زبانی هسته آغازین است که از راست به چپ نوشته می‌شود. در دو جملۀ همتراز انگلیسی–فارسی، یافتن ترجمه مناسب یک واژه فرضی فارسی در میان واژه‌های انگلیسی جمله معادل آن برای یک جستجوگر غیرانسانی تقریباً غیر‌ممکن است، چرا که ترتیب عناصر در جملات انگلیسی و فارسی با هم تطابق ندارد. از این‌رو، ما روشی نسبتاً بدیع برای یافتن مناسب‌ترین و محتمل‌ترین معادل هر واژه با استفاده از آماره اطلاعات متقابل ارائه داده‌ایم. اطلاعات متقابل اساساً برای محاسبۀ میزان همبستگی میان واژه‌ها با استفاده از آمار هم‌رخدادی واژه‌ها بکار برده می‌شود و به‌صورت فرمول شماره (1) قابل تعریف است (چرچ و هنکس، 1990):

(1)

 

 

در اینجا x و y واژه‌های فرضی در بافت هستند. احتمال‌های p(x) و p(y) با استفاده از شمارش تعداد رخدادهای x و y در پیکره یعنی f(x)  و f(y) محاسبه می‌شوند. N حجم پیکره را نشان می‌دهد.  با شمارش تعداد دفعاتی که x و y در بافت یکسانی ظاهر ‌می‌شوند (در اینجا منظور از بافت همان رکورد است) محاسبه می‌شود. از آنجا که الگوریتم پیاده‌سازی شده برای این برنامه جمله‌ها را شناسایی نموده و واژه‌های موجود در یک جمله که جستار به آن تعلق دارد را به عنوان بافت زبانی آن جستار در نظر می‌گیرد، در این تحقیق هر رکورد شامل یک جملۀ انگلیسی و معادل فارسی آن است.   

استفاده از مقادیر اطلاعات متقابل براساس این فرض است که هنگامی که دو واژۀ انگلیسی و فارسی در محدودۀ بافت معینی (که در اینجا یک رکورد است) با فراوانی بالایی هم‌رخداد می‌شوند، احتمال این که آن‌ها ترجمه یکدیگر باشند بیشتر می‌شود. درحقیقت، برای یافتن معادل فارسی هر واژۀ محتوایی در زبان انگلیسی این برنامه جملاتی را در پیکره جستجو می‌کند که در آن‌ها واژۀ انگلیسی مورد نظر وجود داشته ‌باشد. سپس برنامه مقدار اطلاعات متقابل آن واژۀ انگلیسی با تمام واژه‌های محتوایی زبان فارسی که در جملات فارسی متناظر وجود دارند را محاسبه می‌نماید. به‌عنوان مثال، جملۀ همتراز شده زیر را که در آن ترجمه واژه انگلیسی که زیر آن خط کشیده‌شده باید از جمله فارسی متناظر آن استخراج شود را درنظر بگیرید:

 

جدول 2) نمایش یک رکورد تولیدشده توسط پیکره برای جستار "campaign"

English sentence

Persian sentence

UN has launched a global campaign against the poverty.

 

سازمان ملل مبارزه جهانی علیه فقر را آغازکرده است.

 

 

در جدول )2( مقدار اطلاعات متقابل واژه campaign و تمام واژه‌های محتوایی فارسی در طرف راست محاسبه شده‌اند و جفت واژه‌هایی که همبستگی زیادتری با یکدیگر دارند بعنوان ترجمه‌های یکدیگر انتخاب می‌شوند و بدین ترتیب ترجمه‌هایی که احتمال درست‌ بودنشان کمتر است حذف می‌شوند. نتایج این محاسبات را می‌توان در جدول شمارۀ (3) مشاهده نمود. روش اجرای این برنامه برای واژه campaign  در محیط نرم‌افزاری در شکل 2 نمایش داده شده است. 

 

جدول 3) مقدار اطلاعات متقابل واژه "campaign" و 8 واژه در جمله فارسی متناظر

Word x

Word y

f(x)

f(y)

f(x, y)

MI

campaign

سازمان

32

1130

4

706/4

campaign

ملل

32

1604

7

915/4

campaign

مبارزه

32

195

11

4746/7

campaign

جهانی

32

310

2

428/4

campaign

علیه

32

159

4

49/5

campaign

فقر

32

173

2

89/5

campaign

آغاز

32

177

2

866/5

campaign

کرده است

32

4635

5

943/5

 

 

شکل 2)روش اجرای برنامه برای واژه campaign  در محیط نرم افزاری

 

از جدول شمارۀ (3) می‌توان دریافت که برای این جمله بیشترین مقدار اطلاعات متقابل به جفت "campaign"  و "مبارزه" با مقدار 4746/7 متعلق می‌باشد و مقدار اطلاعات متقابل دیگر جفت‌ واژه‌ها بسیار پایین‌تر از آن است. بدین ترتیب، این الگوریتم قادر خواهد بود مناسب‌ترین ترجمه یک واژه انگلیسی را در جمله فارسی متناظر آن برجسته نماید و با این کار یک  مطابقه مستقل از زبان کاملاً مبتنی ‌بر آمار تولید شده است. البته جستار می‌تواند هم به زبان انگلیسی و هم به زبان فارسی باشد. تعداد محاسبات موردنیاز برای یافتن معادل یک واژۀ خاص در یک جمله به یک زبان به تعداد واژه‌های محتوایی در جمله متناظر آن به زبان دیگر بستگی دارد.  

 

  1. نتایج آزمایش

به منظور ارزیابی میزان تأثیر این الگوریتم، آزمایشی بر روی پیکره موازی موجود ترتیب داده‌ شد. در این آزمایش تنها واژه‌های محتوایی درنظرگرفته شدند چراکه واژه‌های اصلی که توسط کاربران در تقریباً تمام  مطابقه‌ها موردجستجو قرار می‌گیرند همین نوع واژه‌ها هستند. هرچند واژه‌های دستوری نیز به انسجام متن کمک می‌کنند، اما همانطور که می‌دانیم در موتورهای جستجو و به‌طور کلی در بازیابی اطلاعات چنین واژه‌هایی قابل ملاحظه نیستند و اکثر قریب به اتفاق جستارها در زبا‌ن‌های مختلف عمدتاً عباراتی متشکل از واژه‌های محتوایی مانند اسم و صفت هستند.

پیکره آزمون استفاده‌شده برای ارزیابی عملکرد این آزمایش مبتنی بر الگوی پیشنهادی شامل مجموعه‌ای از 100 واژه انگلیسی در نقش جستار است که به‌عنوان درونداد به الگوریتم داده می‌شود و برونداد سیستم  مطابقه در سطح جمله است که در آن کاربر قادر است مجموعه‌ای از جفت‎‌جملات به انگلیسی و فارسی را همراه با جستارهای مورد نظر و ترجمه‌هایشان که برجسته نمایش داده می‌شوند را مشاهده نماید. با هر واژۀ انگلیسی در پیکرۀ آزمون فهرستی از ترجمه‌های ممکن ارائه می‌شود و انتخاب محتمل‌ترین آن‌ها هدف نهایی سیستم است.  

در سیستم‌های بازیابی اطلاعات، معیار دقت و بازخوانی و معیارهایی شبیه به آن‌ها به عنوان معیارهای اصلی ارزیابی به‌کار می‌روند: معیار دقت به حاصل تقسیم «تعداد مستندات بازیابی شده واقعاً با ربط» بر «تعداد کل مستندات بازیابی‌شده» گفته می‌شود. معیار بازخوانیبه حاصل تقسیم «تعداد مستندات بازیابی شده با مرتبط بر تعداد تعداد مستندات مرتبط موجود در مجموعۀ اطلاعاتی » گفته می‌شود. درواقع  دقت درصد متون بازیابی‌شدۀ مرتبط و فراخوانی درصد ارتباط متون بازیابی شده را نشان می‌دهند.‌

در این آزمایش عملکرد برنامه‌ای که سعی دارد واحدهای واژگانی زبان انگلیسی را با استفاده از پیکره ترجمه نماید براساس دونوع معیار ارزشیابی، یعنی دقت و فراخوانی، طبق فرمول‌های (2) و (3) موردارزیابی قرارگرفت.

 

(2)

 

(3)

 

 

دقت میزان دقیق بودن یا درستی را نشان می دهد، درحالی که فراخوانی میزان کامل بودن را نشان می‌دهد. از آنجایی که در این آزمایش پاسخ‌های تولیدشده (تعداد زنجیره‌های تولیدشده توسط برنامه) با کل پاسخ‌های موردانتظار (تعداد زنجیره‌ها در پیکرۀ آزمون) یکسان هستند، دقت و فراخوانی یکی بوده و عملکرد برنامه با صحت اندازه‌گیری می‌شود:    

 

 

نتایج به دست آمده از معادل‌یابی خودکار با همان مجموعه از واژه‌ها که از جفت‌ جملات انگلیسی و فارسی در پیکره به‌صورت دستی در سطح واژه همتراز شده بودند مقایسه شد. نتایج آزمایش نشان داد که برنامه  مطابقه ما صحتی معادل 75 درصد بدست آورده که بسیار امیدوار کننده است. طبیعی است در حالتی که این الگوریتم بر روی یک پیکره طبیعی از زبان انگلیسی که در آن انواع مختلف واژه‌ها (هم واژه‌های محتوایی و هم واژه‌های دستوری) یافت می‌شوند اعمال شود، صحت این روش مسلماً تا حد زیادی افزایش خواهدیافت. شکل (3) نمونه‌ای از یک مطابقه موازی در سطح جمله که شامل 5 جفت ‌جمله با جستار انگلیسی campaign، معادل‌های فارسی آن و مقدار اطلاعات متقابل آن‌ها (در ستون چهارم) است را نشان می‌دهد  

 

 

 

شکل 3) نمونه‌ای از یک مطابقه موازی در سطح جمله

 

  1.  نتیجه‌گیری و چشم‌انداز آینده

بی‌شک مطابقه‌های دوزبانه منابع ارزشمندی برای زبانشناسان، مترجمان و نیز کاربران رایانه در حوزۀ پردازش متن و بویژه بازیابی اطلاعات هستند. این  مطابقه‌ها از مجموعه حجیمی از جملات همترازشده در سطح جمله به‌عنوان پایگاه داده‌ای قابل‌جستجو استفاده می‌کنند. کاربر می‌تواند یک واحد زبانشناختی یا زنجیره‌ای از واحدها در یک زبان را جستجو کند و  مطابقه می تواند تمام جملات به آن زبان که در نها آن‌ها ذلاا آن‌ها واحد‌ (های) مورد جستجو ظاهر شده‌اند همراه با جملات متناظر آن‌ها به زبان دیگر را نمایش می‌دهد.

در این مقاله تلاش بر این بود تا روشی نسبتاً نوین برای همترازسازی خودکار مجموعه‌ای از جملات موازی با استفاده از رویکردی آماری بنام آمارۀ اطلاعات متقابل ارائه شود. برای این منظور یک پیکرۀ موازی انگلیسی– فارسی که به‌طور دستی در سطح جمله همترازسازی شده است مورد استفاده قرارگرفت. مقدار اطلاعات متقابل نشان‌دهندۀ درجه همبستگی معنایی بین واژه‌ها است.

همترازسازی در سطح واژه مطابقه‌های دوزبانه را غنی‌تر می‌سازد و کاربردهای گوناگونی از جمله ترجمۀ ماشینی آماری، بازیابی اطلاعات دوزبانه، یادگیری زبان، واژه‌نگاری رایانه‌ای و مانند آن دارد. روش ارائه‌شده در این تحقیق روشی مستقل از زبان است که صرفاً تکیه بر مقیاس‌های آماری دارد. از این‌رو، الگوریتم این روش می‌تواند برای هر جفت ‌زبان دیگری که پیکره موازی آن‌ها موجود باشد بکار رود.

هنوز هم اصلاحات زیاد دیگری به این سیستم اضافه شود تا به تولید بروندادهای بهتری منجر شود. یکی این‌که نویسندگان قصد دارند پایگاه داده‌ای پیکره موجود را با اطلاعات جدید بیشتری بطور مداوم بروز‌ رسانی نمایند بطوری که مطابقه موازی موجود که در سطح جمله قادر به معادل‌یابی است به مطابقه قدرتمندتری تبدیل شود. به‌علاوه، تفکیک حوزه‌های موضوعی نیز می‌تواند به بازدهی بیشتر و مؤثرتری منجر شود.    

قدردانی

این پژوهش بااستفاده از اعتبارات دانشگاه پیام نور در قالب طرح پژوهشی انجام شده است.

 



[1] Keyword in Context

[2] Machine readable corpora

[3] aligning

[4] GIZ/A++ Toolkit

[5] Mutual information

[6] TotalRecall

[7] hot words

[8] monotonic

[9] Access

[10] SQL

[11] XML (Extendible Mark-up Language)

[12] content words

[13] function words

[14] CLAWS POS tagger

[15] FarsiTag

نظارات، امین و موسوی میانگاه، طیبه (1390). طراحی و پیاده‌سازی یک سامانه بازیابی اطلاعات دوزبانه با استفاده از پیکره‌های زبانی. پردازش و مدیریت اطلاعات، ویژه نامه ذخیره، بازیابی و مدیریت اطلاعات: 212-197. 

Barlow, M. (2002). ParaConc: Concordance software for multilingual parallel corpora. In: Proceedings of the Third International Conference on Language Resources and Evaluation. Workshop on Language Resources in Translation Work and Research., Las Palmas, Spain, pp. 20-24.

Brown, P. F., Della Pietra, V. S. A.; Della Pietra, V. J.; and Mercer, R. L.  (1993). The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics 19 (2), 263–312.

Church, K. W. and Hanks, P. (1990). Word association norms, mutual information, and lexicography. Computational Linguistics 16 )1 (, 22-29.

Fung, P. (1995). A pattern matching method for finding noun and proper noun translations from noisy parallel corpora. Proc. of the 33rd Annual Meeting of the ACL, 236-243.

Gale, W. A. and K. W. Church, (1991). “Identifying word correspondences in parallel texts” Proceedings of the 4th DARPA Speech and Natural Language Workshop: 152-157, Pacific Grove, CA.

Dagan, I. Kenneth W. Ch, and William A. G. (1993). Robust bilingual word alignment for machine-aided translation. In: Proc. of the Workshop on Very Large Corpora: Academic and Industrial Perspectives.

Inoue, N. and Nogaito, I. (1993). Automatic construction of the Japanese-English dictionary from bilingual text. Technical Report of IEICE, NLC: 39-93.

lshimoto, H and Nagao, M. (1994). Automatic construction of a bilingual dictionary of technical terms from parallel texts. Technical Report of IPSJ, NL: 102-11.

Johns, T. (1986). Microconcord: A language-learner's research tool. System 14(2), 151-162.

Johns, T. (1998). Multiconcord: the lingua multilingual parallel concordancer for windows. Available on: http://web.bham.ac.uk/johnstf/l_text.htm. Accessed Feb 03

Kaji, H and Aizoni, T. (1996). Extracting word correspondences from bilingual corpora based on word co-occurrences information. The 16th International Conference on Computational Linguistics, pp. 23 – 28. Copenhagen, Denmark

Kumano, A. and Hirakawa, H. (1994). Building an MT dictionary from parallel texts based on linguistic and statistical information. Proc. of COLING'94: 76-81.

Kupiec, J. (1993). An algorithm for finding noun phrase correspondences in bilingual corpora. Proceedings of the 31st Annual Meeting of the ACL: 17-22, Columbus, Ohio.

Mauser, A., Matusov, E and Ney, H. (2006). Training a Statistical Machine Translation System without GIZA++. International Conference on Language Resources and Evaluation (LREC): 715-720, Genoa, Italy.

Mosavi Miangah, T. (2006). Applications of corpora in translation. Translation Studies 12, 43-56.

Mosavi Miangah, T. (2009). Constructing a large-scale English-Persian Parallel Corpus. META 54 (1), 181-188.

Mosavi Miangah (in Press). FarsiTag: A part of speech tagging system for Persian. Journal of Quantitative Linguistics.

Och, Franz J. (2000). Giza++: Training of statistical translation models. Available at: http://www-i6.informatik.rwthaachen.de/~och/software /GIZA++.html.

Och, F. J. and Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics 29(1), 1-19.

Och, F. and Ney, H. (2001). Improved Statistical Alignment Models, Proceedings of ACL 2001.

Rensik, P. (1998). “Parallel strands: A preliminary investigation into mining the web for bilingual text”. In Proceedings of the Third Conference of the Association for Machine Translation in the Americas, AMTA-98, in Lecture Notes in Artificial Intelligence, 1529: 28-31, Langhorne, PA, October,.

Rensik, P. (1999): “Mining the web for bilingual text”. Proc. of 37th Meeting of the ACL. Maryland: 527-534.

Scott, M. (2000). WordSmith Tools Version 3.0 [Computer software]. Oxford: Oxford University Press.

Simard, M. and Plamondon, P. (1998). Bilingual sentence alignment: balancing robustness and accuracy. Machine Translation 13, 59–80.

Wang L. (2001). Exploring parallel concordancing in English and Chinese. Language Learning & Technology 5(3), 174-184.

Wu, J. C.; Yeh, K.; Chuang, C.; Thomas C., Shei, W. C. and Chang, J. (2003). TotalRecall: A bilingual concordance for computer assisted translation and language learningAssociation for Computational Linguistics: 201-204.

Yamamoto, Y. and Sakamoto, M. (1993). Extraction of technical term bilingual dictionary from bilingual corpus. Technical Report of IPSJ, NL: 12-94. (in Japanese).