مجموعه داده‌ی موازی فارسی محاوره‌ای-رسمی


برای دانلود «دادگان موازی فارسی محاوره‌ای-رسمی» به صورت طبقه‌بندی یا تجمیعی بر روی لینک‌های زیر کلیک کنید:

مجموعه‌ی دادگان دربرگیرنده‌ی 1698 جمله‌ی فارسی است که در آنها صورت کلمه‌های محاوره‌ای وجود دارد. تمامی این 1698 جمله‌ی محاوره‌ای به فارسی رسمی برگردانده شده‌اند. به عبارت دیگر، برای هر جمله‌ی محاوره‌ای نوعی ترجمه‌ی درون‌زبانی به فارسی رسمی معیار صورت گرفته است.

تلاش شده است که دادگان محاوره‌ای استخراجی نمونه‌هایی با سبک و سیاق گوناگون باشد. جمله‌های محاوره‌ای از 7 سخنرانی سیاسی و مذهبی (6 سخنرانی از رهبر انقلاب و 1 سخنرانی از پیکره‌ی بی‌جن‌خان)، 2 داستان کوتاه (از صادق هدایت و جلال آل‌احمد)، 1 رمان (از محمد گلابدره‌یی)، 1 نمایشنامه (از حسین پاکدل) و 1 شعر (ترجمه‌ای از پژوهشگر) برگزیده شده‌اند. برگردان جملات به فارسی رسمی توسط پژوهشگر صورت گرفته است.

گونه، سبک و سیاق منابع دادگان استخراجی به شرح زیر است:

سبک و سیاق دادگان

برای این که پی برد هر جمله‌ی استخراجی تا چه میزان محاوره‌ای است می‌توان با استفاده از بردار فراوانی کلمات فاصله‌ی کسینوسی هر جمله‌ی محاوره‌ای را با معادل رسمی آن سنجید. فاصله‌ی کسینوسی که عددی بین صفر تا یک است میزان شباهت هر جمله‌ی محاوره‌ای و برگردان رسمی آن را نشان می‌دهد. هر چه قدر که جمله‌ای محاوره‌ای‌تر باشد با معادل رسمی خود متفاوت‌تر است. به طور میانگین در کل مجموعه‌ی دادگان، فاصله‌ی کسینوسی هر جمله‌ی محاوره‌ای با معادل رسمی آن 0.531 است. برای این که پی برد هر جمله‌ی استخراجی تا چه میزان محاوره‌ای است می‌توان با استفاده از بردار فراوانی کلمات فاصله‌ی کسینوسی هر جمله‌ی محاوره‌ای را با معادل رسمی آن سنجید. فاصله‌ی کسینوسی که عددی بین صفر تا یک است میزان شباهت هر جمله‌ی محاوره‌ای و برگردان رسمی آن را نشان می‌دهد. هر چه قدر که جمله‌ای محاوره‌ای‌تر باشد با معادل رسمی خود متفاوت‌تر است. به طور میانگین در کل مجموعه‌ی دادگان، فاصله‌ی کسینوسی هر جمله‌ی محاوره‌ای با معادل رسمی آن 0.531 است. ویژگی‌های دادگان استخراجی به تفصیل در جدول زیر آمده است:

اطلاعات تفصیلی دادگان

اطلاعات موجود در این جدول نشان می‌دهد حدود 55 درصد از جمله‌های محاوره‌ای و حدود 39 درصد از واحدهای کلمات محاوره‌ای از رمان گلابدره‌یی (1353) استخراج شده‌اند. وجود بالاترین انحراف معیار فاصله‌ی کسینوسی در جمله‌های استخراجی از این اثر و برگردان آنها، تنوع جمله‌های محاوره‌ای در آن را اثبات می‌کند. پس از این منبع، بیشترین سهم در تهیه دادگان را جمله‌های محاوره‌ای استخراجی از شش سخنرانی رهبری بر عهده دارند. بر خلاف جمله‌های استخراجی از رمان گلابدره‌یی (1353)، این جمله‌ها به زبان رسمی فارسی بسیار نزدیک‌اند. حدود 23 درصد از جمله‌های محاوره‌ای و حدود 42 درصد از واحدهای کلمات محاوره‌ای از این سخنرانی‌ها استخراج شده‌اند. روی‌هم‌رفته 78 درصد جملات محاوره‌ای و 81 درصد از واحدهای کلمات محاوره‌ای از رمان فوق و سخنرانی‌های مذکور گرفته شده‌اند. به طور میانگین حدود 5 کلمه در هر جمله‌ی محاوره‌ای استخراجی از رمان فوق وجود دارد، در حالی که جمله‌های استخراجی از سخنرانی‌ها به طور میانگین دارای حدود 13 کلمه هستند. میانگین نسبت تعداد کلمات در برگردان رسمی به تعداد کلمات در جمله‌ی محاوره‌ای برای رمان 1.119 و برای سخنرانی‌ها 1.029 است. به عبارت دیگر، در برگردان رسمی جمله‌های استخراجی از رمان، تعداد کلمات 11.9 درصد بیشتر از اصل محاوره‌ای جملات است، اما برای برگردان رسمی جمله‌های گرفته شده از سخنرانی‌ها تعداد کلمات تنها 2.9 درصد بیشتر از اصل آنها است. میانگین شباهت فاصله‌ی کسینوسی برای رمان 0.448 با انحراف معیار 0.233 و برای سخنرانی‌ها 0.793 با انحراف معیار 0.160 است. بین دادگان استخراجی از رمان و سخنرانی‌ها موازنه برقرار است و موجب شده‌اند که در مجموعه‌ی دادگان هم جملات کاملاً محاوره‌ای و نیمه‌محاوره‌ای و هم جملات محاوره‌ای نزدیک به زبان رسمی و معیار به وفور یافت شوند.

ارجاع به دادگان:
رجب‌پور، محمد (1396). «تبدیل قاعده‌مند متن‌های محاوره‌ای به متن‌های رسمی در زبان فارسی»، پایان‌نامه کارشناسی ارشد، مرکز زبان‌ها و زبان‌شناسی، دانشگاه صنعتی شریف.
اطلاعات منبع دادگان در کتابخانه دانشگاه صنعتی شریف

منابع دادگان استخراج شده:
• آل احمد، جلال (1350). پنج داستان. تهران: انتشارات رواق، داستان کوتاه «گلدسته‌ها و فلک»، صص 9-24.
• بی‌جن‌خان، محمود (1383). نقش پیکره‌های زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار رایانه‌ای. مجله‌ی زبان‌شناسی. سال نوزدهم، شماره‌ی دوم، صص 48-67.
• پاکدل، حسین (1383). ورق‌پاره‌ی خوابگرد. نمایشنامه‌ی کوتاه دریافت شده در مرداد ماه 1396 از:
http://hosseinpakdel.com/piece/archives/short%20piece/000223.php
• خامنه‌ای، آیت‌الله‌العظمی سید علی (4 مهر 1385). بيانات در ديدار قاريان شركت كننده در بيست و سومين مسابقات بين المللى قرآن. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/2944
• خامنه‌ای، آیت‌الله‌العظمی سید علی (9 شهریور 1390). بيانات در ديدار مسئولان نظام و سفراى كشورهاى اسلامى‌. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/8533
• خامنه‌ای، آیت‌الله‌العظمی سید علی (3 اردیبهشت 1391). بيانات در جمع فرماندهان نيروى زمينى ارتش. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/9357
• خامنه‌ای، آیت‌الله‌العظمی سید علی (13 اردیبهشت 1391). بيانات در ديدار جمعی از معلمان سراسر كشور به مناسبت هفته‌ى » معلم‌. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/9411
• خامنه‌ای، آیت‌الله‌العظمی سید علی (15 اسفند 1391). بيانات پس از مراسم درختكارى‌. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/10421
• خامنه‌ای، آیت‌الله‌العظمی سید علی (16 شهریور 1393). بیانات در دیدار با مسئولان و دست‌اندرکاران حج‌. دریافت شده در آبان ماه 1396 از:
http://www.leader.ir/fa/speech/12225
• رجب‌پور، محمد (1390). ترجمه فارسی شعر «آنابل لی» اثر ادگار آلن پو. دریافت شده در تیر ماه 1396 از:
http://rajabpur.blogfa.com/post-42.aspx
• گلابدره‌یی، محمود (1353). پر کاه. تهران: انتشارات امیرکبیر، صص 5-248.
• هدایت، صادق (1309). زنده‌بگور. تهران: انتشارات جاویدان، چاپ جدید 1356، داستان کوتاه «آب زندگی»، صص 66-83.