مجموعهی دادگان دربرگیرندهی 1698 جملهی فارسی است که در آنها صورت کلمههای محاورهای وجود دارد. تمامی این 1698 جملهی محاورهای به فارسی رسمی برگردانده شدهاند. به عبارت دیگر، برای هر جملهی محاورهای نوعی ترجمهی درونزبانی به فارسی رسمی معیار صورت گرفته است.
تلاش شده است که دادگان محاورهای استخراجی نمونههایی با سبک و سیاق گوناگون باشد. جملههای محاورهای از 7 سخنرانی سیاسی و مذهبی (6 سخنرانی از رهبر انقلاب و 1 سخنرانی از پیکرهی بیجنخان)، 2 داستان کوتاه (از صادق هدایت و جلال آلاحمد)، 1 رمان (از محمد گلابدرهیی)، 1 نمایشنامه (از حسین پاکدل) و 1 شعر (ترجمهای از پژوهشگر) برگزیده شدهاند. برگردان جملات به فارسی رسمی توسط پژوهشگر صورت گرفته است.
گونه، سبک و سیاق منابع دادگان استخراجی به شرح زیر است:

برای این که پی برد هر جملهی استخراجی تا چه میزان محاورهای است میتوان با استفاده از بردار فراوانی کلمات فاصلهی کسینوسی هر جملهی محاورهای را با معادل رسمی آن سنجید. فاصلهی کسینوسی که عددی بین صفر تا یک است میزان شباهت هر جملهی محاورهای و برگردان رسمی آن را نشان میدهد. هر چه قدر که جملهای محاورهایتر باشد با معادل رسمی خود متفاوتتر است. به طور میانگین در کل مجموعهی دادگان، فاصلهی کسینوسی هر جملهی محاورهای با معادل رسمی آن 0.531 است. برای این که پی برد هر جملهی استخراجی تا چه میزان محاورهای است میتوان با استفاده از بردار فراوانی کلمات فاصلهی کسینوسی هر جملهی محاورهای را با معادل رسمی آن سنجید. فاصلهی کسینوسی که عددی بین صفر تا یک است میزان شباهت هر جملهی محاورهای و برگردان رسمی آن را نشان میدهد. هر چه قدر که جملهای محاورهایتر باشد با معادل رسمی خود متفاوتتر است. به طور میانگین در کل مجموعهی دادگان، فاصلهی کسینوسی هر جملهی محاورهای با معادل رسمی آن 0.531 است. ویژگیهای دادگان استخراجی به تفصیل در جدول زیر آمده است:

اطلاعات موجود در این جدول نشان میدهد حدود 55 درصد از جملههای محاورهای و حدود 39 درصد از واحدهای کلمات محاورهای از رمان گلابدرهیی (1353) استخراج شدهاند. وجود بالاترین انحراف معیار فاصلهی کسینوسی در جملههای استخراجی از این اثر و برگردان آنها، تنوع جملههای محاورهای در آن را اثبات میکند. پس از این منبع، بیشترین سهم در تهیه دادگان را جملههای محاورهای استخراجی از شش سخنرانی رهبری بر عهده دارند. بر خلاف جملههای استخراجی از رمان گلابدرهیی (1353)، این جملهها به زبان رسمی فارسی بسیار نزدیکاند. حدود 23 درصد از جملههای محاورهای و حدود 42 درصد از واحدهای کلمات محاورهای از این سخنرانیها استخراج شدهاند. رویهمرفته 78 درصد جملات محاورهای و 81 درصد از واحدهای کلمات محاورهای از رمان فوق و سخنرانیهای مذکور گرفته شدهاند. به طور میانگین حدود 5 کلمه در هر جملهی محاورهای استخراجی از رمان فوق وجود دارد، در حالی که جملههای استخراجی از سخنرانیها به طور میانگین دارای حدود 13 کلمه هستند. میانگین نسبت تعداد کلمات در برگردان رسمی به تعداد کلمات در جملهی محاورهای برای رمان 1.119 و برای سخنرانیها 1.029 است. به عبارت دیگر، در برگردان رسمی جملههای استخراجی از رمان، تعداد کلمات 11.9 درصد بیشتر از اصل محاورهای جملات است، اما برای برگردان رسمی جملههای گرفته شده از سخنرانیها تعداد کلمات تنها 2.9 درصد بیشتر از اصل آنها است. میانگین شباهت فاصلهی کسینوسی برای رمان 0.448 با انحراف معیار 0.233 و برای سخنرانیها 0.793 با انحراف معیار 0.160 است. بین دادگان استخراجی از رمان و سخنرانیها موازنه برقرار است و موجب شدهاند که در مجموعهی دادگان هم جملات کاملاً محاورهای و نیمهمحاورهای و هم جملات محاورهای نزدیک به زبان رسمی و معیار به وفور یافت شوند.
رجبپور، محمد (1396). «تبدیل قاعدهمند متنهای محاورهای به متنهای رسمی در زبان فارسی»، پایاننامه کارشناسی ارشد، مرکز زبانها و زبانشناسی، دانشگاه صنعتی شریف.
منابع دادگان استخراج شده:
• آل احمد، جلال (1350). پنج داستان. تهران: انتشارات رواق، داستان کوتاه «گلدستهها و فلک»، صص 9-24.
• بیجنخان، محمود (1383). نقش پیکرههای زبانی در نوشتن دستور زبان: معرفی یک نرمافزار رایانهای. مجلهی زبانشناسی. سال نوزدهم، شمارهی دوم، صص 48-67.
• پاکدل، حسین (1383). ورقپارهی خوابگرد. نمایشنامهی کوتاه دریافت شده در مرداد ماه 1396 از: • خامنهای، آیتاللهالعظمی سید علی (4 مهر 1385). بيانات در ديدار قاريان شركت كننده در بيست و سومين مسابقات بين المللى قرآن. دریافت شده در آبان ماه 1396 از: • خامنهای، آیتاللهالعظمی سید علی (9 شهریور 1390). بيانات در ديدار مسئولان نظام و سفراى كشورهاى اسلامى. دریافت شده در آبان ماه 1396 از:
• خامنهای، آیتاللهالعظمی سید علی (3 اردیبهشت 1391). بيانات در جمع فرماندهان نيروى زمينى ارتش. دریافت شده در آبان ماه 1396 از:
• خامنهای، آیتاللهالعظمی سید علی (13 اردیبهشت 1391). بيانات در ديدار جمعی از معلمان سراسر كشور به مناسبت هفتهى » معلم. دریافت شده در آبان ماه 1396 از: • خامنهای، آیتاللهالعظمی سید علی (15 اسفند 1391). بيانات پس از مراسم درختكارى. دریافت شده در آبان ماه 1396 از: • خامنهای، آیتاللهالعظمی سید علی (16 شهریور 1393). بیانات در دیدار با مسئولان و دستاندرکاران حج. دریافت شده در آبان ماه 1396 از: • رجبپور، محمد (1390). ترجمه فارسی شعر «آنابل لی» اثر ادگار آلن پو. دریافت شده در تیر ماه 1396 از:
• گلابدرهیی، محمود (1353). پر کاه. تهران: انتشارات امیرکبیر، صص 5-248.
• هدایت، صادق (1309). زندهبگور. تهران: انتشارات جاویدان، چاپ جدید 1356، داستان کوتاه «آب زندگی»، صص 66-83.