شمارنده‌ی فراوانی واژگان متون فارسی

شمارنده‌ی برخط فراوانی کلمات در متون فارسی

ایست‌واژگان

متن خود را در کادر زیر وارد کنید یا فایل متنی بارگذاری کنید:

تعریف فراوانی کلمات و فراوانی نسبی

فراوانی کلمات (Word Frequency) تعداد دفعاتی است که یک واژه در یک متن ظاهر می‌شود، و فراوانی نسبی (Relative Frequency) نسبت این تعداد به کل واژه‌های متن است. این دو معیار پایه‌ای در پردازش زبان طبیعی و تحلیل متون هستند و برای استخراج معنا، شناسایی موضوعات و مقایسه اسناد به کار می‌روند.

تعریف علمی مفاهیم

فراوانی کلمات (Word Frequency / Term Frequency - TF)

تعریف: تعداد دفعاتی که یک واژه خاص در یک متن یا سند ظاهر می‌شود.

نمونه: اگر واژه «دانشگاه» 15 بار در یک متن 1000 کلمه‌ای تکرار شود، فراوانی آن برابر با 15 است.

ویژگی: واژه‌های پرکاربرد مثل «و»، «از»، «به» معمولاً فراوانی بالایی دارند اما اطلاعات معنایی کمی منتقل می‌کنند.
فراوانی نسبی کلمات (Relative Frequency)

تعریف: نسبت تعداد وقوع یک واژه به کل تعداد واژه‌های متن.

Relative Frequency(w) = Count(w) / Total Words

نمونه: اگر واژه «دانشگاه» 15 بار در متن 1000 کلمه‌ای ظاهر شود، فراوانی نسبی آن برابر با 15/1000 = 0.015 یا 1.5٪ است.

کاربردهای علمی و عملی

تحلیل محتوا و موضوع‌یابی

هدف: شناسایی واژه‌های پرتکرار برای تعیین موضوع اصلی متن.

مثال: در مقالات علمی، واژه‌های پرتکرار می‌توانند حوزه تحقیق را مشخص کنند.
جستجو و بازیابی اطلاعات (Information Retrieval)

روش: موتورهای جستجو از TF-IDF (ترکیب فراوانی کلمات و فراوانی معکوس سند) برای رتبه‌بندی نتایج استفاده می‌کنند.

نکته: واژه‌هایی که در یک سند زیاد ولی در کل مجموعه اسناد کم ظاهر می‌شوند، اهمیت بیشتری دارند.
تحلیل سبک و نویسندگی

کاربرد: بررسی فراوانی نسبی واژه‌ها برای شناسایی سبک نویسندگان.

مثال: نویسنده‌ای ممکن است به طور نسبی بیشتر از واژه‌های «اما» یا «زیرا» استفاده کند.
پردازش زبان طبیعی (NLP)

مدل‌های زبانی: فراوانی نسبی به عنوان ویژگی ورودی برای الگوریتم‌های یادگیری ماشین.

تحلیل احساسات: واژه‌های پرتکرار مثبت یا منفی می‌توانند جهت‌گیری متن را نشان دهند.
قانون زیف (Zipf’s Law)

الگو: توزیع فراوانی کلمات در زبان‌ها معمولاً از قانون زیف پیروی می‌کند: فراوانی یک واژه تقریباً معکوس رتبه آن در جدول فراوانی است.

مثال: واژه‌های پرکاربرد مثل «the» در انگلیسی یا «و» در فارسی همیشه در صدر هستند.

جدول مقایسه‌ای معیارها

معیار	تعریف	فرمول	کاربرد اصلی
فراوانی کلمات (TF)	تعداد وقوع یک واژه در متن	`Count(w)`	شمارش خام برای تحلیل موضوع
فراوانی نسبی	نسبت وقوع واژه به کل واژه‌ها	`Count(w) / TotalWords`	مقایسه بین متون با طول متفاوت
TF-IDF	وزن‌دهی به واژه بر اساس اهمیت در مجموعه اسناد	`TF × IDF`	جستجو، رتبه‌بندی و استخراج معنا

جمع‌بندی

فراوانی کلمات: نشان‌دهنده تعداد خام تکرار یک واژه است.
فراوانی نسبی: این تعداد را نسبت به کل متن محاسبه می‌کند و امکان مقایسه بین متون مختلف را فراهم می‌سازد.
کاربرد گسترده: تحلیل متن، جستجو، مدل‌های زبانی، سبک‌شناسی؛ پایه بسیاری از الگوریتم‌های پیشرفته مثل TF-IDF و مدل‌های یادگیری عمیق.

شمارنده‌ی فراوانی واژگان

تعریف فراوانی کلمات و فراوانی نسبی

تعریف علمی مفاهیم

فراوانی کلمات (Word Frequency / Term Frequency - TF)

فراوانی نسبی کلمات (Relative Frequency)

کاربردهای علمی و عملی

تحلیل محتوا و موضوع‌یابی

جستجو و بازیابی اطلاعات (Information Retrieval)

تحلیل سبک و نویسندگی

پردازش زبان طبیعی (NLP)

قانون زیف (Zipf’s Law)

جدول مقایسه‌ای معیارها

جمع‌بندی