متن خود را در کادر زیر وارد کنید یا فایل متنی بارگذاری کنید:
تعریف فراوانی کلمات و فراوانی نسبی
فراوانی کلمات (Word Frequency) تعداد دفعاتی است که یک واژه در یک متن ظاهر میشود، و فراوانی نسبی (Relative Frequency) نسبت این تعداد به کل واژههای متن است. این دو معیار پایهای در پردازش زبان طبیعی و تحلیل متون هستند و برای استخراج معنا، شناسایی موضوعات و مقایسه اسناد به کار میروند.
تعریف علمی مفاهیم
-
فراوانی کلمات (Word Frequency / Term Frequency - TF)
تعریف: تعداد دفعاتی که یک واژه خاص در یک متن یا سند ظاهر میشود.
نمونه: اگر واژه «دانشگاه» 15 بار در یک متن 1000 کلمهای تکرار شود، فراوانی آن برابر با 15 است.
ویژگی: واژههای پرکاربرد مثل «و»، «از»، «به» معمولاً فراوانی بالایی دارند اما اطلاعات معنایی کمی منتقل میکنند.
-
فراوانی نسبی کلمات (Relative Frequency)
تعریف: نسبت تعداد وقوع یک واژه به کل تعداد واژههای متن.
Relative Frequency(w) = Count(w) / Total Wordsنمونه: اگر واژه «دانشگاه» 15 بار در متن 1000 کلمهای ظاهر شود، فراوانی نسبی آن برابر با 15/1000 = 0.015 یا 1.5٪ است.
کاربردهای علمی و عملی
-
تحلیل محتوا و موضوعیابی
هدف: شناسایی واژههای پرتکرار برای تعیین موضوع اصلی متن.
مثال: در مقالات علمی، واژههای پرتکرار میتوانند حوزه تحقیق را مشخص کنند.
-
جستجو و بازیابی اطلاعات (Information Retrieval)
روش: موتورهای جستجو از TF-IDF (ترکیب فراوانی کلمات و فراوانی معکوس سند) برای رتبهبندی نتایج استفاده میکنند.
نکته: واژههایی که در یک سند زیاد ولی در کل مجموعه اسناد کم ظاهر میشوند، اهمیت بیشتری دارند.
-
تحلیل سبک و نویسندگی
کاربرد: بررسی فراوانی نسبی واژهها برای شناسایی سبک نویسندگان.
مثال: نویسندهای ممکن است به طور نسبی بیشتر از واژههای «اما» یا «زیرا» استفاده کند.
-
پردازش زبان طبیعی (NLP)
مدلهای زبانی: فراوانی نسبی به عنوان ویژگی ورودی برای الگوریتمهای یادگیری ماشین.
تحلیل احساسات: واژههای پرتکرار مثبت یا منفی میتوانند جهتگیری متن را نشان دهند.
-
قانون زیف (Zipf’s Law)
الگو: توزیع فراوانی کلمات در زبانها معمولاً از قانون زیف پیروی میکند: فراوانی یک واژه تقریباً معکوس رتبه آن در جدول فراوانی است.
مثال: واژههای پرکاربرد مثل «the» در انگلیسی یا «و» در فارسی همیشه در صدر هستند.
جدول مقایسهای معیارها
| معیار | تعریف | فرمول | کاربرد اصلی |
|---|---|---|---|
| فراوانی کلمات (TF) | تعداد وقوع یک واژه در متن | Count(w) |
شمارش خام برای تحلیل موضوع |
| فراوانی نسبی | نسبت وقوع واژه به کل واژهها | Count(w) / TotalWords |
مقایسه بین متون با طول متفاوت |
| TF-IDF | وزندهی به واژه بر اساس اهمیت در مجموعه اسناد | TF × IDF |
جستجو، رتبهبندی و استخراج معنا |
جمعبندی
- فراوانی کلمات: نشاندهنده تعداد خام تکرار یک واژه است.
- فراوانی نسبی: این تعداد را نسبت به کل متن محاسبه میکند و امکان مقایسه بین متون مختلف را فراهم میسازد.
- کاربرد گسترده: تحلیل متن، جستجو، مدلهای زبانی، سبکشناسی؛ پایه بسیاری از الگوریتمهای پیشرفته مثل TF-IDF و مدلهای یادگیری عمیق.