استخراج کلیدواژه
ماژول shekar.keyword_extraction ابزارهایی برای شناسایی و استخراج خودکار واژهها و عبارتهای کلیدی از متن فارسی فراهم میکند. این الگوریتمها به برجستهسازی مفاهیم اصلی اسناد کمک میکنند و در کارهایی مانند خلاصهسازی، مدلسازی موضوعی و بازیابی اطلاعات مفید هستند.
در حال حاضر، مدل پیشفرض استخراج کلیدواژه در Shekar، RAKE (Rapid Automatic Keyword Extraction) است.
from shekar import KeywordExtractor
extractor = KeywordExtractor(max_length=2, top_n=10)
input_text = (
"زبان فارسی یکی از زبانهای مهم منطقه و جهان است که تاریخچهای کهن دارد. "
"زبان فارسی با داشتن ادبیاتی غنی و شاعرانی برجسته، نقشی بیبدیل در گسترش فرهنگ ایرانی ایفا کرده است. "
"از دوران فردوسی و شاهنامه تا دوران معاصر، زبان فارسی همواره ابزار بیان اندیشه، احساس و هنر بوده است. "
)
keywords = extractor(input_text)
for kw in keywords:
print(kw)