تعداد نشریات | 25 |
تعداد شمارهها | 932 |
تعداد مقالات | 7,653 |
تعداد مشاهده مقاله | 12,495,815 |
تعداد دریافت فایل اصل مقاله | 8,886,820 |
ساخت پیکره مقایسهای تخصصی «پارسا» | ||
زبان پژوهی | ||
مقاله 8، دوره 16، شماره 52، مهر 1403، صفحه 219-246 اصل مقاله (603.31 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22051/jlr.2023.44928.2348 | ||
نویسندگان | ||
الهام علایی ابوذر* 1؛ علی اصغر حجتپناه2 | ||
1استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک). تهران.ایران | ||
2پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران | ||
چکیده | ||
پیکره ها براساس زبان بهکاررفته در متنهای تشکیل دهندة آنها به پیکرههای تک زبانه، دوزبانه و چندزبانه گروهبندی میشوند. پیکرة مقایسه ای، پیکرهای است دوزبانه یا چندزبانه که شامل متنهایی است مشابه در حوزههای موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکرهها در پژوهشهای گوناگون همچون پژوهشهای زبانی، ترجمة ماشینی و سامانههای خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکرههای مقایسه ای مواجه بودهاند. در این مقاله، به معرفی مراحل ساخت یک پیکرة مقایسهای تخصصی به نام «پارسا» پرداخته شدهاست. این پیکره از چکیدههای فارسی و انگلیسی پایان نامه ها و رساله های ثبتشده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شدهاست و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متنهای بسیار تخصصی در حوزههای موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزهها است و ازاینجنبه، برای پردازشهای زبانی که نیازمند بهره گرفتن از متنهای تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، دادههای فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شدهاست. سپس، دادهها برچسبگذاری شدند (برچسب گذاری اجزای کلام) و برچسبهای متون فارسی کنترل شدند. دادههای انگلیسی نیز بهصورت ماشینی برچسبگذاری شدند. شمار واژههای محتوایی (فعل، اسم، صفت، قید) دادههای فارسی این پیکره 57653813 و شمار واژههای دستوری بههمراه اعداد و علائم سجاوندی 31350125 است و بن واژههای فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژههای محتوایی متون انگلیسی 45606686 و شمار واژههای دستوری بههمراه اعداد و علائم سجاوندی شامل 33662304 و بنواژههای انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکرۀ ساخته شده قابلیت بسیار بالایی برای دادهکاوی، پژوهشهای مربوط به ترجمه ماشینی و بهکارگیری در تمام پژوهشهایی که بر روی متون علمی انجام میشود را دارا است. | ||
کلیدواژهها | ||
پیکره تخصصی؛ پیکره مقایسه ای؛ هنجارسازی؛ واحدسازی؛ برچسب گذاری | ||
عنوان مقاله [English] | ||
Building a specialized comparable corpus: PARSA | ||
نویسندگان [English] | ||
Elham Alayiaboozar1؛ Aliasghar Hojjatpanah2 | ||
1Assistant Professor, Iranian Research Institute for Information Science and Technology (IranDoc). Tehran.Iran | ||
2Iranian Research Institute for Information Science and Technology (IranDoc); Tehran. Iran | ||
چکیده [English] | ||
Based on the language used in their constituent texts, corpora are categorized as monolingual, bilingual, or multilingual. A comparable corpus is a bilingual or multilingual corpus that includes similar texts in the same subject areas. In other words, a comparable corpus is a collection of documents in two different languages that cover similar topics. Comparable corpora can be composed of general texts, providing various possibilities for discourse analysis, pragmatics, analysis of text genres, and sociolinguistics. Examples of such corpora could include collections of encyclopedia entries, or literary texts from a certain period of time. However, the most common types of comparable corpora, which attract many audiences are those related to specialized fields and containing a high density of vocabulary and technical terms. Such a corpus is called a specialized comparable corpus. In this study, a specialized comparable corpus was built from the Persian and English abstracts of theses and dissertations registered in IranDoc. The corpus is named PARSA. | ||
کلیدواژهها [English] | ||
specialized corpus, comparable corpus, normalization, tokenization, tagging | ||
سایر فایل های مرتبط با مقاله
|
||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 199 تعداد دریافت فایل اصل مقاله: 173 |