تعداد نشریات | 25 |
تعداد شمارهها | 932 |
تعداد مقالات | 7,652 |
تعداد مشاهده مقاله | 12,494,341 |
تعداد دریافت فایل اصل مقاله | 8,885,738 |
بازنمایی متن مبتنی بر بافت با استفاده از موضوعات پنهان برای دستهبندی مقالات علمی | ||
زبان پژوهی | ||
مقاله 2، دوره 15، شماره 49، اسفند 1402، صفحه 31-60 اصل مقاله (716.21 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22051/jlr.2023.44640.2331 | ||
نویسندگان | ||
مریم موسویان1؛ مسعود قیومی* 2 | ||
1گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه صنعتی امیرکبیر، تهران، ایران | ||
2پژوهشکده زبانشناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران، ایران | ||
چکیده | ||
سالانه، پژوهشگران در حوزههای گوناگون علمی یافتههای پژوهشهای خود را بهصورت گزارشهای فنی یا مقالههایی در مجموعهمقالات یا مجلهها چاپ میکنند. گردآوری این نوع داده توسط موتورهای جستوجو و کتابخانههای دیجیتال، برای جستوجو و دسترسی به نشریههای پژوهشی به کار گرفته میشود که معمولاً مقالههای مرتبط بر اساس کلیدواژههای پرسمان بهجای موضوعات مقاله بازیابی میگردد. در نتیجه، دستهبندی دقیق مقالههای علمی میتواند کیفیت جستوجوی کاربران را هنگام جستوجوی یک سند علمی در پایگاههای اطلاعاتی افزایش دهد. هدف اصلی این مقاله، ارائه یک مدل دستهبندی برای تعیین موضوع مقالههای علمی است. به این منظور، مدلی را پیشنهاد کردیم که از دانش بافتی غنیشده مقالههای فارسی مبتنیبر معناشناسی توزیعی بهره میبرد. بر این اساس، شناسایی حوزۀ خاص هر سند و تعیین دامنۀ آن توسط دانش غنیشدة برجسته، دقت دستهبندی مقالههای علمی را افزایش میدهد. برای دستیابی به هدف، ما مدلهای درونهیابی بافتی، اعم از ParsBERT یا XLM-RoBERTa را با موضوعهای پنهان در مقالهها را برای آموزش یک مدل پرسپترون چندلایه غنی میکنیم. بر اساس یافتههای تجربی، عملکرد کلیParsBERT-NMF-1HT 72/37 درصد (ماکرو) و 75/21 درصد (میکرو) بر اساس معیار-اف بود که تفاوت عملکرد این مدل در مقایسه با مدل پایه از نظر آماری معنادار (p<0/05) بود. | ||
کلیدواژهها | ||
تحلیل محتوایی مقاله؛ بازنمایی بافتی؛ معناشناسی توزیعی؛ شبکۀ عصبی؛ دستهبندی مقالۀ علمی؛ مدلسازی موضوع | ||
عنوان مقاله [English] | ||
Contextualized Text Representation Using Latent Topics for Classifying Scientific Papers | ||
نویسندگان [English] | ||
Maryam Moosaviyan1؛ Masood Ghayoomi2 | ||
1Computer Engineering Department, Amirkabir University of Technology, Tehran, Iran | ||
2Faculty of Linguistics, Institute for Humanities and Cultural Studies, Tehran, Iran | ||
چکیده [English] | ||
Annually, researchers in various scientific fields publish their research results as technical reports or articles in proceedings or journals. The collocation of this type of data is used by search engines and digital libraries to search and access research publications, which usually retrieve related articles based on the query keywords instead of the article’s subjects. Consequently, accurate classification of scientific articles can increase the quality of users’ searches when seeking a scientific document in databases. The primary purpose of this paper is to provide a classification model to determine the scope of scientific articles. To this end, we proposed a model which uses the enriched contextualized knowledge of Persian articles through distributional semantics. Accordingly, identifying the specific field of each document and defining its domain by prominent enriched knowledge enhances the accuracy of scientific articles’ classification. To reach the goal, we enriched the contextualized embedding models, either ParsBERT or XLM-RoBERTa, with the latent topics to train a multilayer perceptron model. According to the experimental results, overall performance of the ParsBERT-NMF-1HT was 72.37% (macro) and 75.21% (micro) according to F-measure, with a statistical significance compared to the baseline (p<0.05). | ||
کلیدواژهها [English] | ||
Article Content Analysis, Contextualized Representation, Distributional Semantics, Neural Network, Scientific Article Classification, Topic Modeling | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 201 تعداد دریافت فایل اصل مقاله: 185 |