تعداد نشریات | 25 |
تعداد شمارهها | 935 |
تعداد مقالات | 7,688 |
تعداد مشاهده مقاله | 12,562,594 |
تعداد دریافت فایل اصل مقاله | 8,929,568 |
روش برچسبگذاری واج گونهای پیکرههای گفتاری بر اساس الفبای آوانگاری بین المللی | ||
زبان پژوهی | ||
مقاله 7، دوره 13، شماره 38، اردیبهشت 1400، صفحه 185-212 اصل مقاله (755.77 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22051/jlr.2020.28072.1782 | ||
نویسندگان | ||
طاهره احمدی1؛ بتول علی نژاد* 2؛ حسین کارشناس3؛ باقر باباعلی4 | ||
1دانشجوی دکتری تخصصی، گروه زبانشناسی، دانشکده زبانهای خارجی، دانشگاه اصفهان | ||
2دکتری تخصصی زبانشناسی، دانشیار گروه زبانشناسی، دانشکده زبانهای خارجی، دانشگاه اصفهان | ||
3دکتری تخصصی هوش مصنوعی، استادیار گروه هوش مصنوعی، دانشکده کامپیوتر، دانشگاه اصفهان | ||
4دکتری تخصصی هوش مصنوعی، استادیار دانشکده ریاضی، آمار و علوم کامپیوتر، دانشگاه تهران | ||
چکیده | ||
با توجه به نقش اساسیِ پیکرهها در بهبود کیفیتِ عملکردِ سیستمهای مبتنی بر داده، بهکارگیری پیکرههای گفتاری مناسب در سیستمهای پردازشِ گفتار نیز امری ناگزیر است. به طور معمول، در سیستمهای پردازشِ گفتار، از پیکرههای واجی بهره گرفته میشود. یکی از روشهای شناختهشده برای افزایشِ دقتِ سیستمهای پردازش گفتار در سالهای کنونی، بهرهگیری از پیکرههای واجگونهای است. ویژگی آشکار پیکرههای واجگونهای در مقایسه با پیکره های واجی، اختصاص برچسبهای واجگونهای به هر یک از واجها است. راه کار پیشنهادی برای تهیة پیکرة واجگونهای، پیادهسازی برنامهای با بهرهگیری از روش مبتنی بر قاعده، برای تبدیل واجها به واجگونهها و اعمال این برنامه بر پیکره واجی است. شالودة بهرهگیری از رویکرد موردِ اشاره، دسترسی به چنین قواعدی است. پس از تدوین این قواعد از منابع موجود در زبان، ایجاد بستر مناسبِ پیادهسازی و سپس پیادهسازیِ برنامة مربوطه و اعمال آن بر پیکرة گفتاری واجی، پیکره واجگونهای تهیه میشود. زبان فارسی نیز فاقد پیکره واجگونهای است و پیکره گفتاری فارسدات کوچک در این زبان، دارای تقطیع در سطح واج و واژه است. به منظور تبیین هر چه بهتر راه کار پیشنهادشده در پژوهش حاضر، به عنوان یک نمونه عملی، مرحلههای برچسبگذاری واجگونهای پیکره واجی فارسدات کوچک، به صورت گام به گام اجرا شدهاست. | ||
کلیدواژهها | ||
واج؛ واجگونه؛ پیکره؛ نظام الفبای آوانگاری بینالمللی (آی.پی.ای) | ||
عنوان مقاله [English] | ||
Providing a suitable method for allophonic labeling of speech corpuses according to the IPA system | ||
نویسندگان [English] | ||
Tahere Ahmadi1؛ Batool Alinezhad2؛ Hossein Karshenas3؛ Bagher Babaali4 | ||
1MA, Computational linguistics, Department of Linguistics, Faculty of Foreign Languages, University of Isfahan,Isfahan, Iran | ||
2PHD, Linguistics, Associate Professor and Faculty Member in Department of Linguistics, Faculty of Foreign Languages, University of Isfahan, Isfahan, Iran | ||
3PHD, Artificial intelligence, Assistant Professor and Faculty Member in Department of Artificial intelligence, Faculty of Computer, University of Isfahan, Isfahan,Iran | ||
4PHD, Artificial intelligence, Assistant Professor and Faculty Member, Faculty of Mathematics, Statistics and Computer Science, University of Tehran, Tehran, Iran | ||
چکیده [English] | ||
The corpus is a collection of spoken and / or written texts that can be used for linguistic analysis. More precisely, it can be said that these texts are purposefully labeled and categorized based on specific rules and allow the user to do various studies. Corpus linguistics is a branch of applied linguistics that examines and compares different aspects of linguistic data, and, of course, corpora are integral tools of this branch of linguistics. Due to the increasing role and importance of corpus linguistics in development of various sciences in recent decades, the produce and development of various linguistic corpora has been one of the priorities of scientists and researchers in different languages during these years. After the creation of speech processing systems since about two decades ago, the use of context-dependent methods has become particularly prominent in an effort to increase the accuracy of these systems and some special studies conduct in linguistics,. One of the best ways to achieve this, is to use corpora that, have special labels in addition to segmentation at the phoneme level, to indicate the differentiation of various allophones. These allophnescan only be achieved by obtaining the necessary phonological rules. In linguistics, this process can be called allophonic labeling of corpus. About 10 years after the introduction of allophonic corpora in the world, no allophonic labeling has been performed for any of Persian language corpora yet. The small Farsdat corpus is the main spoken corpus in Persian. Hence, the need to equip this corpus with allophonic labels to increase the accuracy, to improve the performance of speech processing systems , and to produce specific study, research programs, and tools in linguistic is obvious. In order to elucidate the method proposed in the present study for allophonic labeling of phonemic corpuses, and in parallel for equipping the Persian language with at least one allophonic corpus, the steps of the task are precisely performed on the small Farsdat phonemic corpus. The corpus is one of Persian-language corpora in the last two decades that consists of 6080 sentences spoken by 304 Persian speakers. The speakers of this corpus have indeed one of the most widely spoken dialects in Persian and all of sentences in this corpus, are segmented in to different levels. The segmentation of sentences in word and phoneme levels results in their efficiency in various speech processing systems, such as speech recognition systems, broad transcription systems, and text-to-speech systems. Moreover, the small Farsdat corpus has the potential to be used in the systems. The suggested solution to prepare an allophonic corpus is to implement a program using the rule-based method and applying it on the phonemic corpus to add allophonic labels on it. The basis of the rule-based method in this research is access to rules for converting phonemes into allophones. After compiling these rules from the resources available in each language and preparing the appropriate settings (for implementation), the program is implemented. Finally by applying this program to the phonemic corpus, an allophonic corpus is prepared. As noted, special phonological rules are required to convert phonemes into allophones in Persian and to add allophonic labels to the small Farsdat corpus. The purpose of this research is not to study phonemes based on acoustic and laboaratory approaches in order to obtain Persian allophones; but rather to formulate and synchronize phonemes identified in various studies and then to adapt them to the International Phonetic Alphabet System. This ultimately leads to provide a standard set of allophones as far as possible and to achieve the phonological rules necessary for converting phonemes into allophones in Persian (based on existing studies. Although one of the limitations of this study is its incompleteness regarding the extraction of different allophones in Persian, the implemented program has the capability to be updated. if any studies are carried out in the field of allophones to supplement the existing theoretical resources in the future, it has the possibility to be to modified or to be enhanced regarding the performance . The present study may also highlight the need for more recent linguistic experiments and the use of more accurate tools and facilities to identify Persian phonemes. This can increase the motivation of phonetics and phonology researchers to take more practical steps in this field as well. After providing the necessary preparations in the phonemic corpus (such as the syllable segmentation) and implementing the above rules, the allophonic labels can be added to the phonemic corpus by implementing this program on it. | ||
کلیدواژهها [English] | ||
Phoneme, Allophone, Corpus, IPA system | ||
سایر فایل های مرتبط با مقاله
|
||
مراجع | ||
احمدی، طاهره، حسین کارشناس، باقر باباعلی و بتول علینژاد (1399). «بازشناسی خودکار واجهای فارسی با استفاده از مدلسازی واجگونهها». پردازش علائم و دادهها. سال 17. شمارة 3. صص 54-37. احمدی، طاهره، حسین کارشناس، بتول علینژاد و مصطفی نقوی راوندی (1396). «تقطیع هجایی خودکار واژههای زبان فارسی بر اساس اصول هجابندی پولگرام». مقاله ارائه شده در پنجمین کنفرانس بین المللی پژوهشهای کاربردی در مطالعات زبان. 26 بهمن ۱۳۹۶. دانشگاه بین المللی امام خمینی. تهران. باباعلی، باقر (1395). «پایهگذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی». پردازش علائم و دادهها. سال 13. شمارة 3. صص 51-62. بحرانی، محمد (1384). بهکارگیری ساختارهای وابسته به بافت در بازشناسی گفتار پیوسته مبتنی بر مدل مخفی مارکوف. پایاننامه کارشناسی ارشد مهندسی کامپیوتر. دانشگاه صنعتی شریف. بیجنخان، محمود (1379). «نظام واجگونههای زبان فارسی در چارچوب نظریه واجشناسی تولیدی». مجله دانشکده ادبیات و علوم انسانی دانشگاه تهران. سال 44. شمارة 156. صص 95-117. بیجنخان، محمود (1384). واجشناسی نظریه بهینگی. تهران: سمت. بیجنخان، محمود (1392). نظام آوایی زبان فارسی. تهران: سمت. ثمره، یدالله (1378). آواشناسی زبان فارسی. چ 2. تهران: مرکز نشر دانشگاهی. حقشناس، علیمحمد (1392). آواشناسی (فونتیک). تهران: آگه. دیهیم، گیتی (1358). درآمدی بر آواشناسی عمومی. تهران: دانشگاه ملی ایران. زاهدی، کیوان و فیضیه فخاریان (1390). «همگونی همخوانها در زبان فارسی نوین: رویکرد واجشناسی هندسه مشخصهها». پژوهشهای زبانشناسی دانشگاه اصفهان. دورة 3. شمارة 5. صص 47-64. سپنتا، ساسان (1377). آواشناسی فیزیکی زبان فارسی. اصفهان: گلها. شریفی آتشگاه، مسعود و وحید صادقی (1390). «طراحی الگوریتم بازشناسی واجها با بهکارگیری همبستههای آکوستیکی مشخصههای واجی». پردازش علائم و دادهها. شماره 16. صص 13-28. صادقی، وحید (1389). «آواشناسی و واجشناسی همخوانهای چاکنایی». پژوهشهای زبانشناسی دانشگاه اصفهان. سال 2. شمارة 1. صص 49-62. صادقی، وحید(1386).«تأثیر دمش بر تقابل واکداری- بیواکی انسدادیهای فارسی». زبان و زبانشناسی. صص 65-84. صامتی، حسین و محمد بحرانی (1384). «استخراج و مدلسازی واحدهای آوایی وابسته به بافت برای بهبود دقت بازشناسی گفتار پیوسته با روش دستهبندی واجها». نشریه مهندسی برق و مهندسی کامپیوتر ایران. سال 3. شماره 1. صص 51-45. علینژاد، بتول (1389). «واکداری و دمش در زبان فارسی بر اساس نظریه واجشناسی حنجرهای«. پژوهشهای زبانشناسی دانشگاه اصفهان. شماره 1. پیاپی 2. صص 63-80. علینژاد، بتول (1395). مبانی واجشناسی. اصفهان: دانشگاه اصفهان. علینژاد، بتول و عاطفهسادات میرسعیدی (1393). «فرایند واجی همگونی همخوان با همخوان در زبان فارسی: بررسی صوتشناختی». زبانپژوهی. سال 6. شماره 11. صص 163-186. علینژاد، بتول و فهیمه حسینی بالام (1392). مبانی آواشناسی آکوستیکی. اصفهان: دانشگاه اصفهان. کرد زعفرانلو کامبوزیا، عالیه (1392). واجشناسی رویکردهای قاعده بنیاد. تهران: سمت. مدرسی قوامی، گلناز (1386). «خنثیشدگی تقابل همخوانهای انسدادی واکدار و بیواک در زبان فارسی». مجموعه مقالات دانشگاه علامه طباطبایی. شماره 219. صص 441-454. مدرسی قوامی، گلناز (1390). آواشناسی: بررسی علمی گفتار. تهران: سمت. مشکوةالدینی، مهدی (1388). ساخت آوایی زبان. چ 3. مشهد: دانشگاه فردوسی. نوربخش، ماندانا (1392). آواشناسی فیزیکی با استفاده از رایانه. تهران: نشر علم. نوربخش، ماندانا (1394). «همخوان ملازی در فارسی معیار». زبانپژوهی. دورة 7. شماره 15. صص 151-170. نوربخش، ماندانا، محمود بیجنخان و حامد رحمانی (1389). «درک زمان شروع واک (ویاُتی) در انسدادیهای آغازین فارسی معیار». زبانپژوهی. دورة 1. شمارة 2. صص 173-203. یارمحمدی، لطفالله (1364). درآمدی به آواشناسی. تهران: مرکز نشر دانشگاهی.
Ahmadi, T., Karshenas, H., Alinezhad, B., & Naqavi Ravandi, M. (2018, February). Automatic syllabification of Persian words based on Pulgram principles. Paper presented at thethe Fifth international Conference of Language Studies. [In Persian]. | ||
آمار تعداد مشاهده مقاله: 684 تعداد دریافت فایل اصل مقاله: 307 |