به گزارش روز شنبه ایرنا از پژوهشگاه علوم و فناوری اطلاعات ایران، سامانه پیکرههای ایرانداک (ساپا) در نشانی SAPA.IRANDOC.AC.IR راهاندازی و در دسترس تمامی پژوهشگران کشور گذاشته شد.
بسیاری از پژوهشهای زبانشناسی و تصمیمگیریها در برنامهریزی زبانی، تنها با کاربرد یک پیکره زبانی امکان پذیر است، پیکره، مجموعهای نظاممند، رایانهای و درست از زبان است که برای بررسیهای زبانشناختی به کار میرود.
پیکرهها کاربردهای بسیاری در پردازش زبان طبیعی و درک و بازشناسی گفتار، تبدیل متن به گفتار و گفتار به متن، نگارش فرهنگها، آموزش و پژوهش، ساخت پایگاههای داده زبانی، بررسی واژههای همآیند در زبانهای گوناگون، پایشگری زبان برای پیگیری و ردگیری دگرگونیهای زبانی، ترجمه ماشینی، توسعه مفاهیم و منابع در پیوند با واژگان، نگارش و گسترش مهارتهای نوشتاری، آموزش و یادگیری زبان با شناخت گویشها و گوناگونی زبانها، معناشناسی، تحلیل کلام، زبانشناسی اجتماعی، زبانشناسی حقوقی، واکاوی ژانرهای ادبی و پژوهشهای دستور زبان دارند.
سامانه پیکرههای ایرانداک (ساپا) که میتواند از چندین پیکره پشتیبانی کند، اکنون دارای یک پیکره با نام «پیکره پژوهشنامه» با نزدیک به چهار میلیون و ۷۸۰ هزار واژه تخصصی و میانرشته در زمینههایی مانند علم اطلاعات و دانش شناسی، فناوری اطلاعات، مدیریت دانش، زبانشناسی رایانشی، اصطلاحشناسی و مانند آنها است.
این پیکره از مقالههای «پژوهشنامه پردازش و مدیریت اطلاعات» ساخته شده است و برای پژوهشهایی که نیازمند بهرهگیری از پیکرههای تخصصی هستند، ارزش و کاربرد بسیاری دارد.
هنگام بازیابی اطلاعات در پیکره پژوهشنامه، افزون بر نمایش واژه یا عبارتِ جستجو در بافت زبان، نام مقالهای که آن واژه یا عبارت در آن به کار رفته است، موضوع مقاله، پدیدآوران مقاله و فراوانی واژه یا عبارت جستجو نیز نمایش داده میشوند.
دادههای این پیکره دارای برچسب اجزای واژگانی کلام (POS tag) نیز هستند که در بسیاری از پردازشهای زبان به کار میروند و مقوله واژهها (مانند اسم، صفت، قید، و …) را پیدا میکنند.
نظر شما