رونمایی از کلان پیکره زبان فارسی با ۳۵ میلیارد کلمه

تهران - ایرنا - «کلان پیکره زبان فارسی»، بزرگ‌ترین مجموعه دادگان شامل ۳۵ میلیارد کلمه در همایش الزامات توسعه مدل زبانی بزرگ فارسی رونمایی شد.

به گزارش گروه علم و آموزش ایرنا از معاونت علمی، فناوری و اقتصاد دانش بنیان ریاست جمهوری، همایش الزامات توسعه مدل زبانی بزرگ فارسی با عنوان هوش مصنوعی مولد قدرت حکومت ها به همت ستاد توسعه فناوری های هوش مصنوعی و رباتیک در پژوهشگاه ارتباطات و فناوری اطلاعات برگزار شد.

در این نشست، کلان پیکره زبان فارسی با حمایت ستاد توسعه فناوری های هوش مصنوعی و رباتیک و توسعه داده شده معاونت علمی ریاست جمهوری توسط شرکت ترگمان رونمایی شد.

این کلان پیکره با آزاد رسانی به صورت open source با تنوع بالا و حفظ بافتار متن در دسترس عموم قرار می گیرد.

«مدل زبان بزرگ» یا LLM (Large language model)، یک نوع نوآوری در حوزه هوش مصنوعی است که از شبکه های عصبی با پارامترهای گسترده برای پردازش پیشرفته زبان استفاده می‌کند.

هوش مصنوعی مولد در یک سال اخیر بیشترین پیشرفت را به خود اختصاص داده و عمده سهم این پیشرفت متکی به مدل‌های زبانی بزرگ(LLM ها) بوده است.

مدل‌های زبان بزرگ یک نوع از مدل‌های هوش مصنوعی است که توانایی پردازش اطلاعات چندجانبه را دارند. این مدل‌ها از قدرت بی‌نظیر خود در پردازش زبان برای ایجاد پاسخ‌های بهینه تر و بهتر به سوالات مختلف کاربران استفاده می‌کنند. در حال حاضر، طراحی و مهندسی دستورالعمل‌های بهینه برای این مدل‌ها از اهمیت زیادی برخوردار است و تیم‌های پژوهشی در دانشگاه‌ها و مراکز تحقیقاتی مختلف به این موضوع توجه ویژه‌ای دارند.

هوش مصنوعی، مولد قدرت حکومت‌هاست

دبیر ستاد توسعه فناوری های هوش مصنوعی و رباتیک در سخنانی در همایش «الزامات توسعه مدل زبانی بزرگ فارسی» گفت: مهم ترین سوگیری استفاده از مدل‌های زبانی بزرگ، سوگیری «داده» است و در این فضا، حکمرانی داده، یک ضرورت است و هر کشوری که داده بیشتری داشته باشد، از قدرت بیشتری برخوردار بوده و اساسا هوش مصنوعی مولد قدرت حکومت ها است و به همین دلیلی ما باید مدل بزرگ زبانی (LLM) بومی خود را داشته باشم.

بهروز مینایی به سیر تطور فناوری هوش مصنوعی تا به امروز پرداخت و گفت: در دهه های ۱۹۷۰ تا ۱۹۸۰ «سیستم‌های خبره» (Expert systems)، فناوری غالب در دنیای «هوش مصنوعی» بود که به عنوان یک پایگاه دانشی عمل می کرد و برآمده از تلاش های محققان بود که اساسا کاری به حوزه تولید نداشت و بیشتر در پی تشخیص بود.

به گفته وی در ۱۹۹۰ گام مهمی در حوزه هوش مصنوعی برداشته شد و «داده کاوی» به میدان آمد. در این نسل از فناوری های هوش مصنوعی، دیگر نیازی نبود که داده ها از یک متخصص گرفته شود و افراد تنها از رهگذر داده‌ها می‌توانستند به یک الگو برسند.

دبیر ستاد توسعه فناوری های هوش مصنوعی و رباتیک، تفاوت «سیستم‌های خبره» با سیستم‌های «داده‌کاوی» را در میزان دقت آنها عنوان کرد و گفت: سیستم‌های خبره از دقت بالاتری در مقایسه با سیستم های داده کاوی برخوردارند، اما در مقابل، داده‌کاوی‌ها، توان کار روی داده های سنگین را دارا هستند.

مینایی در ادامه به «سیستم‌های یادگیری عمیق» اشاره و تاکید کرد: این نوع سیستم ها در شناخت تصاویر به اندازه انسان توانایی دارند و می‌توانند لایه‌های مختلف از شبکه های عصبی را ایجاد کنند.

به گفته وی در فاصله ۲۰۱۲تا ۲۰۱۸ «سیستم مدل‌های زبانی» طراحی شد، این سیستم ها، می توانند رابطه یک کلمه را در بستر اطرافش ببینند و بردارها را با هم نسبت سنجی کنند، و این نسبت سنجی ها می تواند درک مطلب را در این سیستم ها عمیق تر کند.

دبیر ستاد توسعه فناوری های هوش مصنوعی و رباتیک، مزیت نسل جدید سیستم‌های هوش مصنوعی را در مقایسه با گذشته، محدود نبودن توان آنها به یک دامنه خاص و افزایش توان افقی آنها دانست که در مدارهای معنایی و درک مطلب از اهمیت بالایی برخوردار است.

مینایی با بیان اینکه مدل زبان بزرگ سوگیری خاصی را از نظر فرهنگی و ارزشی ایجاد می‌کنند، تصریح کرد: یک نوع پلورالیسم عقیدتی و اجتماعی بر دنیای استفاده از این مدل حاکم است و بنا بر نوع پرسشی که در آن‌ها طرح شود، پاسخ های متفاوتی ارائه می کنند.

وی تاکید کرد: مهم‌ترین سوگیری استفاده از مدل زبان بزرگ، سوگیری «داده» است و در این فضا، حکمرانی داده، یک ضرورت است و هر کشوری که داده بیشتری داشته باشد از قدرت بیشتری برخوردار است و به همین دلیل ما باید مدل زبان بزرگ بومی خودمان را داشته باشیم.

دبیر ستاد توسعه فناوری های هوش مصنوعی و رباتیک خاطرنشان کرد: کاری را که ستاد توسعه اقتصاد دانش بنیان دیجیتال معاونت علمی پایه گذاری کرد و ما هم ادامه آن را سرلوحه خود قرار داده ایم، تولید داخلی LLM است و این جلسه هم برای رونمایی از اولین ورژن با پیکره mistrial ۷ میلیاردی و به حجم ۳۵ میلیارد توکن برگزار شده است. این پیکره با بهره‌گیری از حدود یک میلیون و ۴۰۰ پرسش و پاسخ حقوقی می تواند پاسخ های صحیح در خصوص سوالات حقوقی ارائه کند.

همایش «الزامات توسعه مدل زبانی بزرگ فارسی» با شعار «هوش مصنوعی، مولد قدرت حکومت ها» به همت ستاد توسعه فناوری های هوش مصنوعی و رباتیک معاونت علمی در محل پژوهشگاه ارتباطات و فناوری اطلاعات برگزار شد.

اخبار مرتبط

نظر شما

شما در حال پاسخ به نظر «» هستید.
captcha