تهران- ایرنا- محققان حوزه رباتیک با استفاده از یک مدل بنیادین با آموزش قبلی درباره رانندگی ربات‌ها کاری کردند تا یک ماشین مسابقه‌ (رالی) شرکت در مسابقه رانندگی را بیاموزد و بعد از ۲۰ دقیقه به عملکردی مشابه انسان دست یابد.

به گزارش گروه علم و آموزش ایرنا از «اسپکتروم»، ربات‌هایی که می‌خواهند یک مهارت جدید را یاد بگیرند، بدون انباشت تجربه مانند انسان‌ها باید از صفر شروع کنند. یادگیری تقویتی تکنیکی است که به ربات‌ها اجازه می‌دهد تا مهارت‌های جدید را از طریق آزمون و خطا یاد بگیرند. جهان واقعی پر از آشوب و هرج و مرج است که ربات‌ها بدون تلاش‌های زیاد و غیرعلمی قادر به درک آن نیستند.

کارشناسان امور رباتیک در دانشگاه «یو سی برکلی» در آمریکا از طریق همان حقه‌بازی‌هایی که انسان‌ها انجام می‌دهند این فرایند را تسریع کرده‌اند. آنها به جای اینکه از صفر شروع کنند، از برخی تجربیات قبلی استفاده می‌کنند که به انجام کار کمک می‌کند. این محققان با بهره برداری از یک «مدل بنیادین» که در مورد رانندگی ربات‌ها از پیش آموزش دیده بود، قادر شدند کاری کنند که یک ماشین رالی رباتیک در مقیاس کوچک، خودش شرکت در رقابت رانندگی در مسیرهای داخلی و بیرونی را یاد بگیرد و بعد از تنها ۲۰ دقیقه تمرین به عملکردی مشابه انسان ها برسد.

ربات‌های کوچک یاد می‌گیرند در جهان واقعی با سرعت برانند + فیلم

این مرحله پیش آموزشی اول در زمان فراغت شما از طریق رانندگی دستی یک ربات انجام می‌شود. هدف از انجام این کار این نیست که به ربات یاد داده شود تا در یک مسیر به صورت تند و سریع رانندگی کند. بلکه هدف این کار یاد دادن اصول پایه‌ای برای برخورد نکردن با در و دیوار و اسباب و وسایل است.

وقتی که این «مدل بنیادین» از پیش آموزش دیده در کار باشد، زمانی که به سراغ ماشین رالی کوچک رباتیک می روید، این ماشین دیگر لازم نیست از صفر شروع کند. در این مورد لازم است که ماشین را وارد مسیر مورد نظر کنید و آن را زمانی آهسته برانید تا به آن نشان دهید که می‌خواهید کجا برود و سپس اجازه دهید که خودش بطور خودکار و مستقل حرکت کند و به خودش یاد بدهد که سریعتر و سریعتر براند. این ربات با یک دوربین در جلو تلاش می‌کند که هر چه سریعتر به محل ایست بازرسی بعدی برسد و این موجب رفتارهای جالبی می‌شود.

این ربات در جریان تجربیات و آزمایشات داخلی و بیرونی قادر شد تنها پس از ۲۰ دقیقه تمرین خودکار و مستقل، رانندگی تهاجمی مشابه یک انسان راننده خبره را بیاموزد. به همین علت محققان می‌گویند این مساله نشان می دهد که یادگیری تقویتی عمیق می‌تواند یک ابزار قابل اعتماد برای یادگیری سیاست‌های جهان واقعی حتی از روی تصاویر خام باشد اگر با تمرین‌های پیشینی ترکیب شده و در متن یک چهارچوب آموزشی خودکار اجرا شود. انجام ایمن این نوع آموزش در پلتفرمی بزرگتر کار بیشتری می‌برد.