به گزارش گروه علم و آموزش ایرنا از «اسپکتروم»، رباتهایی که میخواهند یک مهارت جدید را یاد بگیرند، بدون انباشت تجربه مانند انسانها باید از صفر شروع کنند. یادگیری تقویتی تکنیکی است که به رباتها اجازه میدهد تا مهارتهای جدید را از طریق آزمون و خطا یاد بگیرند. جهان واقعی پر از آشوب و هرج و مرج است که رباتها بدون تلاشهای زیاد و غیرعلمی قادر به درک آن نیستند.
کارشناسان امور رباتیک در دانشگاه «یو سی برکلی» در آمریکا از طریق همان حقهبازیهایی که انسانها انجام میدهند این فرایند را تسریع کردهاند. آنها به جای اینکه از صفر شروع کنند، از برخی تجربیات قبلی استفاده میکنند که به انجام کار کمک میکند. این محققان با بهره برداری از یک «مدل بنیادین» که در مورد رانندگی رباتها از پیش آموزش دیده بود، قادر شدند کاری کنند که یک ماشین رالی رباتیک در مقیاس کوچک، خودش شرکت در رقابت رانندگی در مسیرهای داخلی و بیرونی را یاد بگیرد و بعد از تنها ۲۰ دقیقه تمرین به عملکردی مشابه انسان ها برسد.
این مرحله پیش آموزشی اول در زمان فراغت شما از طریق رانندگی دستی یک ربات انجام میشود. هدف از انجام این کار این نیست که به ربات یاد داده شود تا در یک مسیر به صورت تند و سریع رانندگی کند. بلکه هدف این کار یاد دادن اصول پایهای برای برخورد نکردن با در و دیوار و اسباب و وسایل است.
وقتی که این «مدل بنیادین» از پیش آموزش دیده در کار باشد، زمانی که به سراغ ماشین رالی کوچک رباتیک می روید، این ماشین دیگر لازم نیست از صفر شروع کند. در این مورد لازم است که ماشین را وارد مسیر مورد نظر کنید و آن را زمانی آهسته برانید تا به آن نشان دهید که میخواهید کجا برود و سپس اجازه دهید که خودش بطور خودکار و مستقل حرکت کند و به خودش یاد بدهد که سریعتر و سریعتر براند. این ربات با یک دوربین در جلو تلاش میکند که هر چه سریعتر به محل ایست بازرسی بعدی برسد و این موجب رفتارهای جالبی میشود.
این ربات در جریان تجربیات و آزمایشات داخلی و بیرونی قادر شد تنها پس از ۲۰ دقیقه تمرین خودکار و مستقل، رانندگی تهاجمی مشابه یک انسان راننده خبره را بیاموزد. به همین علت محققان میگویند این مساله نشان می دهد که یادگیری تقویتی عمیق میتواند یک ابزار قابل اعتماد برای یادگیری سیاستهای جهان واقعی حتی از روی تصاویر خام باشد اگر با تمرینهای پیشینی ترکیب شده و در متن یک چهارچوب آموزشی خودکار اجرا شود. انجام ایمن این نوع آموزش در پلتفرمی بزرگتر کار بیشتری میبرد.