تهران- ایرنا- دانشمندان الگوریتمی را طراحی کرده‌اند که اطلاعات جامعی را درباره جایگاه پروتئین در سلول ارائه می‌کند. این الگوریتم ممکن است در زمینه تشخیص بیماری‌ها و غربالگری دارویی مفید خواهد بود.

به گزارش گروه علم و آموزش ایرنا از پایگاه خبری فیز (phys)، انسان‌ها به‌خوبی می‌توانند به تصاویر نگاه کنند، الگوها را بیابند و مقایسه کنند؛ مثلاً اگر به مجموعه‌ای از عکس‌ سگ‌ها نگاه کنیم، می‌توانیم آن‌ها را براساس رنگ، اندازه گوش، شکل صورت و خصوصیات دیگر مرتب کنیم. اما آیا می‌توانیم آن‌ها را از نظر کمّی مقایسه کنیم؟ آیا یک ماشین می‌تواند اطلاعات معناداری را از تصاویر استخراج کند که انسان‌ها نمی‌توانند؟

تیمی از دانشمندان مرکز پژوهشی چان زاکربرگ بیوهاب یک روش یادگیری ماشین برای تجزیه‌وتحلیل کمّی و مقایسه تصاویر (در این مورد تصاویر میکروسکوپی پروتئین‌ها) بدون دانش قبلی ایجاد کرده‌اند. الگوریتم آن‌ها سیتوسِلف (cytoself)  نام دارد و اطلاعات غنی و دقیقی را درباره مکان و عملکرد پروتئین در سلول اراdه می‌دهد. این قابلیت می‌تواند زمان تحقیق را برای زیست‌شناسان سلولی تسریع کند و در نهایت برای تسریع فرایند کشف و غربالگری دارویی از آن استفاده می‌شود.

سیتوسلف نه تنها قدرت الگوریتم‌های یادگیری ماشین را نشان می‌دهد، بلکه شناختی درباره سلول‌ها که بلوک‌های ساختمانی اساسی زندگی هستند و پروتئین‌ها که بلوک‌های سازنده مولکولی سلول‌ها هستند، نیز فراهم کرده است. هر سلول حاوی حدود ۱۰ هزار نوع پروتئین مختلف است. برخی از آن‌ها به تنهایی کار می‌کنند و کارهای مختلفی را در قسمت‌های مختلف سلول انجام می‌دهند تا آن‌ها را سالم نگه دارند.

مانوئل لئونتی (Manuel Leonetti)، یکی از همکاران این پژوهش گفت: سلول از نظر فضایی بسیار سازماندهی‌شده‌تر از آن چیزی است که قبلاً فکر می‌کردیم. این یک نتیجه بیولوژیکی مهم درباره سلول انسانی است.

سیتوسلف مانند بقیه ابزارهایی که در مرکز پژوهشی چان زاکربرگ طراحی می‌شوند، در دسترس همه قرار دارد. دانشمندان امیدواند این الگوریتم الهام‌بخش افراد زیادی باشد تا از الگوریتم‌های مشابه آن برای حل مشکلات تحلیل تصویر استفاده کنند.

نیازی به مدرک دکترا نیست؛ ماشین‌ها می‌توانند خودشان یاد بگیرند

سیتوسلف نمونه‌ای از چیزی است که به‌عنوان یادگیری خودنظارتی شناخته می‌شود، به  این معنی که انسان‌ها چیزی درباره تصاویر پروتئینی به الگوریتم آموزش نمی‌دهند. این مسئله در یادگیری نظارت‌شده هم وجود دارد. به گفته دانشمندان در یادگیری نظارت‌شده، باید مطالب را یک به یک با مثال‌ به ماشین آموزش دهید که کار بسیار زیاد و خسته‌کننده‌ای است و اگر ماشین محدود به مطالبی باشد که انسان‌ها به آن آموزش می‌دهند، می‌تواند سوگیری را وارد سیستم کند.

دانشمندان معتقد بودند که اطلاعات در تصاویر وجود دارد. آن‌ها می‌خواستند ببینند ماشین به تنهایی چه چیزی را می‌تواند تشخیص دهد.

دانشمندان از میزان اطلاعاتی که الگوریتم قادر به استخراج از تصاویر بود، شگفت‌زده شدند.

این گروه پژوهشی، ابزارها و فناوری‌هایی را برای درک معماری سلولی طراحی می‌کنند. آن‌ها متوجه شدند که میزان جزییات در مکان‌یابی پروتئین بسیار بیشتر از چیزی بود که فکر می‌کردند. ماشین هر تصویر پروتئینی را به یک بردار ریاضی تبدیل می‌کند. پس از آن می‌توان تصاویر یکسان را رتبه‌بندی کرد. با این کار می‌توان فقط با مقایسه تصاویر پیش‌بینی کرد کدام پروتئین‌ها با هم در سلول کار می‌کنند.

هدف این پروژه ایجاد نقشه کاملی از سلول‌ انسانی از جمله مشخص‌کردن حدود ۲۰ هزار نوع پروتئین بود که سوخت سلول‌های ما را تأمین می‌کنند.

به گفته دانشمندان دانستن این نکات اساسی است: راه‌های ممکن برای اینکه یک پروتئین در سلول جای بگیرد، همه مکان‌هایی که پروتئین می‌تواند در آن‌ها قرار بگیرد و همه انواع ترکیبات مکان‌ها. زیست‌شناسان طی دهه‌ها کوشیده‌اند تمام مکان‌های احتمالی و همه ساختارهای ممکن درون یک سلول را مشخص کنند. اما انسان‌ها همیشه این کار را با نگاه به داده انجام داده‌اند. سؤال این است: محدودیت‌های انسان و سوگیری‌ها چقدر این فرایند را ناقص کرده است؟

دانشمندان نشان دادند که ماشین‌ها بهتر از انسان‌ها می‌توانند این کار را انجام دهند. آن‌ها می‌توانند دسته‌بندی‌های دقیق‌تری را پیدا کنند و تمایزهایی را در تصاویر تشخیص دهند که فوق‌العاده جزیی هستند.

هدف بعدی این تیم پژوهشی این است که با استفاده از سیتوسلف ردیابی کنند که چگونه می‌توان از تغییرات کوچک در قرارگیری پروتئین‌ها برای تشخیص حالات سلولی متفاوت (مثلاً یک سلول سالم در برابر یک سلول سرطانی) استفاده کرد. این پژوهش ممکن است کلید درک بهتر بسیاری از بیماری‌ها و تسهیل کشف دارو باشد.

به گفته دانشمندان اساس غربالگری دارویی بر آزمون و خطا است. اما با  سیتوسلف یک جهش بزرگ صورت گرفته است؛ زیرا نیازی به انجام آزمایش‌های یک‌به‌یک با هزاران پروتئین نخواهد بود. این یک روش کم‌هزینه است که می‌تواند سرعت تحقیق را تا حد زیادی افزایش دهد.