به گزارش گروه علم و آموزش ایرنا از تارنمای فناوری technative، وب اسکرپینگ Web Scraping روشی است که برای استخراج حجم زیادی از داده ها از وب سایت ها استفاده می شود. بعد از استخراج، داده ها را به شکل هایی مانند excel ،XML یا SQL ذخیره می کنند.
وب اسکرپینگ، خراش دادن وب یا جمع آوری داده های عمومی وب نقش فزاینده ای در فرآیند تصمیم گیری در بخش خصوصی ایفا می کند. امروزه، صنعت دادههای جایگزین تقریباً ۷ میلیارد دلار ارزش دارد.
اگرچه برخی از کارشناسان دراین باره هم نظرند که وب اسکرپینگ هنوز تا رسیدن به ظرفیت واقعی خود فاصله دارد، تحقیقات اخیر Oxylabs نشان میدهد بیش از ۵۲ درصد از شرکتهای مالی بریتانیا از فرآیندهای خودکار برای جمعآوری دادهها استفاده میکنند. بیشتر شرکت کنندگان در این تحقیق (۶۳ درصد) از داده های جایگزین برای به دست آوردن بینش تجاری رقابتی استفاده می کنند.
در برخی موارد داده های موجود و آنهایی که وجودشان در یک صنعت برای تصمیم گیری معمول است، کافی نیستند؛ از این رو در اصطلاح علم فناوری اطلاعات از داده آلترناتیو Alternative Data یا داده جایگزین استفاده می شود.
با وجود استفاده فعال از منابع داده غیرسنتی در تجارت، بخش عمومی و دانشگاه در این زمینه عقب است. ابهامات قانونی و رویههای پیچیده ممکن است دلایل اصلی محدود کردن بخش عمومی باشد، با این حال، آزادی بسیار بیشتری در محافل دانشگاهی وجود دارد. پس چرا بسیاری از دانشجویان و محققان در دانشگاه های درک مبهمی از امکانات و ابزارهای وب اسکرپینگ دارند؟
وب اسکرپینگ برای علم
تجزیه و تحلیل کلان داده ها از منابع جایگزین می تواند به آزمودن و تایید فرضیه های موجود و فرمول بندی فرضیه های جدید کمک کند. این دیدگاه بسیار گستردهتر و در موارد خاص، نسبت به منابع دادههای سنتی، دیدگاهی کمتر جانبدارانه ارائه میدهد. با این حال، اگر بخواهید اطلاعات مربوط وب اسکرپینگ برای علم را جستجو کنید، سریعا متوجه می شوید که این اطلاعات عمدتاً مربوط به دانشمندان علوم داده است و به ندرت به سایر حوزه ها راه یافته است.
با وجود این بی اطلاعی، امکان تحلیل داده های وب جایگزین در مطالعات اجتماعی، اقتصادی یا روانشناختی پایان ناپذیر است. برای مثال، بانک ژاپن به طور فعال از داده های جایگزین برای اطلاع رسانی سیاست پولی خود استفاده می کند. این بانک از دادههای تحرک، مانند جمعیت شبانه در مناطق منتخب در توکیو و روند خرده فروشی و تفریحی بر اساس هزینه کرد کارت های اعتباری، برای ارزیابی فعالیت اقتصادی استفاده میکند.
در طول همهگیری بیماری کرونا، مطالعات ویروسشناسی و روانشناسی نیز شناخت ارزشمندی از دادههای جایگزین وب فراهم کرد. روندهای جستجوی محلی گوگل میتواند شیوع بیماریها را با دقت بیشتری نسبت به سایر اقدامات پیشبینی کند. از اسکرپینگ دادههای عمومی توییتر برای درک نگرشها و تجربیات عموم مردم درمورد دورکاری استفاده شد. سایر نمونههای برجسته شامل استفاده از دادههای جایگزین برای تحقیقات علمی در مطالعات افسردگی و شخصیتی بر اساس فعالیتهای عمومی رسانههای اجتماعی است.
مزایای وب اسکرپینگ به سادگی در تحقیقات بازاریابی و تجارت الکترونیک قابل مشاهده است. دانشمندان می توانند جمع آوری قیمت کالاهای خاص (مانند لوازم الکترونیکی، مسکن و غذا) را برای محاسبه شاخص قیمت مصرف کننده به صورت خودکار انجام دهند. محققان بازاریابی میتوانند محصولات مشابهی را که تحت شرایط مختلف فروخته میشوند (مثلاً قیمتهای تخفیفیافته) ردیابی کنند تا تأثیر عوامل خاص را روی یک عامل غیرمنطقی برآورد کنند.
دست آخر اینکه، دادههای عمومی وب اسکرپینگ برای مطالعات هوش مصنوعی (AI) و یادگیری ماشین (ML) ضروری است. مطالعات هوش مصنوعی و یادگیری ماشینی بسیار محبوبیت یافته اند و تقریباً هر دانشگاه بزرگی برنامه های مطالعاتی مرتبط با هوش مصنوعی و یادگیری ماشینی ارائه می کند. چالشی که دانشجویان اغلب در این برنامهها با آن روبرو هستند، نبود مجموعه دادههای مناسب برای آموزش الگوریتمهای هوش مصنوعی و یادگیری ماشینی است. دانش اسکرپینگ دادههای عمومی به دانشجویان هوش مصنوعی و یادگیری ماشینی کمک میکند مجموعه دادههای با کیفیت را برای یادگیری ماشینی کارآمدتر ایجاد کنند.
روزنامهنگاری تحقیقی
یکی از حوزه هایی که جمع آوری داده های وب عمومی اجتناب ناپذیر است، روزنامه نگاری تحقیقی و پژوهش های سیاسی است. این نوع تحقیقات به داده های بی طرفانه و تخصصی بستگی دارد که به ندرت از طریق منابع داده سنتی در دسترس است.
روزنامهنگاران تحقیقی و دانشمندان علوم سیاسی میتوانند از اسکرپینگ برای مطالعه طیف گستردهای از مسائل از ردیابی نفوذ لابیها با بررسی گزارشهای بازدیدکنندگان از ساختمانهای دولتی گرفته تا نظارت بر تبلیغات سیاسی ممنوع و گروههای افراطی در پلتفرمهای اجتماعی و انجمنهای عمومی استفاده کنند. می توان گفت وب اسکرپینگ برای حل مشکلات اجتماعی و برای عملکرد دولت دموکراتیک و حاکمیت قانون حیاتی است.
شکاف آگاهی
وب اسکرپینگ نوشدارویی برای همه آلام علمی نیست و به سختی به علوم فیزیکی یا زیستی در انجام آزمایشها کمک میکند، اما میتواند کلید طلایی دادهها برای مطالعات اجتماعی، اقتصادی، سیاسی و در برخی موارد بالینی باشد. جمعآوری خودکار دادههای بزرگ دستاوردی است که بسیاری از دانشمندان سالها انتظار آن را می کشیدند. با این حال، این ایده از چندین تصور غلط رنج می برد.
در علوم اجتماعی، دانشگاهیان گاهی بر آزمایشها یا دادههای نظرسنجی تکیه میکنند، فقط به این دلیل که جمعآوری این نوع شواهد آسانتر از جمعآوری دادههای وب به نظر میرسد. حتی اگر دانشجویان تلاش کنند اطلاعات ضروری را به صورت آنلاین و بدون آموزش رسمی در مورد وب اسکرپینگ پیدا کنند، معمولاً به وارد کردن دستی دادهها (کپی و چسباندن) متوسل میشوند که زمانبر و مستعد خطا است.
منابع محبوب دادههای تحقیقات دانشگاهی، پایگاههای داده بزرگی هستند که به سازمانهای عمومی یا مؤسسات دولتی تعلق دارند و مجموعه دادهها توسط شرکت ها ارایه می شوند. متأسفانه، راحتی استفاده از این روش، بدون هزینه نیست. دادههای دولتی به کندی جمعآوری میشوند، میتوانند به سرعت منسوخ شوند و به ندرت شناخته تازه ای فراهم می کنند؛ چرا که همان نقاط داده توسط هزاران دانشمند تجزیه و تحلیل میشوند. داده های ارائه شده توسط سازمان های خصوصی ممکن است جانبدارانه باشند. اگر اطلاعات حساس باشد، کسب و کار ممکن است اصرار داشته باشد که نتایج نهایی مطالعه را ببیند که اغلب به سوگیری گزارش می انجامد.
منابع بیشماری از دادههای جایگزین رایگان در وب، امکان انجام تحقیقات منحصربهفرد را فراهم میکند که در غیر این صورت محال بود. این کار مانند داشتن یک مجموعه داده بی نهایت است که می تواند با هر اطلاعاتی به روز شود. اگرچه وب اسکرپینگ قطعاً نیامند دانش خاصی است، اما راه حل های امروزی جمع آوری داده ها به کاربران امکان می دهد حجم عظیمی از داده های جایگزین را تنها با مهارت های برنامه نویسی اولیه استخراج کنند. آنها می توانند داده ها را در لحظه برگردانند و پیش بینی های علمی را دقیق تر کنند، در حالی که روش های سنتی جمع آوری داده ها اغلب دارای تاخیر زمانی قابل توجهی است.
توجه به این نکته مهم است که به ندرت دلیل خوبی (هم از نظر زمانی و هم از نظر منابع) برای دانشگاهیان وجود دارد که خراش دهنده ها و تجزیه و تحلیل داده خود را از ابتدا بسازند. اشخاص ثالث می توانند به راحتی مدیریت پروکسی، حل CAPTCHA، یا ساختن اثر انگشت منحصر به فرد را انجام دهند تا دانشمندان بتوانند وقت خود را به طور کامل به تجزیه و تحلیل داده ها و تحقیق اختصاص دهند.
CAPTCHA یا (Completely Automated Public Turing Test To Tell Computers and Humans Apart ) به معنی «آزمایش اتوماتیک عمومی برای تشخیص انسان از کامپیوتر» است.
ترس از ابهام قانونی
وب اسکرپینگ با نگرانی های حقوقی مختلفی احاطه شده است که باعث شده برخی از محققان از استفاده از کلان داده های عمومی در مطالعات خود دلسرد شوند. از آنجا که این صنعت نسبتاً جدید و به روی بازیگران مختلف باز است، مواردی از فعالیت های غیرحرفه ای یافت می شود. با این حال، هر ابزار دیجیتالی می تواند برای اهداف مثبت و منفی به کار رود.
هیچ چیز ذاتاً غیراخلاقی در مورد وب اسکرپینگ وجود ندارد؛ زیرا به سادگی فعالیت هایی را که افراد دستی انجام می دهند، به صورت خودکار انجام می دهد. Googlebot معروف ترین وب اسکرپ است که می شناسیم و روزانه به آن وابسته ایم. وب اسکرپینگ کاربرد گسترده ای در تجارت الکترونیک دارد. وب سایت های بزرگ مقایسه پرواز، هزاران سایت خطوط هوایی را برای جمع آوری داده های قیمت گذاری عمومی خراش می دهند. دریافت بهترین معامله برای سفر به نیویورک به فناوری های جمع آوری داده های وب عمومی بستگی دارد.
از آنجا که وب اسکرپینگ مستلزم برخی مخاطرات است، دانشگاهیان اغلب این روش به طور کامل کنار می گذارند و به منابع داده های سنتی بازمی گردند. بهترین راه رهایی از این ابهام، مشورت با یک متخصص حقوقی قبل از آغاز یک پروژه بزرگ جمع آوری داده است.
نکته پایانی
وب اسکرپینگ هنوز در محافل عمومی و دانشگاهی مورد توجه قرار نگرفته است. با این حال، با افزایش حجم دادههای وب در هر سال، تجزیه و تحلیل کلان دادهها به تدریج به بخشی اجتنابناپذیر از تحقیقات علمی تبدیل میشود. همانطور که امروزه آموزش مبانی اس پی اس اس حتی در دانشکده های علوم اجتماعی معمول است، آشنا کردن دانشجویان با شیوههای وب اسکرپینگ باید عادی شود.
درست است که این شیوه مستلزم برخی مخاطرات و ملاحظات اخلاقی است، اما آزمایشهای علمی در آزمایشگاهها نیز همین مسائل را در بردارد. حتی اگر سازمانها قبل از وب اسکرپینگ باید با متخصصان حقوقی مشورت کنند، اما بهترین شیوههای صنعتی وجود دارد که با رعایت آنها، مخاطرات مرتبط با جمعآوری دادههای وب را به حداقل میرساند.
نظر شما