در بخش نخست میزگرد تخصصی اداره کل پژوهشهای ایرنا با عنوان «نقش مراکز دادهکاوی در پیشبینی انتخابات ریاست جمهوری»، درباره اینکه اصولا میتوان فضای مجازی را آینه جامعه واقعی دانست یا نه و همچنین ظرفیت دادهکاوی در پیشبینی انتخابات، بحث شد. در بخش دوم، به طور مفصل نسبت دادهکاوی با نظرسنجی در رصد و تحلیل افکار عمومی بحث شد و در بخش سوم، مرجعیت مجازی در انتخابات ریاست جمهوری سال جاری مورد تحلیل قرار گرفت.
مهمانهای برنامه که از ۲ شرکت لایفوب و دیتاک دعوت شده بودند، درباره فعالیتهای باتها در فضای مجازی و همچنین مهمترین چالشهای دادهکاوی در ایران و بحث ضریب پراکندگی اینترنت به عنوان یکی از مشکلات کشور در حوزه دادهکاوی اظهار نظر کردند. لایف وب با بررسی محتوای گروههای تلگرامی میزان آرای پزشکیان در دور دوم را با اختلاف ناچیزی ۵۴ درصد برآورد کرد، این در حالی است که شرکت دیتاک به برآورد کلی مشارکت پرداخت و آن را در دور اول با اختلاف ۵ درصد و در دور دوم با اختلاف ۳ درصد تخمین زد.
در ادامه، سخنان «حمیدرضا کشاورز» مدیرعامل شرکت لایف وب و «امیرحسین عسگری» مدیرعامل شرکت دیتاک درباره بسترهای مختلف داخلی از ایتا و روبیکا تا بسترهای خارجی همچون توئیتر، تلگرام و اینستاگرام و نقش هر یک در ضریب وزنی افکارعمومی بحث و تبادل نظر شده است:
ایرنا: دادهکاوی بر اساس بسترهای مختلف و نقش و وزن هر کدام از این بسترهای خارجی و داخلی، از کلیدیترین و مهمترین سوالاتی است که در تحلیل شبکههای اجتماعی وجود دارد. شما نقش و تاثیر بسترهایی مانند ایتا، تلگرام، توئیتر و اینستاگرام را در برداشت و تفسیر افکار عمومی چگونه تحلیل میکنید؟
کشاورز: بررسیهای روندشناسانه ما نشان میدهد که بسترهای رسانهای در حال تغییر هستند. بهطور مثال اینستاگرام بسیار سیاسی شده و فضای توئیتر که سیاسی و حتی سیاسی محفلی بوده، فرهنگیتر شده است.
مدیرعامل لایف وب: در انتخابات اخیر طیف اصولگرایان و انقلابیون فعالیت بسیار زیادی داشتند. اگر امکان تشخیص فعالیتهای رباتیک و شبه رباتیک وجود نداشت، در تبیین و ترسیم فضای موجود، قطعا به بیراهه میرفتیم و احتمالا پیروزی جریان انقلابی و اصولگرا را پیشبینی میکردیمبه طور مشخص در روند بررسیها در سالهای اخیر توئیتر را به عنوان بستری برای کنشگری اصلاحطلبها، معارضان و براندازان میشناختیم، اما در انتخابات اخیر طیف اصولگرایان و انقلابیون فعالیت بسیار زیادی داشتند. اگر امکان تشخیص فعالیتهای رباتیک و شبه رباتیک وجود نداشت در تبیین و ترسیم فضای موجود، قطعا به بیراهه میرفتیم و احتمالا پیروزی جریان انقلابی و اصولگرا را پیشبینی میکردیم.
یکی از چالشهایی که درباره دادههای آنلاین وجود دارد، موضوع فیلترینگ بسترهای مجازی است و کاربرها مدام در حال جابهجایی بین بسترهای مجازی بعد از فیلترینگ هر کدام هستند. (بهطور مثال از وایبر به تلگرام، از تلگرام به واتسآپ و به دلیل امکانات بیشتر دوباره از واتسآپ به تلگرام.)
نمیتوان بسترهای داخلی ایتا، روبیکا و بله را معرف همه جامعه دانست
نکتهای که حائز اهمیت است اینکه همچنان نمیتوان بسترهای داخلی ایتا، روبیکا و بله را معرف همه جامعه دانست. بلکه این پیامرسانها معرف نظرات بخشهایی از جامعه هستند و در مقایسه با رقبای خارجیشان هنوز نمیتوان دادههای مشخص و کاربردی از آنها استخراج کرد.
ایرنا: آقای عسگری لطفا شما هم درباره این بسترها صحبت کنید ضمن این که در پیشبینیهایی که شما درباره میزان مشارکت در انتخابات و میزان پیروزی نامزدها ارائه دادید از پلتفرم خاصی نام نبردید. نحوه ارزیابی تجمیعی از همه بسترهای مجازی چگونه است؟
عسگری: بسترها یکی از اصلیترین متغیرهایی هستند که در زیست آنلاین باید در نظر داشته باشیم. بهطور مثال در نظرسنجی حضوری کاملا مشخص است که شما از چه منبعی پرسش کردهاید. در مورد انتخابات که موضوعی جامع و ملی است و میخواهیم رفتار جامعه ایرانی را مورد بررسی قرار دهیم، هرچقدر بسترهای بیشتری داشته باشیم، بهتر است. این که به هر کدام از این بسترها چه وزنی بدهیم کار را پیچیده میکند. در مورد هر حوزهای که بخواهید به شناخت برسید با این چالشها مواجه هستید.
هنر نظرسنجی، تخمین میزان مرددین براساس روندها و تجربیات گذشته است
در نظرسنجی اگر برای تشخیص مرددین فرمولی نداشته باشید عملا کار خاصی انجام ندادهاید و فقط یک فرم نظرسنجی پر کردهاید. هنر در این است که بگویید بر اساس تجربه، بر اساس بینش، روندهای گذشته و نظرسنجیهایی که در سهماه گذشته انجام دادهایم آمار مرددین را ارائه میدهیم و این یک کار کاملا بینشی است و ریسک بسیار بالایی دارد زیرا بعد از اعلام نتایج باید پاسخگوی این آمار باشید.
شرایط انتخابات امسال، بسیار خاص بود
البته انتخابات امسال بسیار خاص بود. در انتخابات پیشین، از ۶ ماه قبل شروع به نظرسنجیهای متعدد میکردند و امکان رفع خطاها زیاد بود زیرا در این فاصله روند تغییرات و نظرات قابل بررسی بود. اما در انتخابات امسال ۵۰ روز زمان بود و این بررسیهای سریع کار را مشکل میکرد و دقت را پایین میآورد ضمن اینکه در دنیای امروز ما با مساله سرعت بالای زندگی و سرعت بالای تغییرات مواجهیم.
در ۱۵ سال گذشته اگر چهار روز قبل از انتخابات نظرسنجی میکردید، نتیجه با روز انتخابات درصد بسیار کمی تفاوت داشت. اما اکنون به این صورت نیست یک اتفاق، یک خبر، یک مناظره، یک کنش و واکنشی که در فضا اتفاق میافتد میتواند نتیجه را تغییر دهد زیرا سرعت تغییرات و تحولات بالا است.
مدیرعامل دیتاک: مزیت دادهکاوی نسبت به نظرسنجی این است که میتوان در فاصله زمانی کمتر و با هزینه پایینتر، دادهها را استخراج و تغییر روندها را مشخص کرد. در دیتاک به این صورت روند مشارکت را در دور دوم با 3.1 درصد خطا و در دور اول با ۵/۲ درصد خطا پیشبینی کردیمنکته بعدی که خاص بودن این انتخابات را نشان میدهد این است که تعداد مراکزی که آمار خود را ارائه دادند، بیسابقه بود و پیش از این در هیچ انتخاباتی وجود نداشت که مراکز مختلف تلفنی و حضوری و کلان داده به طور مرتب وضعیت و مسائل را نشان دهند.
در حالت کلی، هر چقدر به زمان انتخابات نزدیکتر میشدیم، فضا داغتر میشود و این در انتخابات امسال وجود نداشت
نکته مهم این است که روندها در تحلیل و تفسیرهایی که در ذهن تحلیلگرها و مدیرانی که نتیجه نهایی را اعلام میکنند، اثر دارد. یکی از روندها این است که هر چقدر به زمان انتخابات نزدیکتر میشویم فضا داغتر میشود و این موضوع در انتخابات امسال وجود نداشت هر چقدر به دور اول انتخابات نزدیکتر میشدیم این داغی فضا وجود نداشت و مثل انتخاباتهای قبلی نبود.
این باعث میشود که مانند انتخابات گذشته که چند روز مانده به انتخابات نتایج نظرسنجی را اعلام میکردند و به نتیجه اصلی نزدیک بود امسال هم به همین شکل چند روز قبل آمار را اعلام کردند ولی نتیجه مشارکت بسیار پایینتر بود.
در این شرایط، مزیت دادهکاوی نسبت به نظرسنجی این است که میتوانیم در فاصله زمانی کمتر و با هزینه پایینتر دادهها را استخراج کنیم و تغییر روندها را مشخص کنیم و ما در دیتاک به این صورت روند مشارکت را در دور دوم با ۳/۱ درصد خطا و در دور اول با ۵/۲ درصد خطا پیشبینی کردیم. در دور اول انتخابات روند نزولی و در دور دوم روند صعودی را پیشبینی کردیم.
در مورد بسترها اگر ما به عنوان مرکز تحلیلی که روی کلان دادهها کار میکنیم هر چقدر ارتباطمان با جامعه بیشتر باشد ضریبی که در آخر ارائه میدهیم با دقت بیشتری است. خود ما اگر گزارش سالانه را با دقت انجام نداده بودیم در پیشبینی انتخابات با مشکل مواجه میشدیم. اما آنقدر کار کرده بودیم که اشراف کامل به ایتا، روبیکا، اینستاگرام، کامنتهای اینستاگرام، توئیتر، تلگرام و کامنتهای تلگرام داشتیم و با دقت تمام پیشبینی را انجام دادیم.
در انتخابات، کامنتهای تلگرام معرف دقیقتر و فراگیرتری از جامعه بودند
در مورد این انتخابات که یک موضوع ملی، سیاسی و اجتماعی بود، کامنتهای تلگرام دقیقتر و فراگیرتر بودند اما در موارد دیگر باید در بسترها بررسی شود تا بستر دقیقتر مشخص شود. به طور مثال طبق تحلیل کامنتهای ۲ کانال تلگرامی خبر فوری و آخرین خبر که یک طیف رسانهای میانهرو را نمایندگی میکنند، پزشکیان در روزهای مختلف ۶۵ تا ۷۰ درصد پیشرو بود. اما این طیف بخشی از جامعه را نمایندگی میکند و نمیتواند نماینده همه جامعه باشد. بنابراین باید همه بسترها یعنی ایتا، روبیکا، بله، توئیتر، اینستاگرام و تلگرام را در نظر بگیریم و با بینشی که به دست آوردهایم ضریبشان را به دست آوریم.
خبرگزاریها و روزنامهها چون طرفداری از اصحاب قدرت میکنند برای بررسی جز این مجموعه قرار نمیگیرند.
دادهکاوی در انتخابات را فقط به برآورد و پیشبینی نتایج انتخابات تقلیل ندهیم
ایرنا: از نظر شما، تخمین مشارکت و نامزدهای پیروز بر اساس دادهکاوی به چه صورت انجام میشود؟
مدیرعامل لایفوب: دادهکاوی در انتخابات را فقط به برآورد و پیشبینی نتایج انتخابات، تقلیل ندهیم. دادهکاوی برای کنشگری و راهبری نامزدها و کمپینها میتواند مفید باشد اینکه چه پیامی را چه کسی و کجا و چطور منتقل کند بسیار مهم است و دادهکاوی میتواند این کار را انجام دهد
کشاورز: دادهکاوی به عنوان حوزه دانشی میان رشتهای این ادعا را ندارد که فقط با دادههای آنلاین قرار است کاری بکند. باید ترکیبی از روشهای آفلاین و آنلاین بررسی شود تا بتوانیم محاسبه دقیقتری داشته باشیم. دادهکاوی در انتخابات را فقط به این که برآورد و پیشبینی نتایج انتخابات را انجام میدهیم، تقلیل ندهیم. دادهکاوی به شدت برای کنشگری و راهبری نامزدها و کمپینها میتواند مفید باشد اینکه چه پیامی را چه کسی و کجا و چطور منتقل کند بسیار مهم است و دادهکاوی میتواند این کار را انجام دهد.
ما شاهد این هستیم که کاندیدایی در یک دورهای بعضی از شعارها و وعدهها را مطرح کرده در حالیکه آن شعارها با عقاید و عملکرد و سابقه رفتاری آن شخص سنخیتی نداشته است. قبل از این در شبکه آنلاین مشخص بوده است که جامعه نسبت به شعاری که آن فرد میدهد پذیرشی نخواهد داشت و برای آن شخص اولویتهای مردم در آن دوره و نیازهای آنان در آن بزنگاه مشخص میشود. طراحی کمپین، طراحی شعار، طراحی صحبتها و سخنرانیها از دادهکاوی مشخص میشود. به همین دلیل دادهکاوی را نباید فقط به پیشبینی و بررسی نتایج انتخابات تقلیل داد.
نکته بعدی این است که ما در لایفوب قبل از انتخابات بررسی کامل را انجام داده بودیم و نتیجه انتخابات در گروههای تلگرامی به نتیجه اصلی انتخابات نزدیکتر بود اما این نتیجه را بصورت عمومی منتشر نکردیم و به طور خاص برای نهادها و ارگانهایی که گزارش تهیه میکردیم ارسال کردیم.
بحث روششناسی و نظری از اولویتهای اصلی و مغفول دادهکاوی است
بطور کلی سامانههای دادهکاوی ممکن است در اختیار کاربران مختلفی قرار بگیرد. ما توسط کوئری(جستجو) مناسب دادههای مورد نظر را از دریای دادهها استخراج میکنیم، اگر کوئریها درست و جامع نباشد دادههای استخراج شده ما را منحرف میکند و این مربوط به موضوعات مختلف هم میشود.
بنابراین بحث روششناسی و نظری که از بررسیها پشتیبانی میکند بسیار مهم است و آن علم به کارگیری روشها و ابزار محاسباتی برای جمعآوری و تحلیل دادهها با استفاده از نظریههای علوم اجتماعی است. باید نظریههایی از این دادهها پشتیبانی کند در غیر این صورت اگر فکر کنیم که کلان دادهای وجود دارد و بخواهیم آن را به جامعه تعمیم دهیم قطعا ما را به بیراهه میبرد.
نگرانی که وجود دارد تعدد و تکثر مراکز دادهمحور است که طبعا هم به دلایل مادی و هم زیرساختی و لجستیکی، هر جایی نمیتواند ادعا کند که داده جامعی جمع آوری میکند. به طور مثال در این انتخابات یکی از مراکز دادهکاوی ادعا کرده بود که در یک روز ۵ میلیون داده اینستاگرام بررسی کرده است. قطعا در اینستاگرام به خاطر محدودیتهایی که دارد مثل توئیتر و تلگرام امکان جمع آوری این تعداد داده در یک روز میسر نیست.
ساز و کاری برای راستیآزمایی آنها وجود ندارد، ادعاهایی مطرح میشود، آن عدد بزرگ و قابل توجه به نظر میرسد بطور مثال دیتاک و ایسپا و دیگران گفتهاند و آنها هم میانگینی میگیرند و هزینهای برای ارائه ادعاهای نظرسنجیشان میکنند. چون انتخابات بزنگاه این حوزه برای مطرح کردنشان است، اما اساسا به این شکل نیست و نگرانی عمدهای که وجود دارد این است که با توجه به این که همچنان میشود از ظهور و بروز این حوزه به عنوان یک حوزه نوپدید یاد کرد، این که هم از لحاظ نظری و هم روشی و هم خروجیهایش بدنام شود بسیار بد است.
اما متاسفانه این اتفاق هم در فضای تحلیلی و هم در حوزه جمعآوری دارد میافتد و خروجیهایی که حاصل میشود ناپخته و خام منتقل میشود و خیلیها را به خروجیهایی که از این حوزه دانش و فنی ارائه میشود بدبین میکند.
انتخابات ۱۴۰۳، رویکرد مدیران و کارشناسان نسبت به دادهکاوی را تغییر داد
عسگری: در این انتخابات بخش زیادی از تصورات نادرستی که در مورد حوزه تحلیل کلاندادهها در ذهن مدیران شکل گرفته بود تغییر کرد و بهبود پیدا کرد. چون به واسطه همین رفتارهایی که عدهای انجام میدهند این موضوع در ذهن بخش بهرهبردار اشتباه شکل گرفته بود. این موضوع که میخواهیم به سراغ بخش دادهکاوی برویم بحث بسیار پیچیده و کارشناسی است و در این برهه وظیفه مراکزی مثل ما است که به دلیل شناختی که از این فضا داریم هر بهرهبرداری که میخواهد در این فضا کار کند را راهنمایی کنیم.