علم داده ها یا Data Science چیست؟
علم داده (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده میشود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
مرتبسازی دادهها
مرتبسازی دادهها شامل ترتیب دادن فرمت دادههایی است که در نگاه اول فرد را سردرگم میکنند؛ لذا تحلیلگر میبایست ابتدا دادهها را به گونهای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آنها بپردازد. برای روشنتر شدن این مسأله، مثالی میزنیم.
فرض کنیم که قرار است دادههای مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین برنامهنویسی هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که دادهها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و همچنین نوع زبان برنامهنویسی مد نظر از سوی دیگر، دادههای مجزایی داریم. فرایند مرتبسازی دادهها در این مثال به این شکل است که ابتدا میبایست تمامی دادهها را تجمیع کنیم اما نکته اینجا است که حتماً میبایست اطمینان حاصل کنیم کلیهٔ ردیفها و ستونهای فایل (به طور مثال یک فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ دادهای به اشتباه در ستون دیگری قرار نمیگیرد که چنین کاری خیلی هم ساده نیست!
تحلیل دادهها
وقتی پای تحلیل دادهها به میان میآید، بسیاری از ما به یاد نرمافزار اکسل شرکت مایکروسافت میافتیم اما واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرمافزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستمهای سختافزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاهیاوقات ما به چندین سیستم قوی نیاز داریم.
در فرایند تحلیل دادهها، کارشناسان تمام سعی خود را به کار میبندند تا دادهها را از قالب جدول به صورت بصری (گراف) درآورند تا به صورت ملموستری بتوان به بررسی آنها پرداخت. برای درک بهتر این موضوع، مثالی از شبکهٔ اجتماعی فیسبوک میزنیم. تحلیلگران داده در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد لذا مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحتتر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه ثابت فیسبوک مبدل شوند.
مدلسازی/آمار
پس از آنکه دادههای اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیشبینی آینده از روی آمار و ارقام به دست آمده و مدلسازی میرسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت میبایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایتها بتواند پیشبینی تعداد ویزیتورهای آتی این سایتها نیز در اختیار وبمسترها قرار دهد.
مهندسی/نمونهسازی
پس از برخورداری از یک مدل/طرح خوب از دادههای به دست آمده، تازه به اصل کار میرسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب میشد اگر میتوانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داد.
به عبارت دیگر، میبایست دادههای علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و سایر علوم مرتبط ندارند هم بتوانند آن دادهها را درک کرده و در زندگی حرفهای خود به کار گیرند.
سخن پایانی
شرکتهای حرفهای دنیا به تکتک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه میکنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود (یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند) نیز به عنوان منبع خوبی از داده نگاه میکنند. لذا اگر به فکر حضور در دنیای آیتی در یک بستر گسترده هستید، حتماً میبایست با تحلیل دادهها و نحوهٔ بهکارگیری آنها در بهتر شدن خدمات و محصولات آشنا شوید.
بنابراین گرچه حرفهٔ تحلیل دادهها آنطور که در دنیا مورد استقبال گرفته در ایران محبوب واقع نشده، اما واقعیت آن است که به عنوان یکی از حرفههای لازم و ضروری در دهههای آتی شرکتها بهخصوص آنهایی که در عرصهٔ فناوری اطلاعات فعالیت دارند قلمداد خواهد شد.