X

Data Science

علم داده ها یا Data Science  چیست؟

علم داده (data science)، یک زمینه میان رشته‌ای است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود.
در این دانش از روش‌ها و نظریه‌های علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده می‌شود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهش‌های تجربی، بنیادی، محاسباتی و اکنون داده‌محور ) تصور کرده و چنین ارزیابی می‌کند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».


DataScience

مرتب‌سازی داده‌ها

مرتب‌سازی داده‌ها شامل ترتیب دادن فرمت داده‌هایی است که در نگاه اول فرد را سردرگم می‌کنند؛ لذا تحلیلگر می‌بایست ابتدا داده‌ها را به گونه‌ای مرتب سازد که در آینده بتواند به سادگی به بررسی و تحلیل آنها بپردازد. برای روشن‌تر شدن این مسأله، مثالی می‌زنیم.
فرض کنیم که قرار است داده‌های مرتبط با کاربرانی که در ایران به دنبال آموزش آنلاین برنامه‌نویسی هستند را مورد ارزیابی قرار دهیم اما مشکل اینجا است که داده‌ها در یک فایل جامع قرار نداشته و بسته به شهرهای مختلف از یک سو و همچنین نوع زبان برنامه‌نویسی مد نظر از سوی دیگر، داده‌های مجزایی داریم. فرایند مرتب‌سازی داده‌ها در این مثال به این شکل است که ابتدا می‌بایست تمامی داده‌ها را تجمیع کنیم اما نکته اینجا است که حتماً می‌بایست اطمینان حاصل کنیم کلیهٔ ردیف‌ها و ستون‌های فایل (به طور مثال یک فایل اکسل) جایگاه خود را حفظ کرده و در این مثال هیچ داده‌ای به اشتباه در ستون دیگری قرار نمی‌گیرد که چنین کاری خیلی هم ساده نیست!
تحلیل داده‌ها
وقتی پای تحلیل داده‌ها به میان می‌آید، بسیاری از ما به یاد نرم‌افزار اکسل شرکت مایکروسافت می‌افتیم اما واقعیت امر این است که وقتی ما با Big Data سروکار داریم، نه تنها نرم‌افزارهایی از این دست پاسخگوی نیاز ما نخواهند بود بلکه سیستم‌های سخت‌افزاری معمولی نیز زیر بار چنین تحلیلی کم خواهند آورد و گاهی‌اوقات ما به چندین سیستم قوی نیاز داریم.
در فرایند تحلیل داده‌ها، کارشناسان تمام سعی خود را به کار می‌بندند تا داده‌ها را از قالب جدول به صورت بصری (گراف) درآورند تا به صورت ملموس‌تری بتوان به بررسی آنها پرداخت. برای درک بهتر این موضوع، مثالی از شبکهٔ اجتماعی فیسبوک می‌زنیم. تحلیلگران داده‌ در شرکت فیسبوک متوجه شدند که داشتن حداقل ۱۰ دوست برای یک کاربر فیسبوک، این تضمین را ایجاد خواهد کرد که این کاربر حضوری مستمر در این شبکه اجتماعی داشته باشد لذا مهندسین این شرکت تمام تلاش خود را به کار بستند تا سازوکاری ایجاد کنند تا کاربران فیسبوک خیلی راحت‌تر بتوانند دوستان قدیمی خود را بیابند تا در نتیجه به عنوان کاربران پایه ثابت فیسبوک مبدل شوند.
مدل‌سازی/آمار 
پس از آنکه داده‌های اولیه مرتب شدند و سپس به صورت کاملاً بصری در اختیار کارشناسان قرار گرفتند، حال نوبت به پیش‌بینی آینده از روی آمار و ارقام به دست آمده و مدل‌سازی می‌رسد که در عین حال، کاری بس پیچیده و حساس است. برای مثال، اگر بخواهیم سایت الکسا را مد نظر قرار دهیم، کارشناسان این سایت می‌بایست مدل یا بهتر بگوییم الگوریتمی طراحی کنند که بر اساس آمار فعلی سایت‌ها بتواند پیش‌بینی تعداد ویزیتورهای آتی این سایت‌ها نیز در اختیار وب‌مسترها قرار دهد.

مهندسی/نمونه‌سازی 

پس از برخورداری از یک مدل/طرح خوب از داده‌های به دست آمده، تازه به اصل کار می‌رسیم که همان عملی ساخت طرح است. در مورد قبلی سایت الکسا را مثال زدیم و گفتیم که چقدر خوب می‌شد اگر می‌توانستیم آماری از تعداد ویزیتورهای آتی سایتمان را در اختیار داشته باشیم، اما برخورداری از چنین الگوریتمی زمانی بسیار ارزشمندتر خواهد شد که بتوان این کار را به صورت مداوم انجام داد.
به عبارت دیگر، می‌بایست داده‌های علمی را به صورت یک محصول درآورد که افراد عادی که اطلاعی از مفاهیم Big Data و Data Science و سایر علوم مرتبط ندارند هم بتوانند آن داده‌ها را درک کرده و در زندگی حرفه‌ای خود به کار گیرند.
سخن پایانی
شرکت‌های حرفه‌ای دنیا به تک‌تک رفتارهای کاربران و مشتریان خود به صورت علمی نگاه می‌کنند و این در حالی است که نسبت به مشتریان بالقوهٔ خود (یعنی کسانی که در حال حاضر مشتری آن شرکت نبوده اما شاید در آینده به یک مشتری مبدل گردند) نیز به عنوان منبع خوبی از داده نگاه می‌کنند. لذا اگر به فکر حضور در دنیای آی‌تی در یک بستر گسترده هستید، حتماً می‌بایست با تحلیل داده‌ها و نحوهٔ به‌کارگیری آنها در بهتر شدن خدمات و محصولات آشنا شوید.
بنابراین گرچه حرفهٔ تحلیل داده‌ها آن‌طور که در دنیا مورد استقبال گرفته در ایران محبوب واقع نشده، اما واقعیت آن است که به عنوان یکی از حرفه‌های لازم و ضروری در دهه‌های آتی شرکت‌ها به‌خصوص آنهایی که در عرصهٔ فناوری اطلاعات فعالیت دارند قلمداد خواهد شد.

 

 

دی ان ان