تکنولوژی بیگ دیتا یک وضعیت خاص است؛ وضعیتی که یک حجم باورنکردنی و متنوع از دادهها (با ساختار و بدون ساختار) با سرعت زیاد در حال رشد هستند. اما این دادهها چگونه به پیشرفت تکنولوژی، هوش تجاری و تکنولوژی آینده کمک میکنند؟
ما میتوانیم به کمک آنالیز دادهها – تجزیه و تحلیل دادههای بسیار پیشرفته، که اغلب با استفاده از تکنیکهای هوش مصنوعی و ماشین لرنینگ تقویت میشود – دادههای بدون ساختار و پیچیده و بسیاری از مسائل غیر ممکن را درک کرده و حل کنیم. علاوه بر این میتوان از آنالیز داده های کلان برای تصمیمگیری بهتر و حرکتهای استراتژیک تجاری استفاده کرد.
آیا تا به حال به این مساله فکر کردهاید که پلتفرمهایی مثل گوگل، واتساپ، وایبر، اینستاگرام، فیسبوک و … بجز تبلیغات چه درآمد دیگری دارند و چرا به صورت رایگان چنین امکاناتی را در اختیار کاربران قرار میدهند؟ پاسخ این سوال موضوع این مقاله است.
کاربران این پلتفرمها با فعالیت خود روندهای رفتاری ایجاد میکنند، دیتای زیادی تولید میکنند و این یعنی بیگ دیتا (Big Data) یا کلان داده که بخش عظیمی از درآمد این شرکتها را ایجاد میکند.
بیگ دیتا حجم بالایی از دادههاست که به صورت لحظهای و به سرعت به مجموع آن اضافه میشود و میتوان از آن اطلاعات متفاوتی استخراج کرد. این صنعت به روشهای تجزیه و تحلیل و استخراج سیستماتیک اطلاعات میپردازد. البته جمعآوری داده و کار با آن کار چندان آسانی هم نیست. چالشهای بزرگ داده شامل ضبط دادهها، ذخیره سازی دادهها، تجزیه و تحلیل آنها، جستجو، به اشتراک گذاری، انتقال، تجسم، کوئری زدن، به روزرسانی، حفظ حریم خصوصی اطلاعات و منبع داده میشود که در مجموع فرآیند استفاده از بیگ دیتا را دشوار میسازد.
استفاده از اصطلاح بیگ دیتا به استفاده از آنالیزهای پیش بینی کننده، آنالیز رفتار کاربر یا برخی دیگر از روشهای پیشرفته دیگر تجزیه و تحلیل دادهها تمایل دارد.
این اصطلاح از دهه ۱۹۹۰ میلادی مورد استفاده قرار گرفته است. بیگ دیتا معمولاً شامل مجموعه دادههایی با اندازه های فراتر از توانایی ابزارهای نرم افزاری رایج برای ضبط، مدیریت و پردازش دادهها است. بیگ دیتا شامل دادههای ساختاری، نیمه ساختار یافته و بدون ساختار است، اما تمرکز اصلی بر روی دادههای بدون ساختار است.
تفاوت بیگ دیتا و هوش تجاری
بلوغ رو به رشد مفهوم بیگ دیتا به طرز چشمگیری تفاوت بین “بیگ دیتا” و “هوش تجاری” را مشخص میکند:
هوش تجاری (Business Intelligence) از ابزارهای ریاضی کاربردی و آمار توصیفی با دادههایی با چگالی اطلاعات بالا برای اندازه گیری موارد مختلف، تشخیص روندها و غیره استفاده میکند.
دادههای بزرگ یا همان بیگ دیتا از تجزیه و تحلیل ریاضی، بهینه سازی، آمار استقرایی و مفاهیم از شناسایی سیستم غیرخطی گرفته تا قوانین استنباطی (رگرسیون، روابط غیرخطی و تأثیرات علی) و مجموعههای بزرگ دادهها با چگالی اطلاعات پایین برای آشکار کردن روابط و وابستگی استفاده میکند.
ویژگیهای بیگ دیتا
اصطلاح “بیگ دیتا” به دادههای بزرگ، سریع و پیچیده گفته میشود که پردازش آن با استفاده از روشهای سنتی دشوار یا غیرممکن است. کارهای زیادی برای دستیابی و ذخیره اطلاعات و تجزیه و تحلیل دیتا در طول زمان انجام شده است. مفهوم بیگ دیتا در اوایل قرن حاضر با توصیف سهگانهی تحلیلگر صنعت، داگ لنی واضحتر و سپس ویژگیهای دیگری نیز برای آن تعریف شد:
- حجم دیتا (Volume)
این ویژگی کمیت و مقدار دادههای تولید شده و ذخیره شده را بیان میکند. اندازه دادهها ارزش و چشمانداز بالقوهی آن را تعیین میکند. سازمانها دیتا را از منابع مختلفی از جمله معاملات تجاری، دستگاههای هوشمند (IoT)، تجهیزات صنعتی، فیلمها، رسانههای اجتماعی و موارد دیگر جمع آوری میکنند. در گذشته، ذخیره سازی این حجم عظیم مشکل بود اما سیستم عاملهای ارزانتری مانند data lakes و Hadoop این مشکل را حل کرده است. مهم است که هر آنچه در جستجوی آن هستیم را در بیگ دیتا بیابیم.
- تنوع دیتا (Variety)
تنوع به معنی نوع و ماهیت دادهها است. این ویژگی به ایجاد بینش موثر تحلیلگران دیتا کمک میکند. بیگ دیتا از متن، تصاویر، صدا، فیلم و … به دست میآید، بعلاوه دیتای گمشده را از طریق تلفیق دادهها تکمیل میکند. به همین دلیل تنوع زیادی در آن وجود دارد.
- سرعت دیتا (Velocity)
سرعتی که در آن دادهها تولید و پردازش میشوند تا خواستهها و چالشهایی را که در مسیر رشد و توسعه قرار دارد، برآورده کند یکی از ویژگیهای اصلی بیگ دیتاست. بیگ دیتا اغلب در زمان واقعی در دسترس است. در مقایسه با دادههای کوچک، دادههای بزرگ بطور مداوم تولید میشوند. دو نوع سرعت مربوط به دادههای بزرگ، فراوانی تولید و دفعات استفاده، ضبط و انتشار است.
با رشد اینترنت اشیاء (Internet of Things)، اینترنت، دنیای دیجیتال و شبکههای اجتماعی دادهها با سرعتی بی سابقه به مشاغل منتقل میشوند و باید به موقع مدیریت و پردازش شوند. دادهها در انواع مختلفی از قالبها ارائه میشود، از دادههای عددی ساختار یافته در پایگاه دادههای سنتی گرفته تا اسناد متنی بدون ساختار، ایمیل، فیلم، فایلهای صوتی، دادههای سهام و معاملات مالی و …
- صحت دیتا (Veracity)
این ویژگی تعریفی گسترده برای بیگ دیتا است که به کیفیت دادهها اشاره دارد. کیفیت دادههای ضبط شده میتواند تا حد زیادی متفاوت باشد و بر تجزیه و تحلیل دقیق تأثیر بگذارد. دادهها از منابع مختلفی تهیه میشوند، بنابراین پیوند، هماهنگی، پاکسازی و تبدیل دادهها کار دشواری است.
کسب و کارها باید روابط، سلسله مراتب و پیوندهای دادههای مختلف را به یکدیگر متصل و مرتبط کنند. در غیر این صورت، دادههای آنها میتوانند به سرعت از کنترل خارج شوند.
- جامعیت دیتا (Exhaustive)
ضبط کلیه دیتای موجود مساله مهمی است. اینکه آیا دیتایی که در اختیار داریم میتواند نمونه کاملی از جامعه اصلی باشد یا خیر.
- مرتبط بودن دادهها (Relational)
اگر دادههای جمع آوری شده شامل زمینههای مشترکی باشد، میتواند ترکیب یا متا آنالیز مجموعههای مختلف داده را امکانپذیر کند.
- گستردگی دادهها (Extensional)
زمینههای جدید در هر عنصر از دادههای جمعآوری شده میتواند به راحتی اضافه شود یا تغییر کند.
- مقیاسپذیری دادهها (Scalability)
گسترش سریع اندازه دادهها.
- ارزش دادهها (Value)
سود و منفعتی که میتوان از دادهها استخراج کرد ارزش داده را نشان میدهد.
- تغییرپذیری دادهها (Variability)
علاوه بر افزایش سرعت و انواع دادهها، جریان دادهها نیز غیرقابل پیش بینی و تا حد زیادی متفاوت است و اغلب تغییر میکند. این مساله چالش برانگیز است، اما مشاغل باید بدانند که چه چیزی در رسانههای اجتماعی ترند میشود و چگونه میتوان حجمهای داده روزانه، فصلی و رویدادهای ترند را مدیریت کرد.