درک جدال داده، چگونگی و زمان استفاده از آن

جدال داده‌ها فرآیندی است که اغلب توسط تحلیلگران داده هنگام شروع کار با مجموعه‌های جدیدی از داده‌های خام استفاده می‌شود. ممکن است قبلاً این اصطلاح را شنیده باشید که از آن به عنوان آماده سازی داده یاد می‌شود. به عبارت ساده‌تر، جدال داده‌ها به معنای سازماندهی و استاندارد کردن قالب آن است تا بتوان آنها را با پردازش داده‌های نرم‌افزاری تجزیه و تحلیل کرد.

این یک وظیفه مهم در روز یک دانشمند داده است، بنابراین اگر می‌خواهید وارد حرفه‌ای در علم داده یا تجزیه و تحلیل داده شوید، یادگیری در مورد بحث و جدل داده بسیار مهم است. در واقع، گزارش Anaconda State of Data Science 2020 نشان داد که دانشمندان داده حدود 26٪ از زمان خود را صرف بحث در مورد داده‌ها می‌کنند.

جدال داده چیست؟

وقتی تحلیل‌گران و دانشمندان داده‌، داده‌ها را تجزیه و تحلیل می‌کنند، مدل‌هایی را کد می‌کنند که داده‌ها را می‌خوانند و ورودی‌هایی را برمی‌گردانند که با نیازهای آنها مطابقت دارد.

با این حال، کامپیوترها اطلاعات را به روشی که ما انجام می‌دهیم نمی‌خوانند. برای یک کامپیوتر، کلمات Germany، DE و Deutschland صرفاً رشته های متنی متفاوتی هستند که هیچ ارتباط ظاهری با یکدیگر ندارند. اما برای انسان‌ها، هریک از این کلمات به یک کشور اشاره دارد.

به عنوان مثال، تصور کنید که سه داده مختلف در مورد آلمان به این ورودی‌ها پیوست شده است. اگر از یک پایگاه داده برای تمام داده‌های آلمان پرس‌و‌جو کنید، فقط یک ورودی را که دقیقاً با رشته متن “آلمان” مطابقت دارد، برمی‌گردانید.

اهداف

هدف از جدال داده‌ها دریافت داده‌ها به شکل خام خود از منابع و در قالب‌های مختلف است. گام بعدی سازماندهی، تمیز کردن و استانداردسازی آن است. این به معنای حذف موارد تکراری، استاندارد کردن قالب‌های تاریخ و اختصارات و بررسی خطاها است تا بتوان از داده‌ها برای تجزیه و تحلیل استفاده کرد.

مزایا

جدال داده‌ها یک مرحله ضروری در فرآیند علم داده است که شما را قادر می‌سازد آن تحلیل را انجام دهید. اگر داده‌های شما استاندارد نبوده و مملو از خطاها و موارد تکراری است، هر درخواستی که از آن بکنید مجموعه‌های ناقص و نادرستی از داده‌ها را برمی‌گرداند که در هنگام تجزیه و تحلیل نتایج نامعتبر ایجاد می‌کند.

چالش ها

چالش‌های اصلی بحث در مورد داده‌ها، زمان و مقدار محدود کاری است که می‌تواند خودکار شود. در حالیکه بسیاری از کتابخانه‌های پایتون وجود دارند که می‌توانند به ساده‌سازی فرآیند بحث برای مشکلات رایج (یعنی استانداردسازی قالب‌های تاریخ) کمک کنند. واقعیت این است که همیشه مشکلات سفارشی وجود دارد که نیاز به تصحیح دستی دارند.

فقط یک انسان می‌تواند معنای معنایی یک قالب غیراستاندارد را درک کند و آن را به نحو استانداردی که نرم‌افزار می‌تواند سازماندهی کند تغییر دهد.

چه ابزارهایی باید در جدال داده استفاده شود؟

از نظر ابزارهای بحث و جدل، تحلیلگران داده اسکریپت‌ها را می‌نویسند و از کتابخانه‌های اسکریپت برای به هم زدن داده‌های خود استفاده می‌کنند. پایتون یک نمونه محبوب از یک زبان برنامه‌ نویسی است که برای بحث در مورد داده‌ها و نوشتن ساختارهای داده و الگوریتم‌ها استفاده می‌شود. این بر خوانایی تمرکز دارد و دارای یک جامعه بزرگ است که هزاران کتابخانه (یا “بسته”) را برای اهداف جدال داده ایجاد کرده است.

بسته‌ها مجموعه‌ای از ماژول‌های از پیش نوشته شده هستند که می‌توانند فرآیندهایی را که یک تحلیلگر داده باید به صورت دستی انجام دهد، خودکار کند. به عنوان مثال، هنگام استانداردسازی قالب نام کشور برای مجموعه‌ای از داده‌ها، یک تحلیلگر داده باید به صورت دستی داده‌ها را غربال کند تا به درستی آنها را دسته بندی کند.

با این حال، کتابخانه‌ای که برای این منظور ایجاد شده است، حاوی الگوریتم‌های جدال موجود با مجموعه داده‌ها برای رسیدگی به تبدیل‌های رایج داده‌ها است. یکی از نمونه‌های آن ایجاد الگوریتمی است که کلمه آلمان را در هر زبانی به رشته متنی آلمانی تبدیل می‌کند.

فرآیند جدال داده چیست؟

جدال داده‌ها یک فرآیند خطی است که مراحل زیر را دنبال می‌کند:

کشف

اولین گام در جدال داده‌ها این است که مشخص کنید چه اطلاعاتی را می‌خواهید از آنها بدست آورید و چگونه می‌خواهید از آنها استفاده کنید. بسته به این شرایط، روشی که تحلیلگران داده برای ساختار و قالب بندی داده‌ها نیاز دارند تغییر خواهد کرد.

ساختار

هنگامی که یک هدف مشخص تعیین شد، تحلیلگران داده اولین گام‌ها را برای تبدیل داده‌های خام به چیزی قابل مدیریت برمی‌دارند. این شامل استاندارد کردن ورودی‌های اصلی می‌شود تا داده‌ها به درستی سازماندهی شوند. برای مثال، استاندارد کردن نام کشورها و قالب‌های تاریخ.

پاکسازی

فرآیند پاکسازی داده‌ها شامل حذف هر چیزی است که بعداً روند داده کاوی را مختل کند. خطاها، ورودی‌های تهی، ورودی‌های تکراری و مجموعه داده‌هایی که در مکان صحیح قرار ندارند، همگی حذف خواهند شد.

غنی سازی

در این مرحله، تحلیلگران داده تعیین خواهند کرد که آیا افزودن داده‌های اضافی برای تجزیه و تحلیل آنها مفید است یا خیر. به عنوان مثال، هنگام تجزیه و تحلیل داده‌های مربوط به کشورهای اروپایی، ممکن است بدانیم آیا کشوری عضو اتحادیه اروپا است یا خیر. افزودن این اطلاعات به‌عنوان یک ستون جدید در پایگاه داده به تحلیل‌گران این امکان را می‌دهد که بر اساس آن شرایط هنگام داده‌کاوی، به جای فهرست کردن دستی همه کشورهای اتحادیه اروپا، پرس و جو کنند.

اعتبارسنجی

داده‌ها به شدت در طول فرآیند مشاجره دستکاری می‌شوند، بنابراین مرحله اعتبارسنجی کیفیت نتیجه را بررسی می‌کند. آیا هیچ داده اصلی بطور تصادفی تغییر کرده است؟ آیا استانداردسازی بطور کامل اعمال شده است، بنابراین وقتی فرمتی را که می‌خواهید حذف کنید درخواست می‌کنید، چیزی برگردانده نمی‌شود؟ آیا هیچ خطایی مورد توجه قرار نگرفته است؟ حتی خطاهای کوچک بر نتایج نهایی تجزیه و تحلیل تأثیر می‌گذارد، بنابراین بررسی کیفیت باید گسترده و کامل باشد.

انتشار

زمانی که داده‌ها به وضعیت قابل قبولی رسیدند، به این معنی که استاندارد، بدون خطا، مرتب و دسته‌بندی شده و آماده استخراج برای تجزیه و تحلیل اطلاعات مفید می‌شود.

سایر فرآیندهای مدیریت داده

تحلیلگران داده، داده‌های پاکسازی شده را مطابق با اهداف و مقاصد اصلی که در مرحله اولیه “کشف” مشخص شده است، استخراج و تجزیه و تحلیل می‌کنند و نتایج خود را برای استفاده توسط مشتریان خود منتشر می‌کنند.

در زیر لیستی مفید از سایر فرآیندهای مدیریت داده و تفاوت آنها با بحث و جدل داده‌ها آمده است. همه این فرآیندها در تجزیه و تحلیل داده‌ها مورد مطالعه قرار می‌‌گیرند و مفید خواهند بود.

جدال داده در مقابل داده کاوی

داده کاوی استخراج الگوها و اطلاعات مفید از داده‌هایی است که قبلاً مورد بحث قرار گرفته‌اند. داده‌‌ها پرس‌‌و‌جو و مطالعه می‌شوند تا بتوانید اطلاعاتی را که به شما می‌دهد به درستی درک کنید. همیشه نمی‌توان نتیجه‌ گیری صحیح را با نگاه کردن به اعداد تشخیص داد.

جدال داده‌ها در مقابل پاکسازی داده‌ها

پاکسازی داده‌ها فرآیند حذف ورودی‌های ناخواسته از تکه داده‌های شما است. این شامل ورودی‌های تکراری، خطاها و ورودی‌های تهی (نامعتبر) می‌شود.

جدال داده در مقابل آماده سازی داده‌ها

آماده سازی داده اصطلاح دیگری برای بحث داده است. به این معنی که فرآیند آماده سازی به بازسازی و تمیز کردن مجموعه داده‌های پیچیده اشاره دارد.

جدال داده‌ها در مقابل تجزیه و تحلیل داده‌ها

فرآیندهای تجزیه و تحلیل آخرین مرحله پس از بحث و استخراج داده‌ها هستند. اینجاست که اطلاعات و الگوهایی که از داده‌هایی که اکنون پاک و قابل پرس‌وجو تشخیص داده شده‌اند، مورد مطالعه قرار می‌گیرند تا مشخص شود که چگونه بر اهداف اصلی کاربران تجاری تأثیر می‌گذارند و با آنها ارتباط دارند.

شما همچنین می‌توانید تجزیه و تحلیل داده‌ها را با استفاده از پایتون انجام دهید یا داده‌ها را از طریق یادگیری ماشین تجزیه و تحلیل کنید.

چه زمانی باید از جدال داده استفاده کنید؟

جدال داده زمانی استفاده می‌شود که داده‌ها را از منابع مختلف دریافت می‌کنید و قبل از اینکه بتوانید آن‌ها را در پایگاه داده قرار  دهید و پرس‌و‌جوهایی را اجرا کنید، باید تغییراتی در آن ایجاد کنید. در اینجا چند نمونه از زمانی که این امر ضروری است آورده شده است.

دیجیتالی کردن سوابق: افراد مختلف تاریخ، آدرس و سایر اطلاعات را به روش های مختلف می‌نویسند، بنابراین پس از دیجیتالی شدن، داده‌ها باید استاندارد شوند.

تشخیص کاراکتر نوری (OCR): این فرآیند خودکار زمانی استفاده می‌شود که انتقال دستی داده‌ها از کاغذ بسیار گران باشد. OCR می‌تواند داده‌ها را به صورت خودکار دیجیتالی کند، اما بدون اشتباه نخواهد بود که باید مورد بحث قرار گیرد.

جمع‌آوری داده‌ها از کشورهای مختلف: کشورهای مختلف از فرمت‌های مختلفی برای ورود داده‌ها استفاده می‌کنند. به عنوان مثال، دانمارک اعداد را با نقطه به جای کاما (35.000= سی و پنج هزار) جدا می‌کند. داده‌ها از منابع مختلف مانند این باید استاندارد شوند تا بتوان همه آنها را با هم در یک پایگاه داده بزرگ جستجو کرد.

برش اطلاعات از وب سایت‌ها: اطلاعات در وب سایت‌ها در قالبی قابل خواندن و قابل درک برای انسان ذخیره و ارائه می‌شود نه پایگاه داده‌ها. هنگام برش وب سایت‌ها برای داده‌ها، نیاز است تا مشاجره در قالبی مناسب برای پایگاه‌های داده و پرس و جو صورت گیرد.

آیا تمایل به آشنایی با موقعیت شغلی مهندس داده دارید؟اکنون بیاموزید.

آیا تمایل به آشنایی با موقعیت شغلی تحلیلگر داده دارید؟اکنون بیاموزید.

آیا تمایل به آشنایی با موقعیت شغلی دانشمند داده دارید؟اکنون بیاموزید.