جدال دادهها فرآیندی است که اغلب توسط تحلیلگران داده هنگام شروع کار با مجموعههای جدیدی از دادههای خام استفاده میشود. ممکن است قبلاً این اصطلاح را شنیده باشید که از آن به عنوان آماده سازی داده یاد میشود. به عبارت سادهتر، جدال دادهها به معنای سازماندهی و استاندارد کردن قالب آن است تا بتوان آنها را با پردازش دادههای نرمافزاری تجزیه و تحلیل کرد.
این یک وظیفه مهم در روز یک دانشمند داده است، بنابراین اگر میخواهید وارد حرفهای در علم داده یا تجزیه و تحلیل داده شوید، یادگیری در مورد بحث و جدل داده بسیار مهم است. در واقع، گزارش Anaconda State of Data Science 2020 نشان داد که دانشمندان داده حدود 26٪ از زمان خود را صرف بحث در مورد دادهها میکنند.
جدال داده چیست؟
وقتی تحلیلگران و دانشمندان داده، دادهها را تجزیه و تحلیل میکنند، مدلهایی را کد میکنند که دادهها را میخوانند و ورودیهایی را برمیگردانند که با نیازهای آنها مطابقت دارد.
با این حال، کامپیوترها اطلاعات را به روشی که ما انجام میدهیم نمیخوانند. برای یک کامپیوتر، کلمات Germany، DE و Deutschland صرفاً رشته های متنی متفاوتی هستند که هیچ ارتباط ظاهری با یکدیگر ندارند. اما برای انسانها، هریک از این کلمات به یک کشور اشاره دارد.
به عنوان مثال، تصور کنید که سه داده مختلف در مورد آلمان به این ورودیها پیوست شده است. اگر از یک پایگاه داده برای تمام دادههای آلمان پرسوجو کنید، فقط یک ورودی را که دقیقاً با رشته متن “آلمان” مطابقت دارد، برمیگردانید.
اهداف
هدف از جدال دادهها دریافت دادهها به شکل خام خود از منابع و در قالبهای مختلف است. گام بعدی سازماندهی، تمیز کردن و استانداردسازی آن است. این به معنای حذف موارد تکراری، استاندارد کردن قالبهای تاریخ و اختصارات و بررسی خطاها است تا بتوان از دادهها برای تجزیه و تحلیل استفاده کرد.
مزایا
جدال دادهها یک مرحله ضروری در فرآیند علم داده است که شما را قادر میسازد آن تحلیل را انجام دهید. اگر دادههای شما استاندارد نبوده و مملو از خطاها و موارد تکراری است، هر درخواستی که از آن بکنید مجموعههای ناقص و نادرستی از دادهها را برمیگرداند که در هنگام تجزیه و تحلیل نتایج نامعتبر ایجاد میکند.
چالش ها
چالشهای اصلی بحث در مورد دادهها، زمان و مقدار محدود کاری است که میتواند خودکار شود. در حالیکه بسیاری از کتابخانههای پایتون وجود دارند که میتوانند به سادهسازی فرآیند بحث برای مشکلات رایج (یعنی استانداردسازی قالبهای تاریخ) کمک کنند. واقعیت این است که همیشه مشکلات سفارشی وجود دارد که نیاز به تصحیح دستی دارند.
فقط یک انسان میتواند معنای معنایی یک قالب غیراستاندارد را درک کند و آن را به نحو استانداردی که نرمافزار میتواند سازماندهی کند تغییر دهد.
چه ابزارهایی باید در جدال داده استفاده شود؟
از نظر ابزارهای بحث و جدل، تحلیلگران داده اسکریپتها را مینویسند و از کتابخانههای اسکریپت برای به هم زدن دادههای خود استفاده میکنند. پایتون یک نمونه محبوب از یک زبان برنامه نویسی است که برای بحث در مورد دادهها و نوشتن ساختارهای داده و الگوریتمها استفاده میشود. این بر خوانایی تمرکز دارد و دارای یک جامعه بزرگ است که هزاران کتابخانه (یا “بسته”) را برای اهداف جدال داده ایجاد کرده است.
بستهها مجموعهای از ماژولهای از پیش نوشته شده هستند که میتوانند فرآیندهایی را که یک تحلیلگر داده باید به صورت دستی انجام دهد، خودکار کند. به عنوان مثال، هنگام استانداردسازی قالب نام کشور برای مجموعهای از دادهها، یک تحلیلگر داده باید به صورت دستی دادهها را غربال کند تا به درستی آنها را دسته بندی کند.
با این حال، کتابخانهای که برای این منظور ایجاد شده است، حاوی الگوریتمهای جدال موجود با مجموعه دادهها برای رسیدگی به تبدیلهای رایج دادهها است. یکی از نمونههای آن ایجاد الگوریتمی است که کلمه آلمان را در هر زبانی به رشته متنی آلمانی تبدیل میکند.
فرآیند جدال داده چیست؟
جدال دادهها یک فرآیند خطی است که مراحل زیر را دنبال میکند:
کشف
اولین گام در جدال دادهها این است که مشخص کنید چه اطلاعاتی را میخواهید از آنها بدست آورید و چگونه میخواهید از آنها استفاده کنید. بسته به این شرایط، روشی که تحلیلگران داده برای ساختار و قالب بندی دادهها نیاز دارند تغییر خواهد کرد.
ساختار
هنگامی که یک هدف مشخص تعیین شد، تحلیلگران داده اولین گامها را برای تبدیل دادههای خام به چیزی قابل مدیریت برمیدارند. این شامل استاندارد کردن ورودیهای اصلی میشود تا دادهها به درستی سازماندهی شوند. برای مثال، استاندارد کردن نام کشورها و قالبهای تاریخ.
پاکسازی
فرآیند پاکسازی دادهها شامل حذف هر چیزی است که بعداً روند داده کاوی را مختل کند. خطاها، ورودیهای تهی، ورودیهای تکراری و مجموعه دادههایی که در مکان صحیح قرار ندارند، همگی حذف خواهند شد.
غنی سازی
در این مرحله، تحلیلگران داده تعیین خواهند کرد که آیا افزودن دادههای اضافی برای تجزیه و تحلیل آنها مفید است یا خیر. به عنوان مثال، هنگام تجزیه و تحلیل دادههای مربوط به کشورهای اروپایی، ممکن است بدانیم آیا کشوری عضو اتحادیه اروپا است یا خیر. افزودن این اطلاعات بهعنوان یک ستون جدید در پایگاه داده به تحلیلگران این امکان را میدهد که بر اساس آن شرایط هنگام دادهکاوی، به جای فهرست کردن دستی همه کشورهای اتحادیه اروپا، پرس و جو کنند.
اعتبارسنجی
دادهها به شدت در طول فرآیند مشاجره دستکاری میشوند، بنابراین مرحله اعتبارسنجی کیفیت نتیجه را بررسی میکند. آیا هیچ داده اصلی بطور تصادفی تغییر کرده است؟ آیا استانداردسازی بطور کامل اعمال شده است، بنابراین وقتی فرمتی را که میخواهید حذف کنید درخواست میکنید، چیزی برگردانده نمیشود؟ آیا هیچ خطایی مورد توجه قرار نگرفته است؟ حتی خطاهای کوچک بر نتایج نهایی تجزیه و تحلیل تأثیر میگذارد، بنابراین بررسی کیفیت باید گسترده و کامل باشد.
انتشار
زمانی که دادهها به وضعیت قابل قبولی رسیدند، به این معنی که استاندارد، بدون خطا، مرتب و دستهبندی شده و آماده استخراج برای تجزیه و تحلیل اطلاعات مفید میشود.
سایر فرآیندهای مدیریت داده
تحلیلگران داده، دادههای پاکسازی شده را مطابق با اهداف و مقاصد اصلی که در مرحله اولیه “کشف” مشخص شده است، استخراج و تجزیه و تحلیل میکنند و نتایج خود را برای استفاده توسط مشتریان خود منتشر میکنند.
در زیر لیستی مفید از سایر فرآیندهای مدیریت داده و تفاوت آنها با بحث و جدل دادهها آمده است. همه این فرآیندها در تجزیه و تحلیل دادهها مورد مطالعه قرار میگیرند و مفید خواهند بود.
جدال داده در مقابل داده کاوی
داده کاوی استخراج الگوها و اطلاعات مفید از دادههایی است که قبلاً مورد بحث قرار گرفتهاند. دادهها پرسوجو و مطالعه میشوند تا بتوانید اطلاعاتی را که به شما میدهد به درستی درک کنید. همیشه نمیتوان نتیجه گیری صحیح را با نگاه کردن به اعداد تشخیص داد.
جدال دادهها در مقابل پاکسازی دادهها
پاکسازی دادهها فرآیند حذف ورودیهای ناخواسته از تکه دادههای شما است. این شامل ورودیهای تکراری، خطاها و ورودیهای تهی (نامعتبر) میشود.
جدال داده در مقابل آماده سازی دادهها
آماده سازی داده اصطلاح دیگری برای بحث داده است. به این معنی که فرآیند آماده سازی به بازسازی و تمیز کردن مجموعه دادههای پیچیده اشاره دارد.
جدال دادهها در مقابل تجزیه و تحلیل دادهها
فرآیندهای تجزیه و تحلیل آخرین مرحله پس از بحث و استخراج دادهها هستند. اینجاست که اطلاعات و الگوهایی که از دادههایی که اکنون پاک و قابل پرسوجو تشخیص داده شدهاند، مورد مطالعه قرار میگیرند تا مشخص شود که چگونه بر اهداف اصلی کاربران تجاری تأثیر میگذارند و با آنها ارتباط دارند.
شما همچنین میتوانید تجزیه و تحلیل دادهها را با استفاده از پایتون انجام دهید یا دادهها را از طریق یادگیری ماشین تجزیه و تحلیل کنید.
چه زمانی باید از جدال داده استفاده کنید؟
جدال داده زمانی استفاده میشود که دادهها را از منابع مختلف دریافت میکنید و قبل از اینکه بتوانید آنها را در پایگاه داده قرار دهید و پرسوجوهایی را اجرا کنید، باید تغییراتی در آن ایجاد کنید. در اینجا چند نمونه از زمانی که این امر ضروری است آورده شده است.
دیجیتالی کردن سوابق: افراد مختلف تاریخ، آدرس و سایر اطلاعات را به روش های مختلف مینویسند، بنابراین پس از دیجیتالی شدن، دادهها باید استاندارد شوند.
تشخیص کاراکتر نوری (OCR): این فرآیند خودکار زمانی استفاده میشود که انتقال دستی دادهها از کاغذ بسیار گران باشد. OCR میتواند دادهها را به صورت خودکار دیجیتالی کند، اما بدون اشتباه نخواهد بود که باید مورد بحث قرار گیرد.
جمعآوری دادهها از کشورهای مختلف: کشورهای مختلف از فرمتهای مختلفی برای ورود دادهها استفاده میکنند. به عنوان مثال، دانمارک اعداد را با نقطه به جای کاما (35.000= سی و پنج هزار) جدا میکند. دادهها از منابع مختلف مانند این باید استاندارد شوند تا بتوان همه آنها را با هم در یک پایگاه داده بزرگ جستجو کرد.
برش اطلاعات از وب سایتها: اطلاعات در وب سایتها در قالبی قابل خواندن و قابل درک برای انسان ذخیره و ارائه میشود نه پایگاه دادهها. هنگام برش وب سایتها برای دادهها، نیاز است تا مشاجره در قالبی مناسب برای پایگاههای داده و پرس و جو صورت گیرد.
آیا تمایل به آشنایی با موقعیت شغلی مهندس داده دارید؟اکنون بیاموزید.
آیا تمایل به آشنایی با موقعیت شغلی تحلیلگر داده دارید؟اکنون بیاموزید.
آیا تمایل به آشنایی با موقعیت شغلی دانشمند داده دارید؟اکنون بیاموزید.