مهندسان داده چه کاری انجام می دهند


به عنوان یک مهندس داده، از کارم لذت می برم، اما وقتی نوبت به یکپارچه سازی و مدیریت داده ها می رسد، کارهای زیادی وجود دارد که کاملا خسته کننده هستند. از بازسازی داده‌ها گرفته تا استفاده از نرم‌افزار برای رسیدگی به بازیابی فاجعه، گاهی اوقات ما به سادگی در حال غرق شدن هستیم. همانطور که می گویند، این یک کار سخت است، اما کسی باید آن را انجام دهد! 

بازسازی داده ها

وقتی از ابتدا شروع به ساخت یک راه حل می کنید، با یک تخته سنگ تمیز روبرو هستید. زیرساخت آماده است، تمام داده‌ها کاملاً به شیوه‌ای تقریباً هنرمندانه مدل‌سازی شده‌اند و اکنون به شکلی زیبا و تمیز در جریان هستند.

با این حال، مشکلات به زودی شروع می شود. اساساً تحلیلگران دقیق و دانشمندان داده دست خود را بر روی خلقت باشکوه شما می گیرند. آنها مدام درخواست افزایش داده ها، ادغام منابع جدید داده ها و مدل های مختلف داده برای پرسیدن انواع مختلف سوالات را می کنند. روی شانه‌های شما می‌افتد، و شما احساس می‌کنید که به نوعی شخصاً مقصر هستید که از ایجاد ارزش مبتنی بر داده‌های شرکت خود جلوگیری می‌کنید، در حالی که آنها هیچ قدردانی از اثر هنری قابل توجهی که شما خلق کرده‌اید ندارند.

مدل‌سازی داده‌ها از مدل مفهومی به مدل منطقی پیشرفت می‌کند و دنیایی قوی از اشیاء داده و روابط آنها با سایر اشیاء داده را ایجاد می‌کند. عمدتاً این توانایی را برای تحلیلگران فراهم می کند تا سؤالات مورد نیاز خود را به روشی سریع و مقرون به صرفه و ساده بپرسند. دقیقاً ماهیت قوی آن، همراه با فراوانی تغییرات مورد نیاز است که چرخه بی پایان یکپارچه سازی، آماده سازی داده ها و مدل سازی را ایجاد می کند.

مقیاس بندی خوشه ها

الگوریتم های خوشه بندی عملی برای دستیابی به همگرایی به اسکن داده های متعدد نیاز دارند. برای پایگاه های داده بزرگ، این اسکن ها بسیار گران، دست و پا گیر و وقت گیر می شوند. آنها همچنین ظرفیت زیرساخت فیزیکی را افزایش می‌دهند و خطری را برای منابع کم‌تأمین ایجاد می‌کنند.  

با توجه به اینکه معماری آنها بر روی یک سرور اجرا می شود، ماهیت مشکل ساز کلاسترهای مقیاس بندی با RDBMS بیشتر است. از نظر عملی، این بدان معناست که وقتی یک RDBMS نیاز به مقیاس دارد، باید سخت‌افزار اختصاصی بزرگ‌تر، پیچیده‌تر و گران‌تر با قدرت پردازش، حافظه و ظرفیت ذخیره‌سازی بیشتر خریداری کنید. همه این موارد مستلزم توقف طولانی مدت و تنظیمات برای ایجاد تغییر است.

مقیاس بندی خوشه ها در زیرساخت های ابری به طور کلی مشکل مقیاس پذیری را حل می کند. به عنوان مثال، مهم ترین مزیت BigQuery تغییر اندازه یکپارچه و سریع یک خوشه، تا مقیاس پتابایت است. برخلاف Redshift، نیازی به ردیابی و تجزیه و تحلیل مداوم اندازه و رشد خوشه در تلاش برای بهینه سازی اندازه آن برای مطابقت با الزامات مجموعه داده فعلی نیست.

مقیاس‌پذیری معماری Redshift به کاربران اجازه می‌دهد تا زمانی که منابعی از جمله حافظه و ظرفیت ورودی/خروجی افزایش می‌یابند، از افزایش عملکرد لذت ببرند. Panoply برای به دست آوردن بهترین ها برای پول خود، به طور یکپارچه دسته ها را بر اساس تقاضا مقیاس می دهد و اطمینان حاصل می کند که عملکرد انبار داده به خوبی با هزینه ها متعادل است.

پشتیبان گیری و بازیابی فاجعه

به طور سنتی، کسب‌وکارها چندین راه‌حل نرم‌افزاری را برای رسیدگی به بازیابی بلایا (DR)، پشتیبان‌گیری و بایگانی به‌عنوان بخشی از شیوه‌های حفاظت از داده‌های بزرگ‌تر ترکیب می‌کنند. این رویکرد برای مهندس داده ای که وظیفه مدیریت هر یک از این راه حل ها را بر عهده دارد، بسیار ناکارآمد است. همچنین یک رویکرد نسبتاً گران است. یک راه متفاوت برای مقابله با DR، استفاده از معماری ابری برای گردش‌های کاری ثانویه مانند پشتیبان‌گیری، بایگانی و بازیابی فاجعه (DR) است.

BigQuery به طور خودکار داده ها را تکرار می کند تا از در دسترس بودن و دوام آن اطمینان حاصل کند. با این حال، از دست دادن کامل داده ها به دلیل فاجعه کمتر از نیاز به بازیابی سریع و فوری، به عنوان مثال، یک جدول خاص یا حتی یک رکورد خاص است. برای هر دو هدف، Redshift به طور خودکار پشتیبان‌گیری‌ها را در S3 ذخیره می‌کند و به شما امکان می‌دهد تا در هر نقطه از زمان در نود روز گذشته مجدداً از داده‌ها بازدید کنید. در همه موارد، بازیابی شامل مجموعه‌ای از اقدامات است که می‌تواند بازیابی فوری را به یک عملیات طاقت‌فرسا و طولانی تبدیل کند.

ETL و آماده سازی داده 

بارگذاری داده های خود به روشی تمیز و منطقی در معماری تجزیه و تحلیل نه تنها اولین گام در مدیریت داده ها است، بلکه قطعا یکی از مراحل مهم آن است. تفاوت در روش های بارگذاری می تواند بر مقیاس پذیری فرآیند و غنای داده های بارگذاری شده تأثیر بگذارد و در بیشتر موارد بخش هایی از داده های خام در واقع از بین می روند.

هنگام بارگذاری داده‌ها، معمولاً فکر می‌کنیم که فقط داده‌های مهم را بارگذاری کنیم، یعنی داده‌های واقعی را که می‌خواهیم تحلیل کنیم. مشکل این است که در بیشتر موارد (بیشتر موارد همه) هرگز نمی دانید در روز اول کدام داده برای تجزیه و تحلیل در آینده مهم خواهد بود و بنابراین آزمایشات فکری و آزمایش های طولانی درباره داده ها بارگذاری می شوند.

رفع انسداد داده ها با Panoply

اساساً، ETL و انبار داده باید عملکرد پروتکل غربالگری بودن را انجام دهند که در نهایت مجموعه داده های تمیزی را تولید می کند که بررسی دقیق آن برای برنامه های تحلیلی آسان است.

اغلب اوقات شما در نهایت نرم افزارهای پشتیبانی را روی تعداد زیادی سرور اجرا می کنید تا بتوانند داده ها را از منابع متعدد از جمله OLTP های مختلف ذخیره کنند.   

با توجه به طیف گسترده ای از ناهماهنگی های احتمالی داده ها و حجم بسیار زیاد داده ها، پاکسازی داده ها به عنوان یکی از بزرگترین چالش ها در انبار داده ها در نظر گرفته می شود. تعدادی ابزار با عملکردهای مختلف برای پشتیبانی از وظایف ETL موجود است. حتی با این ابزارها، بخش قابل توجهی از کار تمیز کردن و تبدیل باید به صورت دستی یا توسط برنامه های سطح پایین انجام شود.

Snowflake از درخواست های همزمان کاربران از طریق انبارهای مجازی مختلف پشتیبانی می کند. می‌توانید فرآیندهای ETL یک شبه خود را بر روی منابع انبار کندتر و کم‌هزینه‌تر اجرا کنید و سپس پرس‌وجوهای موقتی را در زمان واقعی از طریق یک انبار قدرتمندتر در ساعات کاری فعال کنید. با این حال، با مقیاس Redshift و کارایی عملیاتی، ETL را می توان به عنوان یک پارادایم سفت و سخت و قدیمی نام برد.

با استفاده از مقیاس پذیری Redshift با Panoply، می توانید فرآیندهای ETL یک شبه را فراموش کنید. Panoply از فرآیند ELT پیروی می کند ، به موجب آن تمام داده های خام فوراً در زمان واقعی در دسترس هستند و تبدیل ها به صورت ناهمزمان در زمان پرس و جو اتفاق می افتد. 

عیب یابی عملکرد

یک گودال بی انتها، یک پرتگاه، یک خلاء…. باید ادامه بدم؟ اگر سیستم کند است، تقریباً هر چیزی ممکن است مشکل داشته باشد. این می تواند مدل سازی ضعیف داده، نمایه سازی نامناسب، مشکلات شبکه، سخت افزار ذخیره سازی، اساساً هر چیزی باشد.   

سپس، هنگامی که شروع می کنید، به خصوص در مورد مشکلی با یک ابر خصوصی یا راه حل های مدیریت نشده، مهندس داده یک گلوگاه را پاک می کند تا به گلوگاه دیگری برخورد کند. عیب یابی انبار داده می تواند کمی ترسناک باشد. گاهی اوقات حتی فهمیدن اینکه از کجا شروع کنیم می تواند دشوار باشد.

بیشتر از هیچ‌کدام، و ناامیدکننده‌تر از هر چیزی، حداقل از تجربه شخصی من، زمانی است که مشکل در نوع پرسش‌هایی است که توسط تحلیل‌گران غیرمسئول، مانند برخی SELECT *بر روی یک جدول بزرگ، اجرا می‌شوند. من سعی می کنم به عنوان بخشی از وظایف خود، دانش و آگاهی را در این مورد افزایش دهم. مسائل متداول دیگری که من می بینم در مورد نحوه ساختار داده ها در انبار است، به عنوان مثال در موردی که داده ها با جدول های فرعی زیادی مدل می شوند، تجزیه و تحلیل حتی بر روی مجموعه کوچکی از داده ها می تواند طولانی باشد.

وقت آن است که راه بهتری داشته باشیم

Panoply یک پلتفرم داده ابری است که برای دسترسی آسان به داده های مورد نیاز شما طراحی شده است. می‌توانید منابع داده را به هم متصل کنید، داده‌هایتان را به‌طور خودکار ذخیره کنید و آن‌ها را به ابزار BI ارسال کنید، همه اینها تنها با چند کلیک. این کار زمان شما را آزاد می کند تا بتوانید روی آنچه واقعاً مهم است تمرکز کنید: پیشبرد کسب و کارتان.

آیا می خواهید در مورد مهندس داده بیشتر بدانید ؟ اینجا کلیک کنید