مسابقه علم داده

معرفی رقابت
این مسابقه که از اولین مجموعه رویداد علم داده هرمزگان میباشد، فرصتی است برای علاقمندان به علم داده تا بتوانند در حوزههای تحلیل داده، هوش مصنوعی، داده کاوری و … به رقابت تحلیل دیتاهای چند سال اخیر شرکت فولاد هرمزگان بپردازند.
چالش داده رویداد دیتا استارت 2022 که با حمایت و پشتیبانی شرکت فولاد هرمزگان و پارک علم و فناوری هرمزگان طراحی شده است با هدف مشارکت دادن تیمهای خلاق و تحلیلگران داده در تشخیص خطاهای موجود در خط تولید مبتنی بر تحلیل داده های موجود شما را به شرکت در این مسابقه دعوت می نماید.
داده هایی که در اختیار شرکت کنندگان قرار می گیرد داده های واقعی خط تولید یکی از شرکتهای ایرانی است که مخدوش شده است. مخدوش سازی به نحوی انجام شده که حتی الامکان دانشی از داده ها حذف نشود.
یافتن رابطه بین عیوب موجود در تختال (Slab) نهایی تولید شده با فرایندهای تولید می باشد.


جوایز
برای نفرات برتری که مسئله داده محور شرکت فولاد هرمزگان را حل نمایند.
- یک سکه تمام بهار آزادی
- یک ربع سکه بهار آزادی
قوانین مسابقه
برای رعایت عدالت میان شرکتکنندگان مسابقه قوانین زیر برای مسابقه در نظر گرفته شده است:
- هدف این مسابقه استفاده از برنامهنویسی، یادگیری ماشین و یادگیری عمیق در تحلیل دادگان مرتبط به صنعت فولاد میباشد.
- محدودیتی برای شما در انتخاب زبان برنامهنویسی وجود نخواهد داشت.
- افراد باید در قالب تیم در مسابقات شرکت کنند. این تیم از یک نفر تا سه نفر را شامل میشود.
- در پایان مسابقه میان ارسالها کشف تقلب صورت میگیرد و نمره ارسالهای مربوط به تقلب صفر میشود.
- در هنگام مسابقه هرگونه ارتباط و رد و بدل شدن کد بین شرکتکنندهها غیرمجاز است.
- به هیچ وجه راهحلهایتان را در هنگام مسابقه در اختیار دیگران قرار ندهید.
- استفاده از بیش یک حساب کاربری در مسابقه باعث حذف شدن شما از مسابقه میشود.
- در هنگام مسابقات میتوانید از قسمت “ایمیل رویداد” سوالهای خود را مطرح کنید اما به سوالهایی که مربوط به پیداکردن مشکل کدتان باشد جواب داده نمیشود. سوال با طرح شدن در کمیته فنی از طریق ایمیل پاسخ داده میشود. در صورتی که نیاز به مشاوره وجود داشت از طریق تماس تلفنی هماهنگی ها انجام می شود.
- کُدهای برنامه نویسی شده خود را در در پوشه “کدهای اجرایی”،روش مورد استفاده یا گزارشنویسی را در پوشه ” گزارش راه حل” و
در صورت به دست آمدن نتیجه ی حاصل از اجرای کدها آن را در پوشه “نتایج” قرار دهید، سپس همه ی پوشه ها را به یک فایل زیپ تبدیل کرده و در فرم مربوطه بارگذاری نمایید. - این مسابقه در مجموع ۱۰۰ امتیاز دارد و افراد برتر، آنهایی هستند که بیشترین امتیازها را در مجموع کسب کنند.
- فقط به پاسخ هایی که در سامانه مسابقه یعنی DataStart.ir ارسال شده باشند ترتیب اثر داده میشود و خارج از این روش مورد تایید کمیته داوران نمی باشد.
- مسابقه از تاریخ 30 دی ماه 1400 ساعت 16:00 شروع می شود.
- مسابقه در تاریخ 27 بهمن ماه 1400 ساعت 16:00به پایان میرسد.
- بعد از پایان زمان مسابقه، داوری ارسال ها توسط هیئت داوران انجام میگیرد، 5 تیم برتر به صورت آنلاین به دفاع از راهکار پیشنهادی خود در تاریخ 1 اسفند ماه 1400 میپردازند. به دو روش برگزیده هر کدام یک سکه داده میشود. (تیم اول تمام سکه، تیم دوم ربع سکه)
- در صورت نیاز به تمدید مسابقه، درخواست ها در کمیته علمی بررسی میگردد.
- توجه داشته باشید که شما 27 روز کامل برای حل سوالات این مسابقه فرصت دارید. در نتیجه، حتی اگر مطلبی را بلد نیستید، شما فرصت دارید که در این بازه زمانی، آن را فراگرفته و نسبت به حل سوال مربوطه اقدام کنید، پس ناامید نشوید.
- تشریح این مسابقه در روز پنج شنبه 30 دی ماه ساعت 14:30 برگزار خواهد شد. علاقه مندان میتوانند به صورتی حضوری و آنلاین استفاده کنند. همچنین بعد از ارائه ویدیوی ضبط شده در اختیار شرکت کنندگان مسابقه قرار داده میشود. (اطلاعات بیشتر در اختیار ثبت نام کنندگان قرار میگیرد.)
- به شما پیشنهاد میشود قبل از شروع به کُد زدن و حل این مسابقه، یک مرتبه همه بعد مسئله را کامل مطالعه کنید. سپس موارد لیستشده را دوباره مطالعه کنید تا تمامی ابعاد مسابقه برای شما روشن گردد.
توضیحات مسابقه
سوالات متداول
و در جدول defect تعداد تختال های معیوب یکتا 225512 عدد میباشد.(تعداد PRODT_PRODUCT_ID های یکتا)
با توجه به این اعداد، بیش از ۹۹ درصد از تختال های تولید شده معیوب میباشند!
آیا این استدلال درست میباشد؟ یا بنده مفهوم سوال را اشتباه متوجه شده ام؟
بایستی ابتدا تحلیلی روی کدهای عیوب انجام بدهید و عیوبی که ارزش داده ای دارند را پیدا کنید.
دوم اینکه آیا امکان اضافه نمودن(یا استفاده نمودن) ویژگی های دیگر که در دیتاست مسابقه وجود ندارد و می تواند در رسیدن به جواب کمک کند، وجود دارد؟
هیچ محدودیتی در راهکار وجود ندارد، حتی راهکارهای ساده مثل تحلیل آماری نیز می تواند برای ساده سازی مساله، به کار گرفته شود.
” در یکی از فایل ها متن زیر آورده شده: شرکت کنندگان محترم بایستی ابتدا داده های این جداول را پاکسازی کرده و بر اساس نمودار ERD و کلیدهای جداول اقدام به ساخت دیتاست نهایی خود نمایند. برچسب مربوط به عیوب تختال ها نیز مطابق با دو فیلد اطالعاتی از جدول Defect انتخاب شده اند. شما می توانید برای بدست آوردن رابطه بین عیوب احتمالی و فرآیند تولید تختالها از مدلهای مرسوم در تشخیص الگو استفاده نمایید. هدف یافتن الگوهای با بیشترین ضریب Confidence و Support است. دقت داشته باشید از آنجا که برخی از فرآیندهای مسیر تولید دارای برچسب زمانی می باشند، یافتن الگوهایی زمانی که منجر به تولید محصوالت معیوب شده است اهمیت دارد. “
سوال بنده این است: آیا پاسخ مورد تایید فقط مبتنی بر استفاده از قوانین انجمنی و کشف الگوهای رایج می باشد؟ یا سولوشن های دیگر نیز مورد تایید است و یا امتیاز بیشتر دارد؟
پاسخ:
هدف نهایی کشف رابطه بین عیوب و فرایندهای تولید است. هر راهکاری که این رابطه را مورد بررسی قرار دهد مورد قبول است(فارغ از اینکه رابطه ای وجود دارد یا خیر).
در جدول PROCESS مقادیر فیلد PCDEF_PROCESS_DEFINITION_ID هرکدام به کدامیک از مراحل CCM. EAF , LF اشاره میکند؟ 4 آیتم مجزا در برابر 3 مرحله
پاسخ:
در فیلدهای جدول process یک فیلد type وجود دارد، مقدار ۱۴ به جدول EAF اشاره دارد مقدار ۴ به جدول LF مقدار ۶ به جدول CCM از مقدار ۱۵۵ نیز صرف نظر شود.
اگر بخواهیم جهت رفع ابهامات، مجموعه داده با طراحان مسئله صحبت کنیم امکانش هست؟
پاسخ:
در این خصوص ترجیح و نظر اعضای کمیته علمی بر این است که ارتباط و ارسال سوالات فقط از طریق ایمیل اعلام شده انجام شود. [email protected]
ممنون میشم توضیح بفرمایید مقادیر فیلد VAL_ITM_A_PRITM
به چه معناست و چطور تفسیر می شوند که تفاوت بین مقادری 0,1, YES, NO
پاسخ:
مقادیر به کد آیتم مربوط هستند، تفسیر جداگانه مقادیر گمراه کننده است، مقادیر را با کد آیتم در نظر بگیرید.
در فایل EAF
مقادیر هایلایت شده فیلد VAL_ITM_A_PRITM
به چه معناست؟ دیتای خراب هستند؟
پاسخ:
در کانورت اطلاعات یونیکد را در نظر بگیرید، این مقادیر حاوی متن فارسی هستند.
بنده قصد بکارگیری یادگیری ماشن و داده کاوی دارم
دوم اینکه آیا امکان اضافه نمودن(یا استفاده نمودن) ویژگی های دیگر که در دیتاست مسابقه وجود ندارد و می تواند در رسیدن به جواب کمک کند، وجود دارد؟
پاسخ:
ویژگی دیگری به دیتاست اضافه نخواهد شد، اما اگر یک ویژگی به عنوان عامل اثبات شود، برای تحلیل بیشتر، امکان ارائه اطلاعات تکمیلی مرتبط با آن عامل، با رعایت محرمانگی، وجود دارد. به عنوان نمونه اگر ثابت شود که پاتیل های مشخصی در بروز یک عیب تاثیر دارند، امکان تحلیل بیشتر بر روی اطلاعات تکمیلی پاتیل ها فراهم خواهد شد. البته در دامنه این مسابقه نیست و برای تحقیقات بعدی با همکاری تیم مربوطه استفاده خواهد شد.
در جداول CCM. EAF , LF ، فیلد PRITM_N_ITM_V و VAL_ITM_A_PRITM اگر مقداری وجود نداشته باشد، یعنی هیچ مواد مصرفی به ذوب اضافه نشده است؟
پاسخ:
بله
3- مقادیر فیلد VAL_ITM_A_PRITM را توضیح میدهید؟ مثلا YES, NO , … به چه معناست؟
پاسخ:
این فیلد برای مقادیر غیر عددی استفاده می شود و پیشنهاد می شود از طریق دسته بندی بر روی مقادیر یک آیتم خاص، استفاده نمایند. به کد آیتم و مقدار توجه داشته باشید، مقدار YES برای آیتم های مختلفی استفاده شده است.
روش آنکدینگ مقادیر فیلد NUM_GRP_SEQ_YEAR_PCRSL که شماره سکوئنس فرآیند در سال است را شرح میدهید که این مقادیر به چه صورت خوانده و تفسیر می شود؟
پاسخ:
چهار رقم اول نشانه سال و مابقی شماره سکوئنس آن نوع فرایند در آن سال است.
در فیلد VAL_ITM_N_PRITM واحد مقادیر درج شده چیست؟ تفاوت مقدار خالی و صفر در این ویژگی چیست؟
پاسخ:
واحد مقادیر برای فیلدهای غیرعددی برای همه انواع آیتم ها وجود ندارد و عموما این مقادیر دسته بندی شده هستند یعنی لیست می شوند. برخی آیتم ها در فرآیند بایستی به صورت اجباری توسط اپراتور ثبت شوند برای این آیتم ها در صورت عدم استفاده آیتم اپراتور مقدار صفر وارد می کند، در صورتی که آیتم اجباری نباشد، اپراتور مقداری ثبت نمی کند و مقدار خالی درج می شود. در کل صفر و مقدار خالی به معنی عدم استفاده از آیتم مربوطه است.
برداشت من این هست که یک فرایند منجر به تولید چندین اسلب (مثلا 8 یا 10 اسلب) میشود و از طرفی فرایندها به صورت سری نیستند و فرایند ccm و eaf و lf هر کدام منجر به تولید اسلب نهایی میشوند و دیگر اینکه با توجه به اینکه در مجموع پارامترهای فرایند را فقط برای ccm و eaf و lf داریم (که از آن تعداد هم اطلاعات برخی اسلبها را نداریم) از کل 112093 فرایند فقط روی 79710 فرایند میشه کارکرد. آیا برداشت من درست است؟
همچنین برداشت من این هست که در نهایت باید به بررسی عیوب فرایند برسیم و از آنجایی که ما عیوب را به ازای هر اسلب داریم آیا منطقی هست که برای بدست آوردن عیوب فرایند، عیوب کل اسلبهای تولید شده در یک فرایند را جمع بزنیم؟ با توجه به اینکه آشنایی با فرایند ندارم ممکن است با جمع عیوب برخی چند بار برای یک فرایند حساب شود. نمیدانم فرایند را درست متوجه شدم یا خیر.
پاسخ:
همه چیز از جدول ذوب شروع میشود، ابتدا یک رکورد در جدول ذوب ایجاد می شود، سپس به ازای هر ذوب، فرآیند eaf و سپس LF و در انتها CCM انجام می شود. فرایندهای انجام شده روی هر ذوب هم در جدول process نگهداری می شود که با ستون type به جداول هر فرآیند ارجاع انجام می شود، (رجوع شود به سوالات متداول)
هر ذوب چندین تختال تولید می کند که در جدول Slab وجود دارد.