021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

سوالات مصاحبه استخدامی داده کاوی

امروزه، کسب‌وکارها برای بهبود کارایی عملیاتی، کاهش ریسک، بهبود تجربه مشتری، شناسایی و پیش‌بینی روندها، به شدت به تصمیمات مبتنی بر داده‌ها متکی هستند. با انبوهی از داده‌هایی که هر روز در بخش‌های مختلف تولید می‌شود، می‌توان تصور کرد که تقاضا برای تحلیلگران ماهر داده در سال‌های آینده افزایش می‌یابد و آن را به یکی از پرطرفدارترین مشاغل در بازار کار تبدیل می‌کند.

نقش یک تحلیلگر داده شامل جمع آوری داده های مرتبط از منابع اولیه و ثانویه، پاکسازی داده ها، تفسیر، تجزیه و تحلیل نتایج با استفاده از تکنیک های آماری و انتقال موثر نتایج به ذینفعان است. با توجه به موارد فوق، می توان دریافت که شغل یک تحلیلگر داده یک حرفه مهارتی نیست. جدا از برنامه نویسی، از تحلیلگران ماهر داده انتظار می رود که درک درستی از مفاهیم آماری داشته باشند و ارتباطات موثری داشته باشند.

آماده سازی کلید رسیدن به شغل مورد نظر است. برای کمک به تمام تحلیلگران مشتاق داده در آماده سازی مصاحبه، مجموعه ای از پرسش ها و پاسخ ها را فهرست کرده ایم که در بخش های زیر طبقه بندی می شود:

  • پرسش و پاسخ – علم داده
  • پرسش و پاسخ – آمار
  • پرسش و پاسخ – مدل سازی و برنامه نویسی

پرسش و پاسخ – علم داده

1. مسئولیت های کلیدی یک تحلیلگر داده چیست؟

نقش ها و مسئولیت های یک تحلیلگر داده می تواند بسته به شرکت یا دامنه متفاوت باشد. با این حال، وظایف معمول یک تحلیلگر داده شامل، اما نه محدود به موارد زیر است:

  • جمع آوری و پردازش داده ها
  • تجزیه و تحلیل داده ها
  • داده کاوی
  • پیدا کردن الگوها و روندها
  • ایجاد گزارش ها
  • نگهداری پایگاه های داده

 

2. مراحل چرخه عمر پروژه Data Analytics را بنویسید و توضیح دهید؟

در زیر هفت مرحله اساسی یک پروژه تجزیه و تحلیل داده آمده است –

تعریف مشکل : تعریف مسئله اولین گام از یک پروژه تجزیه و تحلیل داده است که هدف آن درک مسئله مورد نظر است.

جمع‌آوری داده‌ها : فرآیند جمع‌آوری و اندازه‌گیری اطلاعات در مورد ویژگی‌های مختلف مورد علاقه، جمع‌آوری داده‌ها نامیده می‌شود.

پردازش داده ها : مجموعه ای از مراحل انجام شده بر روی داده های جمع آوری شده برای تأیید، سازماندهی، تبدیل و یکپارچه سازی داده ها در قالب مناسب برای تجزیه و تحلیل بیشتر.

تجزیه و تحلیل داده های اکتشافی (EDA): EDA فرآیندی است که از تکنیک های مختلفی استفاده می کند که به تحلیلگر کمک می کند تا با داده ها آشنا شود.

مدل سازی : در این مرحله می توان از روش های مختلف مدل سازی آماری برای پیش بینی آینده استفاده کرد.

تجسم داده ها : تجسم داده ها برای ارائه گزارش تصویری به کاربران برای درک عملکرد و پیش بینی مدل استفاده می شود.

ارتباط با نتایج : آخرین مرحله چرخه حیات تجزیه و تحلیل داده ها، انتقال یافته های ما به ذینفعان است.

 

3. برخی از بهترین ابزارهای مورد استفاده برای تجزیه و تحلیل داده ها و تجسم داده ها را نام ببرید؟

در زیر برخی از بهترین ابزارها برای تجزیه و تحلیل داده ها و تجسم داده ها وجود دارد –

ابزارهای تجزیه و تحلیل داده ها:

  • پایتون
  • برنامه نویسی R
  • SQL
  • SAS
  • آپاچی اسپارک

ابزارهای بصری سازی داده ها:

  • تابلو
  • QlikView
  • PowerBi
  • QlikSense

 

4. روش های مختلف جمع آوری داده ها چیست؟

تکنیک های جمع آوری داده ها را می توان به طور کلی به دو دسته تحقیقات اولیه و تحقیقات ثانویه طبقه بندی کرد

تحقیقات اولیه : تحقیق اولیه فرآیند جمع آوری اطلاعات دست اول از طریق روش های تحقیق خودگردان است. با این حال، شایان ذکر است که تحقیقات اولیه یک فرآیند منابع و زمان بر است. برخی از تکنیک های رایج تحقیقات اولیه عبارتند از:

  • مصاحبه شخصی با پرسشنامه
  • پرسشنامه پستی
  • نظرسنجی ها

تحقیق ثانویه : تحقیق ثانویه فرآیند جمع آوری اطلاعاتی است که قبلاً در حوزه عمومی وجود دارد. این مرجح ترین فرآیند تحقیق است زیرا هم سریع و هم مقرون به صرفه است. برخی از منابع رایج تحقیقات ثانویه به شرح زیر است:

  • گزارش های شرکت – گزارش های سالانه، صورت های مالی و غیره،
  • بیانیه های مطبوعاتی
  • گزارش های بازار منتشر شده است
  • مجلات
  • مجلات
  • مقالاتی از انتشارات خبری

 

5. در هنگام جمع آوری داده های ثانویه چه اقدامات احتیاطی باید انجام شود؟

ارزیابی داده‌های ثانویه و اطمینان از برآوردن ویژگی‌های زیر مهم است:

  • ارزیابی کنید که آیا داده های ثانویه جمع آوری شده با مشکل خاص مورد مطالعه مرتبط است یا خیر
  • کیفیت داده ها را بر اساس دقت و کامل بودن بررسی کنید.
  • اطمینان حاصل کنید که داده ها قابل اعتماد و بی طرف هستند.

 

6. چگونه یک تحلیلگر داده باید مقادیر از دست رفته یا صفر را مدیریت کند؟

بسته به ماهیت داده و نوع داده ای که با آن کار می کنیم، می توان یکی از روش های زیر را هنگام مدیریت مقادیر گمشده اعمال کرد.

  • سطرهایی را با بیش از 50 درصد مقادیر از دست رفته رها کنید
  • مقادیر گمشده را با معیارهای گرایش مرکزی مانند میانگین یا میانه نسبت دهید
  • برای ویژگی‌های طبقه‌بندی، مقادیر گمشده را با متداول‌ترین دسته (حالت) نسبت دهید.
  • پیش‌بینی مقادیر گمشده با مدل‌های رگرسیون یا طبقه‌بندی
  • استفاده از الگوریتم‌های ماشینی مانند K-NN که از مقادیر گمشده در حین پیش‌بینی پشتیبانی می‌کند.

 

7. Outlier چیست؟

نقطه پرت، مشاهداتی است که به طور قابل توجهی از مشاهدات دیگر انحراف دارد یا به طور مشهودی با سایر نقاط داده متفاوت است. مهم است که قبل از استفاده از داده ها برای تجزیه و تحلیل بیشتر، نقاط پرت را شناسایی و حذف کنید، زیرا می تواند منجر به نتایج نادرست یا تحریف شود.

همانطور که در مثال زیر نشان داده شده است، مجموع نمرات به دست آمده توسط Student3 یک نقطه پرت واضح است، زیرا با سایر مشاهدات جدول فاصله دارد. اگر این مشاهدات شناسایی و حذف نشود، بر خروجی کلی تأثیر منفی می گذارد.

 

8. پاکسازی داده چیست؟ برخی از بهترین شیوه های فرآیند پاکسازی داده ها را توضیح دهید؟

پاکسازی داده ها یکی از حیاتی ترین مراحل داده کاوی است. این فرآیند تضمین می کند که داده ها تمیز و آماده برای تجزیه و تحلیل بیشتر هستند.

برخی از بهترین شیوه های فرآیند پاکسازی داده ها به شرح زیر است:

افزونگی داده ها : شناسایی و حذف موارد تکراری از مجموعه داده ها

داده های نامربوط : خلاص شدن از ویژگی هایی که در حل یک مشکل خاص مرتبط نیستند

استانداردسازی : اطمینان حاصل کنید که داده ها در قالب استاندارد و در دسترس هستند.

یکپارچگی داده ها : شناسایی و رفع خطاهای رایج مانند عدم دقت، داده های نامعتبر، ورود داده های نادرست، مقادیر از دست رفته، اشتباهات املایی، محدوده داده های نادرست.

 

9. DBMS چیست؟ ویژگی های آن را توضیح دهید؟

سیستم مدیریت پایگاه داده (DBMS) یک سیستم نرم افزاری است که برای ذخیره و بازیابی داده های مرتبط به هم به راحتی و کارآمد استفاده می شود.

ویژگی های اصلی داده ها در DBMS:

  • اشتراک گذاری داده ها : داده ها را می توان بین کاربران و برنامه های مختلف به اشتراک گذاشت
  • استقلال داده ها : تغییرات ایجاد شده در طرحواره پایگاه داده در یک سطح نباید بر سطوح دیگر تأثیر بگذارد.
  • افزونگی کنترل شده : داده ها تکراری نیستند، با این حال، هر گونه تکراری عمدی و کنترل شده است.
  • یکپارچگی داده ها : داده های وارد شده باید صحیح، کامل و سازگار باشد.
  • امنیت داده ها : داده ها فقط برای کاربران مجاز قابل دسترسی است.

 

10. انبار داده چیست؟

انبار داده مخزنی است که مقادیر زیادی داده را از منابع مختلف در سراسر تجارت ذخیره می کند. این یک نمای متمرکز از تمام داده های جمع آوری شده ارائه می دهد و برای انجام فعالیت های تجزیه و تحلیل، هوش تجاری و داده کاوی طراحی شده است.

در زیر برخی از ویژگی های یک انبار داده آورده شده است:

فرمت ساختاریافته و استاندارد : انبار داده از فرآیند استخراج-تبدیل-بار (ETL) استفاده می کند تا اطمینان حاصل کند که داده های بارگذاری شده در سیستم در قالبی ساختاریافته و استاندارد است.

متغیر زمان : داده‌های بارگذاری‌شده در انبار داده یک مهر زمانی دریافت می‌کنند، در نتیجه مقایسه بین دوره‌های مختلف را تسهیل می‌کند.

غیر عملیاتی و غیر فرار : انبار داده از یک کپی از داده ها از پایگاه داده زنده استفاده می کند. پس از بارگذاری، داده ها بدون تغییر باقی می مانند.

 

11. داده های بزرگ چیست؟ برخی از فناوری های کلان داده را نام ببرید؟

Big Data همانطور که از نام آن پیداست مجموعه ای از مقادیر زیادی از داده های ساختاریافته و بدون ساختار است. مدیریت و پردازش چنین مجموعه عظیمی از داده ها فراتر از حیطه اختیارات پایگاه داده های رابطه ای سنتی است. فناوری های کلان داده برای تحلیل و پردازش این مجموعه داده های پیچیده طراحی شده اند.

برخی از محبوب‌ترین فناوری‌های کلان داده در زیر فهرست شده‌اند:

  • اکوسیستم هادوپ
  • هوش مصنوعی
  • آپاچی اسپارک
  • پایگاه داده NoSQL
  • دریاچه های داده
  • پایگاه داده درون حافظه

 

12. تحلیل تک متغیره، دو متغیره و چند متغیره را توضیح دهید.

تجزیه و تحلیل تک متغیره: تک متغیره شکلی از تجزیه و تحلیل داده است که در آن یک متغیر برای توصیف و یافتن الگوهای موجود در آن تجزیه و تحلیل می شود. این ساده ترین شکل تجزیه و تحلیل داده است زیرا به علل یا روابط نمی پردازد.

تجزیه و تحلیل دو متغیره : تحلیل دو متغیره همبستگی بین دو متغیر را اندازه گیری می کند. این تکنیک توسط محققین زمانی استفاده می شود که هدف آنها مقایسه بین دو متغیر است.

تجزیه و تحلیل چند متغیره : تجزیه و تحلیل چند متغیره برای مطالعه مجموعه داده های پیچیده استفاده می شود. در این شکل از تجزیه و تحلیل، یک متغیر وابسته بر حسب مشاهدات چندین متغیر مستقل موجود برای ایجاد چنین رابطه ای نشان داده می شود.

 

13. Visualization Data و اهمیت آن در تجزیه و تحلیل داده ها را توضیح دهید؟

تجسم داده ها نمایش گرافیکی یا تصویری داده ها است. به عبارت دیگر، تجسم داده ها خلاصه ای بصری از داده های در دست ارائه می دهد.

برخی از اهمیت تجسم داده در زیر ذکر شده است:

  • به جذب سریع اطلاعات کمک می کند
  • تشخیص الگوها و روندها آسان است
  • یافتن موارد پرت
  • به خاطر سپردن بینش های مهم
  • به اشتراک گذاری بینش به طور موثر کمک می کند
  • به جذب مخاطب کمک می کند

 

14. Scatterplots را توضیح دهید.

Scatterplots ابزاری ساده و موثر برای تجسم داده ها هستند. برای درک رابطه بین دو متغیر از نمودار پراکندگی استفاده می شود. هر نقطه در نمودار پراکندگی مقادیر محور x در مقابل محور y را نشان می دهد. به عنوان مثال: هر نقطه از نمودار پراکندگی با وزن در محور x و ارتفاع در محور y نشان دهنده رابطه بین وزن و قد یک فرد خاص است.

 

15. هیستوگرام و نمودار میله ای را توضیح دهید.

هیستوگرام : هیستوگرام متداول ترین روشی است که برای نمایش توزیع فرکانس استفاده می شود. هیستوگرام مجموعه ای از میله های عمودی است که دارای مناطقی است که به همان نسبت فرکانس های توزیع فرکانس هستند. فواصل کلاس متغیرها در محور افقی (محور x) و فرکانس فواصل کلاسها در محور عمودی (محور y) نشان داده شده است.

نمودار میله ای : نمودار میله ای محبوب ترین و رایج ترین شکل نمایش گرافیکی است. برای نشان دادن مقادیر داده های طبقه بندی شده در نمودارها استفاده می شود. نمودار میله ای را می توان به صورت عمودی یا افقی رسم کرد. در نمودار میله ای عمودی، دسته ها در محور افقی (محور x) و مقادیر متناظر آنها در محور عمودی (محور y) نشان داده شده است.

 

16. نمودار باکس چه تفاوتی با هیستوگرام دارد؟

هر دو نمودار جعبه و هیستوگرام برای نشان دادن توزیع داده ها استفاده می شود، با این حال، آنها اطلاعات متفاوتی را نشان می دهند.

Boxplots نیز به عنوان جعبه و سبیل طرح شناخته شده است، و بیشتر مناسب برای ارائه یک تصویر بصری از طیف وسیعی از داده ها، میانگین، دامنه بین چارکی است. Boxplots خلاصه ای از تغییرات در مجموعه داده های بزرگ را ارائه می دهد. همچنین به شناسایی نقاط پرت موجود در داده های مورد تجزیه و تحلیل کمک می کند.

هیستوگرام مجموعه ای از میله های عمودی است که دارای مناطقی است که به همان نسبت فرکانس های توزیع فرکانس هستند. فواصل کلاس متغیرها در محور افقی (محور x) و فرکانس فواصل کلاسها در محور عمودی (محور y) نشان داده شده است. هیستوگرام به درک پراکندگی داده ها، دیدن متقارن یا کج بودن داده ها و همچنین شناسایی نقاط پرت در داده ها کمک می کند.

 

17. یادگیری ماشینی چیست؟

یادگیری ماشینی یک برنامه کاربردی از هوش مصنوعی (AI) است که ماشین‌ها را آموزش می‌دهد تا از داده‌های تاریخی یاد بگیرند و توانایی خود را برای پیش‌بینی نتیجه‌ای برای آینده توسعه دهند. یادگیری ماشینی کاربرد گسترده ای در صنایع مختلف مانند مراقبت های بهداشتی، خدمات مالی، تجارت الکترونیک، خودرو دارد.

 

18. انواع مختلف یادگیری ماشینی چیست؟

یادگیری ماشینی را می توان به سه نوع زیر دسته بندی کرد:

یادگیری نظارت شده : در یادگیری نظارت شده یک نوع یادگیری وظیفه محور است که در آن سیستم با استفاده از داده های تاریخی آموزش داده می شود که توانایی پیش بینی نتایج را برای نمونه های جدید بیشتر توسعه می دهد. یادگیری نظارت شده عمدتاً برای حل مشکلات طبقه بندی و رگرسیون استفاده می شود. طبقه بندی برای پیش بینی یک برچسب کلاس استفاده می شود در حالی که رگرسیون برای پیش بینی یک برچسب عددی استفاده می شود.

یادگیری بدون نظارت : برخلاف یادگیری تحت نظارت، یادگیری بدون نظارت هیچ سرپرستی برای آموزش سیستم ندارد. بر روی مجموعه های عظیمی از داده ها بدون آگاهی از متغیرهای هدف عمل می کند. ماشین با گروه بندی داده های ورودی بر اساس الگوها و شباهت ها یاد می گیرد. دو نوع برجسته یادگیری بدون نظارت عبارتند از خوشه بندی و تخمین چگالی. خوشه بندی برای حل مسائل با گروه بندی داده ها استفاده می شود، از سوی دیگر، تخمین چگالی توزیع در داده ها را خلاصه می کند.

یادگیری تقویتی : در یادگیری تقویتی، تصمیمات توسط سیستم بر اساس بازخوردی که برای اقدامات خود دریافت می کند، اتخاذ می شود. در این رویکرد، الگوریتم از اشتباهات خود درس می گیرد و بداهه می نویسد تا نتایج بهتری را در طول زمان به دست آورد.

 

پرسش و پاسخ – آمار

1. تفاوت بین جامعه و نمونه چیست؟

جمعیت به کل مجموعه عناصری مانند افراد یا اشیاء اطلاق می شود که قصد داریم در مورد آنها نتیجه گیری کنیم. به عبارت دیگر، می توان آن را جهان نامید.

نمونه گیری به زیرمجموعه ای از یک جامعه اطلاق می شود. نمونه گیری بر اساس نتایج به دست آمده از نمونه، درک کل جامعه را ایجاد می کند.

 

2. بهترین شیوه های انتخاب نمونه؟

نمونه گیری یکی از مهم ترین مراحل تجزیه و تحلیل داده ها است زیرا تا حد زیادی بر دقت نتایج تأثیر می گذارد.

در زیر برخی از بهترین شیوه ها برای انتخاب نمونه آورده شده است:

  • اندازه نمونه : اندازه نمونه باید به اندازه کافی بزرگ باشد تا اطمینان حاصل شود که استنباط های استخراج شده از آن قابل اعتماد هستند.
  • نماینده : از آنجایی که نمونه زیرمجموعه ای از کل جامعه است، باید به گونه ای انتخاب شود که نمایانگر ویژگی های جامعه ای باشد که از آن استخراج شده است.
  • به حداقل رساندن سوگیری : نمونه انتخاب شده از جامعه باید تحت تاثیر هر عاملی باشد، به عبارت دیگر، نباید سوگیری باشد.

 

3. سوگیری انتخاب نمونه چیست؟

سوگیری انتخاب نمونه نوعی سوگیری است که زمانی ایجاد می شود که داده های غیر تصادفی برای تجزیه و تحلیل آماری انتخاب شوند. با انتخاب داده‌های غیرتصادفی، ممکن است زیرمجموعه‌ای از داده‌هایی را که می‌توانند بر اهمیت آماری آزمون تأثیر بگذارند، حذف کنیم.

 

4. توصیفی و استنباطی افتراق آمار .

آمار توصیفی : آمار توصیفی اطلاعاتی را در مورد داده های مورد مطالعه ارائه می دهد. ویژگی های داده ها را با استفاده از معیارهای گرایش مرکزی مانند میانگین، میانه، تنوع و حالت توصیف می کند. معیارهای واریانس مانند محدوده و انحراف معیار.

آمار استنباطی: آمار استنباطی مربوط به تخمین ارزش جمعیت است. بر اساس تحلیل استنباطی، کار استنتاج و نتیجه گیری انجام می شود.

 

5. همبستگی خطی و غیر خطی را توضیح دهید.

توزیع بین همبستگی خطی و غیر خطی بر اساس نسبت تغییر بین متغیرها است.

همبستگی خطی : همبستگی خطی زمانی وجود دارد که نسبت تغییر بین دو متغیر ثابت باشد. در یک همبستگی خطی، یک خط مستقیم می تواند از نقاط داده عبور کند.

همبستگی غیر خطی: همبستگی غیرخطی زمانی وجود دارد که نسبت تغییر بین دو متغیر ثابت نباشد. بهترین خط برازش در امتداد نقاط داده نشان دهنده یک منحنی است.

 

6. توضیح دهید که کدام معیارهای گرایش مرکزی در یک مجموعه داده خاص استفاده می شود؟

نکات زیر باید در نظر گرفته شود، باید از مناسب ترین معیار گرایش مرکزی استفاده کنیم.

  • میانگین زمانی مفید است که مجموعه داده در مجموعه داده دارای مقادیر شدید نباشد.
  • ماد است که بیش از میانگین ترجیح داده که مقادیر شدید در مجموعه داده ها وجود دارد.
  • حالت برای یافتن رایج ترین آیتم یا مقدار یک مجموعه داده مفید است.

 

7. خلاصه پنج عددی در آمار چیست؟

خلاصه پنج عددی در تحلیل توصیفی مفید است و شامل پنج عنصر زیر است:

  • حداقل – کوچکترین مقدار در مجموعه داده
  • ربع اول – علامت 25% که با Q1 نشان داده می شود
  • میانه – مقدار وسط در مجموعه داده، زمانی که به ترتیب صعودی مرتب شده است
  • ربع سوم – علامت 75% که با Q3 نشان داده می شود
  • حداکثر – بزرگترین مقدار در مجموعه داده

 

8. محدوده Interquartile را توضیح دهید؟

محدوده بین چارکی شبیه به محدوده نرمال است، با این تفاوت که در این روش محدوده فقط شامل 50 درصد مشاهدات میانی از کل توزیع است. به عبارت دیگر، یک چهارم مشاهده در انتهای پایین، یک چهارم دیگر مشاهده در انتهای بالایی توزیع در محاسبه محدوده بین چارکی حذف می شوند. محدوده بین چارکی را می توان به عنوان تفاوت بین چارک سوم و چارک اول تعریف کرد.

محدوده بین چارکی با استفاده از فرمول زیر محاسبه می شود:

محدوده بین چارکی = Q3-Q1

جایی که،

Q3 چهارمین چهارم است

Q1 اولین چارک است

 

9. رگرسیون خطی در آمار چیست؟

رگرسیون خطی با یافتن یک معادله خطی مناسب بین دو متغیر رابطه برقرار می کند. یکی از متغیرها به عنوان متغیر مستقل و متغیری که باید پیش بینی شود به عنوان متغیر وابسته در نظر گرفته می شود.

یک رگرسیون خطی ساده با یک متغیر وابسته و یک متغیر مستقل را می توان به صورت زیر بیان کرد:

y = mx + c

جایی که،

y متغیر وابسته است

x متغیر مستقل است

m نشان دهنده ضریب رگرسیون است

c ثابت است

 

10. شما از واریانس و کوواریانس چه می فهمید؟

واریانس ، همانطور که از نام آن پیداست، تغییرپذیری مشاهدات را در یک مجموعه داده مشخص می سنجد. تعیین می کند که یک مشاهده چقدر از میانگین فاصله دارد. واریانس را می توان با استفاده از مراحل زیر محاسبه کرد:

  • محاسبه میانگین
  • هر مشاهده را با میانگین کم کنید و نتیجه را مربع کنید
  • میانگین اختلاف مجذور را در نظر بگیرید.

از سوی دیگر کوواریانس معیاری است که نشان می دهد چگونه دو متغیر با یکدیگر تغییر می کنند. کوواریانس مثبت نشان می دهد که مقادیر متغیرها در یک جهت افزایش می یابد، در حالی که کوواریانس منفی نشان می دهد که متغیرها در جهت مخالف حرکت می کنند.

 

11. همبستگی چیست؟ 

همبستگی میزان رابطه بین دو متغیر را نشان می دهد. هم قدرت و هم جهت رابطه را می سنجد.

 

12. بین همبستگی های مثبت و منفی تمایز قائل شوید. 

همبستگی مثبت : وقتی دو متغیر در یک جهت حرکت می کنند، همبستگی بین این دو متغیر را همبستگی مثبت می گویند. وقتی مقدار یک متغیر افزایش می یابد، مقدار متغیر دیگر نیز با همان سرعت افزایش می یابد.

همبستگی منفی : در این نوع همبستگی، دو متغیر در جهت مخالف حرکت می کنند. وقتی مقدار یک متغیر افزایش می یابد، مقدار متغیر دیگر کاهش می یابد.

 

13. Range چیست؟

محدوده ساده ترین راه مطالعه پراکندگی است. به عنوان تفاوت بین ارزش بزرگترین آیتم و مقدار کوچکترین آیتم موجود در یک مجموعه داده مشخص تعریف می شود.

محدوده با استفاده از فرمول زیر محاسبه می شود:

محدوده = L – S

جایی که،

L بزرگترین مورد است

S کوچکترین مورد است

 

14. انحراف میانگین چیست؟

انحراف میانگین به عنوان انحراف میانگین نیز شناخته می شود. این تفاوت میانگین بین اقلام در یک توزیع و معیارهای گرایش مرکزی مانند میانگین یا میانه یک سری داده خاص است. از آنجایی که از میانگین حسابی برای محاسبه مقدار میانگین انحراف استفاده می کند، انحراف میانگین نامیده می شود.

 

15. انحراف معیار چیست؟

انحراف استاندارد پراکندگی را اندازه گیری می کند. هر چه انحراف معیار بیشتر باشد، بزرگی انحرافات مقدار از میانگین آنها بیشتر خواهد بود. انحراف استاندارد کمتر نشان دهنده درجه یکنواختی بیشتر مشاهدات است.

 

16. توزیع نرمال چیست و ویژگی های آن را توضیح دهید؟

توزیع نرمال به توزیع‌های احتمال پیوسته اشاره دارد که به صورت یک منحنی زنگ‌شکل متقارن نشان داده می‌شود.

توزیع نرمال دارای ویژگی های زیر است:

  • متغیر تصادفی پیوسته
  • منحنی زنگی شکل.
  • منحنی نرمال به طور نامحدود گسترش می یابد اما هرگز محور افقی را لمس نمی کند.
  • معیارهای گرایش مرکزی – میانگین، میانه و حالت برابر هستند
  • 50 درصد از داده های زیر منحنی در سمت چپ میانگین و نیمی دیگر در سمت راست میانگین قرار دارند.
  • 68 درصد از سطح زیر منحنی در یک انحراف استاندارد از میانگین قرار می گیرد
  • 95 درصد از سطح زیر منحنی در دو انحراف استاندارد از میانگین است
  • 99.7 درصد از سطح زیر منحنی در سه انحراف استاندارد از میانگین است
  • مساحت کل زیر منحنی نرمال برابر با 1 است

 

پرسش و پاسخ – مدل سازی و برنامه نویسی

1. شما از مدل های Overfitting و Under-fitting چه می فهمید؟

مدل‌های بیش‌برازش آنهایی هستند که روی داده‌های آموزشی بهترین کار را دارند، اما در داده‌های آزمایشی به خوبی عمل نمی‌کنند. دلیل اینکه بر روی داده های آموزشی خوب کار می کند و روی داده های تست ضعیف عمل می کند این است که نویز در داده های آموزشی را نیز مدل می کند.

مدل‌های کم‌برازش آن‌هایی هستند که روی داده‌های آموزشی و همچنین داده‌های آزمایشی به خوبی کار نمی‌کنند. به عبارت دیگر، نمی تواند روند اساسی در داده ها را شناسایی کند. این زمانی اتفاق می افتد که ما سعی می کنیم یک مدل بر روی مقدار کمتری از داده بسازیم یا زمانی که سعی می کنیم یک مدل خطی با داده های غیر خطی بسازیم.

باید از هر دو مدل بیش از حد برازش و عدم تناسب اجتناب شود زیرا منجر به دقت ضعیف می شود.

 

2. تفاوت های الگوریتم رگرسیون و الگوریتم طبقه بندی چیست؟

الگوریتم رگرسیون الگوریتم طبقه بندی
متغیر خروجی باید یک مقدار پیوسته باشد متغیر خروجی باید یک مقدار گسسته باشد.
الگوریتم رگرسیون سعی می کند مقدار ورودی را با متغیر خروجی پیوسته ترسیم کند. الگوریتم رگرسیون سعی می کند مقدار ورودی را با متغیر خروجی گسسته ترسیم کند.
در رگرسیون، خروجی با یافتن بهترین خط برازش پیش‌بینی می‌شود در طبقه بندی، خروجی با تقسیم داده ها به کلاس های مختلف پیش بینی می شود
می تواند رگرسیون خطی و غیر خطی باشد. می تواند طبقه بندی کننده باینری و چند کلاسه باشد.
از الگوریتم های رگرسیون می توان برای حل مشکلات رگرسیون مانند فروش و پیش بینی آب و هوا و غیره استفاده کرد. الگوریتم های طبقه بندی را می توان برای حل مشکلات طبقه بندی مانند تشخیص هرزنامه، شناسایی سلول های سرطانی، تجزیه و تحلیل احساسات و غیره استفاده کرد.

 

3. رگرسیون لجستیک چیست؟

رگرسیون لجستیک یک الگوریتم طبقه‌بندی است که زمانی استفاده می‌شود که در حال انجام پیش‌بینی بر روی یک نتیجه باینری هستیم. زمانی که خروجی می تواند تنها دو سناریو ممکن داشته باشد. برخی از نمونه‌های خروج باینری عبارتند از – بله یا خیر، درست یا نادرست، 1 یا 0، کم یا زیاد. احتمالات یک نقطه داده متعلق به یکی از دو کلاس ممکن را پیدا می کند.

 

4. تفاوت بین k-NN و k-means خوشه بندی چیست؟

K-NN K-Means
K-NN نشان دهنده یک الگوریتم یادگیری ماشینی نظارت شده است K-means نشان دهنده یک الگوریتم یادگیری ماشینی بدون نظارت است
K-NN یک الگوریتم یادگیری ماشینی طبقه بندی یا رگرسیون است K-means یک الگوریتم یادگیری ماشینی خوشه‌بندی است
متغیر هدف از قبل شناخته شده است خوشه ها ناشناخته هستند
به عنوان یک الگوریتم تنبل شناخته می شود زیرا با به خاطر سپردن داده های آموزشی کار می کند الگوریتم K-Means یک یادگیرنده مشتاق است

 

5. برخی از معایب مدل خطی را ذکر کنید

برخی از معایب مدل خطی به شرح زیر است:

  • رگرسیون خطی فرض می کند که یک رابطه مستقیم (خطی) بین متغیرها وجود دارد
  • نقاط پرت می توانند به شدت بر مدل های رگرسیون خطی تأثیر بگذارند
  • مدل خطی می تواند یک مدل بیش از حد مناسب باشد، به خصوص زمانی که ویژگی های زیادی در مقایسه با حجم نمونه وجود داشته باشد.
  • مدل خطی فرض می کند که هیچ خطی در داده ها وجود ندارد.

 

6. خوشه بندی در یادگیری ماشینی را توضیح دهید؟

خوشه بندی تکنیکی است که با تقسیم نقاط داده به گروه ها کار می کند. گروه بندی بر اساس شباهت بین نقاط داده به گونه ای انجام می شود که همه گروه ها تفاوت معنی داری با یکدیگر دارند. چند نوع خوشه بندی عبارتند از: خوشه بندی سلسله مراتبی، K به معنای خوشه بندی، خوشه بندی مبتنی بر چگالی، حداکثر سازی انتظارات (EM)، خوشه بندی و غیره.

 

7. انواع مختلف الگوریتم های خوشه بندی چیست؟

برخی از الگوریتم‌های خوشه‌بندی رایج به شرح زیر است:

  • خوشه بندی سلسله مراتبی
  • K به معنای خوشه بندی است
  • خوشه بندی مبتنی بر چگالی
  • خوشه بندی فازی

 

8. الگوریتم های مختلف طبقه بندی کدامند؟

برخی از الگوریتم های طبقه بندی رایج به شرح زیر است:

  • رگرسیون لجستیک
  • بیز ساده لوح
  • درخت تصمیم
  • جنگل تصادفی
  • ماشین بردار پشتیبانی

 

9. چگونه می توانید ریشه میانگین مربع خطا (RMSE) و میانگین مربع خطا (MSE) را پیدا کنید؟

میانگین مربع خطا (MSE) با جمع کردن مجذور (مقدار واقعی پیش بینی شده) برای تمام نقاط داده و تقسیم آن بر تعداد نمونه ها محاسبه می شود که تخمینی از میانگین مجموع مجذور کل خطاها را ارائه می دهد.

ریشه میانگین مربعات خطا (RMSE) شبیه به میانگین مربعات خطا (MSE) است، اما در این حالت، جذر مجذور مجموع خطاها در نظر گرفته می شود.

 

10. توابع داخلی پایتون چیست؟

در زیر لیستی جامع از تمام توابع داخلی در پایتون آمده است

پایتون – توابع داخلی
abs() delattr() hash() مموری نمای () تنظیم()
همه() دیکت () کمک() دقیقه () setattr()
هر () dir() هگز () بعد() تکه()
ascii() divmod() شناسه() هدف – شی() مرتب شده ()
صندوقچه() شمارش () ورودی() oct() staticmethod()
bool() eval() int() باز کن() str()
نقطه شکست () exec() instance() ord() جمع ()
بایت آرایه() فیلتر() issubclass() قدرت () فوق العاده ()
بایت () شناور() iter() چاپ() tuple()
قابل تماس () قالب () len() ویژگی() type()
chr() منجمد () لیست () دامنه() vars()
classmethod() getattr() محلی ها() repr() zip()
گردآوری() globals() نقشه () معکوس () __وارد كردن__()
پیچیده () hasattr() حداکثر () گرد()

 

11. برش چیست؟

برش در پایتون، زیرمجموعه ای از عناصر را از انواع توالی مانند رشته، لیست، تاپل و غیره بر اساس شاخص های آنها برمی گرداند.

x = [5، 7، 9، 11، 13]

x[0:3] باز خواهد گشت [5،7،9]

x[2:] باز خواهد گشت [9،11،13]

 

12. نمایه سازی در پایتون چیست؟

دنباله های موجود در پایتون مانند لیست ها، تاپل ها، رشته ها را می توان در هر دو عدد مثبت و منفی ایندکس کرد.

  • برای شاخص مثبت، نمایه سازی با 0 (شاخص اول) و به دنبال آن 1 (شاخص دوم) و غیره شروع می شود.
  • برای شاخص های منفی، نمایه سازی با -1 شروع می شود که برای دسترسی به آخرین عنصر دنباله و به دنبال آن -2 و غیره استفاده می شود.

 

13. چگونه می توان یک عدد را در پایتون به رشته و بالعکس تبدیل کرد؟

پایتون یک تابع str() داخلی دارد که می تواند برای تبدیل یک عدد به رشته استفاده شود.

مثال: x = str(7.5)

برای تبدیل رشته به پایتون می‌توانیم از تابع داخلی () int استفاده کنیم.

مثال: x = int (“15”)

 

14. تابع range در پایتون چیست؟

range() یک تابع داخلی پایتون است که با تعیین عدد انتهایی در تابع، دنباله ای از اعداد را تولید می کند. از 0 شروع می شود و 1 افزایش می یابد، قبل از عدد مشخص شده در تابع به پایان می رسد.

مثلا:

برای i در محدوده (9):

چاپ (i)

خروجی 0، 1، 2، 3، 4، 5، 6، 7، 8 است.

 

15. توابع لامبدا چیست؟

تابع لامبدا به عنوان یک تابع ناشناس شناخته می شود، زیرا عملکردی ندارد. یک تابع لامبدا می تواند فقط یک عبارت داشته باشد اما می تواند هر تعداد آرگومان را بگیرد.

 

16. مزایای برنامه نویسی R چیست؟

برخی از مزایای R به شرح زیر است:

  • R یک نرم افزار رایگان است
  • R یک انجمن فعال و بزرگ برای ارائه کمک آنلاین دارد
  • R می تواند چندین عملیات را همزمان انجام دهد زیرا یک زبان برداری است
  • R یک زبان تفسیر شده است، بنابراین نیازی به مترجم ندارد
  • برنامه نویسی R بهترین زبان برنامه نویسی برای تجزیه و تحلیل آماری است
  • برنامه نویسی R بسیاری از توابع داخلی را برای برنامه های علوم داده ارائه می دهد.

 

17. ساختارهای مختلف داده در R را به اختصار توضیح دهید؟

رایج ترین ساختارهای داده در R به شرح زیر است:

ساختار داده ها مختصر
بردار بردار دنباله ای تک بعدی از عناصر داده از همان نوع داده است.
فهرست کنید لیست ها می توانند حاوی عناصری از انواع داده های مختلف مانند اعداد، رشته ها، بردارها و غیره باشند.
ماتریس ماتریس یک آرایه دو بعدی از عناصر از یک نوع داده است. بردارهایی با طول یکسان را می توان برای تشکیل یک ماتریس ترکیب کرد.
چارچوب داده یک قاب داده شبیه به ماتریس است، با این حال، ستون‌های مختلف در یک قاب داده می‌توانند انواع داده‌های مختلفی مانند عددی، رشته‌ای، منطقی و غیره داشته باشند.

 

18. بسته های مختلف برای بارگذاری داده ها در برنامه نویسی R چیست؟

DBI: این بسته برای ارتباط بین R و سیستم های مدیریت پایگاه داده رابطه ای (RDMS) استفاده می شود.

RMySQL, RPostgreSQL, RSQLite: بسته به نوع پایگاه داده می توانیم یکی از این بسته ها را برای خواندن داده ها از پایگاه داده انتخاب کنیم.

XLConnect، xlsx: به خواندن و نوشتن فایل های MS Excel کمک می کند

خارجی: برای خواندن مجموعه داده های SAS یا SPSS استفاده می شود. بسته خارجی عملکردهایی را ارائه می دهد که به بارگذاری فایل های داده از برنامه های دیگر در R کمک می کند.

 

19. چند بسته مورد استفاده برای دستکاری داده ها در برنامه نویسی R را نام ببرید؟ 

Dplyr: این بسته برای خلاصه کردن، تنظیم مجدد و پیوستن مجموعه داده ها به یکدیگر مفید است.

Tidyr: به تغییر طرح مجموعه داده ها کمک می کند. برای تبدیل داده ها به فرمت مرتب استفاده می شود.

Lubridate: به کار با تاریخ و زمان کمک می کند.

 

20. چند بسته مورد استفاده برای تجسم داده ها در برنامه نویسی R را نام ببرید؟ 

ggplot2: ggplot2 از گرامر گرافیک برای ساختن طرح های لایه ای و قابل تنظیم استفاده می کند.

Ggvis: گرافیک های مبتنی بر وب ایجاد می کند.

Rgl: تجسم های سه بعدی تعاملی ایجاد می کند.

 

21. بسته های مختلفی در برنامه نویسی R برای مدل سازی داده ها استفاده می شود؟ 

lme4/nlme: در مدل‌های خطی و غیرخطی اثرات مختلط استفاده می‌شود

mgcv: مدل های افزودنی تعمیم یافته (مخلوط).

randomForest: برای ایجاد و تجزیه و تحلیل جنگل های تصادفی استفاده می شود

multcomp: برای آزمایش مقایسه چندگانه استفاده می شود

بقا: برای تجزیه و تحلیل بقا استفاده می شود

caret: برای آموزش مدل های رگرسیون و طبقه بندی استفاده می شود

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

مطالب پرمخاطب پایتونی ها

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2