021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

118 سوال مصاحبه علوم داده مقدماتی تا پیشرفته

علم داده یک مفهوم نسبتاً جدید در دنیای فناوری است، و برای متخصصان می‌تواند در جستجوی مشاوره شغلی و مصاحبه در حین درخواست شغل در این حوزه، بسیار سخت باشد. همچنین، قبل از آماده شدن برای مصاحبه علم داده ، نیاز به کسب طیف گسترده ای از مهارت ها وجود دارد.

مصاحبه کنندگان به دنبال دانش عملی در زمینه مبانی علم داده و کاربردهای صنعتی آن به همراه دانش خوب از ابزارها و فرآیندها هستند. در اینجا ما لیستی از سوالات مهم مصاحبه علوم داده را برای افراد تازه وارد و یا با تجربه که می توانید در طول مصاحبه شغلی با آنها روبرو شوید ارائه می دهیم. اگر می خواهید یک دانشمند داده باشید، می توانید از اینجا شروع کنید.

 

فهرست مطالب پنهان

1 . تفاوت بین خطای نوع اول و خطای نوع دوم چیست؟ همچنین قدرت آزمون را توضیح دهید؟

وقتی آزمون فرضیه را انجام می دهیم، دو نوع خطا را در نظر می گیریم، خطای نوع اول و خطای نوع دوم، گاهی اوقات فرضیه صفر را زمانی که نباید رد می کنیم یا تصمیم می گیریم که در صورت لزوم، فرضیه صفر را رد نکنیم.

زمانی که فرضیه صفر را رد می کنیم، در حالی که فرضیه صفر واقعاً صادق است، خطای نوع I مرتکب می شود. از طرف دیگر، زمانی خطای نوع II ایجاد می شود که فرضیه صفر را رد نکنیم و فرضیه صفر در واقع نادرست باشد.

احتمال خطای نوع I با α و احتمال خطای نوع II با β نشان داده می شود .

برای یک نمونه معین n ، کاهش α باعث افزایش β خواهد شد و بالعکس. هر دو α  و β با افزایش n کاهش می یابند.

جدول زیر وضعیت خطای نوع I و خطای نوع II را توضیح می دهد:

تصمیم گیری فرضیه صفر درست است فرضیه صفر نادرست است
رد فرضیه صفر خطای نوع I تصمیم درست
عدم رد فرضیه صفر تصمیم درست خطای نوع دوم

دو تصمیم درست ممکن است: رد نکردن فرضیه صفر زمانی که فرضیه صفر درست است و رد فرضیه صفر زمانی که فرضیه صفر نادرست است.

در مقابل، دو تصمیم نادرست نیز ممکن است: رد فرضیه صفر در صورت درست بودن فرضیه صفر (خطای نوع I)، و عدم رد فرضیه صفر در صورت نادرست بودن فرضیه صفر (خطای نوع II).

خطای نوع I مثبت کاذب است در حالی که خطای نوع II منفی کاذب است.

قدرت آزمون: قدرت آزمون به عنوان احتمال رد فرضیه صفر در صورت نادرست بودن فرضیه صفر تعریف می شود. از آنجایی که β احتمال خطای نوع II است، قدرت آزمون به صورت 1- β تعریف می شود. در آمارهای پیشرفته، ما انواع مختلف تست‌ها را بر اساس اندازه و توان آن‌ها مقایسه می‌کنیم، که در آن اندازه نشان‌دهنده نسبت واقعی ردها زمانی است که عدد درست است و توان نشان‌دهنده نسبت واقعی ردها زمانی است که عدد تهی نادرست است.

 

2. شما از بیش برازش و کم تناسب چه می فهمید؟

اضافه برازش زمانی مشاهده می‌شود که داده‌های کمی و تعداد متغیرهای زیادی وجود داشته باشد، اگر مدلی که با آن تمام می‌کنیم به مدل‌سازی نویز نیز ختم شود، آن را “overfitting” می‌گوییم و اگر تمام اطلاعات را مدل‌سازی نکنیم، فراخوانی می‌کنیم. آن را “کم تناسب” است. معمولاً عدم برازش زمانی مشاهده می شود که یک مدل خطی به داده های غیر خطی برازش می شود.

امید این است که مدلی که بهترین عملکرد را در آزمایش داده‌ها انجام می‌دهد، بتواند تمام اطلاعات را بگیرد/مدل‌سازی کند اما تمام نویزها را کنار بگذارد. با استفاده از تکنیک‌های اعتبارسنجی متقاطع (مانند K Folds) و تکنیک‌های منظم‌سازی (مانند رگرسیون کمند) از برازش بیش‌ازحد می‌توان جلوگیری کرد.

 

3 . چه زمانی از تکنیک طبقه بندی نسبت به تکنیک رگرسیون استفاده می کنید؟

مشکلات طبقه بندی عمدتا زمانی استفاده می شود که خروجی متغیر مقوله ای (گسسته) باشد، در حالی که تکنیک های رگرسیون زمانی استفاده می شود که متغیر خروجی متغیر پیوسته باشد.

در الگوریتم رگرسیون، ما سعی می کنیم تابع نگاشت (f) را از متغیرهای ورودی (x) به متغیر خروجی عددی (پیوسته) (y) تخمین بزنیم.

به عنوان مثال، رگرسیون خطی، ماشین بردار پشتیبان (SVM) و درختان رگرسیون.

در الگوریتم Classification، ما سعی می کنیم تابع نگاشت (f) را از متغیر ورودی (x) به متغیر خروجی گسسته یا طبقه بندی (y) تخمین بزنیم.

به عنوان مثال، رگرسیون لجستیک، بیز ساده، درختان تصمیم و K نزدیکترین همسایگان.

هر دو طبقه بندی و همچنین تکنیک های رگرسیون، الگوریتم های یادگیری ماشینی نظارت شده هستند.

 

4. اهمیت پاکسازی داده ها چیست؟

پاسخ همانطور که از نام آن پیداست، پاکسازی داده ها فرآیند حذف یا به روز رسانی اطلاعاتی است که نادرست، ناقص، تکراری، نامربوط، یا فرمت نامناسب هستند. بهبود کیفیت داده ها و در نتیجه دقت و بهره وری فرآیندها و سازمان در کل بسیار مهم است.

داده های دنیای واقعی اغلب در قالب هایی گرفته می شوند که دارای مشکلات بهداشتی هستند. گاهی اوقات به دلایل مختلف خطاهایی وجود دارد که داده ها را ناسازگار می کند و گاهی اوقات فقط برخی از ویژگی های داده ها. از این رو پاکسازی داده ها برای فیلتر کردن داده های قابل استفاده از داده های خام انجام می شود، در غیر این صورت بسیاری از سیستم هایی که داده ها را مصرف می کنند، نتایج اشتباهی تولید می کنند.

 

5 . مراحل مهم پاکسازی داده ها کدامند؟

انواع مختلف داده ها به انواع مختلفی از تمیز کردن نیاز دارند، مهمترین مراحل پاکسازی داده ها عبارتند از:

  1. کیفیت داده
  2. حذف داده های تکراری (همچنین داده های نامربوط)
  3. خطاهای ساختاری
  4. موارد پرت
  5. درمان برای داده های از دست رفته

پاکسازی داده ها گام مهمی قبل از تجزیه و تحلیل داده ها است که به افزایش دقت مدل کمک می کند. این به سازمان ها کمک می کند تا تصمیمی آگاهانه بگیرند.

دانشمندان داده معمولاً 80 درصد از زمان خود را صرف پاکسازی داده ها می کنند.

 

6 . k-NN چه تفاوتی با k-means خوشه بندی دارد؟

پاسخ K-نزدیکترین همسایه یک الگوریتم طبقه بندی است که زیرمجموعه ای از یادگیری نظارت شده است. K-means یک الگوریتم خوشه بندی است که زیرمجموعه ای از یادگیری بدون نظارت است.

و K-NN یک الگوریتم یادگیری ماشین طبقه بندی یا رگرسیون است در حالی که K-means یک الگوریتم یادگیری ماشین خوشه بندی است.

K-NN تعداد نزدیک‌ترین همسایه‌هایی است که برای طبقه‌بندی یا (پیش‌بینی در صورت متغیر پیوسته/رگرسیون) نمونه آزمایشی استفاده می‌شود، در حالی که K-means تعداد خوشه‌هایی است که الگوریتم تلاش می‌کند از داده‌ها یاد بگیرد.

 

7 . p-value چیست؟

پاسخ p-value به شما کمک می کند تا هنگام انجام یک آزمون فرضیه، نقاط قوت نتایج خود را تعیین کنید. این یک عدد بین 0 و 1 است. ادعایی که در حال محاکمه است، فرضیه صفر نامیده می شود. مقادیر p کمتر، یعنی ≤ 0.05، به این معنی است که می توانیم فرضیه صفر را رد کنیم. مقدار p بالا، یعنی ≥ 0.05، به این معنی است که ما می توانیم فرضیه صفر را بپذیریم. مقدار p-value دقیق 0.05 نشان می دهد که فرضیه می تواند در هر دو طرف پیش برود.

P-value اندازه گیری احتمال رویدادهایی غیر از فرضیه صفر است. این به طور مؤثر به معنای احتمال رخدادهای نادرتر از رویدادی است که توسط فرضیه صفر پیشنهاد می شود.

 

8. علم داده چه تفاوتی با Big Data و Data Analytics دارد؟

پاسخ علم داده از الگوریتم ها و ابزارهایی برای به دست آوردن بینش های معنادار و مفید تجاری از داده های خام استفاده می کند. این شامل وظایفی مانند مدل‌سازی داده، پاکسازی داده‌ها، تجزیه و تحلیل، پیش پردازش و غیره است.
داده‌های بزرگ مجموعه عظیمی از داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار به شکل خام خود هستند که از طریق کانال‌های مختلف تولید می‌شوند.
و در نهایت، Data Analytics بینش های عملیاتی را در مورد سناریوهای تجاری پیچیده ارائه می دهد. همچنین به پیش بینی فرصت ها و تهدیدهای آتی برای بهره برداری سازمان کمک می کند.

اساسا، داده های بزرگ فرآیند مدیریت حجم زیادی از داده ها است. این شامل شیوه های استاندارد برای مدیریت و پردازش داده ها با سرعت بالا و حفظ ثبات داده ها است. تجزیه و تحلیل داده ها با به دست آوردن بینش معنادار از داده ها از طریق فرآیندهای ریاضی یا غیر ریاضی مرتبط است. علم داده هنر ساختن سیستم های هوشمند است تا از داده ها یاد بگیرند و سپس با توجه به تجربیات گذشته تصمیم بگیرند.

 

9. کاربرد آمار در علم داده چیست؟

پاسخ آمار ابزارها و روش هایی را برای شناسایی الگوها و ساختارها در داده ها فراهم می کند تا بینش عمیق تری نسبت به آن ارائه دهد. نقش مهمی در جمع آوری داده ها، کاوش، تجزیه و تحلیل و اعتبار سنجی دارد. این نقش واقعاً قدرتمندی در علم داده ایفا می کند .

علم داده رشته ای مشتق شده است که از همپوشانی احتمالات آمار و علوم کامپیوتر شکل می گیرد. هر زمان که فرد نیاز به تخمین دارد، آمار دخیل است. بسیاری از الگوریتم ها در علم داده بر روی فرمول ها و فرآیندهای آماری ساخته شده اند. از این رو آمار بخش مهمی از علم داده است.

 

 

10. تفاوت بین یادگیری تحت نظارت و یادگیری بدون نظارت چیست؟

پاسخ یادگیری ماشینی نظارت شده برای آموزش به داده های برچسب دار نیاز دارد در حالی که یادگیری ماشینی بدون نظارت به داده های برچسب دار نیاز ندارد. می توان آن را بر روی داده های بدون برچسب آموزش داد.

برای توضیح بیشتر، یادگیری تحت نظارت شامل آموزش مدل با مقدار هدف است، در حالی که بدون نظارت هیچ نتیجه شناخته شده ای برای یادگیری ندارد و دارای یک مکانیسم مبتنی بر حالت یا تطبیقی ​​برای یادگیری است. یادگیری نظارت شده مستلزم هزینه های محاسباتی بالایی است در حالی که یادگیری بدون نظارت هزینه آموزشی پایینی دارد. یادگیری نظارت شده کاربردهایی را در وظایف طبقه بندی و رگرسیون پیدا می کند در حالی که یادگیری بدون نظارت کاربردهایی را در قواعد کاوی خوشه بندی و تداعی پیدا می کند.

 

11. رگرسیون خطی چیست؟

پاسخ رگرسیون خطی معادله یک معادله یک درجه با شکل بسیار ابتدایی بودن Y = MX + C است که در آن m شیب خط است و C خطای استاندارد است. زمانی استفاده می شود که متغیر پاسخ طبیعتاً پیوسته باشد، مثلاً قد، وزن و تعداد ساعت. اگر شامل متغیر وابسته پیوسته با یک متغیر مستقل باشد، می تواند یک رگرسیون خطی ساده باشد و اگر دارای چندین متغیر مستقل باشد، یک رگرسیون خطی چندگانه باشد.

رگرسیون خطی یک روش آماری استاندارد برای محاسبه بهترین برازش خط عبوری از نقاط داده هنگام ترسیم است. بهترین خط مناسب به گونه ای انتخاب می شود که فاصله هر نقطه داده از خط حداقل باشد که خطای کلی سیستم را کاهش می دهد. رگرسیون خطی فرض می کند که ویژگی های مختلف در داده ها به صورت خطی با هدف مرتبط هستند. اغلب در تحلیل های پیش بینی برای محاسبه تخمین ها در آینده قابل پیش بینی استفاده می شود.

 

12. رگرسیون لجستیک چیست؟

پاسخ رگرسیون لجستیک تکنیکی در تجزیه و تحلیل پیش‌بینی‌کننده است که زمانی استفاده می‌شود که در حال انجام پیش‌بینی بر روی متغیری با ماهیت دوگانه (دودویی) هستیم. برای مثال، بله/خیر یا درست/نادرست و غیره. معادله این روش به شکل Y = eX + e – X است. برای کارهای مبتنی بر طبقه بندی استفاده می شود. احتمال تعلق یک نقطه داده به یک کلاس خاص را برای طبقه بندی پیدا می کند.

 

13. توزیع نرمال را توضیح دهید

پاسخ به توزیع نرمال، توزیع گاوسی نیز گفته می شود. این یک نوع توزیع احتمال است به طوری که بیشتر مقادیر نزدیک به میانگین قرار دارند. دارای ویژگی های زیر است:

  • میانگین، میانه و حالت توزیع منطبق هستند
  • توزیع دارای یک منحنی زنگی شکل است
  • مساحت کل زیر منحنی 1 است
  • دقیقاً نیمی از مقادیر در سمت راست مرکز و نیمی دیگر در سمت چپ مرکز قرار دارند.

 

14. برخی از اشکالات مدل خطی را ذکر کنید

پاسخ در اینجا چند اشکال مدل خطی وجود دارد:

  • فرض مربوط به خطی بودن خطاها
  • برای نتایج باینری یا نتیجه شمارش قابل استفاده نیست
  • نمی تواند برخی از مشکلات بیش از حد مناسب را حل کند
  • همچنین فرض می‌کند که در داده‌ها چند خطی وجود ندارد.

 

15. کدام یک را برای تجزیه و تحلیل متن انتخاب می کنید، R یا Python؟

پاسخ پایتون انتخاب بهتری برای تجزیه و تحلیل متن خواهد بود زیرا دارای کتابخانه Pandas برای تسهیل ساختارهای داده با استفاده آسان و ابزارهای تجزیه و تحلیل داده با کارایی بالا است. با این حال، بسته به پیچیدگی داده ها، می توان از هر کدام که مناسب تر است استفاده کرد.

 

6. هنگام ساختن درخت تصمیم چه مراحلی را دنبال می کنید؟

پاسخ مراحلی که در ساختن درخت تصمیم وجود دارد عبارتند از:

  1. ریشه گام درخت را تعیین کنید
  2. محاسبه آنتروپی برای مرحله کلاس ها
  3. محاسبه آنتروپی پس از تقسیم برای هر ویژگی
  4. محاسبه سود اطلاعات برای هر تقسیم
  5. Split را انجام دهید
  6. مرحله تقسیم بیشتر را انجام دهید
  7. درخت تصمیم را کامل کنید
سوالات مصاحبه علوم داده
مراحل مربوط به ایجاد درخت تصمیم

17. همبستگی و کوواریانس در آمار چیست؟

پاسخ همبستگی به عنوان معیاری از رابطه بین دو متغیر تعریف می شود. اگر دو متغیر با یکدیگر نسبت مستقیم داشته باشند، همبستگی مثبت آن است. اگر متغیرها به طور غیرمستقیم با یکدیگر تناسب داشته باشند به آن همبستگی منفی می گویند. کوواریانس اندازه گیری میزان تفاوت دو متغیر تصادفی با هم است.

 

18. ساده لوح در بیز ساده چیست؟

پاسخ یک طبقه‌بندی‌کننده ساده بیز فرض می‌کند که وجود (یا عدم وجود) یک ویژگی خاص یک کلاس با وجود (یا عدم وجود) هیچ ویژگی دیگری، با توجه به متغیر کلاس، ارتباطی ندارد. اساساً، “ساده لوحانه” است، زیرا مفروضاتی را مطرح می کند که ممکن است درست باشد یا نباشد.

 

19. چگونه می توانید k را برای k-means انتخاب کنید؟

پاسخ دو روش برای محاسبه مقدار بهینه k در میانگین k عبارتند از:

  1. روش آرنج
  2. روش نمره سیلوئت

امتیاز Silhouette در هنگام تعیین مقدار بهینه k بیشترین شیوع را دارد.

 

20. چه ساختارهای داده بومی را می توانید در پایتون نام ببرید؟ از این میان، کدام یک تغییرپذیر و کدام غیر قابل تغییر است؟

پاسخ ساختارهای داده بومی پایتون عبارتند از:

  • لیست ها
  • تاپل ها
  • مجموعه ها
  • فرهنگ لغت

تاپل ها تغییر ناپذیرند. دیگران قابل تغییر هستند.

 

21. دانشمندان داده از چه کتابخانه هایی برای ترسیم داده ها در پایتون استفاده می کنند؟

پاسخ کتابخانه های مورد استفاده برای رسم داده ها عبارتند از:

  • matplotlib
  • متولد دریا
  • ggplot.

جدای از اینها، ابزارهای منبع باز بسیاری وجود دارد، اما موارد فوق بیشترین استفاده را در عمل رایج دارند.

 

22. حافظه در پایتون چگونه مدیریت می شود؟

پاسخ مدیریت حافظه در پایتون شامل یک پشته خصوصی است که شامل تمام اشیاء پایتون و ساختارهای داده است. مدیریت این پشته خصوصی به صورت داخلی توسط مدیر حافظه پایتون تضمین می شود.

 

23. یادآوری چیست؟

پاسخ یادآوری نرخ مثبت های واقعی را با توجه به مجموع مثبت های واقعی و منفی های کاذب نشان می دهد. همچنین به عنوان نرخ مثبت واقعی شناخته می شود.

 

24. توابع لامبدا چیست؟

پاسخ تابع لامبدا یک تابع ناشناس کوچک است. یک تابع لامبدا می تواند هر تعداد آرگومان را بگیرد، اما فقط می تواند یک عبارت داشته باشد.

 

25-یادگیری تقویتی چیست؟

پاسخ یادگیری تقویتی یک تکنیک یادگیری بدون نظارت در یادگیری ماشین است. این یک تکنیک یادگیری مبتنی بر حالت است. مدل‌ها قوانین از پیش تعریف‌شده‌ای برای تغییر حالت دارند که سیستم را قادر می‌سازد از یک حالت به حالت دیگر حرکت کند، در حالی که مرحله آموزش است.

 

26. آنتروپی و به دست آوردن اطلاعات در الگوریتم درخت تصمیم چیست؟

پاسخ آنتروپی برای بررسی همگنی نمونه استفاده می شود. اگر مقدار آنتروپی ‘0’ باشد، نمونه کاملاً همگن است. از طرف دیگر، اگر آنتروپی مقدار “1” داشته باشد، نمونه به طور مساوی تقسیم می شود. آنتروپی نحوه تصمیم گیری درخت تصمیم برای تقسیم داده ها را کنترل می کند. این در واقع بر نحوه ترسیم یک درخت تصمیم گیری از مرزهای خود تأثیر می گذارد.

افزایش اطلاعات به کاهش آنتروپی پس از تقسیم مجموعه داده بر روی یک ویژگی بستگی دارد. ساختن درخت تصمیم همیشه در مورد یافتن ویژگی هایی است که بالاترین سود اطلاعات را برمی گرداند.

 

2 7. Cross-Validation چیست؟ 

پاسخ این یک تکنیک اعتبارسنجی مدل برای ارزیابی چگونگی استنتاج نتایج یک تحلیل آماری به مجموعه داده‌های مستقل است. عمدتاً در مواردی استفاده می‌شود که پیش‌بینی هدف است و نیاز به تخمین دقت عملکرد یک مدل پیش‌بینی در عمل است.
هدف در اینجا تعریف یک مجموعه داده برای آزمایش یک مدل در مرحله آموزش آن و محدود کردن مسائل مربوط به بیش برازش و عدم تناسب است. اعتبارسنجی و مجموعه آموزشی باید از یک توزیع گرفته شود تا از بدتر شدن اوضاع جلوگیری شود.

 

28. معاوضه سوگیری-واریانس چیست؟

پاسخ خطای معرفی شده در مدل شما به دلیل ساده سازی بیش از حد الگوریتم به عنوان Bias شناخته می شود. از سوی دیگر، Variance خطایی است که به دلیل ماهیت پیچیده الگوریتم یادگیری ماشین به مدل شما معرفی شده است. در این مورد، مدل همچنین نویز را یاد می گیرد و در مجموعه داده آزمایشی ضعیف عمل می کند.

مبادله بایاس-واریانس تعادل بهینه بین سوگیری و واریانس در یک مدل یادگیری ماشینی است. اگر سعی کنید سوگیری را کاهش دهید، واریانس افزایش می یابد و بالعکس.

خطای کل = مربع سوگیری + واریانس + خطای غیر قابل تقلیل. مبادله واریانس بایاس فرآیند یافتن تعداد دقیق ویژگی‌ها در حین ایجاد مدل به گونه‌ای است که خطا در حداقل نگه داشته شود، اما همچنین مراقبت مؤثر به گونه‌ای است که مدل بیش از حد برازش یا کمتر برازنده شود.

 

29. M ention انواع تعصبات که در طول نمونه برداری رخ می دهد؟

پاسخ سه نوع سوگیری که در هنگام نمونه گیری رخ می دهد عبارتند از:
الف. تعصب خود انتخابی
ب. سوگیری تحت پوشش
ج. تعصب بقا

انتخاب خود زمانی است که شرکت کنندگان در تحلیل خود را انتخاب می کنند. عدم پوشش زمانی رخ می دهد که نمونه های بسیار کمی از بخشی از جامعه انتخاب شوند. سوگیری بقا زمانی اتفاق می‌افتد که مشاهدات ثبت‌شده در پایان تحقیق مجموعه‌ای غیر تصادفی از مشاهدات حاضر در ابتدای تحقیق باشد.

 

30. ماتریس سردرگمی چیست؟

پاسخ ماتریس سردرگمی یک جدول 2X2 است که از چهار خروجی تشکیل شده است که توسط طبقه بندی کننده باینری ارائه می شود.

یک طبقه‌بندی‌کننده باینری، تمام نمونه‌های داده یک مجموعه آزمایشی را مثبت یا منفی پیش‌بینی می‌کند. این چهار نتیجه ایجاد می کند –

  1. مثبت واقعی (TP) – پیش بینی مثبت صحیح
  2. مثبت کاذب (FP) – پیش بینی مثبت نادرست
  3. منفی واقعی (TN) – پیش بینی منفی صحیح
  4. منفی کاذب (FN) – پیش بینی منفی نادرست

این به محاسبه معیارهای مختلف از جمله نرخ خطا (FP+FN)/(P+N)، ویژگی (TN/N)، دقت (TP+TN)/(P+N)، حساسیت (TP/P) و دقت کمک می کند. (TP/(TP+FP)).

یک ماتریس سردرگمی اساساً برای ارزیابی عملکرد یک مدل یادگیری ماشینی استفاده می‌شود، زمانی که مقادیر حقیقت آزمایش‌ها از قبل شناخته شده باشند و کلاس هدف بیش از دو دسته داده داشته باشد. به تجسم و ارزیابی نتایج فرآیند آماری کمک می کند.

 

31. سوگیری انتخاب را توضیح دهید

پاسخ سوگیری انتخاب زمانی اتفاق می افتد که پژوهش انتخاب تصادفی از شرکت کنندگان نداشته باشد. این تحریف تجزیه و تحلیل آماری ناشی از روش جمع آوری نمونه است. سوگیری انتخاب نیز به عنوان اثر انتخاب نامیده می شود. هنگامی که متخصصان نتوانند سوگیری انتخاب را در نظر بگیرند، ممکن است نتیجه گیری آنها نادرست باشد.

برخی از انواع مختلف سوگیری انتخاب عبارتند از:

  • سوگیری نمونه گیری – یک خطای سیستماتیک که به دلیل یک نمونه غیرتصادفی است
  • داده – زمانی رخ می دهد که زیر مجموعه های داده خاص برای پشتیبانی از نتیجه گیری یا رد داده های بد انتخاب می شوند
  • فرسایش – اشاره به سوگیری ناشی از آزمایش‌هایی دارد که کامل نشده‌اند.

 

32. گرادیان های انفجاری چیست؟

پاسخ Exploding Gradients سناریوی مشکل‌ساز است که در آن گرادیان‌های خطای بزرگ انباشته می‌شوند و منجر به به‌روزرسانی‌های بسیار بزرگی برای وزن مدل‌های شبکه عصبی در مرحله آموزش می‌شوند. در یک حالت شدید، مقدار وزن‌ها می‌تواند سرریز شود و به مقادیر NaN منجر شود. از این رو مدل ناپایدار می شود و قادر به یادگیری از داده های آموزشی نیست.

 

33. قانون اعداد بزرگ را توضیح دهید

پاسخ “قانون اعداد بزرگ” بیان می کند که اگر آزمایشی به طور مستقل چندین بار تکرار شود، میانگین نتایج فردی نزدیک به مقدار مورد انتظار است. همچنین بیان می کند که واریانس نمونه و انحراف معیار نیز به سمت مقدار مورد انتظار همگرا می شوند.

 

34. اهمیت تست A/B چیست

پاسخ هدف از تست A/B انتخاب بهترین نوع از بین دو فرضیه است، موارد استفاده از این نوع تست می تواند پاسخگویی صفحه وب یا برنامه، طراحی مجدد صفحه فرود، تست بنر، عملکرد کمپین بازاریابی و غیره باشد
. مرحله اول برای تأیید یک هدف تبدیل، و سپس تجزیه و تحلیل آماری برای درک اینکه کدام جایگزین برای هدف تبدیل داده شده بهتر عمل می کند استفاده می شود.

 

35. بردارهای ویژه و مقادیر ویژه را توضیح دهید

پاسخ بردارهای ویژه جهتی را نشان می دهند که یک تبدیل خطی در آن حرکت می کند و با فشرده سازی، چرخاندن یا کشش عمل می کند. آنها برای درک تبدیل های خطی استفاده می شوند و به طور کلی برای یک ماتریس همبستگی یا کوواریانس محاسبه می شوند.
مقدار ویژه قدرت تبدیل در جهت بردار ویژه است.

جهت یک بردار ویژه بدون تغییر باقی می ماند هنگامی که یک تبدیل خطی به آن اعمال می شود.

 

36. چرا نمونه برداری مجدد انجام می شود؟

پاسخ نمونه برداری مجدد انجام می شود:

  • دقت آمار نمونه را با زیرمجموعه های داده های در دسترس تخمین بزنید
  • در حین انجام تست های اهمیت، برچسب های نقطه داده را جایگزین کنید
  • اعتبارسنجی مدل ها با استفاده از زیر مجموعه های تصادفی

 

37. نمونه گیری سیستماتیک و نمونه گیری خوشه ای چیست

پاسخ نمونه گیری سیستماتیک نوعی روش نمونه گیری احتمالی است. اعضای نمونه از یک جامعه بزرگتر با یک نقطه شروع تصادفی اما یک بازه دوره ای ثابت انتخاب می شوند. این فاصله به عنوان فاصله نمونه گیری شناخته می شود. فاصله نمونه گیری با تقسیم حجم جامعه بر حجم نمونه مورد نظر محاسبه می شود.

نمونه گیری خوشه ای شامل تقسیم جامعه نمونه به گروه های مجزا به نام خوشه است. سپس یک نمونه تصادفی ساده از خوشه ها از جامعه انتخاب می شود. تجزیه و تحلیل بر روی داده های خوشه های نمونه انجام شده است.

 

38. Autoencoder چیست؟

پاسخ رمزگذار خودکار نوعی شبکه عصبی مصنوعی است. برای یادگیری کدگذاری داده های کارآمد به شیوه ای بدون نظارت استفاده می شود. برای یادگیری یک نمایش (رمزگذاری) برای مجموعه ای از داده ها، بیشتر برای کاهش ابعاد، با آموزش شبکه برای نادیده گرفتن “نویز” سیگنال استفاده می شود. Autoencoder همچنین سعی می کند تا از کدگذاری کاهش یافته نمایشی را تا حد امکان نزدیک به ورودی اصلی خود ایجاد کند.

 

39. مراحل ساخت یک مدل جنگل تصادفی چیست؟

یک جنگل تصادفی اساساً مجموعه ای از تعدادی درخت تصمیم است. مراحل ساخت یک مدل جنگل تصادفی عبارتند از:

مرحله 1: ویژگی های ‘k’ را از مجموع ویژگی های ‘m’، به طور تصادفی انتخاب کنید. اینجا k << m

مرحله 2: محاسبه گره D با استفاده از بهترین نقطه تقسیم – در امتداد ویژگی های ‘k’

مرحله 3: تقسیم گره به گره دختر با استفاده از بهترین splitStep 4: مراحل را تکرار 2 و 3 تا برگ نهایی می

STEP5: ساخت یک جنگل تصادفی با تکرار مراحل 1-4 برای ‘ñ’ بار برای ایجاد تعداد ‘ñ’ درختان .

 

40. چگونه از برازش بیش از حد مدل خود جلوگیری می کنید؟

Overfitting اساساً به مدلی اشاره دارد که فقط برای مقدار کمی داده تنظیم شده است. تمایل به نادیده گرفتن تصویر بزرگتر دارد. سه روش مهم برای جلوگیری از نصب بیش از حد عبارتند از:

  • ساده نگه داشتن مدل – استفاده از متغیرهای کمتر و حذف مقدار عمده نویز در داده های آموزشی
  • استفاده از تکنیک های اعتبار سنجی متقابل به عنوان مثال: k اعتبار متقاطع را تا می کند
  • استفاده از تکنیک‌های منظم‌سازی – مانند LASSO، برای جریمه کردن پارامترهای مدلی که احتمالاً باعث اضافه‌برازش می‌شوند.

 

41. بین تحلیل تک متغیره، دو متغیره و چند متغیره تفاوت قائل شوید.

داده های تک متغیره، همانطور که از نام آن پیداست، تنها شامل یک متغیر است. تحلیل تک متغیره داده ها را توصیف می کند و الگوهای موجود در آن را پیدا می کند.

داده های دو متغیره شامل دو متغیر متفاوت است. تحلیل دو متغیره به علل، روابط و تحلیل بین آن دو متغیر می پردازد.

داده های چند متغیره شامل سه یا چند متغیر است. تحلیل چند متغیره مشابه تحلیل دو متغیره است، با این حال، در تحلیل چند متغیره، بیش از یک متغیر وابسته وجود دارد.

 

42- جنگل تصادفی چه تفاوتی با درختان تصمیم دارد؟

پاسخ درخت تصمیم یک ساختار واحد است. جنگل تصادفی مجموعه ای از درختان تصمیم است.

 

43. کاهش ابعاد چیست؟ مزایای آن چیست؟

کاهش ابعاد به عنوان فرآیند تبدیل یک مجموعه داده با ابعاد وسیع به داده هایی با ابعاد کمتر – به منظور انتقال اطلاعات مشابه به طور خلاصه تعریف می شود.

این روش عمدتاً در فشرده سازی داده ها و کاهش فضای ذخیره سازی مفید است. همچنین در کاهش زمان محاسبات به دلیل ابعاد کمتر مفید است. در نهایت، به حذف ویژگی‌های اضافی کمک می‌کند – برای مثال، از ذخیره یک مقدار در دو واحد مختلف (متر و اینچ) اجتناب می‌شود.

به طور خلاصه، کاهش ابعاد، فرآیند کاهش تعداد متغیرهای تصادفی مورد بررسی، با به دست آوردن مجموعه ای از متغیرهای اصلی است. می توان آن را به انتخاب ویژگی و استخراج ویژگی تقسیم کرد.

 

44. برای نقاط داده شده، چگونه فاصله اقلیدسی را در پایتون محاسبه خواهید کرد؟ plot1 = [1,3] ; نمودار 2 = [2،5] 

پاسخ

import math
# Example points in 2-dimensional space...
x = (1,3)
y = (2,5)
distance = math.sqrt(sum([(a - b) ** 2 for a, b in zip(x, y)]))
print("Euclidean distance from x to y: ",distance)

45. روش های انتخاب ویژگی مورد استفاده برای انتخاب متغیرهای مناسب را ذکر کنید.

روش های انتخاب ویژگی را می توان به طور کلی به دو نوع طبقه بندی کرد:

روش های فیلتر: این روش ها شامل:

  • تجزیه و تحلیل تبعیض خطی
  • ANOVA
  • Chi-Square

روش های Wrapper: این روش ها شامل

  • انتخاب رو به جلو: یک ویژگی در یک زمان آزمایش می شود و تناسب خوبی به دست می آید
  • انتخاب به عقب: همه ویژگی‌ها بررسی می‌شوند تا ببینیم چه چیزی بهتر عمل می‌کند
  • حذف ویژگی بازگشتی: هر ویژگی مختلف به صورت بازگشتی بررسی می شود و بر این اساس با هم جفت می شود.

موارد دیگر عبارتند از: حذف رو به جلو، حذف به عقب برای رگرسیون، انتخاب ویژگی مبتنی بر تشابه کسینوس برای وظایف خوشه‌بندی، حذف‌های مبتنی بر همبستگی و غیره.

 

46. ​​انواع مختلف الگوریتم های خوشه بندی چیست؟

پاسخ خوشه‌بندی Kmeans، KNN (K نزدیکترین همسایه)، خوشه‌بندی سلسله مراتبی، خوشه‌بندی فازی برخی از نمونه‌های رایج الگوریتم‌های خوشه‌بندی هستند.

 

47. چگونه باید یک مدل مستقر را حفظ کنید؟

پاسخ یک مدل مستقر شده باید پس از مدتی دوباره آموزش داده شود تا عملکرد مدل بهبود یابد. از زمان استقرار، باید مسیری از پیش بینی های انجام شده توسط مدل و مقادیر حقیقت حفظ شود. بعداً می توان از این برای آموزش مجدد مدل با داده های جدید استفاده کرد. همچنین، تجزیه و تحلیل علت ریشه ای برای پیش بینی های اشتباه باید انجام شود.

 

48. کدام یک از الگوریتم های یادگیری ماشین زیر را می توان برای وارد کردن مقادیر گمشده متغیرهای طبقه ای و پیوسته استفاده کرد؟ K-means خوشه بندی رگرسیون خطی K-NN (k-نزدیک ترین همسایه) درخت های تصمیم

پاسخ KNN و Kmeans

49. منحنی ROC چیست؟ نحوه عملکرد یک منحنی ROC را توضیح دهید؟

پاسخ منحنی AUC – ROC یک اندازه گیری عملکرد برای مسئله طبقه بندی در تنظیمات آستانه های مختلف است. ROC یک منحنی احتمال است و AUC نشان دهنده درجه یا معیار تفکیک پذیری است. این نشان می دهد که چه مقدار مدل قادر به تمایز بین کلاس ها است. هر چه AUC بالاتر باشد، مدل بهتر است 0s را به عنوان 0s و 1s را به عنوان 1s پیش بینی کند.

 

50. چگونه RMSE و MSE را در مدل رگرسیون خطی پیدا می کنید؟

پاسخ میانگین مربعات خطای مجموع مجذور (مقدار واقعی پیش بینی شده) برای تمام نقاط داده است. تخمینی از مجموع مربع کل خطاها را ارائه می دهد. ریشه میانگین مربع، جذر مجذور مجموع خطاها است.

 

51. آیا می توانید مثال هایی را ذکر کنید که در آنها منفی کاذب اهمیت بیشتری نسبت به مثبت کاذب دارد؟

پاسخ در موارد پیش‌بینی، زمانی که پیش‌بینی بیماری را بر اساس علائم بیماری‌هایی مانند سرطان انجام می‌دهیم.

 

52. چگونه می توان مقادیر پرت را درمان کرد؟

پاسخ درمان پرت را می توان با جایگزینی مقادیر با میانگین، حالت یا مقدار سرپوش انجام داد. روش دیگر حذف تمام ردیف‌هایی است که دارای مقادیر پرت هستند، در صورتی که نسبت کمی از داده‌ها را تشکیل می‌دهند. یک تبدیل داده نیز می تواند بر روی نقاط پرت انجام شود.

 

53. چگونه می توان دقت را با استفاده از ماتریس سردرگمی محاسبه کرد؟

پاسخ امتیاز دقت را می توان با فرمول محاسبه کرد: (TP+TN)/(TP+TN+FP+FN)، که در آن TP= مثبت واقعی، TN=منفی واقعی، FP=مثبت نادرست و FN=منفی نادرست.

 

54. تفاوت بین داده های فرمت طولانی و گسترده چیست؟

پاسخ فرمت عریض جایی است که برای هر نقطه داده یک سطر با چندین ستون برای نگهداری مقادیر ویژگی های مختلف داریم. فرمت طولانی جایی است که برای هر نقطه داده ما به اندازه تعداد صفات ردیف داریم و هر ردیف حاوی مقدار یک ویژگی خاص برای یک نقطه داده معین است.

 

55- الگوریتم یادگیری ماشینی SVM را به تفصیل توضیح دهید.

پاسخ SVM یک الگوریتم ML است که برای طبقه بندی و رگرسیون استفاده می شود. برای طبقه‌بندی، یک ابرصفحه چند بعدی برای تمایز بین کلاس‌ها پیدا می‌کند. SVM از هسته هایی استفاده می کند که خطی، چند جمله ای و rbf هستند. پارامترهای کمی وجود دارند که باید به SVM منتقل شوند تا نقاطی که باید در هنگام محاسبه هایپرپلن در نظر گرفته شوند مشخص شوند.

 

56. مراحل مختلف یک پروژه تحلیلی چیست؟

پاسخ مراحلی که در پروژه تجزیه و تحلیل متن انجام می شود عبارتند از:

  1. جمع آوری داده ها
  2. پاک کردن داده
  3. پیش پردازش داده ها
  4. ایجاد مجموعه های آزمایش و اعتبارسنجی قطار
  5. ایجاد مدل
  6. تنظیم فراپارامتر
  7. استقرار مدل

 

57. Star Schema را توضیح دهید.

پاسخ طرحواره ستاره ای یک مفهوم انبار داده است که در آن تمام طرحواره ها به یک طرحواره مرکزی متصل می شوند.

 

58. چگونه یک الگوریتم باید به طور منظم به روز شود؟

پاسخ این کاملاً به دقت و دقت مورد نیاز در محل تحویل و همچنین به میزان داده های جدیدی که باید روی آن آموزش دهیم بستگی دارد. برای مدلی که بر روی 10 میلیون ردیف آموزش داده شده است، داشتن داده های جدید با همان حجم یا نزدیک به همان حجم مهم است. آموزش 1 میلیون نقطه داده جدید در هر هفته یا هر دو هفته دیگر ارزش زیادی از نظر افزایش کارایی مدل نخواهد داشت.

 

59. فیلتر مشارکتی چیست؟

پاسخ فیلتر مشارکتی تکنیکی است که می تواند مواردی را که کاربر ممکن است بر اساس واکنش کاربران مشابه دوست داشته باشد، فیلتر کند. این کار با جستجوی گروه بزرگی از افراد و یافتن مجموعه کوچکتری از کاربران با سلیقه های مشابه با یک کاربر خاص کار می کند.

 

60. چگونه تعداد خوشه ها را در الگوریتم خوشه بندی تعریف خواهید کرد؟

پاسخ با تعیین امتیاز Silhouette و روش آرنج، تعداد خوشه های الگوریتم را تعیین می کنیم.

 

61. یادگیری گروهی چیست؟ انواع را تعریف کنید

پاسخ یادگیری گروهی عبارت است از جمع کردن چندین یادگیرنده ضعیف (کلاس بندی کننده های ml) و سپس استفاده از تجمیع برای پیش بینی نتیجه. مشاهده می‌شود که حتی اگر طبقه‌بندی‌کننده‌ها به صورت جداگانه عملکرد ضعیفی داشته باشند، زمانی که نتایج آنها تجمیع شود بهتر عمل می‌کنند. نمونه ای از یادگیری گروهی طبقه بندی جنگل تصادفی است.

 

62. بردارهای پشتیبانی در SVM کدامند؟

پاسخ بردارهای پشتیبان نقاط داده ای هستند که به ابر صفحه نزدیکتر هستند و بر موقعیت و جهت ابر صفحه تأثیر می گذارند. با استفاده از این بردارهای پشتیبانی، حاشیه طبقه بندی کننده را به حداکثر می رسانیم. حذف بردارهای پشتیبانی موقعیت هایپرپلان را تغییر می دهد. اینها نکاتی هستند که به ما در ساخت SVM کمک می کنند.

 

63. هرس در درخت تصمیم چیست؟

پاسخ هرس فرآیند کاهش اندازه درخت تصمیم است. دلیل هرس این است که درختانی که توسط الگوریتم پایه تهیه شده اند، به دلیل بزرگ شدن و پیچیده شدن فوق العاده مستعد بیش از حد مناسب شدن هستند.

 

64. الگوریتم های مختلف طبقه بندی کدامند؟

پاسخ انواع مختلف الگوریتم‌های طبقه‌بندی شامل رگرسیون لجستیک، SVM، Naive Bayes، درخت‌های تصمیم‌گیری و جنگل تصادفی است.

 

65. سیستم های توصیه گر چیست؟

پاسخ موتور توصیه سیستمی است که بر اساس تجزیه و تحلیل داده های تاریخچه کاربران و رفتار کاربران مشابه، محصولات، خدمات، اطلاعات را به کاربران پیشنهاد می کند. یک توصیه می‌تواند از رابطه کاربر-کاربر، روابط محصول-محصول، رابطه محصول-کاربر و غیره برای توصیه استفاده کند.

 

66. فهرستی از کتابخانه های پایتون که برای تجزیه و تحلیل داده ها و محاسبات علمی استفاده می شود را فهرست کنید.

پاسخ کتابخانه های NumPy، Scipy، Pandas، sklearn، Matplotlib که رایج ترین هستند. برای یادگیری عمیق Pytorch، Tensorflow ابزار عالی برای یادگیری است.

 

67. تفاوت بین مقدار مورد انتظار و مقدار متوسط ​​را بیان کنید.

پاسخ انتظارات ریاضی که به عنوان مقدار مورد انتظار نیز شناخته می شود، جمع یا ادغام مقادیر ممکن از یک متغیر تصادفی است. مقدار میانگین میانگین تمام نقاط داده است.

 

پاسخ NumPy و SciPy کتابخانه های پایتون با پشتیبانی از آرایه ها و توابع ریاضی هستند. آنها ابزار بسیار مفیدی برای علم داده هستند.

 

69. خروجی کد پایتون زیر چه خواهد بود؟

def multipliers ():
return [lambda x: i * x for i in range (4)]
print [m (2) for m in multipliers ()]

پاسخ خطا

70. منظور شما از درک فهرست چیست؟

پاسخ درک لیست روشی زیبا برای تعریف و ایجاد لیست در پایتون است. این لیست ها اغلب دارای کیفیت های مجموعه هستند اما در همه موارد مجموعه نیستند. درک لیست یک جایگزین کامل برای تابع لامبدا و همچنین توابع map()، filter() و reduce() است.

 

71. __init__ در پایتون چیست؟

پاسخ “__init__” یک متد رزرو شده در کلاس های پایتون است. در مفاهیم شی گرا به عنوان سازنده شناخته می شود. این متد زمانی فراخوانی می شود که یک شی از کلاس ایجاد می شود و به کلاس اجازه می دهد تا ویژگی های کلاس را مقداردهی اولیه کند.

 

72. تفاوت بین متدهای append() و extend() چیست؟

پاسخ append() برای افزودن موارد به لیست استفاده می شود. extend() از یک تکرار کننده برای تکرار روی آرگومان خود استفاده می کند و هر عنصر در آرگومان را به لیست اضافه می کند و آن را گسترش می دهد.

 

73. خروجی موارد زیر چیست؟ x = ‘ab’, ‘cd’ print(len(list(map(list, x))))

پاسخ 

 

74. یک برنامه پایتون بنویسید تا تعداد کل خطوط یک فایل متنی را شمارش کند.

پاسخ

count=0
with open ('filename.txt','rb') as f:
    for line in f:
        count+=1

print count

 

75. چگونه یک خط تصادفی در یک فایل را می خوانید؟

پاسخ

import random 
def random_line(fname): lines = open(fname).read().splitlines() 
    return random.choice(lines) print(random_line('test.txt'))

76. چگونه داده ها را با 5 بعد به طور موثر نشان می دهید؟

پاسخ می توان آن را در یک آرایه از ابعاد NumPy نشان داد (n*n*n*n*5)

 

77. هر زمان که از پایتون خارج می‌شوید، تمام حافظه‌ها حذف می‌شوند؟

پاسخ اشیایی که دارای ارجاعات دایره ای هستند، همیشه هنگام خروج پایتون آزاد نیستند. بنابراین وقتی از پایتون خارج می‌شویم، همه حافظه‌ها لزوماً تخصیص داده نمی‌شوند.

 

78. چگونه یک آرایه NumPy خالی ایجاد می کنید؟

پاسخ

"import numpy as np
np.empty([2, 2])"

79. در نظر گرفتن یک متغیر طبقه ای به عنوان یک متغیر پیوسته، مدل پیش بینی بهتری حاصل می شود؟

پاسخ شواهد قابل توجهی برای آن وجود ندارد، اما در برخی موارد، ممکن است کمک کند. این یک رویکرد کاملاً بی رحمانه است. همچنین، فقط زمانی کار می کند که متغیرهای مورد نظر ماهیت ترتیبی داشته باشند.

 

80. چگونه و با چه روش هایی می توان از تجسم داده ها به طور موثر استفاده کرد؟

پاسخ تجسم داده ها هنگام ایجاد گزارش ها بسیار مفید است. ابزارهای گزارش دهی زیادی مانند تابلو، Qlikview و غیره در دسترس هستند که از نمودارها، نمودارها و غیره برای نمایش ایده کلی و نتایج برای تجزیه و تحلیل استفاده می کنند. تجسم داده‌ها همچنین در تجزیه و تحلیل داده‌های اکتشافی استفاده می‌شود تا دید کلی از داده‌ها را به ما ارائه دهد.

 

81. مجموعه داده ای به شما داده می شود که متشکل از متغیرهایی است که بیش از 30 درصد مقادیر از دست رفته دارند. چگونه با آنها برخورد خواهید کرد؟

پاسخ اگر 30 درصد داده در یک ستون وجود نداشته باشد، به طور کلی، ستون را حذف می کنیم. اگر ستون آنقدر مهم است که حذف نشود، ممکن است مقادیری را درج کنیم. برای انتساب می توان از چندین روش استفاده کرد و برای هر روش انتساب باید مدل را ارزیابی کنیم. ما باید به مدلی پایبند باشیم که بهترین نتایج را به ما می دهد و به خوبی به داده های دیده نشده تعمیم می دهد.

 

82. توزیع اریب و توزیع یکنواخت چیست؟

پاسخ توزیع اریب توزیعی است که در آن اکثر نقاط داده در سمت راست یا چپ مرکز قرار دارند. توزیع یکنواخت توزیع احتمالی است که در آن همه نتایج به یک اندازه محتمل هستند.

 

83. برای مشاهده تعداد دسته های مختلف در یک ستون در پانداها از چه چیزی می توان استفاده کرد؟

پاسخ value_counts تعداد دسته های مختلف را نشان می دهد.

 

84. نشانگر مقدار گمشده پیش‌فرض در پانداها چیست و چگونه می‌توانید تمام مقادیر از دست رفته را در DataFrame تشخیص دهید؟

پاسخ NaN نشانگر مقادیر گمشده در پانداها است. تمام سطرهایی که مقادیر گمشده دارند را می توان با تابع is_null() در پانداها شناسایی کرد.

 

85. تحلیل علت ریشه ای چیست؟

پاسخ تحلیل علت ریشه ای فرآیند ردیابی وقوع یک رویداد و عواملی است که منجر به آن می شود. این معمولاً زمانی انجام می شود که یک نرم افزار خراب شود. در علم داده، تجزیه و تحلیل علت ریشه ای به کسب و کارها کمک می کند تا معنایی پشت نتایج خاص را درک کنند.

 

86. تبدیل باکس کاکس چیست؟

پاسخ تبدیل Box Cox راهی برای عادی سازی متغیرها است. نرمال بودن یک فرض مهم برای بسیاری از تکنیک های آماری است. اگر داده‌های شما عادی نیست، استفاده از Box-Cox به این معنی است که می‌توانید تعداد بیشتری از آزمایش‌ها را انجام دهید.

 

87. چه می شود اگر به جای یافتن بهترین تقسیم، به طور تصادفی چند تقسیم را انتخاب کنیم و فقط بهترین را از بین آنها انتخاب کنیم. آیا کار خواهد کرد؟

پاسخ درخت تصمیم مبتنی بر رویکردی حریصانه است. برای هر شاخه بهترین گزینه را انتخاب می کند. اگر به‌طور تصادفی بهترین تقسیم‌بندی را از میان تقسیم‌های متوسط ​​انتخاب کنیم، بهترین راه‌حل را به صورت محلی به ما می‌دهد و نه بهترین راه‌حل که نتایج زیرهمتراز و زیربهینه را تولید می‌کند.

 

88. نتیجه خطوط کد زیر چیست؟

def fast (items= []): items.append (1) return items print fast () print fast ()

def fast (items= []):
items.append (1)
return items

print fast ()
print fast ()

 

89. چگونه یک لیست با عناصر منحصر به فرد از یک لیست با عناصر تکراری تولید می کنید؟

پاسخ

l=[1,1,2,2]
l=list(set(l))
l

 

90. چگونه از دیکت در پانداها سریال می سازید؟

پاسخ

import pandas as pd 
  
# create a dictionary 
dictionary = {'cat' : 10, 'Dog' : 20} 
  
# create a series 
series = pd.Series(dictionary) 
  
print(series) 

 

91. چگونه یک DataFrame خالی در پاندا ایجاد می کنید؟

پاسخ

column_names = ["a", "b", "c"]

df = pd.DataFrame(columns = column_names)

 

92. چگونه می توان آیتم های سری A را در سری B موجود نکرد؟

پاسخ ما می توانیم این کار را با استفاده از series.isin() در پانداها انجام دهیم.

 

93. چگونه می توان تعداد فرکانس آیتم های منحصر به فرد یک سری را بدست آورد؟

پاسخ pandas.Series.value_counts فراوانی اقلام در یک سری را نشان می دهد.

 

94. چگونه یک آرایه numpy را به یک دیتافریم با شکل مشخص تبدیل کنیم؟

پاسخ اگر ماتریس آرایه numpy مورد نظر باشد: df = pd.DataFrame(ماتریس) ماتریس را به یک دیتافریم تبدیل می کند.

 

95. Data Aggregation چیست؟

پاسخ تجمیع داده ها فرآیندی است که در آن از توابع انبوه برای به دست آوردن نتایج لازم پس از گروه بای استفاده می شود. توابع رایج تجمع عبارتند از: مجموع، تعداد، میانگین، حداکثر، حداقل.

 

96. شاخص پاندا چیست؟

پاسخ ایندکس یک عدد منحصر به فرد است که با آن ردیف‌ها در قالب داده پانداها شماره‌گذاری می‌شوند.

 

97. عملیات داده در پانداها را شرح دهید؟

پاسخ عملیات رایج داده در پانداها عبارتند از: پاکسازی داده ها، پیش پردازش داده ها، تبدیل داده ها، استانداردسازی داده ها، عادی سازی داده ها، تجمیع داده ها.

 

98. GroupBy را در پانداها تعریف کنید؟

پاسخ groupby یک تابع ویژه در پانداها است که برای گروه بندی ردیف ها با هم با توجه به ستون های خاصی که دارای اطلاعاتی برای دسته های مورد استفاده برای گروه بندی داده ها با هم هستند استفاده می شود.

 

99. چگونه می توان شاخص یک سری را به ستونی از یک دیتافریم تبدیل کرد؟

پاسخ df = df.reset_index() ایندکس را به ستونی در یک دیتافریم پاندا تبدیل می کند.

 

100. چگونه می توان تنها 2 مقدار بالای پرتکرار را به همان شکلی که هست حفظ کرد و بقیه را با “سایر” جایگزین کرد؟

پاسخ

"s = pd.Series(np.random.randint(1, 5, [12]))
print(s.value_counts())
s[~s.isin(ser.value_counts().index[:2])] = 'Other'
s"

 

101. چگونه اولین کاراکتر هر عنصر در یک سری را به حروف بزرگ تبدیل کنیم؟

پاسخ pd.Series([x.title() برای x در s])

 

102. چگونه می توان حداقل، صدک 25، میانه، 75 و حداکثر یک سری عددی را بدست آورد؟

پاسخ

"randomness= np.random.RandomState(100)
s = pd.Series(randomness.normal(100, 55, 5))
np.percentile(ser, q=[0, 25, 50, 75, 100])"

 

103. ماتریس های Scatterplot چه نوع داده ای را نشان می دهند؟

پاسخ ماتریس های Scatterplot بیشتر برای تجسم داده های چند بعدی استفاده می شوند. در تجسم روابط دو متغیره بین ترکیبی از متغیرها استفاده می شود.

 

104- درخت هذلولی چیست؟

پاسخ درخت هذلولی یا ابردرخت یک روش تجسم اطلاعات و ترسیم نمودار است که از هندسه هذلولی الهام گرفته شده است.

 

105. تجسم علمی چیست؟ تفاوت آن با سایر تکنیک های تجسم چیست؟

پاسخ تجسم علمی، نمایش داده ها به صورت گرافیکی به عنوان وسیله ای برای به دست آوردن بینش از داده ها است. همچنین به عنوان تجزیه و تحلیل داده های بصری شناخته می شود. این به درک سیستمی کمک می کند که می توان آن را به روش هایی که قبلا غیرممکن بود مطالعه کرد.

 

106. برخی از معایب Visualisation چیست؟

پاسخ تعدادی از معایب تجسم عبارتند از: تخمین می دهد نه دقت، گروه متفاوتی از مخاطبان ممکن است آن را متفاوت تفسیر کنند، طراحی نامناسب می تواند باعث سردرگمی شود.

 

107. تفاوت نقشه درختی و نقشه حرارتی چیست؟

پاسخ نقشه حرارتی نوعی ابزار تجسم است که دسته بندی های مختلف را با کمک رنگ ها و اندازه ها مقایسه می کند. می توان از آن برای مقایسه دو معیار مختلف استفاده کرد. “نقشه درختی” یک نوع نمودار است که داده های سلسله مراتبی یا روابط جزء به کل را نشان می دهد.

 

108. تفکیک و تجمیع داده ها چیست؟

پاسخ تجمیع اساساً ترکیب ردیف های متعدد داده در یک مکان واحد از سطح پایین به سطح بالاتر است. از سوی دیگر، تفکیک، فرآیند معکوس است، یعنی شکستن داده های کل به سطح پایین تر.

 

109. برخی از مسائل رایج کیفیت داده هنگام برخورد با داده های بزرگ چیست؟

پاسخ برخی از مشکلات عمده کیفیت هنگام برخورد با داده های بزرگ عبارتند از: داده های تکراری، داده های ناقص، فرمت متناقض داده ها، داده های نادرست، حجم داده ها (داده های بزرگ)، عدم مکانیسم ذخیره سازی مناسب و غیره.

 

110. ماتریس سردرگمی چیست؟

پاسخ ماتریس سردرگمی جدولی برای تجسم عملکرد یک الگوریتم طبقه‌بندی بر روی مجموعه‌ای از داده‌های آزمایشی است که مقادیر واقعی آن‌ها مشخص است.

 

111. خوشه بندی چیست؟

پاسخ خوشه بندی به معنای تقسیم نقاط داده به تعدادی گروه است. تقسیم بندی به گونه ای انجام می شود که تمام نقاط داده در یک گروه نسبت به نقاط داده در سایر گروه ها شباهت بیشتری به یکدیگر دارند. چند نوع خوشه‌بندی عبارتند از: خوشه‌بندی سلسله مراتبی، K به معنای خوشه‌بندی، خوشه‌بندی مبتنی بر چگالی، خوشه‌بندی فازی و غیره.

 

112. بسته های داده کاوی در R چیست؟

پاسخ چند بسته داده کاوی محبوب در R عبارتند از Dplyr- دستکاری داده، Ggplot2- تجسم داده ها، purrr- جدال داده، تجزیه و تحلیل داده Hmisc، datapasta-واردات داده و غیره.

 

113. برای نمونه گیری از چه تکنیک هایی استفاده می شود؟ مزیت نمونه گیری 

روش های مختلفی برای نمونه برداری از داده ها وجود دارد.

 

دو تکنیک اصلی هستند

  1. نمونه گیری احتمالی
  2. نمونه گیری غیر احتمالی

 

نمونه گیری احتمالی

نمونه گیری احتمالی به این معناست که هر یک از افراد جامعه امکان قرار گرفتن در نمونه را دارند. روش های نمونه گیری احتمالی عبارتند از:

  • نمونه گیری تصادفی ساده

در نمونه گیری تصادفی ساده، هر یک از افراد جامعه شانسی معادل برای انتخاب یا گنجاندن دارند.

  • نمونه گیری سیستماتیک

نمونه گیری سیستماتیک بسیار شبیه به نمونه گیری تصادفی است. تفاوت فقط این است که به جای تولید تصادفی اعداد، در نمونه گیری سیستماتیک به هر فرد از جامعه یک عدد اختصاص داده می شود و در فواصل زمانی معین انتخاب می شوند.

  • نمونه گیری طبقه ای

در نمونه گیری طبقه ای، جمعیت به زیرجمعیت ها تقسیم می شود. این به شما امکان می دهد تا با اطمینان از اینکه هر زیرجمعیت در نمونه نشان داده شده است، نتایج دقیق تری را نتیجه گیری کنید.

  • نمونه گیری خوشه ای

نمونه‌گیری خوشه‌ای شامل تقسیم جمعیت به زیرجمعیت‌ها نیز می‌شود، اما هر زیرجمعیت باید ویژگی‌های مشابهی با کل نمونه داشته باشد. به جای نمونه برداری از افراد از هر زیرجمعیت، به طور تصادفی کل زیرجمعیت را انتخاب می کنید.

 

نمونه گیری غیر احتمالی 

در نمونه گیری غیراحتمالی، افراد به روش های غیرتصادفی انتخاب می شوند و هر فردی امکان ورود به نمونه را ندارد.

  • نمونه برداری آسان

نمونه گیری آسان روشی است که در آن داده ها از یک گروه به راحتی در دسترس جمع آوری می شود.

  • نمونه گیری داوطلبانه پاسخ
  • نمونه گیری داوطلبانه پاسخ مشابه نمونه گیری آسان است، اما در اینجا به جای اینکه محققان افراد را انتخاب کنند و سپس با آنها تماس بگیرند، افراد یا افراد خودشان داوطلب می شوند.
  • نمونه برداری هدفمند

نمونه گیری هدفمند که به عنوان نمونه گیری قضاوتی نیز شناخته می شود، جایی است که محققان از تخصص خود برای انتخاب نمونه ای استفاده می کنند که مفید یا مرتبط با هدف تحقیق باشد.

  • نمونه برداری گلوله برفی

نمونه برداری گلوله برفی در جاهایی استفاده می شود که دسترسی به جمعیت مشکل باشد. می توان از آن برای جذب افراد از طریق افراد دیگر استفاده کرد.

مزایای نمونه گیری  

  • مزیت کم هزینه
  • تجزیه و تحلیل آسان توسط منابع محدود
  • زمان کمتری نسبت به سایر تکنیک ها
  • دامنه به طور قابل توجهی بالا در نظر گرفته می شود
  • داده های نمونه بالا در نظر گرفته می شود
  • راحتی سازمانی

 

114. داده های عدم تعادل چیست؟

داده های عدم تعادل در کلمات ساده اشاره ای به انواع مختلف مجموعه داده ها است که در آن توزیع نابرابر مشاهدات در کلاس هدف وجود دارد. به این معنی که یک برچسب کلاس مشاهدات بالاتری نسبت به دیگری دارد.

115. لیفت، KPI، استحکام، برازش مدل و DOE را تعریف کنید

Lift برای درک عملکرد یک مدل هدف گذاری معین در پیش بینی عملکرد، در مقایسه با یک مدل هدف گیری تصادفی انتخاب شده استفاده می شود.

KPI یا شاخص های کلیدی عملکرد معیاری است که برای اندازه گیری عملکرد یک سازمان یا یک کارمند بر اساس اهداف سازمانی استفاده می شود.

استحکام ویژگی است که اثربخشی یک الگوریتم را هنگام آزمایش با یک مجموعه داده مستقل جدید شناسایی می کند.

برازش مدل معیاری است برای تعمیم یک مدل یادگیری ماشینی به داده های مشابه با آنچه که در آن آموزش داده شده است.

طراحی آزمایش (DOE) مجموعه‌ای از روش‌های ریاضی برای بهینه‌سازی فرآیند و کیفیت با طراحی (QbD) است.

 

 

116. متغیرهای مخدوش کننده را تعریف کنید

یک متغیر مخدوش کننده یک تأثیر خارجی در یک آزمایش است. به عبارت ساده، این متغیرها اثر یک متغیر وابسته و مستقل را تغییر می دهند. یک متغیر باید شرایط زیر را برآورده کند تا یک متغیر مخدوش کننده باشد:

  • متغیرها باید با متغیر مستقل همبستگی داشته باشند.
  • متغیرها باید به طور غیر رسمی با متغیر وابسته مرتبط باشند.

به عنوان مثال، اگر در حال مطالعه هستید که آیا ورزش نکردن بر افزایش وزن تأثیر دارد یا خیر، ورزش نکردن یک متغیر مستقل و افزایش وزن یک متغیر وابسته است. یک متغیر مخدوش کننده می تواند هر عامل دیگری باشد که بر افزایش وزن تأثیر دارد. مقدار غذای مصرف شده، شرایط آب و هوایی و غیره می تواند یک متغیر مخدوش کننده باشد.

 

117. چرا مسائل سری زمانی با سایر مسائل رگرسیونی متفاوت است؟

سری زمانی برون یابی است در حالی که رگرسیون درون یابی است. سری زمانی به یک زنجیره سازمان یافته از داده ها اشاره دارد. سری زمانی اتفاقات بعدی را در دنباله پیش بینی می کند. سری‌های زمانی را می‌توان با سری‌های دیگری که می‌توانند با هم رخ دهند، کمک کرد.

رگرسیون را می توان برای مسائل سری زمانی و همچنین برای توالی های غیر مرتب که به عنوان ویژگی ها نامیده می شوند اعمال کرد. در حین انجام پیش بینی، مقادیر جدیدی از ویژگی ها ارائه می شود و رگرسیون نتایج را برای متغیر هدف محاسبه می کند.

 

118 . تفاوت بین مجموعه تست و مجموعه اعتبار سنجی چیست؟

مجموعه تست: مجموعه آزمایشی مجموعه ای از نمونه هایی است که فقط برای ارزیابی عملکرد یک طبقه بندی کننده کاملاً مشخص استفاده می شود. به عبارت ساده، برای برازش پارامترها استفاده می شود. برای آزمایش داده هایی که به عنوان ورودی به مدل شما ارسال می شود استفاده می شود.

مجموعه اعتبار سنجی: مجموعه اعتبار سنجی مجموعه ای از نمونه هایی است که برای تنظیم پارامترهای یک طبقه بندی کننده استفاده می شود. به عبارت ساده، برای تنظیم پارامترها استفاده می شود. مجموعه اعتبار سنجی برای تایید خروجی تولید شده توسط مدل شما استفاده می شود.

ترفند هسته

ترفند هسته روشی است که در آن از طبقه‌بندی‌کننده خطی برای حل مسائل غیرخطی استفاده می‌شود. به عبارت دیگر، این روشی است که در آن یک جسم غیر خطی به یک فضای ابعادی بالاتر نمایش داده می شود تا طبقه بندی محل تقسیم داده ها به صورت خطی توسط یک صفحه آسان تر شود.

بیایید آن را بهتر درک کنیم،

بیایید یک تابع کرنل K را به عنوان xi و xj را به عنوان حاصلضرب نقطه تعریف کنیم.

K (X من ، X J ) = x را من . x j = x i x j   

اگر هر نقطه داده از طریق تبدیل به فضایی با ابعاد بالا نگاشت شود

Φ:x -> Φ(x)

محصول نقطه ای می شود:

K(x i ,x j ) = Φ i Φ 

نمودار جعبه و هیستوگرام

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2