021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

معروف ترین دیتاست های یادگیری ماشین

 

با سلام خدمت تمامی همراهان همیشگی وبسایت پایتونی ها ،‌خوب توی این مقاله قصد معرفی ۱۰ تا از بهترین مجموعه داده ها یا همان دیتاست ها خدمت شما برنامه نویسان زبان برنامه نویسی پایتون داریم. اگر نمی دانید مجموع داده یا دیتاست چیست از این مقاله استفاده کنید.

کلید دستیابی به مهارت در یادگیری ماشین  تمرین های کاربردی بر روی مجموعه های مختلف داده یا همان دیتاست هاست.

این به این دلیل است که هر مشکل متفاوت است در یادگیری ماشین و نیاز به روش های مختلف تهیه و مدل سازی مجموعه داده ها دارد.

در این پست ، شما 10 مجموعه استاندارد یادگیری ماشین را پیدا خواهید کرد که می توانید برای تمرین های متفاوت استفاده کنید.

 

معروف ترین دیتاست های یادگیری ماشین

هر مجموعه داده به شیوه ای در این مقاله ثبت شده است. این امر به شما امکان می دهد به راحتی آنها را  با یکدیگر مقایسه کرده و جهت تمرین یک تکنیک تهیه داده یا روش مدل سازی خاص استفاده کنید.

جنبه هایی که باید در مورد هر مجموعه داده بدانید عبارتند از:

عنوان: نام اصلی مجموعه داده
توضیحات : یک توضیح مختصر در مورد مجموعه داده پیش رو.
نوع مشکل : به این موضوع اشاره شده که دقیقا با کدام روش یادگیری ماشین می توان مشکل مجموعه داده را حل کرد به صورت مثال از رگرسیون می توان استفاده کرد و یا از طبقه بندی.
نوع داده : تعداد متغییر های ورودی و خروجی و جنس آن متغییر ها و این که هر متغییر بیان گر چه موضوعی است را می توان در نوع داده مشاهده کرد
نمونه: یک تصویر فوری از 5 ردیف اول داده های خام.
لینک ها: جایی که می توانید مجموعه داده را دانلود کنید و یا به منبع اصلی منتشر کننده مقاله سر بزنید و اطلاعات بیشتری کسب کنید.

 

 

 

1-مجموعه داده اطلاعات بیمه اتومبیل سوئدی

توضیحات : مجموعه اطلاعات بیمه خودرو سوئدی با توجه به تعداد کل مطالبات ، شامل پیش بینی کل پرداخت برای همه مطالبات در هزاران کرون سوئد می شود.

نوع مشکل : رگرسیون

نوع داده : این مجموعه شامل 63 مشاهده با 1 متغیر ورودی و یک متغیر خروجی است. نام متغیرها به شرح زیر است:

  • تعداد مطالبات.
  • مبلغ کل پرداختی برای همه مطالبات به هزاران کرون( واحد پول ) سوئد.

 

عملکرد پایه پیش بینی مقدار متوسط RMSE تقریبا 81 هزار کرون ( واحد پول سوئد ) است.

نمونه ای از 5 ردیف اول در زیر ذکر شده است:

108,392.5
19,46.2
13,15.7
124,422.2
40,119.4

در زیر یک نمودار پراکنده از کل مجموعه داده است.

دانلود دیتاست 

سایت اصلی منتشر کننده 

 

 

2-مجموعه داده کیفیت شراب

توضیحات : مجموعه کیفی شراب شامل پیش بینی کیفیت شراب سفید در مقیاس معیارهای شیمیایی هر شراب است.

نوع مشکل : این یک مشکل طبقه بندی چند طبقه ای استاما می تواند به عنوان یک مشکل رگرسیون نیز مطرح شود.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 4898 مشاهده با 11 متغیر ورودی و یک متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • اسیدیته ثابت
  • اسیدیته فرار.
  • اسید سیتریک.
  • قند باقیمانده.
  • کلریدها
  • گوگرد دی اکسید رایگان
  • کل دی اکسید گوگرد
  • تراکم
  • pH
  • سولفات ها
  • الکل
  • کیفیت (نمره بین 0 تا 10).

 

عملکرد پایه پیش بینی مقدار متوسط RMSE تقریباً 0.148 امتیاز کیفیت است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

7,0.27,0.36,20.7,0.045,45,170,1.001,3,0.45,8.8,6
6.3,0.3,0.34,1.6,0.049,14,132,0.994,3.3,0.49,9.5,6
8.1,0.28,0.4,6.9,0.05,30,97,0.9951,3.26,0.44,10.1,6
7.2,0.23,0.32,8.5,0.058,47,186,0.9956,3.19,0.4,9.9,6
7.2,0.23,0.32,8.5,0.058,47,186,0.9956,3.19,0.4,9.9,6

 

دانلود دیتاست

سایت اصلی منتشر کننده 

 

3-مجموعه داده های دیابت کشور هند

توضیحات : مجموعه داده های دیابت شامل پیش بینی شروع دیابت در 5 سال در شهر پیما هند با توجه به جزئیات پزشکی است.

نوع مشکل : این یک مشکل طبقه بندی باینری (2 طبقه) است.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 768 مشاهده با 8 متغیر ورودی و 1 متغیر خروجی وجود دارد. اعتقاد بر این است که مقادیر گم شده با مقادیر صفر رمزگذاری می شوند. نام متغیرها به شرح زیر است:

  • تعداد دفعات بارداری.
  • غلظت گلوکز پلاسما 2 ساعت در آزمایش تحمل گلوکز خوراکی.
  • فشار خون دیاستولیک (میلی متر جیوه).
  • ضخامت چروک سه سر بازویی (میلی متر).
  • انسولین سرم 2 ساعته (mU/ml).
  • شاخص توده بدن (وزن بر کیلوگرم/(ارتفاع بر متر)^2).
  • عملکرد شجره نامه دیابت.
  • سن (سال).
  • متغیر کلاس (0 یا 1).

عملکرد پایه پیش بینی شایع ترین کلاس ، دقت طبقه بندی تقریباً 65 است. نتایج برتر به دقت طبقه بندی تقریباً 77 achieve دست می یابد.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

6,148,72,35,0,33.6,0.627,50,1
1,85,66,29,0,26.6,0.351,31,0
8,183,64,0,0,23.3,0.672,32,1
1,89,66,23,94,28.1,0.167,21,0
0,137,40,35,168,43.1,2.288,33,1

 

دانلود دیتاست

سایت اصلی منتشر کننده 

4-مجموعه داده های سونار

توضیحات : مجموعه داده های سونار شامل پیش بینی این است که آیا یک شیء، معدن است  یا صخره است یا نه با توجه به قدرت بازده سونار در زوایای مختلف.

نوع مشکل : این یک مشکل طبقه بندی باینری (2 طبقه) است.

 

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 208 مشاهده با 60 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  1. سونار در زوایای مختلف برمی گردد
  2. کلاس (M برای معدن و R برای سنگ)

عملکرد پایه پیش بینی شایع ترین کلاس دقت طبقه بندی تقریباً 53 است. نتایج برتر به دقت طبقه بندی تقریباً 88 achieve دست می یابد.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

0.0200,0.0371,0.0428,0.0207,0.0954,0.0986,0.1539,0.1601,0.3109,0.2111,0.1609,0.1582,0.2238,0.0645,0.0660,0.2273,0.3100,0.2999,0.5078,0.4797,0.5783,0.5071,0.4328,0.5550,0.6711,0.6415,0.7104,0.8080,0.6791,0.3857,0.1307,0.2604,0.5121,0.7547,0.8537,0.8507,0.6692,0.6097,0.4943,0.2744,0.0510,0.2834,0.2825,0.4256,0.2641,0.1386,0.1051,0.1343,0.0383,0.0324,0.0232,0.0027,0.0065,0.0159,0.0072,0.0167,0.0180,0.0084,0.0090,0.0032,R
0.0453,0.0523,0.0843,0.0689,0.1183,0.2583,0.2156,0.3481,0.3337,0.2872,0.4918,0.6552,0.6919,0.7797,0.7464,0.9444,1.0000,0.8874,0.8024,0.7818,0.5212,0.4052,0.3957,0.3914,0.3250,0.3200,0.3271,0.2767,0.4423,0.2028,0.3788,0.2947,0.1984,0.2341,0.1306,0.4182,0.3835,0.1057,0.1840,0.1970,0.1674,0.0583,0.1401,0.1628,0.0621,0.0203,0.0530,0.0742,0.0409,0.0061,0.0125,0.0084,0.0089,0.0048,0.0094,0.0191,0.0140,0.0049,0.0052,0.0044,R
0.0262,0.0582,0.1099,0.1083,0.0974,0.2280,0.2431,0.3771,0.5598,0.6194,0.6333,0.7060,0.5544,0.5320,0.6479,0.6931,0.6759,0.7551,0.8929,0.8619,0.7974,0.6737,0.4293,0.3648,0.5331,0.2413,0.5070,0.8533,0.6036,0.8514,0.8512,0.5045,0.1862,0.2709,0.4232,0.3043,0.6116,0.6756,0.5375,0.4719,0.4647,0.2587,0.2129,0.2222,0.2111,0.0176,0.1348,0.0744,0.0130,0.0106,0.0033,0.0232,0.0166,0.0095,0.0180,0.0244,0.0316,0.0164,0.0095,0.0078,R
0.0100,0.0171,0.0623,0.0205,0.0205,0.0368,0.1098,0.1276,0.0598,0.1264,0.0881,0.1992,0.0184,0.2261,0.1729,0.2131,0.0693,0.2281,0.4060,0.3973,0.2741,0.3690,0.5556,0.4846,0.3140,0.5334,0.5256,0.2520,0.2090,0.3559,0.6260,0.7340,0.6120,0.3497,0.3953,0.3012,0.5408,0.8814,0.9857,0.9167,0.6121,0.5006,0.3210,0.3202,0.4295,0.3654,0.2655,0.1576,0.0681,0.0294,0.0241,0.0121,0.0036,0.0150,0.0085,0.0073,0.0050,0.0044,0.0040,0.0117,R
0.0762,0.0666,0.0481,0.0394,0.0590,0.0649,0.1209,0.2467,0.3564,0.4459,0.4152,0.3952,0.4256,0.4135,0.4528,0.5326,0.7306,0.6193,0.2032,0.4636,0.4148,0.4292,0.5730,0.5399,0.3161,0.2285,0.6995,1.0000,0.7262,0.4724,0.5103,0.5459,0.2881,0.0981,0.1951,0.4181,0.4604,0.3217,0.2828,0.2430,0.1979,0.2444,0.1847,0.0841,0.0692,0.0528,0.0357,0.0085,0.0230,0.0046,0.0156,0.0031,0.0054,0.0105,0.0110,0.0015,0.0072,0.0048,0.0107,0.0094,R

 

دانلود دیتاست

سایت اصلی منتشر کننده 

5-مجموعه داده اسکناس

توضیحات : مجموعه داده اسکناس شامل پیش بینی اصالت اسکناس با توجه به اقدامات متعددی است که از عکس گرفته شده است.

نوع مشکل : این یک مشکل طبقه بندی باینری (2 طبقه) است.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 1،372 مشاهده با 4 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • واریانس Wavelet تصویر متحول شده (پیوسته).
  • خمیدگی Wavelet تصویر تبدیل شده (پیوسته).
  • Kurtosis of Wavelet تصویر متحول شده (پیوسته).
  • آنتروپی تصویر (پیوسته).
  • کلاس (0 برای معتبر ، 1 برای غیر معتبر).
  • عملکرد پایه پیش بینی شایع ترین کلاس ، دقت طبقه بندی تقریباً 50 است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

3.6216,8.6661,-2.8073,-0.44699,0
4.5459,8.1674,-2.4586,-1.4621,0
3.866,-2.6383,1.9242,0.10645,0
3.4566,9.5228,-4.0112,-3.5944,0
0.32924,-4.4552,4.5718,-0.9888,0
4.3684,9.6718,-3.9606,-3.1625,0

 

دانلود دیتاست

سایت اصلی منتشر کننده 

6-مجموعه داده گل زنبق iris

توضیحات : مجموعه داده گل گل زنبق شامل پیش بینی گونه های گل با اندازه گیری گل عنبیه است.

نوع مشکل :‌این یک مشکل طبقه بندی چند طبقه ای است.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل است. 150 مشاهده با 4 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • طول سپال در سانتی متر.
  • عرض سپال در سانتی متر.
  • طول گلبرگ در سانتی متر
  • عرض گلبرگ در سانتی متر
  • کلاس (Iris Setosa ، Iris Versicolour ، Iris Virginica).
  • عملکرد پایه پیش بینی شایع ترین کلاس دقت طبقه بندی تقریباً 26 است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa

دانلود دیتاست

سایت اصلی منتشر کننده 

 

7-مجموعه داده Abalone

توضیحات : مجموعه داده Abalone شامل پیش بینی سن آبالن با توجه به اقدامات عینی افراد است.

نوع مشکل : این یک مشکل طبقه بندی چند طبقه ای است ، اما می تواند به عنوان یک رگرسیون نیز مطرح شود.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 4177 مشاهده با 8 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • جنسیت (M ، F ، I).
  • طول
  • قطر
  • ارتفاع.
  • وزن کل.
  • وزن متزلزل
  • وزن احشایی
  • وزن پوسته.
  • حلقه.

 

عملکرد پایه پیش بینی شایع ترین کلاس دقت طبقه بندی تقریباً 16 است. عملکرد پایه پیش بینی مقدار متوسط RMSE تقریباً 3.2 حلقه است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

M,0.455,0.365,0.095,0.514,0.2245,0.101,0.15,15
M,0.35,0.265,0.09,0.2255,0.0995,0.0485,0.07,7
F,0.53,0.42,0.135,0.677,0.2565,0.1415,0.21,9
M,0.44,0.365,0.125,0.516,0.2155,0.114,0.155,10
I,0.33,0.255,0.08,0.205,0.0895,0.0395,0.055,7

دانلود دیتاست

سایت اصلی منتشر کننده 

 

8-مجموعه داده Ionosphere

توضیحات : مجموعه داده یونوسفر مستلزم پیش بینی ساختار در جو با توجه به بازده راداری است که الکترونهای آزاد را در یونوسفر هدف قرار می دهد.

نوع مشکل : این یک مشکل طبقه بندی باینری (2 طبقه) است.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل نیست. 351 مشاهده با 34 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • 17 جفت داده بازگشت رادار
  • کلاس (g برای خوب و b برای بد).

عملکرد پایه پیش بینی شایع ترین کلاس دقت طبقه بندی تقریباً 64 است. نتایج برتر به دقت طبقه بندی تقریباً 94 achieve دست می یابد.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

1,0,0.99539,-0.05889,0.85243,0.02306,0.83398,-0.37708,1,0.03760,0.85243,-0.17755,0.59755,-0.44945,0.60536,-0.38223,0.84356,-0.38542,0.58212,-0.32192,0.56971,-0.29674,0.36946,-0.47357,0.56811,-0.51171,0.41078,-0.46168,0.21266,-0.34090,0.42267,-0.54487,0.18641,-0.45300,g
1,0,1,-0.18829,0.93035,-0.36156,-0.10868,-0.93597,1,-0.04549,0.50874,-0.67743,0.34432,-0.69707,-0.51685,-0.97515,0.05499,-0.62237,0.33109,-1,-0.13151,-0.45300,-0.18056,-0.35734,-0.20332,-0.26569,-0.20468,-0.18401,-0.19040,-0.11593,-0.16626,-0.06288,-0.13738,-0.02447,b
1,0,1,-0.03365,1,0.00485,1,-0.12062,0.88965,0.01198,0.73082,0.05346,0.85443,0.00827,0.54591,0.00299,0.83775,-0.13644,0.75535,-0.08540,0.70887,-0.27502,0.43385,-0.12062,0.57528,-0.40220,0.58984,-0.22145,0.43100,-0.17365,0.60436,-0.24180,0.56045,-0.38238,g
1,0,1,-0.45161,1,1,0.71216,-1,0,0,0,0,0,0,-1,0.14516,0.54094,-0.39330,-1,-0.54467,-0.69975,1,0,0,1,0.90695,0.51613,1,1,-0.20099,0.25682,1,-0.32382,1,b
1,0,1,-0.02401,0.94140,0.06531,0.92106,-0.23255,0.77152,-0.16399,0.52798,-0.20275,0.56409,-0.00712,0.34395,-0.27457,0.52940,-0.21780,0.45107,-0.17813,0.05982,-0.35575,0.02309,-0.52879,0.03286,-0.65158,0.13290,-0.53206,0.02431,-0.62197,-0.05707,-0.59573,-0.04608,-0.65697,g

 

دانلود دیتاست

سایت اصلی منتشر کننده 

9-مجموعه داده دانه های گندم

توضیحات : مجموعه دانه های گندم شامل پیش بینی گونه های اندازه گیری شده دانه از انواع مختلف گندم است.

نوع مشکل :‌این یک مشکل طبقه بندی باینری (2 طبقه) است.

نوع داده : تعداد مشاهدات برای هر کلاس متعادل است. 210 مشاهده با 7 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • حوزه
  • محیط
  • فشردگی
  • طول هسته.
  • عرض هسته.
  • ضریب عدم تقارن.
  • طول شیار هسته.
  • کلاس (1 ، 2 ، 3).
  • عملکرد پایه پیش بینی شایع ترین کلاس دقت طبقه بندی تقریباً 28 است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

15.26,14.84,0.871,5.763,3.312,2.221,5.22,1
14.88,14.57,0.8811,5.554,3.333,1.018,4.956,1
14.29,14.09,0.905,5.291,3.337,2.699,4.825,1
13.84,13.94,0.8955,5.324,3.379,2.259,4.805,1
16.14,14.99,0.9034,5.658,3.562,1.355,5.175,1

دانلود دیتاست

سایت اصلی منتشر کننده 

 

10-مجموعه داده قیمت خانه بوستون

توضیحات :‌ مجموعه داده های قیمت خانه بوستون شامل پیش بینی قیمت خانه در هزاران دلار با توجه به جزئیات خانه و محله آن است.

نوع مشکل‌: مشکل رگرسیون است.

نوع داده :‌506 مشاهده با 13 متغیر ورودی و 1 متغیر خروجی وجود دارد. نام متغیرها به شرح زیر است:

  • جرم و جنایت: میزان سرانه جنایت بر اساس شهر.
  • ZN: نسبت زمین مسکونی به مساحت بیش از 25000 فوت مربع.
  • INDUS: نسبت هکتارهای تجاری غیر خرده فروشی در هر شهر.
  • CHAS: متغیر ساختگی رودخانه چارلز (= 1 اگر دستگاه رودخانه را محدود کند ؛ در غیر این صورت 0).
  • NOX: غلظت اکسیدهای نیتریک (قطعات در 10 میلیون).
  • RM: متوسط ​​تعداد اتاق در هر مسکن.
  • سن: نسبت واحدهای تحت اشغال مالکان که قبل از سال 1940 ساخته شده اند.
  • DIS: فاصله های وزنی تا پنج مرکز اشتغال بوستون.
  • RAD: شاخص دسترسی به بزرگراه های شعاعی
  • مالیات: نرخ تمام شده مالیات بر دارایی به ازای 10000 دلار.
  • PTRATIO: نسبت دانش آموز به معلم بر اساس شهر.
  • B: 1000 (Bk – 0.63)^2 که Bk نسبت سیاه پوستان بر اساس شهر است.
  • LSTAT:٪ وضعیت پایین تر جمعیت.
  • MEDV: ارزش متوسط ​​خانه های تحت اشغال مالکین در 1000 دلار.
  • عملکرد پایه پیش بینی مقدار متوسط ​​RMSE حدود 9.21 هزار دلار است.

*نمونه ای از 5 ردیف اول در زیر ذکر شده است:

0.00632 18.00 2.310 0 0.5380 6.5750 65.20 4.0900 1 296.0 15.30 396.90 4.98 24.00
0.02731 0.00 7.070 0 0.4690 6.4210 78.90 4.9671 2 242.0 17.80 396.90 9.14 21.60
0.02729 0.00 7.070 0 0.4690 7.1850 61.10 4.9671 2 242.0 17.80 392.83 4.03 34.70
0.03237 0.00 2.180 0 0.4580 6.9980 45.80 6.0622 3 222.0 18.70 394.63 2.94 33.40
0.06905 0.00 2.180 0 0.4580 7.1470 54.20 6.0622 3 222.0 18.70 396.90 5.33 36.20

 

دانلود دیتاست

سایت اصلی منتشر کننده 

 

 

 

منبع :

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2