021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

Clustering چیست؟

وقتی شما میخواهید در رابطه با چیزی به طور مثال ، موسیقی ،اطلاعاتی جمع آوری کنید یک روی کرد ممکن است این باشد که شما به دنبال گروه ها یا کالکشن های با معنی باشید.

شما ممکن است موسیقی را بر پایه سبک آن دسته بندی کنید. اما دوست شما ممکن است موسیقی را بر پایه دهه ای که موسیقی در آن دوران ساخته شده آن را دسته بندی کند.

نحوه ای که شما در دسته بندی موارد استفاده می کنید به شما کمک می کند تا در رابطه با آن موسیقی اطلاعات بیشتری دریافت کنید. ممکن است که متوجه شوید که علاقه زیادی به پانک راک دارید و یا موسیقی های محلی را ترجیح می دهید.

از سوی دیگر دوست شما ممکن است که به دنبال آهنگ هایی که مربوط به سال 1980 است بگردد و قادر به درک این موضوع که چگونه موسیقی آن زمان تحت تاثیر اتفاقات سیاسی آن دوره بوده باشد.

در هر دو مورد شما و دوستتون چیز های جالبی نسبت به موسیقی و سبک موسیقی که گوش می دهید آموخته اید حتی اگر روی کرد های مختلفی داشته باشد.

از آنجا که نمونه ها بدون لیبل هستند Clustering به یادگیری بدون نظارت (unsupervised learning) تکیه می کند اگه نمونه ها همراه با لیبل بودند Clustering تبدیل به Classification می شود.

خوشه بندی(Clustering) چیست؟

در machine learning ما تعدادی از نمونه ها را به عنوان مثال برای اولین گام درک یک موضوع (Date set) در سیستم machine learning قرار می دهیم.
به نوعی گروه بندی نمونه های بدون label را خوشه بندی یا Clustering می گویند.

clustering

شکل 1: نمونه های بدون لیبل به دو دسته تقسیم می شوند.

قبل از این که بتوان نمونه های مشابه را گروه بندی کرد، باید نمونه های مشابه را پیدا کرد. با ترکیب کردن مثال ها می توان تشابه بین نمونه ها را اندازه گیری کرد.ویژگی داده های متریک را شباهت سنج (similarity measure) می نامند. هنگامی که هر مثال توسط یک یا دو ویژگی تعریف شده باشد، سنجیدن شباهت ها بسیار ساده است.

به طور مثال شما می توانید کتابهای مشابهی را توسط نویسنده های متفاوتی پیدا کنید ، با افزایش تعداد ویژگی ها ساختن شباهت سنج پیچیده تر می شود.

Clustering به چه دردی می خورد؟

Clustering دارای کاربرد های بی شماری در صنایع مختلف است. برخی از کاربرد های رایج خوشه بندی شامل موارد زیر می شود:

  • آنالیز شبکه های مجازی
  • دسته بندی نتایج جستجو
  • تصویر برداری پزشکی
  • تقسیم بندی تصاویر
  • تشخیض ناهنجاری ها

بعد از خوشه بندی، هر خوشه را به یک عدد اختصاص می دهند که آن را Cluster ID می گویند. حالا شما می توانید تمام ویژگی های یک نمونه را در Cluster ID قرار دهید. ارائه یک نمونه پیشرفته توسط یک Cluster ID ساده باعث قدرتمتد شدن خوشه بندی شما می شود. گسترش دادن ایده ها باعث ساده سازی dataset ها در خوشه بندی می شود.

به طور مثال ، شما می توانید موارد را بر اساس ویژگی های مختلف همانطور که در مثال های زیر آمده گروه بندی کنید:


  • گروه بندی ستاره ها بر اساس روشنایی
  • گروه بندی ارگانیسم ها بر اساس اطلاعات ژنتیکی درون یک طبقه بندی.
  • گروه بندی اسناد بر اساس موضوع

سیستم machine learning می تواند از cluster ID برای ساده سازی پردازش داده های بزرگ استفاده کنند. بدین ترتیب، خروجی خوشه بندی ها به عنوان ویژگی های داده برای سیستم های ML استفاده می شود.

در Google ، سیستم های خوشه بندی برای توسعه ، متراکم سازی داده ها، و حفظ حریم خصوصی در فیلم های YouTube ، اجرا شدن اپلیکیشن ها و موسیقی ها استفاده می شود.

فرایند توسعه

هنگامی که برخی از نمونه های یک خوشه ویژگی های داده را از دست بدهند، می توانید داده های گمشده را از نمونه های دیگر موجود در خوشه بدست بیاورید .

به طور مثال فیلم هایی که کمتر محبوب هستند را می توان با فیلم هایی که محبوب تر هستند خوشه بندی کرد تا توصیه های ویدئوی را بهبود ببخشید.

متراکم سازی داده ها

همانطور که بحث شد ویژگی های هر خوشه می تواند با یک عدد که آن را Cluster-ID می گویند جای گذاری شود. این جای گذاری ویژگی های داده ها را ساده می کند و مخزن را ذخیره می کند. این مزایا زمانی قابل توجه می شوند که با مجموعه داده های بزرگ مقایسه می شوند. به علاوه سیستم های machine learning می تواند از cluster-ID به عنوان یک ورودی استفاده کند به جای تمام ویژگی های dataset . کاهش پیچیدگی ورودی دیتا ها باعث میشود این مدل ML ساده تر و سریع تر باشد.

به طور مثال:


ویژگی های یک داده برای یک فیلم YouTube می تواند شامل موارد زیر باشد:

  • داده های یک بازدید کننده در یک مکان، زمان، آب و هوا
  • داده های نظرات را با نشانه های زمانی آنها، متن و آی دی کاربران.
  • تگ های ویدئو ها

خوشه بندی فیلم های YouTube به شما این اجازرو میدهد که این مجموعه از ویژگی ها را با یک Cluster ID جای گذین کنید که باعث فشرده کردن داده های شما می شود.


حفظ حریم خصوصی

شما میتوانید حریم خصوصی کاربر ها رو با خوشه بندی حفظ کنید، و به جای کاربران خاص ، داده های کاربر را به Cluster-ID مرتبط کنید. برای اطمینان از این موضوع که نمی توانید داده های کاربر را با یک کاربر خاص مرتبط کنید، خوشه بندی باید تعداد کافی از کاربران را دسته بندی کند.

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

مطالب پرمخاطب پایتونی ها

مقایسه هوش مصنوعی و یادگیری ماشین و یادگیری عمیق

AI، ML , DL

3
دقیـقه مطالعه
ادامه ...
هوش مصنوعی با پایتون

هوش مصنوعی-قسمت2

4
دقیـقه مطالعه
ادامه ...

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2