可以为给定数据点找到相似的数据点(“邻居”),然后可以将给定数据点分配给邻居中占主导地位的类。听起来抽象的东西很容易说明:假设您是一名皮肤科医生,过去您将许多痣分为良性或恶性。他们怀疑胎记的长度和宽度起着至关重要的作用。从过去的诊断中,他们知道哪种长度和宽度的组合会导致哪种结果。为了支持未来的诊断,请使用kNN。在x轴上输入宽度,在y轴上输入长度。蓝色表示良性,红色表示恶性。黄点代表尚未分类的胎记。kNN旨在支持您进行诊断。k最近邻算法资料来源:弗劳恩霍夫IA顺便说一句,kNN名称中的k代表要考虑的邻居数量。
当然,根据k的选择方式,算法可以产生不同的结果。如果您选择k=,算法会将新痣(即黄点)分类为良性(即将其分配给蓝色类,因为三分之二的邻居是蓝色的,而只有三分之一的邻居是红色的)。但是,如果您选择k=,则红色邻居占 丹麦电话号码数据 主导地位(五分之三),并且新胎记被归类为恶性。找到最佳k是一项艰巨的任务,并且在很大程度上取决于应用程序。你还必须考虑如何定义“距离”或“邻居”。这对于二维空间中的数字很容易(如示例中所示)。
但标准尺寸也适用于更高尺寸的房间。上述方法的其他应用是:自动确定传入文件(例如发票、提醒或预约请求)独立提取姓名、地址、日期等预测当前或未来的流程,例如制造流程一旦理解了基本原理,下一步推广或进一步开发流程的步骤就不再那么大了。即使使用更复杂的算法,准确理解它们的工作原理也不再重要,重要的是要知道哪些程序适合哪些问题以及每种情况下可以使用哪些调整螺钉来提高程序的预测质量。如果您想更深入地研究该主题,诚挚邀请您参加我们月份的免费研讨会或直接与我联系我期待您的问题和您的AI应用想法