Sự hình thànhGiáo dục trung học và trường học

Phương pháp láng giềng gần nhất: ví dụ về công việc

phương pháp hàng xóm gần nhất là phân loại số liệu đơn giản nhất mà là dựa trên việc đánh giá sự giống nhau của các đối tượng khác nhau.

đối tượng phân tích thuộc về lớp mà họ thuộc về đối tượng của mẫu huấn luyện. Chúng ta hãy tìm hiểu đó là những người hàng xóm gần nhất. Cố gắng hiểu được những vấn đề phức tạp, ví dụ về các kỹ thuật khác nhau.

phương pháp giả thuyết

phương pháp láng giềng gần nhất có thể được coi như là thuật toán phổ biến nhất được sử dụng để phân loại. Đối tượng trải qua phân loại thuộc y_i lớp, mà đối tượng gần nhất học mẫu x_i.

Đặc hiệu của phương pháp láng giềng gần nhất

k phương pháp láng giềng gần nhất có thể cải thiện tính chính xác của phân loại. đối tượng phân tích thuộc về lớp giống như phần lớn các nước láng giềng, có nghĩa là, k gần nó đối tượng của x_i mẫu phân tích. Trong việc giải quyết vấn đề với hai lớp của số hàng xóm sẽ lẻ để tránh tình trạng nhập nhằng, nếu cùng một số người hàng xóm sẽ thuộc về các lớp học khác nhau.

Kỹ thuật của hàng xóm bị đình chỉ

phương pháp postgresql-phân tích tsvector láng giềng gần nhất sử dụng khi số lượng các lớp học ít nhất ba, và bạn không thể sử dụng một số lẻ. Nhưng mơ hồ phát sinh ngay cả trong những trường hợp này. Sau đó, những người hàng xóm thứ i được cân w_i, mà giảm theo cấp bậc xóm tôi. Nó đề cập đến lớp của đối tượng, trong đó sẽ có tổng trọng lượng tối đa giữa các nước láng giềng gần gũi.

Giả thuyết của chặt

Tại trung tâm của tất cả các phương pháp trên là giả thuyết của chặt. Nó cho thấy một mối liên hệ giữa các số đo sự giống nhau của các đối tượng và thuộc họ đến cùng lớp. Trong tình huống này, ranh giới giữa các loại khác nhau là một hình thức đơn giản, và tạo ra các lớp học của các đối tượng trong không gian khu vực điện thoại di động nhỏ gọn. Theo khu vực như vậy trong phân tích toán học đưa đến nghĩa một tập bị chặn đóng cửa. Giả thuyết này không liên quan đến quan niệm hàng ngày của từ này.

Các công thức cơ bản

Chúng ta hãy xem xét nhiều người hàng xóm gần nhất. Nếu công tác đào tạo đề xuất kiểu mẫu "đối tượng phản ứng» X ^ m = \ {(x_1, y_1), \ dots, (x_m, y_m) \}; nếu được đa số đối tượng để xác định khoảng cách chức năng \ rho (x, x '), được thể hiện dưới dạng một mô hình tương đồng đầy đủ của các đối tượng bằng cách tăng giá trị của hàm giảm tương đồng giữa các đối tượng x, x'.

Đối với bất kỳ đối tượng, u sẽ xây dựng các đối tượng một mẫu đào tạo x_i với sự gia tăng khoảng cách với u:

\ Rho (u, X_ {1; u}) \ leq \ rho (u, X_ {2; u}) \ leq \ cdots \ leq \ rho (u, X_ {m; u}),

nơi X_ {i; u} đặc trưng cho mẫu học tập đối tượng, đó là thứ i đối tượng nguồn hàng xóm u. ký hiệu và việc sử dụng đó để trả lời hàng xóm thứ i: y_ {i; u}. Kết quả là, chúng ta thấy rằng bất kỳ đối tượng u khiêu khích renumbering mẫu riêng.

Xác định k số các nước láng giềng

phương pháp láng giềng gần nhất khi k = 1 có khả năng đưa ra một phân loại sai lầm, không chỉ trên các đối tượng-khí thải, mà còn cho các lớp khác mà gần.

Nếu chúng ta lấy k = m, thuật toán sẽ được làm ổn định và sẽ biến thành một giá trị không đổi. Đó là lý do độ tin cậy là rất quan trọng để tránh các chỉ số cực đoan k.

Trong thực tế, như chỉ số tối ưu k sử dụng tiêu chí trượt điều khiển.

khí thải chiếu

Đối tượng nghiên cứu là chủ yếu không công bằng, nhưng trong số đó có những người có những đặc điểm của một lớp và được gọi là tiêu chuẩn. Tại gần nhau của các đối tượng với mô hình lý tưởng của xác suất cao của nó thuộc lớp này.

Làm thế nào rezultativen phương pháp của các nước láng giềng gần nhất? Một ví dụ có thể được nhìn thấy trên cơ sở các loại thiết bị ngoại vi và không cung cấp thông tin của các đối tượng. Nó được giả định môi trường dày đặc của đối tượng đại diện khác của lớp này. Khi bạn loại bỏ chúng khỏi việc phân loại lấy mẫu chất lượng sẽ không bị ảnh hưởng.

Nhận được vào một số lượng nhất định các mẫu có thể bùng nổ tiếng ồn đó là "trên mặt đất" của một lớp. Loại bỏ tác động tích cực đáng kể về chất lượng của các phân loại.

Nếu mẫu lấy từ các đối tượng tiếng ồn không đủ thông tin và loại bỏ, bạn có thể tin cậy vào một vài kết quả tích cực cùng một lúc.

Đầu tiên phương pháp nội suy của việc phân loại hàng xóm gần nhất cho phép nâng cao chất lượng, giảm lượng dữ liệu lưu trữ, giảm thời gian phân loại, được chi cho sự lựa chọn của các tiêu chuẩn tiếp theo.

Việc sử dụng các mẫu siêu lớn

phương pháp láng giềng gần nhất được dựa trên việc lưu trữ thực tế của đối tượng học tập. Để tạo rất mẫu quy mô lớn sử dụng một trục trặc kỹ thuật. Mục đích không chỉ để tiết kiệm một lượng đáng kể các thông tin, mà còn ở số tiền tối thiểu thời gian để có thời gian để tìm thấy bất kỳ đối tượng u k trong những người hàng xóm gần nhất.

Để đối phó với nhiệm vụ này, hai phương pháp được sử dụng:

  • mẫu mỏng thông qua một đối tượng xả phi dữ liệu;
  • sử dụng cấu trúc dữ liệu đặc biệt hiệu quả và mã cho tìm kiếm tức thời của những người hàng xóm gần nhất.

Quy tắc của phương pháp lựa chọn

Việc phân loại trên được xem xét. Phương pháp nearest neighbour được sử dụng trong việc giải quyết vấn đề thực tế, được biết trước khoảng cách chức năng \ rho (x, x '). Trong đối tượng mô tả vectơ số sử dụng một thước đo Euclide. Lựa chọn này không có biện minh đặc biệt, nhưng liên quan đến đo lường của tất cả các dấu hiệu "trong cùng một tỷ lệ." Nếu yếu tố này không được đưa vào tài khoản, sau đó số liệu sẽ chiếm ưu thế tính năng có giá trị số cao nhất.

Nếu có một số lượng đáng kể các tính năng, tính toán khoảng cách là tổng của các độ lệch trên triệu chứng cụ thể xuất hiện chiều hướng vấn đề nghiêm trọng.

Trong không gian chiều cao cách xa nhau sẽ tất cả các đối tượng. Cuối cùng, bất kỳ mẫu sẽ bên cạnh các đối tượng được nghiên cứu k láng giềng. chọn một số ít các tính năng thông tin để loại bỏ vấn đề này. Các thuật toán để tính dự toán xây dựng trên cơ sở bộ khác nhau của dấu hiệu, và cho mỗi cá nhân xây dựng chức năng gần gũi của họ.

phần kết luận

tính toán toán học thường liên quan đến việc sử dụng một loạt các kỹ thuật có tính chất đặc thù riêng, ưu và nhược điểm của họ. Xem phương pháp láng giềng gần nhất có thể giải quyết một vấn đề khá nghiêm trọng, do đặc điểm của các đối tượng toán học. Khái niệm thực nghiệm, dựa trên phương pháp phân tích đang được tích cực sử dụng trong trí tuệ nhân tạo.

Trong các hệ thống chuyên gia nó là cần thiết không chỉ để phân loại đối tượng, mà còn hiển thị cho người dùng một giải thích về việc phân loại trong câu hỏi. Trong phương pháp này, giải thích về hiện tượng này được thể hiện trong mối quan hệ với các đối tượng của một lớp học đặc biệt cũng như vị trí của nó so với các mẫu được sử dụng. chuyên ngành pháp lý, các nhà địa chất, các bác sĩ, thực hiện việc này "tiền lệ" logic tích cực sử dụng nó trong nghiên cứu của họ.

Để được phân tích phương pháp là đáng tin cậy nhất, hiệu quả, đem lại kết quả mong muốn, bạn phải mất một con số k tối thiểu, đồng thời cũng tránh khí thải giữa các đối tượng phân tích. Đó là lý do tại sao việc sử dụng các tiêu chuẩn và phương pháp lựa chọn, cũng như các số liệu tối ưu hóa.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 vi.atomiyme.com. Theme powered by WordPress.