Практически задачи
по материала
Класификация
по разстоянието до центроидите на класовете
Разгледайте таблицата (sheet) "Spectra", в която са намерени центроидите на двата класа - техните координати са в региона D11:E12. На следващите два реда има два образа на съединения, които трябва да се класифицират по разстоянието до центроидите. За целта, на редове 15-27 са изчислени Евклидовите разстояния до центроидите на двата класа – в колона F до центроида на клас 0, а в колона J до центроида на клас 1 (първични алкохоли).
Разгледайте колона C в редове 15-27. Какво означава формулата “=IF(F15<J15, 0, 1)” в клетка C15? Какво точно се изчислява от C15 до C27?
Вижте отговора на последния въпрос.
Задача C2. В таблицата (sheet) "Euclidean" във файла pol_centr.xls повторете изчисленията от таблицата "Spectra".
Задача C3. В таблицата "Manhatten" във файла pol_centr.xls повторете изчисленията от таблицата "Spectra" като използвате разстояние в Манхатън. Малко подсказване - в клетка F15 ще стои функцията "= Abs(D15) +Abs( E15)", вместо "= D15^2 + E15^2".
Задача C4. Разгледайте графиката в таблицата "Plot". Образите от клас 0 (не първични алкохоли) са дадени със запълнени червени квадрати, а образите от клас 1 ( първични алкохоли) със запълнени сини кръгове. Центроидът на клас 0 е запълнен червен триъгълник, а този на клас 1 - запълнен син ромб. Двата непознати образа, 2-Propylen-amine и Glycerol са дадени, съответно, с празен квадрат и празен кръг. Ясно се вижда, че първият от тях е по-близо до нулевия центроид, а втория - до центроида на клас 1. В действителност, първото съединение не е първичен алкохол, а глицеролът е. Същата графика е дадена и в Лекция 3, но там са нарисувани допълнително четирите разстояния между класифицираните "непознати" образи и центроидите на двата класа.
ЛИТЕРАТУРА
[1] K. Varmuza; Chemometrics. Springer Verlag, Berlin, 1980.
Отговор на въпроса от задача C1. Формулата в клетка C15 “=IF(F15<J15, 0, 1)” означава, че ако стойността в клетка F15 е по-малка от стойността в клетка J15, то ще се изпише нула, и обратно - единица, ако не е изпълнено неравенството. В клетка F15 стои разстоянието от първи образ до центроида на нулевия клас, а в клетка J15 - разстоянието от първи образ до центроида на клас 1. Това означава, че тази функция определя автоматично класовата принадлежност на образите. Забележете, че шести образ (1-Butanol, 4-phenoxy) дава грешна класификация - клетка C20, която е оцветена с жълто. Това може да се види и на графиката в таблицата "Plot".
Автор: Пламен Пенчев, Ph.D.
[ това е материал от брой 17 на списание "Коснос" www.kosnos.com ]