Хемометрика

Практически задачи
по материала
Класификация по разстоянието до центроидите на класовете

(съдържание)

.
Задача C1. Отворете файла pol_centr.xls. В този файл са дадени девет двумерни образа, които съответстват на инфрачервените (ИЧ) спектри на четири съединения, които не са първични алкохоли, и на пет първични алкохола. Признаците са интензитетите на максималната ивица в интервалите 3578 - 3278 cm-1 (първи признак) и 1079-1003 cm-1 (втори признак).

Разгледайте таблицата (sheet) "Spectra", в която са намерени центроидите на двата класа - техните координати са в региона D11:E12. На следващите два реда има два образа на съединения, които трябва да се класифицират по разстоянието до центроидите. За целта, на редове 15-27 са изчислени Евклидовите разстояния до центроидите на двата класа – в колона F до центроида на клас 0, а в колона J до центроида на клас 1 (първични алкохоли).

Разгледайте колона C в редове 15-27. Какво означава формулата “=IF(F15<J15, 0, 1)” в клетка C15? Какво точно се изчислява от C15 до C27?

Вижте отговора на последния въпрос.

Задача C2. В таблицата (sheet) "Euclidean" във файла pol_centr.xls повторете изчисленията от таблицата "Spectra".

Задача C3. В таблицата "Manhatten" във файла pol_centr.xls повторете изчисленията от таблицата "Spectra" като използвате разстояние в Манхатън. Малко подсказване - в клетка F15 ще стои функцията "= Abs(D15) +Abs( E15)", вместо "= D15^2 + E15^2".

Задача C4. Разгледайте графиката в таблицата "Plot". Образите от клас 0 (не първични алкохоли) са дадени със запълнени червени квадрати, а образите от клас 1 ( първични алкохоли) със запълнени сини кръгове. Центроидът на клас 0 е запълнен червен триъгълник, а този на клас 1 - запълнен син ромб. Двата непознати образа, 2-Propylen-amine и Glycerol са дадени, съответно, с празен квадрат и празен кръг. Ясно се вижда, че първият от тях е по-близо до нулевия центроид, а втория - до центроида на клас 1. В действителност, първото съединение не е първичен алкохол, а глицеролът е. Същата графика е дадена и в Лекция 3, но там са нарисувани допълнително четирите разстояния между класифицираните "непознати" образи и центроидите на двата класа.

ЛИТЕРАТУРА

[1] K. Varmuza; Chemometrics. Springer Verlag, Berlin, 1980.

(съдържание)

Отговор на въпроса от задача C1. Формулата в клетка C15  “=IF(F15<J15, 0, 1)” означава, че ако стойността в клетка F15 е по-малка от стойността в клетка J15, то ще се изпише нула, и обратно - единица, ако не е изпълнено неравенството. В клетка F15 стои разстоянието от първи образ до центроида на нулевия клас, а в клетка J15 - разстоянието от първи образ до центроида на клас 1. Това означава, че тази функция определя автоматично класовата принадлежност на образите. Забележете, че шести образ (1-Butanol, 4-phenoxy) дава грешна класификация - клетка C20, която е оцветена с жълто. Това може да се види и на графиката в таблицата "Plot".

Автор: Пламен Пенчев, Ph.D.

[ това е материал от брой 17 на списание "Коснос" www.kosnos.com ]