Chemometrics: Kosnos journal

Хемометрика
Хемометрични методи – обзор
Обучаваща, тестваща и валидираща извадка.

Както разбрахме от първата лекция, хемометриката може да бъде дефинирана [1] като химична дисциплина, която използва математически и статистически методи, както и методите на формалната логика и теорията на информацията за максимално извличане на пълноценна химична информация при анализа на химични данни. Както се вижда от тази дефиниция хемометриката използва множество методи, повечето от които са взаимствани от другите дисциплини и пригодени за целите на хемометриката. Други методи, обаче, са приложени за първи път за обработка на химична информация както е случаят с метода за изглаждане на спектрални криви и техни производни, разработен от Савицки и Голей [2].

В настоящият курс по хемометрика ще бъдат изучавани следните методи:

1. Класификация по разстоянието до центроидите на извадката (classification by distance to centres of gravity)

2. Линейна обучителна машина (linear learning machine)

3. Линейна многопроменлива регресия, ЛМР (linear multivariate regression)

4. Анализ на главните компоненти (principle components analysis)

5. Кластерен анализ (cluster analysis)

6. Класификация с помощта на изкуствени невронни мрежи, ИНМ (artifial neural networks, ANN)

7. Метод на K най-близките съседи (k-nearest neighbors method)

Всеки един от тези методи ще бъде разгледан в отделна лекция, която ще бъде илюстрирана с примери и данни от химията и спектроскопията. Също така, за всеки един метод е разработена програма под Windows, написана на Delphi: тези програми и техните ръководства (manuals) ще се предоставят безплатно на читателите на списанието.

1. Класификацията на хемометричните методи

В литературата съществуват различни групирания на разнообразните хемометрични методи. Кои методи ще съберем в една група зависи от критерия, според който ги обединяваме. Ето една класификация, която се различава от стандартните, но според нас най-добре илюстрира многообразието от хемометричните методи и принципите, на които те се основават.

Според знанието за статистическото разпределение на образите

Параметрични методи (parametric methods)

Непараметрични методи (nonparametric methods)

Пример за параметрични методи е доказването на параметрични статистически хипотези в едномерната статистика. Има четири изисквания за прилагане на този клас хипотези към данните от измерването, X₁, X₂... X_N, и те са: (1) отделните измервания да са независимо разпределени (отделните данни да са независими, казано по-кратко), (2) да са разпределени с едно и също разпределение, (3) и с едни и същи параметри на това разпределение, и най-важното (4) да са разпределени нормално. Това означава, че отделните стойности от едно измерване, X_k, са разпрелени нормално N(m, s²) с едно и също математическо очакване, m, и една и съща дисперсия, s² [това е прието да се означава X_kаN(m, s²)]. От това допускане следва, че средната стойност`X на тези N на брой измервания е разпределена стандартно (нормално с математическо очакване нула и дисперсия единица),`XаN(0, 1), а статистиката (`X - m ) x Sqrt(N) / S е t-разпределена (чете се "те разпрелена", а x означава умножение, Sqrt - корен квадратен, и S е стандартното отклонение на тези N измервания).

За съжаление, при наличие на многомерни данни е много трудно доказване на вида на тяхното разпреление. Може да се предположи, че тези многомерни данни са извадка от множество на вектори, които са многомерно нормално разпрелени, но на практика това предположение не е подкрепено от статистически доказателства и затова се работи без да се предполага каквото и да е разпределение на експерименталните многомерни данни. (Що е това многомерен образ вижте първата лекция)

Всички гореизброени методи могат да се прилагат без да имаме информация за разпределението на признаците на образите.

Според зависимостта, която се търси между отделните признаци на обектите методите могат да се разделят на:

Методи за изобразяване (display methods): това е метод 4, анализ на главните компоненти (PCA).

Методи за кластерифициране (analysis of clusters): това е метод 5 на кластерния анализ.

Регресионни методи (regression analysis): такива методи от изучаваните в този курс са методи 3 и 6 – линейна многопроменлива регресия и изкуствените невронни мрежи.

Методи за класифициране на класове (classification methods): това са методи 1, 2, 6 и 7; ЛМР също може да бъде използван за класифициране по класове (предимно по два класа).

Методи за изобразяване (display methods): това е метод 4, анализ на главните компоненти (PCA).

Методи за кластерифициране (analysis of clusters): това е метод 5 на кластерния анализ.

Регресионни методи (regression analysis): такива методи от изучаваните в този курс са методи 3 и 6 – линейна многопроменлива регресия и изкуствените невронни мрежи.

Методи за класифициране на класове (classification methods): това са методи 1, 2, 6 и 7; ЛМР също може да бъде използван за класифициране по класове (предимно по два класа).

Съобразно знанията за класовете на обектите

Методи с известни класове при обучението (supervised learning methods): това са методи 1, 2, 6 и 7. Не всички от моделите на ИНМ спадат към тази категория, но някои от моделите могат да се използват само при известни класове – например ИНМ с право разпространение на сигнала. Ако ЛМР се използва за класифициране на хемометрични обекти, то тя също спада към тази категория.

Методи с неизвестни класове при обучението (unsupervised learning methods): това са методи 4 и 5 и част от моделите на ИНМ – например ИНМ на Кохонен (T. Kohonen) [3].

.
2. Основна хипотеза в хемометриката. Основното допускане при прилагане на хемометричните методи гласи: Ако два химични обекта са еднакви или близки по отношение на някакво тяхно свойство (характеристика), то от техните други свойства (характеристики) може да се съставят образи, които са близки в пространството на образите. Ето защо почти винаги целта на хемометричните методи е да предскажат едно или повече химични свойства въз основата на набор от други характеристики.

В науката връзката между свойствата на химичните обекти се описва като връзка между стойностите на еднозначно дефинирани (физико)химични величини, и тази връзка се определя експериментално при анализ на набор от (физико)химични измервания, които се обработват математически в рамките на някакъв предварително възприет модел. Пример за такава връзка между физични величини е зависимостта между обема, температурата и налягането на идеалните газове

pV = nRT

Но, (1) не всички свойства (характеристики) могат да се изразят еднозначно – най-добър пример за това е степента на структурно подобие на една молекула към друга молекула. Също така, (2) не съществува строга количествена връзка между величините, които описват свойствата на химичните обекти, въпреки видимата корелация (връзка) между тях – например заснетият масспектър отразява (зависи от) броя на въглеродните атоми на съединението, но няма еднозначна математическа зависимост, която да изразява количествено тази връзка. И освен това, (3) количественото изразяване на някои от свойствата на химичните обекти зависи от редица условия, които ученият не може, или му е трудно да контролира или даже не подозира за тях – пример за това са пак масспектрите.

Липсата на споменатата еднозначна връзка между свойствата води до необходимостта от получаване на приблизителна връзка по следния начин:

1. определят се всички интересуващи ни химични обекти, които са част от множеството на всички възможни (или всички налични) обекти;

2. за тях се определят признаците, които изграждат химичните образи на тези обекти;

По този начин се съставя една извадка (набор) от химични образи, която може да се представи като матрица, в която на всеки ред отговаря един химичен образ, а на всяка колона – един признак; тази извадка се нарича на английски data set – извадка от данни. Част от обектите (образите) се избират (най-вече случайно) за да може да се установят зависимостите между изследвания признак и останалите признаци (съставящи образа), които интересуват изследователя, а останалата част се използва за проверка на зависимостта. С първия набор от образи се извършва установяване на приблизителната връзка и този процес обикновенно се нарича обучение (learning), а образите използвани за обучението съставят така наречената обучаваща извадка, learning set. Останалите образи се използват за проверка на валидността (надеждността) на получената зависимост. Понякога втората извадка допълнително се разделя на две части:

– тестваща извадка (test set) и

– валидираща извадка (validation set).

Първата се използва за изчисляване на някои статистически величини, които охарактеризират разпределението на числовата характеристика, която описва интересуващото ни свойство. Валидиращата извадка проверява общовалидността на получените оценки на статистическите величини.

^{(съдържание)}

Литература

[1] D.L. Massart, B.G.M. Vandeginste, S.N. Deming, Y. Michote, L. Kaufman; Chemometrics: A Textbook. Elsevier, Amsterdam, 1988.
.
[2] A. Savitzky, M.J.E. Golay; Smoothing and Differentiation of Data by Simplified Least Squares Procedures, Anal. Chem., 1964, 36, 1627-1639.
.
[3] T. Kohonen; Self-Organization and Associative Memory. Springer Verlag, Berlin, 1988.
..
Автор: Пламен Пенчев, Ph.D.

[ това е материал от брой 14 на списание "Коснос" www.kosnos.com]