Хемометрика
Хемометрични методи – обзор
Обучаваща, тестваща и валидираща извадка.

Както разбрахме от първата лекция, хемометриката може да бъде дефинирана [1] като химична дисциплина, която използва математически и статистически методи, както и методите на формалната логика и теорията на информацията за максимално извличане на пълноценна химична информация при анализа на химични данни. Както се вижда от тази дефиниция хемометриката използва множество методи, повечето от  които са взаимствани от другите дисциплини и пригодени за целите на хемометриката. Други методи, обаче, са приложени за първи път за обработка на химична информация както е случаят с метода за изглаждане на спектрални криви и техни производни, разработен от Савицки и Голей [2].

В настоящият курс по хемометрика ще бъдат изучавани следните методи:

1. Класификация по разстоянието до центроидите на извадката (classification by distance to centres of gravity)

2. Линейна обучителна машина (linear learning machine)

3. Линейна многопроменлива регресия, ЛМР (linear multivariate regression)

4. Анализ на главните компоненти (principle components analysis)

5. Кластерен анализ (cluster analysis)

6. Класификация с помощта на изкуствени невронни мрежи, ИНМ (artifial neural networks, ANN)

7. Метод на K най-близките съседи (k-nearest neighbors method)

Всеки един от тези методи ще бъде разгледан в отделна лекция, която ще бъде илюстрирана с примери и данни от химията и спектроскопията. Също така, за всеки един метод е разработена програма под Windows, написана на Delphi: тези програми и техните ръководства (manuals) ще се предоставят безплатно на читателите на списанието.
 

1. Класификацията на хемометричните методи

В литературата съществуват различни групирания на разнообразните хемометрични методи. Кои методи ще съберем в една група зависи от критерия, според който ги обединяваме. Ето една класификация, която се различава от стандартните, но според нас най-добре илюстрира многообразието от хемометричните методи и принципите, на които те се основават.
 

Пример за параметрични методи е доказването на параметрични статистически хипотези в едномерната статистика. Има четири изисквания за прилагане на този клас хипотези към данните от измерването, X1, X2 ... XN,  и те са: (1) отделните измервания да са независимо разпределени (отделните данни да са независими, казано по-кратко), (2) да са разпределени с едно и също разпределение, (3) и с едни и същи параметри на това разпределение, и най-важното (4) да са разпределени нормално. Това означава, че отделните стойности от едно измерване, Xk, са разпрелени нормално N(m, s2) с едно и също математическо очакване, m, и една и съща дисперсия, s2 [това е прието да се означава XkаN(m, s2)]. От това допускане следва, че средната стойност`X на тези N на брой измервания е разпределена стандартно (нормално с математическо очакване нула и дисперсия единица),`XаN(0, 1), а статистиката (`X - m ) x Sqrt(N) / S е t-разпределена (чете се "те разпрелена", а x означава умножение, Sqrt - корен квадратен, и S е стандартното отклонение на тези N измервания).

За съжаление, при наличие на многомерни данни е много трудно доказване на вида на тяхното разпреление. Може да се предположи, че тези многомерни данни са извадка от множество на вектори, които са многомерно нормално разпрелени, но на практика това предположение не е подкрепено от статистически доказателства и затова се работи без да се предполага каквото и да е разпределение на експерименталните многомерни данни. (Що е това многомерен образ вижте първата лекция)

Всички гореизброени методи могат да се прилагат без да имаме информация за разпределението на признаците на образите.

  • Според зависимостта, която се търси между отделните признаци на обектите методите могат да се разделят на:
  • . .
    2. Основна хипотеза в хемометриката. Основното допускане при прилагане на хемометричните методи гласи: Ако два химични обекта са еднакви или близки по отношение на някакво тяхно свойство (характеристика), то от техните други свойства (характеристики) може да се съставят образи, които са близки в пространството на образите. Ето защо почти винаги целта на хемометричните методи е да предскажат едно или повече химични свойства въз основата на набор от други характеристики.

    В науката връзката между свойствата на химичните обекти се описва като връзка между стойностите на еднозначно дефинирани (физико)химични величини, и тази връзка се определя експериментално при анализ на набор от (физико)химични измервания, които се обработват математически в рамките на някакъв предварително възприет модел. Пример за такава връзка между физични величини е зависимостта между обема, температурата и налягането на идеалните газове
     

    pV = nRT

    Но, (1) не всички свойства (характеристики) могат да се изразят еднозначно – най-добър пример за това е степента на структурно подобие на една молекула към друга молекула. Също така, (2) не съществува строга количествена връзка между величините, които описват свойствата на химичните обекти, въпреки видимата корелация (връзка) между тях – например заснетият масспектър отразява (зависи от) броя на въглеродните атоми на съединението, но няма еднозначна математическа зависимост, която да изразява количествено тази връзка.  И освен това, (3) количественото изразяване на някои от свойствата на химичните обекти зависи от редица условия, които ученият не може, или му е трудно да контролира или даже не подозира за тях – пример за това са пак масспектрите.

    Липсата на споменатата еднозначна връзка между свойствата води до необходимостта от получаване на приблизителна връзка по следния начин:

    1. определят се всички интересуващи ни химични обекти, които са част от множеството на всички възможни (или всички налични) обекти;

    2. за тях се определят признаците, които изграждат химичните образи на тези обекти;

    По този начин се съставя една извадка (набор) от химични образи, която може да се представи като матрица, в която на всеки ред отговаря един химичен образ, а на всяка колона – един признак; тази извадка се нарича на английски data set – извадка от данни. Част от обектите (образите) се избират (най-вече случайно) за да може да се установят зависимостите между изследвания признак и останалите признаци (съставящи образа), които интересуват изследователя, а останалата част се използва за проверка на зависимостта. С първия набор от образи се извършва установяване на приблизителната връзка и този процес обикновенно се нарича обучение (learning), а образите използвани за обучението съставят така наречената обучаваща извадка, learning set. Останалите образи се използват за проверка на валидността (надеждността) на получената зависимост. Понякога втората извадка допълнително се разделя на две части:
     
    тестваща извадка (test set) и

    валидираща извадка (validation set).

    Първата се използва за изчисляване на някои статистически величини, които охарактеризират разпределението на числовата характеристика, която описва интересуващото ни свойство. Валидиращата извадка проверява общовалидността на получените оценки на статистическите величини.

    (съдържание)

    Литература

    [1] D.L. Massart, B.G.M. Vandeginste, S.N. Deming, Y. Michote, L. Kaufman; Chemometrics: A Textbook. Elsevier, Amsterdam, 1988.
    .
    [2] A. Savitzky, M.J.E. Golay; Smoothing and Differentiation of Data by Simplified Least Squares Procedures, Anal. Chem., 1964, 36, 1627-1639.
    .
    [3] T. Kohonen; Self-Organization and Associative Memory. Springer Verlag, Berlin, 1988.
    ..
    Автор: Пламен Пенчев, Ph.D.

    [ това е материал от брой 14 на списание "Коснос" www.kosnos.com]