Česká verze stránek není od roku 2013 aktualizována. Aktuální verzi této stránky najdete v její anglické verzi zde.
Výpočet ekologické podobnosti mezi vzorky je základní nástroj, kterým přistupujeme k mnohorozměrným ekologickým datům. Pod pojmem ekologická podobnost v tomto případě myslím rozdíly v druhovém složení dvou vzorků (např. vegetačních snímků). Na ekologické podobnosti je založena jak numerická klasifikace, tak i ordinační analýza. U mnohých ordinačních technik není vztah k ekologické podobnosti na první pohled patrný, ale je tam; například algoritmus CA (korespondenční analýza) rozmístí vzorky v ordinačním prostoru tak, že jejich vzdálenosti jsou vyjádřeny pomocí chí-kvadrát vzdáleností1).
Intuitivní přístup je uvažovat o podobnosti (similarity) mezi vzorky - čím jsou si vzorky podobnější svým druhovým složením, tím je jejich podobnost vyšší. Indexy podobnosti nabývají hodnot 0 (vzorky nesdílejí žádný druh) až 1 (vzorky jsou identické, sdílejí všechny druhy, a pokud uvažuji i o abundancích, abundance všech druhů jsou také stejné). Ordinační i klasifikační techniky nepracují s podobnostmi, ale s tzv. vzdálenostmi vzorků, protože potřebují umístit vzorky do (mnohorozměrného) prostoru. Vzdálenost (distance) mezi vzorky prakticky odpovídá jejich ekologické nepodobnosti (dissimilarity) (i když teoreticky ne každá nepodobnost se dá vyjádřit jako vzdálenost bodů v euklidovském prostoru), a dá se odvodit buď z jednotlivých indexů podobnosti jejich odečtením od jedničky, případně existují vlastní míry vzdáleností (např. euklidovská). Platí přitom, že zatímco všechny míry podobnosti se dají převést na nepodobnost (vzdálenost), ne všechny míry nepodobnosti (vzdálenosti) se dají převést na podobnost (to platí opět např. o euklidovské vzdálenosti).
Indexů podobnosti, resp. měr vyjadřujících vzdálenost mezi vzorky je celá řada (Legendre & Legendre 2012 jich uvádějí kolem 30) a vyznat se v nich není úplně jednoduchá záležitost. Při výběru se musíme nejdříve rozhodnout, jestli je naším cílem R nebo Q analýza 2). Legendre & Legendre 2012 nabízí jakýsi klíč k výběru vhodné míry v případě daného typu dat a studovaného problému (tabulky 7.4-7.6). Obecně (a silně zjednodušeně) se dá říci, že Bray-Curtis, Sørensen nebo tětivová vzdálenost (Chord distance)) fungují na ekologických datech lépe než euklidovská nebo chi-kvadrát vzdálenost.
V názvech jednotlivých indexů je docela chaos, a stejný název se někdy používá pro index podobnosti i nepodobnosti. Aby se to nepletlo, budeme v celé kapitole uvažovat jen o indexech nepodobnosti, tedy o vzdálenostech (distances).
euclidean
, canbera
a manhattan
. Výsledkem této i ostatních distančních funkcí je distanční matice (distance matrix), v tomto případě objekt třídy dist
. vegdist
, ale v jiné knihovně.manhattan
a gower
distance.
(veg.data
obsahuje matici vzorky x druhy):
dist (x = veg.data, method = 'euclidean')
výsledkem je distanční matice s euklidovskými vzdálenostmi mezi vzorky.
Další inspiraci hledejte například v přehledu metod pro analýzu ekologických dat CRAN Task View: Analysis of Ecological and Environmental Data, kterou spravuje Gavin Simpson, v sekci Dissimilarity coefficients.