2.1 Стратифікована вибірка
Стратифікована вибірка підрозуміває поділ генеральної сукупності на суб-сукупності, що не перекриваються, називаються стратами і разом складають генеральну сукупність, і подальшу побудову вибірок з кожної страти. Якщо вибірка з кожної страти є простою випадковою вибіркою, усю процедуру можна описати як стратифіковану випадкову вибірку. Обґрунтуванням стратифікованої вибірки можуть слугувати численні міркування (Cochran 1977, Schreuder et al. 1993). По-перше, стратифікація використовується для підвищення точності оцінок сукупності. Для того, аби зрозуміти потенціал збільшення точності, якого можна досягти за допомогою стратифікації, необхідні деякі записи та формули. Для простої випадкової вибірки (ПВВ), визначення середнього значення сукупності виглядає наступним чином:
розрахунок мінливості середнього здійснюється як
де n – розмір вибірки, yi – спостереження і
є вибірковою оцінкою дисперсії генеральної сукупності. Cochran (1977) наводить основні формули для стратифікованої оцінки. Нехтуючи поправочними коефіцієнтами для генеральної сукупності і похибками оцінки ваги страти, незміщена оцінка середнього і відхилення сукупності визначається як
відповідно, середнє і мінливість для страти; h=1, 2, ‘, L означає страту; j означає спостережння у межах страти; nhозначає число вибіркових спостережень у межахh-тої страти при n1+n2+’+nL=n; Wh – вага страти, що репрезентує частину генеральної сукупності у межах h-тої страти. Вплив стратифікації і стратифікованого оцінювання на точність часто визначається за допомогою т. зв. відносної ефективності, RE, яка обраховується як:
Значення RE>1 свідчить про вигідний ефект. Відносна ефективність може інтерпретуватися як збільшення загального обсягу вибірки, яке було би необхідним для досягнення тієї ж точності оцінювання на основі простої випадкової вибірки, яка досягається при використанні стратифікації та стратифікованого оцінювання. З кількісної точки зору, підвищення точності відбувається коли мінливості оціненого середнього для страти є значно меншими, ніж мінливість загального середнього
та (або) коли страти з великим
репрезентують малі частки генеральної сукупності (тобто при малих значеннях Wh). З якісної точки зору, підвищення точності досягається тоді, коли гетерогенні генеральні сукупності підрозділяються на гомогенні суб-сукупності. Це зазвичай означає, що середні, а також мінливості (або і середні, і мінливості) страт значно відрізняються.
Другою причиною доцільності використання стратифікації є той факт, що це може допомогти позбутися зміщення при оцінюванні, залежно від вибраних статистик оцінювання. Наприклад, польовим командам національної оцінки лісів зазвичай відкрито доступ до пробних площ, розміщених на землях державної та комунальної форм власності. Проте, при обмірі пробних площ, розміщених на землях приватної власності, може бути необхідним отримання дозволу на це у власника. Неминучою є відмова у наданні доступу деякими власниками. У виключних випадках кількісне відношення земель приватної форми власності до земель державної і комунальної форм власності у межах вибірки може бути значно меншим, ніж у межах генеральної сукупності. Якщо породний склад та (або) практика лісоуправління на державних (комунальних) та приватних лісових землях значно відрізняються, може виникнути зміщення при оцінці. Вирішенням проблеми є стратифікація земель за ознакою власності, таким чином отримаємо незалежні вибіркові оцінки для таких двох страт (McRoberts 2003).
Третім обґрунтуванням стратифікації є забезпечення різних протоколів вибірки або різних процедур оцінювання для різних суб-сукупностей. Наприклад, значна частина коштів, виділених на збір даних, може бути віднесена на поїздки до місць закладання проб та назад. Якщо використовуватимуться дані дистанційного зондування і вони підтвердять, що деякі пробні площі знаходяться на нелісових землях, витрати на транспорт можна значно скоротити, не відправляючи польові команди на ці проби. Проте, як результат різної техніки вимірювань, може виникнути необхідність використання різних статистик оцінювання для цих страт.
Великі вигоди використання стратифікованого оцінювання стають зрозумілими після стратифікації генеральної сукупності та визначення обсягів вибірок, до початку збору даних. Процес визначення обсягів вибірок для страт або розподілення вибірок по стратам може бути здійснений кількома різними способами і з кількома різними намірами. Часто вибірки розподіляються за стратами пропорційно певному атрибуту страти. Легкий для втілення підхід полягає у розподіленні вибірок за стратами пропорційно розміру страти. Якщо у межах страт використовується проста випадкова чи систематична вибірка, такий підхід веде до рівноймовірних вибірок у межах страт, що може спростити оцінювання. Втім, при використанні цього підходу, мінливості середніх для страт можуть дуже відрізнятися. Якщо необхідні порівнювано точні оцінки середніх для страт, вибірки можуть бути розподілені за стратами пропорційно до мінливості страти. Потенційна незручність цього підходу полягає у тому, що перш ніж розподіляти вибірки за стратами, необхідно отримати добрі оцінки мінливостей страти. Зрештою, може статися так, що оцінки середніх для певних страт є важливішими, ніж для інших. У цьому разі вибірки можуть розподілятися за стратами пропорційно до суб’єктивного бачення важливості страти.
Часто задачі, які ставляться при зборі даних, унеможливлюють використання випадкових стратифікованих вибірок. Наприклад, систематичний план вибірки може використовуватися задля одночасної оптимізації точності оцінювання багатьох змінних. Не дивлячись на те, що найбільші вигоди від використання стратифікації не можуть реалізовуватися для кожної конкретної змінної, корисні ефекти підвищення точності і запобігання появі зміщення оцінки можуть слугувати обґрунтуванням стратифікації після збору даних і стратифікованих оцінок. Втім, навіть якщо стратифікована вибірка не використовується, рекомендуємо використовувати стратифіковане оцінювання після збору даних, оскільки воно дає можливість досягти значного підвищення точності при незначному збільшенні витрат і зусиль.
Майже будь-яке джерело даних може бути використане для створення страт за умови чіткого виконання двох умов. По-перше, повинна бути визначена вага страт, яка обчислюється як обсяг генеральної сукупності, що репрезентується кожною стратою. По-друге, кожна пробна площа повинна належати до однієї і тільки однієї страти. Зростаюча доступність різноманітних тематичних цифрових шарів даних відкриває широкі можливості використання цих джерел даних для створення страт. На додачу, зростаюча доступність геоінформаційних систем (ГІС) значно спрощує виконання означених двох задач. Одним з популярних виборів при стратифікації є класифікація землекористування, з якої можна скласти агреговані лісові і нелісові класи, які і використовуватимуться як страти(McRoberts 2002). Використовуючи ГІС з таким шаром значно спрощує дві задачі стратифікації. У межах ГІС, кожна одиниця картування класифікації землекористування належить страті, яка базується на класі, присвоєному одиниці картування. Обчислення ваги страти у такому разі є питанням використання функцій ГІС для визначення загальної площі усіх одиниць картування, віднесених до однієї і тієї ж страти, і ділення її на загальну площу вибіркової сукупності. Пробні площі присвоюються страті одиниці картування, яка їх містить. Іншими можливостями вибору цифрових шарів даних, які можуть використовуватися для створення страт, є карти грунтів, карти кліматичного розподілу, екологічних провінцій, адміністративних границь, карти форм власності, карти одиниць землевпорядкування тощо, цей перелік можна продовжувати.