Strategie utrwalania brakujących wyników binarnych w randomizowanych badaniach klinicznych Kontekst Przyczyna, która prowadzi do brakujących danych, jest częstym problemem w randomizowanych badaniach klinicznych (CRT), gdzie grupy pacjentów, a nie pojedyncze osoby są losowo randomizowane. Standardowe strategie wielu imputacji (MI) mogą nie być odpowiednie, aby przypisać brakujące dane z plików CRT, ponieważ zakładają niezależne dane. W niniejszym artykule, przy założeniu, że brakowało całkowicie losowo i zależnie od wariancji, brakowało porównania sześciu strategii MI, które uwzględniają korelację między klastrami w przypadku brakujących wyników binarnych w CRT przy użyciu standardowych strategii imputowania i pełnej analizy przypadku, przy użyciu badania symulacyjnego . Rozważaliśmy trzy strategie MI w obrębie klastra i trzy między klastrami, aby uzyskać brakujące wyniki binarne w CRT. Trzy strategie MI wewnątrz klastra to metoda regresji logistycznej, metoda oceny skłonności i metoda Monte Carlo (MCMC) łańcucha Markowa, które stosują standardowe strategie MI w każdym klastrze. Trzy strategie MI w zakresie klastra obejmują metodę punktacji skłonności, podejście regresji logistycznej (RE) i regresję logistyczną z klastrem jako efektem stałym. Na podstawie testu oceny nadciśnienia w społeczności (CHAT), który ma pełne dane, zaprojektowaliśmy badanie symulacyjne w celu zbadania skuteczności powyższych strategii MI. Szacowany efekt leczenia i jego 95 przedział ufności (CI) z modelu uogólnionych równań estymacji (GEE) na podstawie kompletnego zbioru danych CHAT to 1,14 (0,76 1,70). Gdy 30 wyników binarnych jest zupełnie przypadkowych, badanie symulacyjne wykazuje, że szacunkowe efekty leczenia i odpowiadające im 95 CI z modelu GEE wynoszą 1,15 (0,76 1,75), jeśli stosowana jest pełna analiza przypadku, 1,12 (0,72 1,73), jeśli w obrębie klastra Metoda MCMC jest stosowana, jeśli stosuje się regresję regresji logistycznej RE w klasterach pośrednich i 1,16 (0,82 1,64), jeśli stosuje się standardową regresję logistyczną, która nie uwzględnia klastrowania. Wniosek Gdy procent brakujących danych jest niski lub współczynnik korelacji wewnątrz klastra jest niewielki, różne podejścia do obsługi brakujących danych wyników binarnych generują dość podobne wyniki. Jeśli procent brakujących danych jest duży, standardowe strategie MI, nie uwzględniające korelacji wewnątrz klastra, nie docenią wariancji efektu leczenia. Strategie MI w klasterach i klastrach (z wyjątkiem strategii MI w regresji regresji skutków losowych), które biorą pod uwagę korelację wewnątrz klastra, wydają się być bardziej odpowiednie, aby poradzić sobie z brakiem wyników z CRT. Zgodnie z tą samą strategią przypisywania i odsetkiem brakujących danych, szacunki efektów leczenia z modeli regresji logistycznej GEE i RE są podobne. 1. Wprowadzenie Próby z randomizacją klastrów (CRT), w których randomizowane są grupy uczestników, a nie osoby, są coraz częściej stosowane w promocji zdrowia i badaniach dotyczących usług zdrowotnych 1. Kiedy uczestnicy muszą być zarządzani w tym samym otoczeniu, na przykład w szpitalu, społeczności lub praktyce lekarza rodzinnego, zazwyczaj stosuje się strategię randomizacji, aby zminimalizować potencjalne zanieczyszczenie w leczeniu osób uczestniczących w interwencji. Jest on również stosowany, gdy randomizacja na poziomie indywidualnym może być nieodpowiednia, nieetyczna lub niemożliwa do zrealizowania 2. Główną konsekwencją projektu opartego na losowaniu klastra jest to, że uczestnicy nie mogą być uznani za niezależnych ze względu na podobieństwo uczestników z tego samego klastra. To podobieństwo jest kwantyfikowane przez współczynnik korelacji wewnątrzklatkowej ICC. Biorąc pod uwagę dwa składniki odmian w wyniku, różnice pomiędzy klastrami i wewnątrz klastra, można interpretować jako proporcję całkowitej różnicy w wynikach, którą można tłumaczyć różnicą między klastrami3. Może być również interpretowane jako korelacja między wynikami dla dwóch uczestników w tym samym klastrze. Zostało dobrze udowodnione, że nieuwzględnienie korelacji wewnątrz klastra w analizie może zwiększyć szansę uzyskania statystycznie istotnych, ale pozornych odkryć 4. Ryzyko ścierania może być bardzo wysokie w przypadku niektórych CRT z powodu braku bezpośredniego kontaktu z poszczególnymi uczestnikami i długotrwałym kontynuowaniem 5. Oprócz zaginionych osób może brakować całych klastrów, co dodatkowo komplikuje obsługę brakujących danych w CRT. Wpływ brakujących danych na wyniki analizy statystycznej zależy od mechanizmu, który spowodował utratę danych i sposób jego obsługi. Domyślnym podejściem do rozwiązywania tego problemu jest użycie pełnej analizy przypadku (nazywanego skreślenie listą), tzn. Wykluczanie uczestników z brakującymi danymi z analizy. Chociaż takie podejście jest łatwe w użyciu i jest domyślną opcją w większości pakietów statystycznych, może znacznie osłabić siłę statystyczną badania i może również prowadzić do stronniczych wyników w zależności od mechanizmu brakujących danych. Ogólnie rzecz biorąc, rodzaj lub rodzaj braków można przyporządkować do czterech kategorii: brakujące całkowicie losowo (MCAR), nieobecne losowo (MAR), zależne od współzmiennej (CD) i brakujące losowo (MNAR) 6. Zrozumienie tych kategorii jest ważne, ponieważ rozwiązania mogą się różnić w zależności od charakteru braków. MCAR oznacza, że brak danych mechanizmu, tj. Prawdopodobieństwo zaginięcia, nie zależy od obserwowanych lub nieobserwowanych danych. Oba mechanizmy MAR i CD wskazują, że przyczyny brakujących danych nie są powiązane z brakującymi wartościami, ale mogą być związane z obserwowanymi wartościami. W kontekście danych podłużnych, gdy są wykonywane seryjne pomiary dla każdej osoby, MAR oznacza, że prawdopodobieństwo brakującej odpowiedzi podczas konkretnej wizyty jest związane z zaobserwowanymi odpowiedziami podczas poprzednich wizyt lub współzmiennych, podczas gdy brakowało CD - szczególny przypadek MAR - oznacza, że prawdopodobieństwo brakującej odpowiedzi zależy tylko od współzmiennych. MNAR oznacza, że prawdopodobieństwo brakujących danych zależy od danych nieobserwowanych. Zwykle występuje, gdy ludzie rezygnują z badania z powodu słabych lub dobrych wyników zdrowotnych. Najważniejsze rozróżnienie pomiędzy tymi kategoriami polega na tym, że MNAR nie jest ignorowany, a pozostałe trzy kategorie (np. MCAR, CD lub MAR) są ignorowane 7. W warunkach omyłkowej zaginięcia strategie imputacji, takie jak średnia imputacja, gorąca talia, ostatnia obserwacja przeniesiona do przodu lub wielokrotne imputacje (MI) - które zastępują każdą brakującą wartość jednej lub wielu wiarygodnych wartości - mogą wytworzyć kompletny zestaw danych, który nie jest niekorzystnie stronniczy 8. 9. Niezapalne brakujące dane są trudniejsze i wymagają innego podejścia 10. Dwa główne podejścia do radzenia sobie z brakującymi wynikami to analizy oparte na prawdopodobieństwach i imputacja 10. W niniejszym artykule skupiamy się na strategiach MI, które biorą pod uwagę zmienność lub niepewność brakujących danych, aby przypisać brakujące wyniki binarne w CRT. Zgodnie z założeniami strategii MAR, strategie MI zastępują każdą brakującą wartość zestawem wiarygodnych wartości w celu utworzenia wielu imputowanych zestawów danych - zwykle o różnych liczbach od 3 do 10 11. Te wielokrotne przypisane zestawy danych są analizowane przy użyciu standardowych procedur dla kompletnych danych. Wyniki z implikowanych zestawów danych są następnie łączone w celu uzyskania końcowego rezultatu. Standardowe procedury MI są dostępne w wielu standardowych pakietach oprogramowania statystycznego, takich jak SAS (Cary, NC), SPSS (Chicago IL) i STATA (College Station, TX). Procedury te jednak zakładają, że obserwacje są niezależne i mogą nie być odpowiednie dla CRT, ponieważ nie uwzględniają korelacji wewnątrz klastra. Zgodnie z naszą najlepszą wiedzą, przeprowadzono ograniczone badania dotyczące strategii imputacji dla brakujących wyników binarnych lub kategorycznych wyników w CRT. Yi i Cook zgłosili marginalne metody dla brakujących danych podłużnych z projektów klastrowych 12. Hunsberger i in. 13 opisano trzy strategie dotyczące ciągłych brakujących danych w CRT: 1) procedura wielokrotnego przypisywania, w której brakujące wartości są zastępowane wartościami ponownego pobierania próbek z obserwowanych danych 2) procedura mediana na podstawie testu sumy Wilcoxona, przypisująca brakujące dane w grupa interwencyjna o najgorszych szeregach 3) procedura wielokrotnego imputowania, w której brakujące wartości są zastępowane przez przewidywane wartości z równania regresji. Nixon i wsp. 14 przedstawiło strategie przypisywania brakujących punktów końcowych od zastępcy. W analizie ciągłego wyniku testu interwencyjnego na interwencje w celu zaprzestania palenia (COMMIT), Green i inni podzielili indywidualnych uczestników na grupy, które były bardziej jednorodne w odniesieniu do przewidywanego wyniku. W obrębie każdej warstwy stwierdzono brak wyników przy użyciu zaobserwowanych danych 15. 16. Taljaard i wsp. 17 porównali kilka różnych strategii imputacji dla brakujących ciągłych wyników w CRT przy założeniu całkowitego braku losowości. Strategie te obejmują włączenie klatek średnich, MI wewnątrz klastra przy użyciu przybliżonej metody załadowania Bayesa (ABB), łączenie MI przy użyciu metody ABB, standardowej regresji MI i regresji MI mieszanej MI. Jak zauważył Kenward i inni, jeśli ma być stosowany model merytoryczny, taki jak uogólniony liniowy model mieszany, który odzwierciedla strukturę danych, ważne jest, aby model imputacji również odzwierciedlał tę strukturę 18. Celem tego artykułu jest: i) zbadanie wydajności różnych strategii imputacji dla brakujących wyników binarnych w CRT w różnych procentach braków, przy założeniu, że mechanizm brakuje całkowicie w losowym lub zależnym od współzmależnych brakującym ii) porównanie porozumienia pomiędzy pełnym zestawem danych i implikowane zestawy danych uzyskane z różnych strategii imputowania iii) porównanie solidności wyników w ramach dwóch powszechnie używanych metod analizy statystycznej: ogólnych równań szacunkowych (GEE) i regresji logistycznej (RE) w różnych strategiach przypisywania. 2. Metody W tym artykule rozważamy trzy strategie MI wewnątrz klastra i trzy między klastrami, w których brakuje wyników binarnych w CRT. Trzy strategie MI w ramach klastra to metoda regresji logistycznej, metoda oceny skłonności i metoda MCMC, które są standardowymi strategiami MI przeprowadzonymi w ramach każdego klastra. Trzy strategie MI dotyczące klastra obejmują ocenę skłonności, metodę regresji logistycznej skutków losowych oraz regresję logistyczną z klastrem jako efektem stałym. W oparciu o kompletny zestaw danych pochodzących z badania nad nadciśnieniem tętniczym (CHAT), przeprowadziliśmy badanie symulacyjne w celu zbadania skuteczności powyższych strategii dotyczących MI. Użyliśmy statystyk Kappa w celu porównania umowy między implikowanymi zbiorami danych a kompletnym zbiorem danych. Wykorzystaliśmy również oszacowane efekty leczenia uzyskane z modelu regresji logistycznej GEE i RE 19 w celu oceny solidności wyników w różnych procentach brakujących wyników binarnych przy założeniu braku MCAR i CD. 2.1. Kompletna analiza przypadku Wykorzystując to podejście, tylko pacjenci z ukończonymi danymi są włączeni do analizy, podczas gdy pacjenci z brakującymi danymi są wykluczani. Gdy dane są MCAR, pełne podejście do analizy przypadku, przy użyciu analizy opartej na prawdopodobieństwie, takiej jak regresja logistyczna RE lub model krańcowy, na przykład podejście GEE, jest ważne przy analizowaniu wyników binarnych z CRT, ponieważ brak mechanizmu danych jest niezależny od wynik. Jeśli brakuje danych na dysku CD, zarówno regresja logistyczna RE jak i podejście GEE są ważne, jeśli dostosowane są znane współzmienne związane z brakiem danych. Może być realizowany przy użyciu procedur GENMOD i NLMIXED w SAS. 2.2. Standardowa wielokrotność imputacji Zakładając, że obserwacje są niezależne, możemy zastosować standardowe procedury MI dostarczone przez standardowe oprogramowanie statystyczne, takie jak SAS. Trzy powszechnie stosowane metody MI to metoda modelu predykcyjnego (metoda regresji logistycznej dla danych binarnych), metoda oceny skłonności i metoda MCMC 20. Ogólnie rzecz biorąc, zarówno metoda oceny skłonności, jak i metoda MCMC są zalecane do imputacji zmiennej ciągłej 21. Mówi się, że zestaw danych ma wzór brakującego monotonu, gdy dla każdego osoba brakuje pomiaru Yj, co oznacza, że wszystkie kolejne pomiary Y k. k gt. wszystkie brakuje osobie. Jeśli brakuje danych w schemacie brakującego monotonu, należy zastosować dowolny z parametrów parametrycznych modelu predykcyjnego i metoda nonparametryczna, w której zastosowano punkty skłonności lub metodę MCMC 21. W przypadku dowolnych brakujących wzorców danych można zastosować metodę MCMC, która przyjmuje wielostronną normalność. Te strategie MI są realizowane w procedurach MI, MIANALYZE, GENMOD i NLMIXED w SAS oddzielnie dla każdej grupy interwencyjnej. 2.2.1. Metoda regresji logistycznej W tym podejściu dopasowywany jest model regresji logistycznej z wykorzystaniem obserwowanego wyniku i współzmiennych 21. Opierając się na szacunkach parametrów i związanej z nimi matrycy kowariancji, można skonstruować dystans predykcyjny wstępny parametrów. Następnie nowy model regresji logistycznej jest następnie symulowany z tylnej predykcyjnej dystrybucji parametrów i służy do określania brakujących wartości. 2.2.2. Metoda punktacji skłonności Wynik skłonności jest warunkowym prawdopodobieństwem braku, biorąc pod uwagę dane obserwowane. Można ją oszacować za pomocą modelu regresji logistycznej z binarnym wskazaniem, czy brakuje danych, czy nie. Obserwacje są następnie podzielone na wiele warstw w oparciu o te wyniki skłonności. Procedura ABB 22 jest następnie nakładana na każdą warstwę. Implat ABB najpierw rysuje z zastąpieniem obserwowanych danych, aby utworzyć nowy zestaw danych, który jest nieparametrycznym analogiem do rysowania parametrów z późniejszego predykcyjnego rozkładu parametrów, a następnie losowo narysuje wartości imputowane z zamiennikiem z nowego zbioru danych. 2.2.3. Metoda Monte Carlo w łańcuchu Markowa Metoda MCMC polega na losowaniu pseudolosowych próbek z docelowego rozkładu prawdopodobieństwa 21. Rozkład docelowy jest wspólną dystrybucją warunkową Y mis i biorąc pod uwagę Y obs, gdy brakuje danych ma wzór nie monotonny, gdzie Y mis i Y obs odpowiadają za brakujące dane i zaobserwowane dane, i reprezentują nieznane parametry. Metodę MCMC przeprowadza się w następujący sposób: zamień Y mis o pewne założone wartości, następnie wykonaj symulację z uzyskanego kompletnego rozkładu danych P (Y obs, Y mis). Niech (t) będzie aktualną symulowaną wartością. następnie Y mis (t 1) można wyciągnąć z warunkowego rozkładu predykcyjnego Y m s (t 1) P (Y m y s Y o b s. (t)). Ustawienie na Y mis (t 1). następną symulowaną wartość można wyciągnąć z pełnej dystrybucji tylnej części danych (t 1) P (Y o b s y m i s (t 1)). Powtarzając powyższą procedurę, możemy wygenerować łańcuch Markowa, który zbiega się w dystrybucji do P (Y mis, Y obs). Ta metoda jest atrakcyjna, ponieważ pozwala uniknąć skomplikowanych analitycznych obliczeń rozkładu tylnego i Y mis. Jednakże konwergencja dystrybucji jest kwestią wymaganą przez naukowców. Ponadto ta metoda opiera się na założeniu normatywności na wielu odmianach. Używając go do imputowania zmiennych binarnych, wartości imputowane mogą być dowolnymi rzeczywistymi wartościami. Większość przypisanych wartości mieści się w zakresie od 0 do 1, niektóre z nich są poza tym zakresem. Zaokrąglamy wartości imputowane do 0, jeśli jest mniej niż 0,5 i 1 w przeciwnym razie. Ta metoda wielu imputacji jest implementowana przy użyciu procedury MI w SAS. Korzystamy z pojedynczego łańcucha i nieinformatywnego wcześniej dla wszystkich imputacji i algorytmu przewidywania maksymalizacji (EM), aby znaleźć oszacowania największej wiarygodności w modelach parametrycznych dla niekompletnych danych i wyprowadzić oszacowania parametrów z trybu tylnego. Powtórzenia uważa się za zsynchronizowane, gdy zmiana wartości parametrów pomiędzy etapami iteracji jest mniejsza niż 0.0001 dla każdego parametru. 2.3. W obrębie klastra wiele imputacji Standardowe strategie MI są niewłaściwe do obsługi brakujących danych z CRT ze względu na założenie niezależnych obserwacji. W celu przypisania klastra wewnątrz klastra wykonujemy standardowy MI opisany powyżej, stosując metodę regresji logistycznej, metodę oceny skłonności i metodę MCMC oddzielnie dla każdego klastra. Dlatego brakujące wartości są przypisywane na podstawie obserwowanych danych w tym samym klastrze, co brakujące wartości. Biorąc pod uwagę, że osoby z tego samego klastra są bardziej podobne do siebie niż grupy z różnych klastrów, to impedancja klastra wewnątrz klastra może być postrzegana jako strategia ograniczania brakujących wartości w celu uwzględnienia korelacji wewnątrz klastra. Te strategie MI są realizowane za pomocą procedur MI, MIANALYZE, GENMOD i NLMIXED w SAS. 2.4. Wielokrotne imputowanie wielu kluczy 2.4.1. Metoda oceny skłonności W porównaniu ze standardową metodą wielokrotnego imputacji z wykorzystaniem metody oceny skłonności, dodaliśmy klaster jako jedną z zmiennych towarzyszących w celu uzyskania oceny skłonności dla każdej obserwacji. W konsekwencji, pacjenci z tego samego klastra są częściej zakwalifikowani do tej samej skali oceny skłonności. Dlatego korelacja wewnątrz klastra jest brana pod uwagę, gdy procedura ABB jest stosowana w każdej z warstw, aby wygenerować wartości przypisane dla brakujących danych. Ta wielokrotna strategia imputacji jest realizowana za pomocą procedur MI, MIANALYZE, GENMOD i NLMIXED w SAS. 2.4.2. Regresja logistyczna efektów losowych W porównaniu do modelu predykcyjnego wykorzystującego standardową metodę regresji logistycznej zakładamy, że wynik binarny jest modelowany przez logistyczny model efektów losowych: log it (Pr (Y ijl 1)) X ijl U ij gdzie Y ijl jest wynik binarny pacjenta l w klastrze j w grupie interwencyjnej i X ijl jest macierzą całkowicie obserwowanych współzmiennych poziomu na poziomie indywidualnym lub na poziomie klastrów, U ij N (0. B 2) reprezentuje efekt losowy na poziomie klastra, a B 2 reprezentuje wariancja między klastrem. B 2 można oszacować przy dopasowywaniu modelu regresji logistycznej efektu losowego przy użyciu obserwowanego wyniku i współzmiennych. Strategia MI z zastosowaniem metody regresji logistycznej uzyskanej w efekcie losowym uzyskiwana jest w trzech etapach: (1) Dopasuj model regresji logistycznej z losową oceną, jak opisano powyżej, przy użyciu obserwowanego wyniku i współzmiennych. Na podstawie szacunków dla B i uzyskanych z etapu (1) i związanej z nią matrycy kowariancji, skonstruuj tylną predyktywną dystrybucję tych parametrów. Dopasuj nową logistyczną regresję efektów losowych za pomocą symulowanych parametrów z rozkładu predykcyjnego w kierunku tylnym i obserwowanych zmiennych towarzyszących, aby uzyskać przypisany wynik brakujący. Strategia MI wykorzystująca regresję logistyczną skutków losowych uwzględnia wariancję klastra, która jest ignorowana w strategii MI z użyciem standardowej regresji logistycznej, a zatem może być ważna przy zapisywaniu brakujących danych binarnych w plikach CRT. Dostarczamy kod SAS dla tej metody w dodatku A. 2.4.3. Regresja logistyczna z klastrem jako efektem stałym W porównaniu z modelem predykcyjnym przy użyciu standardowej metody regresji logistycznej dodamy klaster jako efekt stały, aby uwzględnić efekt klastrowania. Ta wielokrotna strategia imputacji jest realizowana za pomocą procedur MI, MIANALYZE, GENMOD i NLMIXED w SAS. 3. Studium symulacji 3.1. Badanie oceniające nadciśnienie we wspólnocie Badanie CHAT zostało szczegółowo opisane w innym miejscu 23. Krótko mówiąc, była to kontrolowana próba kliniczna z randomizacją, której celem była ocena skuteczności klinicznych poradni krwiopochodnych (BP) prowadzonych przez pedagogów zajmujących się zdrowiem rówieśniczym, z informacjami zwrotnymi dla lekarzy rodzinnych (FP) w zakresie zarządzania i monitorowania BP wśród pacjentów w wieku 65 lat lub starsze. FP był jednostką randomizacji. Pacjenci z tej samej FP otrzymali taką samą interwencję. Ogółem uczestniczyło w nim 28 PR. Czternaście losowo przydzielono do interwencji (kliniki BP w aptece) i 14 do grupy kontrolnej (nie oferowano klinik BP). Pięćdziesięciu pięciu pacjentów zostało losowo wybranych z każdego profilu. W badaniu uczestniczyło 1540 pacjentów. Wszyscy kwalifikujący się pacjenci zarówno w grupie interwencyjnej jak i kontrolnej otrzymywali zwykłą służbę zdrowia w biurze FP. Pacjenci w praktykach przydzielonych do grupy interwencyjnej zostali zaproszeni do odwiedzenia klinik BP. Pedagodzy zajmujący się edukacją zdrowotną pomagali pacjentom mierzyć ich BP i przeanalizować czynniki ryzyka sercowo-naczyniowego. Badania pielęgniarek przeprowadziły badania podstawowe i końcowe (12 miesięcy po przeprowadzeniu randomizacji) w dokumentacji zdrowotnej 1540 pacjentów biorących udział w badaniu. Głównym wynikiem badania CHAT był wynik binarny wskazujący, czy pacjenci BP byli kontrolowani czy nie pod koniec badania. Pacjenci BP był kontrolowany pod koniec badania, ciśnienie skurczowe 140 mm Hg i ciśnienie rozkurczowe 90 mm Hg u pacjenta bez cukrzycy lub uszkodzenie narządu docelowego, lub ciśnienie skurczowe 130 mm Hg i rozkurczowe ciśnienie tętnicze 80 mmHg u pacjenta z cukrzycą lub uszkodzeniem narządu docelowego . Oprócz grupy interwencyjnej, inne czynniki prognostyczne uwzględnione w tym artykule obejmowały wiek (zmienną ciągłą), płeć (zmienną binarną), cukrzycę na początku badania (zmienną binarną), chorobę serca na początku badania (zmienną binarną) oraz to, czy pacjent BP był kontrolowany na początku badania ( zmienna binarna). Po zakończeniu badania kontrolowano 55 chorych na BP. Bez uwzględnienia jakichkolwiek innych czynników predykcyjnych w modelu, efekty leczenia i ich 95 przedziałów ufności (CI) oszacowane na podstawie modelu GEE i RE wyniosły odpowiednio 1,14 (0,72, 1,80) i 1,10 (0,65, 1,86). Oszacowane ICC wyniosło 0,077. Po korekcie dla powyższych zmiennych, efekty leczenia i ich CI oszacowane na podstawie modelu GEE i RE wynosiły odpowiednio 1,14 (0,76, 1,70) i 1,12 (0,72, 1,76). Oszacowane ICC wyniosło 0,055. Ponieważ nie ma brakujących danych w zbiorze danych CHAT, zapewnia nam to dogodną platformę do zaprojektowania badania symulacyjnego w celu porównania wartości przypisanych i obserwowanych oraz dalszego zbadania wydajności różnych strategii wielokrotnego imputowania przy różnych brakujących mechanizmach danych i odsetkach braków. . 3.2. Generowanie zestawu danych z brakującym wynikiem binarnym Korzystając z zestawu danych badania CHAT, badaliśmy skuteczność różnych strategii MI dla brakujących wyników binarnych w oparciu o mechanizmy MCAR i CD. Przy założeniu MCAR wygenerowaliśmy zbiór danych z pewnym procentem brakujących wyników dwójkowych, który wskazuje, czy BP było kontrolowane, czy nie, pod koniec badania dla każdego pacjenta. Prawdopodobieństwo zaginięcia każdego pacjenta było całkowicie losowe, tzn. Prawdopodobieństwo zaginięcia nie zależało od zaobserwowanych lub niezauważonych danych CHAT. Przy założeniu braku CD stwierdziliśmy, że grupa chorych na płeć, grupa terapeutyczna, czy pacjenci poddawani kontroli BP, czy nie na początku badania, które były zwykle związane z przerwą w badaniach klinicznych i badaniach obserwacyjnych 24 26, były związane z prawdopodobieństwem braku. Ponadto założyliśmy, że pacjenci płci męskiej są 1,2 razy bardziej narażeni na brak wyników u pacjentów, którzy otrzymali grupę kontrolną 1,3 razy częściej mieli brakujący pacjenci, u których nie kontrolowano BP w momencie rozpoczęcia leczenia były 1,4 razy częściej niż u pacjentów, u których Kontrolowano BP na początku badania. 3.3. Projekt badania symulacyjnego Porównaliśmy najpierw umowę między wartościami zmiennej wynikowej przypisanej a rzeczywistymi wartościami zmiennej wyniku przy użyciu statystyk Kappa. Statystyka Kappa jest najczęściej stosowaną statystyką do oceny porozumienia pomiędzy dwoma obserwatorami lub metodami, które uwzględniają fakt, że czasami zgadzają się lub nie zgadzają się przypadkowo 27. Oblicza się ją na podstawie różnicy między rzeczywistą zgodnością w porównaniu do tego, jak wiele porozumienia można byłoby oczekiwać tylko przez przypadek. Kappa 1 oznacza idealną zgodę, a 0 oznacza zgodność równoważną z szansą. Statystyka Kappa była szeroko stosowana przez naukowców do oceny skuteczności różnych technik imputacji przy wprowadzaniu brakujących danych kategorycznych 28. 29. Po drugie, w przypadku braku MCAR i CD porównaliśmy estymacje efektu leczenia z metodami RE i GEE w następujących scenariuszach: 1) wykluczyć brakujące wartości z analizy, tj. Pełną analizę przypadku 2) zastosować standardowe wielokrotne strategie imputacji, które nie uwzględniają korelacja wewnątrzklastrowa na konto 3) stosuje strategie imputacji wewnątrz klastra i 4) stosuje strategie imputacji między klastrami. Zaprojektowaliśmy badania symulacyjne zgodnie z następującymi krokami. 1) Wygenerowano 5, 10, 15, 20, 30 i 50 brakujących wyników w obrębie założenia braku MCAR i CD. Te kwoty braków zostały wybrane, aby objąć zakres możliwych braków w praktyce 30. Zastosowano wiele powyższych strategii imputacji do generowania zbiorów danych m 5. Według Rubina względna wydajność MI nie wzrasta znacznie przy generowaniu więcej niż 5 imputowanych zestawów danych 11. Obliczona statystyka Kappa do oceny zgodności wartości imputowanej zmiennej wyniku z wartościami rzeczywistymi zmiennej wynikowej. Uzyskano oszacowanie pojedynczego efektu leczenia, łącząc estymatory efektów z 5 imputowanych zestawów danych przy użyciu GEE i modelu RE. Powtórz powyższe cztery kroki 1000 razy, tj. Wykonaj 1000 cykli symulacji. Obliczono całkowitą statystykę Kappa, stosując średnią statystykę Kappa z 1000 cykli symulacji. Obliczono całkowity efekt leczenia i jego błąd standardowy przez uśrednienie efektów leczenia i ich błędów standardowych z 1000 cykli symulacyjnych. 4. Wyniki 4.1. Wyniki w przypadku braku danych losowo z 5, 10, 15, 20, 30 lub 50 procentami braków zgodnie z założeniem MCAR, szacowany Kappa dla wszystkich różnych strategii imputacji wynosi nieco ponad 0,95, 0,90, 0,85, 0,80, 0,70 i 0,50 odpowiednio. Szacowana wartość Kappa dla różnych strategii imputowania przy różnym odsetku brakujących wyników przy założeniu MCAR została szczegółowo przedstawiona w Tabeli 1. Dane statystyczne Kappa dotyczące różnych strategii imputowania w przypadku braku zgody są całkowicie losowe Wyniki leczenia szacowane na podstawie regresji logistycznej efektu losowego, gdy 30 danych jest zależna od współzmiennej. 5. Dyskusja W niniejszym opracowaniu, przy założeniu braku MCAR i CD, porównaliśmy sześć strategii MI, które uwzględniają korelację wewnątrz klastra dla brakujących wyników binarnych w CRT przy użyciu standardowych strategii imputacji i kompletnego podejścia do analizy przypadku za pomocą badania symulacyjnego. Nasze wyniki pokazują, że po pierwsze, gdy odsetek brakujących danych jest niewielki lub współczynnik korelacji wewnątrz klastra jest mała, różne strategie imputowania lub pełne podejście do analizy przypadków generują podobne wyniki. Po drugie, standardowe strategie MI, które nie uwzględniają korelacji wewnątrz klastra, nie doceniają wariancji efektów leczenia. W związku z tym mogą one prowadzić do istotnych statystycznie, ale błędnych wniosków, jeśli zostaną użyte w celu uzupełnienia brakujących danych z CRT. Po trzecie, przy założeniu, że MCAR i CD brakuje, szacunki punktowe (OR) są dość podobne w różnych podejściach do obsługi brakujących danych, z wyjątkiem strategii MI w regresji regresji skutków losowych. Po czwarte zarówno strategie MI w obrębie klastra, jak i między klastrami uwzględniają korelację wewnątrzklastrową i zapewniają wiele konserwatywnych szacunków efektu leczenia w porównaniu ze strategiami MI, które ignorują efekt grupowania. Po piąte strategie przypisywania klastrów wewnątrz klastrów prowadzą do szerszego CI niż w przypadku strategii przypisywania klastrów, zwłaszcza gdy procent niedoboru jest wysoki. Może to wynikać z faktu, że strategie imputacji wewnątrz klastrów wykorzystują tylko ułamek danych, co prowadzi do dużej zmienności szacowanego efektu leczenia. Szósty, większy szacowany kappa, który wskazuje na wyższą zgodność między wartościami imputowanymi a obserwowanymi wartościami, wiąże się z lepszą realizacją strategii MI w kategoriach generowania szacunkowego efektu leczenia i 95 CI bliżej wyników uzyskanych z kompletnego zestawu danych CHAT. Po siódme, zgodnie z tą samą strategią imputacji i procentem braków, oszacowania efektu leczenia z modeli regresji logistycznej GEE i RE są podobne. Zgodnie z naszą najlepszą wiedzą, dokonano niewielkich prac nad porównywaniem różnych strategii imputowania wielokrotnego w przypadku brakujących wyników binarnych w CRT. Taljaard i wsp. 17 porównali cztery strategie MI (połączony ABB, wewnątrzklubowy ABB, regresja standardowa, regresja mieszanych efektów) dla braku ciągłego wyniku w CRT, gdy brak jest całkowicie przypadkowy. Ich odkrycia są podobne do naszych. Należy zauważyć, że strategie MI w klastrze mogą mieć zastosowanie tylko wtedy, gdy rozmiar klastra jest dostatecznie duży, a procent niedoboru jest względnie mały. W badaniu CHAT w każdym klastrze było 55 pacjentów, które dostarczyły wystarczających danych do przeprowadzenia strategii przypisywania klastrów wewnątrz klastrów przy użyciu wskaźnika skłonności i metody MCMC. Jednakże metoda regresji logistycznej nie powiodła się, gdy odsetek brakujący był wysoki. Wynikało to z faktu, że przy generowaniu dużego odsetka (20) brakującego wyniku wszyscy pacjenci z wynikiem binarnym równym 0 byli symulowani jako brakujący w niektórych klastrach. W związku z tym model regresji logistycznej nie powiodła się dla tych konkretnych klastrów. Ponadto nasze wyniki wskazują, że pełne podejście do analizy przypadku sprawuje względnie dobrze, nawet przy braku 50. Uważamy, że ze względu na korelację między klastrami, nie można oczekiwać, że brakujące wartości mają duży wpływ, jeśli nadal występuje duża część klastra. Jednak dalsze badanie tego problemu za pomocą badania symulacyjnego będzie pomocne w odpowiedzi na to pytanie. Nasze wyniki pokazują, że strategia regresji logistycznej z wykorzystaniem różnych klastrów pozwala uzyskać potencjalnie tendencyjną ocenę, szczególnie gdy odsetek braków jest wysoki. Jak opisano w sekcji 2.4.2, zakładamy, że efekty losowe na poziomie klastra są zgodne z rozkładem normalnym, tzn. U i j N (0. B 2). Naukowcy wykazali, że błędne określenie kształtu dystrybucyjnego ma niewielki wpływ na wnioski dotyczące ustalonych efektów 31. Nieprawidłowe założenie, że rozkład efektów losowych jest niezależny od rozmiaru klastra, może wpływać na wnioskowanie o przechwyceniu, ale nie ma poważnego wpływu na wnioskowanie o parametrach regresji. Jednak błędne założenie, że rozkład efektów losowych jest niezależny od współzmiennych, może poważnie wpłynąć na wnioskowanie o parametrach regresji 32. 33. Średnia dystrybucja przypadkowych efektów mogłaby wiązać się z wariancją współzmienną, lub odchylenie rozkładu efektów losowych mogłoby wiązać się z kowariancją dla naszego zbioru danych, co mogłoby wyjaśnić potencjalne uprzedzenia z regresji regresji logistycznej opartej na regułach losowych. Natomiast strategia imputowania regresji logistycznej z klastrem jako efektem stałym ma lepsze wyniki. Jednak można go zastosować tylko wtedy, gdy rozmiar klastra jest wystarczająco duży, aby zapewnić stabilne oszacowanie efektu klastra. For multiple imputation, the overall variance of the estimated treatment effect consists of two parts: within imputation variance U . and between imputation variance B . The total variance T is calculated as T U (1 1 m ) B . where m is the number of imputed datasets 10 . Since standard MI strategies ignore the between cluster variance and fail to account for the intra-cluster correlation, the within imputation variance may be underestimated, which could lead to underestimation of the total variance and consequently the narrower confidence interval. In addition, the adequacy of standard MI strategies depends on the ICC. In our study, the ICC of the CHAT dataset is 0.055 and the cluster effect in the random-effects model is statistically significant. Among the three imputation methods: predictive model (logistic regression method), propensity score method, and MCMC method, the latter is most popular method for multiple imputation of missing data and is the default method implemented in SAS. Although this method is widely used to impute binary and polytomous data, there are concerns about the consequences of violating the normality assumption. Experience has repeatedly shown that multiple imputation using MCMC method tends to be quite robust even when the real data depart from the multivariate normal distribution 20 . Therefore, when handling the missing binary or ordered categorical variables, it is acceptable to impute under a normality assumption and then round off the continuous imputed values to the nearest category. For example, the imputed values for the missing binary variable can be any real value rather than being restricted to 0 and 1. We rounded the imputed values so that values greater than or equal to 0.5 were set to 1, and values less than 0.5 were set to 0 34 . Horton et al 35 showed that such rounding may produce biased estimates of proportions when the true proportion is near 0 or 1, but does well under most other conditions. The propensity score method is originally designed to impute the missing values on the response variables from the randomized experiment with repeated measures 21 . Since it uses only the covariate information associated with the missingness but ignores the correlation among variables, it may produce badly biased estimates of regression coefficients when data on predictor variables are missing. In addition, with small sample sizes and a relatively large number of propensity score groups, application of the ABB method is problematic, especially for binary variables. In this case, a modified version of ABB should be conducted 36 . There are some limitations that need to be acknowledged and addressed regarding the present study. First, the simulation study is based on a real dataset, which has a relatively large cluster size and small ICC. Further research should investigate the performance of different imputation strategies at different design settings. Second, the scenario of missing an entire cluster is not investigated in this paper. The proposed within-cluster and across-cluster MI strategies may not apply to this scenario. Third, we investigate the performance of different MI strategies assuming missing data mechanism of MCAR and CD missing. Therefore, results cannot be generalized to MAR or MNAR scenarios. Fourth, since the estimated treatment effects are similar under different imputation strategies, we only presented the OR and 95 CI for each simulation scenario. However, estimates of standardized bias and coverage would be more informative and would also provide a quantitative guideline to assess the adequacy of imputes 37 . 6. Conclusions When the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. When the percentage of missing data is high, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for the random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. Appendix A: SAS code for across-cluster random-effects logistic regression method let maximum 1000 ods listing close proc nlmixed data mcaramppercentampindex cov parms b0 -0.0645 bgroup -0.1433 bdiabbase -0.04 bhdbase 0.1224 bage -0.0066 bbasebpcontrolled 1.1487 bsex 0.0873 s2u 0.5 Population Health Research Institute, Hamilton Health Sciences References Campbell MK, Grimshaw JM: Cluster randomised trials: time for improvement. The implications of adopting a cluster design are still largely being ignored. BMJ. 1998, 317 (7167): 1171-1172. View Article PubMed PubMed Central Google Scholar COMMIT Research Group: Community Intervention trial for Smoking Cessation (COMMIT): 1. Cohort results from a four-year community intervention. Am J Public Health. 1995, 85: 183-192. 10.2105AJPH.85.2.183. View Article Google Scholar Donner A, Klar N: Design and Analysis of Cluster Randomisation Trials in Health Research. 2000, London: Arnold Google Scholar Cornfield J: Randomization by group: a formal analysis. Am J Epidemiol. 1978, 108 (2): 100-102. PubMed Google Scholar Donner A, Brown KS, Brasher P: A methodological review of non-therapeutic intervention trials employing cluster randomization, 1979-1989. Int J Epidemiol. 1990, 19 (4): 795-800. 10.1093ije19.4.795. View Article PubMed Google Scholar Rubin DB: Inference and missing data. Biometrika. 1976, 63: 581-592. 10.1093biomet63.3.581. View Article Google Scholar Allison PD: Missing Data. 2001, SAGE Publications Inc Google Scholar Schafer JL, Olsen MK: Multiple imputation for multivariate missing-data problems: a data analysts perspective. Multivariate Behavioral Research. 1998, 33: 545-571. 10.1207s15327906mbr33045. View Article PubMed Google Scholar McArdle JJ: Structural factor analysis experiments with incomplete data. Multivariate Behavioral Research. 1994, 29: 409-454. 10.1207s15327906mbr29045. View Article PubMed Google Scholar Little RJA, Rubin DB: Statistical Analysis with missing data. 2002, New York: John Wiley, Second Google Scholar Rubin DB: Multiple Imputation for Nonresponse in Surveys. 1987, New York, NY. John Wiley amp Sons, Inc View Article Google Scholar Yi GYY, Cook RJ: Marginal Methods for Incomplete Longitudinal Data Arising in Clusters. Journal of the American Statistical Association. 2002, 97 (460): 1071-1080. 10.1198016214502388618889. View Article Google Scholar Hunsberger S, Murray D, Davis CE, Fabsitz RR: Imputation strategies for missing data in a school-based multi-centre study: the Pathways study. Stat Med. 2001, 20 (2): 305-316. 10.10021097-0258(20010130)20:2lt305::AID-SIM645gt3.0.CO2-M. View Article PubMed Google Scholar Nixon RM, Duffy SW, Fender GR: Imputation of a true endpoint from a surrogate: application to a cluster randomized controlled trial with partial information on the true endpoint. BMC Med Res Methodol. 2003, 3: 17-10.11861471-2288-3-17. View Article PubMed PubMed Central Google Scholar Green SB, Corle DK, Gail MH, Mark SD, Pee D, Freedman LS, Graubard BI, Lynn WR: Interplay between design and analysis for behavioral intervention trials with community as the unit of randomization. Am J Epidemiol. 1995, 142 (6): 587-593. PubMed Google Scholar Green SB: The advantages of community-randomized trials for evaluating lifestyle modification. Control Clin Trials. 1997, 18 (6): 506-13. 10.1016S0197-2456(97)00013-5. discussion 514-6 View Article PubMed Google Scholar Taljaard M, Donner A, Klar N: Imputation strategies for missing continuous outcomes in cluster randomized trials. Biom J. 2008, 50 (3): 329-345. 10.1002bimj.200710423. View Article PubMed Google Scholar Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res. 2007, 16 (3): 199-218. 10.11770962280206075304. View Article PubMed Google Scholar Dobson AJ: An introduction to generalized linear models. 2002, Boca Raton: Chapman amp HallCRC, 2 Google Scholar Schafer JL: Analysis of Incomplete Multivariate Data. 1997, London: Chapman and Hall View Article Google Scholar SAS Publishing: SASSTAT 9.1 Users Guide: support. sasdocumentationonlinedoc91pdfsasdoc91statug7313.pdf Rubin DB, Schenker N: Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American Statistical Association. 1986, 81 (394): 366-374. 10.23072289225. View Article Google Scholar Ma J, Thabane L, Kaczorowski J, Chambers L, Dolovich L, Karwalajtys T, Levitt C: Comparison of Bayesian and classical methods in the analysis of cluster randomized controlled trials with a binary outcome: the Community Hypertension Assessment Trial (CHAT). BMC Med Res Methodol. 2009, 9: 37-10.11861471-2288-9-37. View Article PubMed PubMed Central Google Scholar Levin KA: Study design VII. Randomised controlled trials. Evid Based Dent. 2007, 8 (1): 22-23. 10.1038sj. ebd.6400473. View Article PubMed Google Scholar Matthews FE, Chatfield M, Freeman C, McCracken C, Brayne C, MRC CFAS: Attrition and bias in the MRC cognitive function and ageing study: an epidemiological investigation. BMC Public Health. 2004, 4: 12-10.11861471-2458-4-12. View Article PubMed PubMed Central Google Scholar Ostbye T, Steenhuis R, Wolfson C, Walton R, Hill G: Predictors of five-year mortality in older Canadians: the Canadian Study of Health and Aging. J Am Geriatr Soc. 1999, 47 (10): 1249-1254. View Article PubMed Google Scholar Viera AJ, Garrett JM: Understanding interobserver agreement: the kappa statistic. Fam Med. 2005, 37 (5): 360-363. PubMed Google Scholar Laurenceau JP, Stanley SM, Olmos-Gallo A, Baucom B, Markman HJ: Community-based prevention of marital dysfunction: multilevel modeling of a randomized effectiveness study. J Consult Clin Psychol. 2004, 72 (6): 933-943. 10.10370022-006X.72.6.933. View Article PubMed Google Scholar Shrive FM, Stuart H, Quan H, Ghali WA: Dealing with missing data in a multi-question depression scale: a comparison of imputation methods. BMC Med Res Methodol. 2006, 6: 57-10.11861471-2288-6-57. View Article PubMed PubMed Central Google Scholar Elobeid MA, Padilla MA, McVie T, Thomas O, Brock DW, Musser B, Lu K, Coffey CS, Desmond RA, St-Onge MP, Gadde KM, Heymsfield SB, Allison DB: Missing data in randomized clinical trials for weight loss: scope of the problem, state of the field, and performance of statistical methods. PLoS One. 2009, 4 (8): e6624-10.1371journal. pone.0006624. View Article PubMed PubMed Central Google Scholar McCulloch CE, Neuhaus JM: Prediction of Random Effects in Linear and Generalized Linear Models under Model Misspecification. Biometrics. Neuhaus JM, McCulloch CE: Separating between - and within-cluster covariate effects using conditional and partitioning methods. Journal of the Royal Statistical Society. 2006, 859-872. Series B, 68 Heagerty PJ, Kurland BF: Misspecified maximum likelihood estimates and generalised linear mixed models. Biometrika. 2001, 88 (4): 973-985. 10.1093biomet88.4.973. View Article Google Scholar Christopher FA: Rounding after multiple imputation with Non-binary categorical covariates. SAS Focus Session SUGI. 2004, 30: Google Scholar Horton NJ, Lipsitz SR, Parzen M: A potential for bias when rounding in multiple imputation. American Statistician. 2003, 229-232. 10.11980003130032314. 57 Li X, Mehrotra DV, Barnard J: Analysis of incomplete longitudinal binary data using multiple imputation. Stat Med. 2006, 25 (12): 2107-2124. 10.1002sim.2343. View Article PubMed Google Scholar Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychol Methods. 2001, 6 (4): 330-351. 10.10371082-989X.6.4.330. View Article PubMed Google Scholar Pre-publication history Ma et al licensee BioMed Central Ltd. 2017 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. orglicensesby2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited. Multiple Imputation LIMDEPrsquos new implementation of multiple imputation is woven into the entire program, not just a few specific models. Any estimator, even your own created with MAXIMIZE, or any other computation involving data that produces a coefficient vector and a sampling covariance matrix, can be based on multiple imputed data sets. And, we have built this technique to bypass the need to create multiple data sets 8211 traditionally, the need to replicate the full data set has hobbled this method. LIMDEPrsquos implementation of multiple imputation uses only the existing data set. The results are fully replicable as well. (You can create and save the imputed data sets if you wish.) Multiple Imputation Features Including Continuous Data, Binary Variables, Ordered Outcomes and More Imputation equations for filling missing values Up to 30 variables imputed simultaneously Six types of imputation procedures for Continuous variables using multiple regression Binary variables using logistic regression Count variables using Poisson regression Likert scale (ordered outcomes) using ordered probit Fractional (proportional outcome) using logistic regression Unordered multinomial choice using multinomial logit No duplication of the base data set Estimation step for any model in LIMDEP or NLOGIT All models supported by built in procedures Any model written by the user with GMME, MAXIMIZE, NLSQ, etc. Estimate any number of models using each imputed data set Here is a constructed example based on a data set that contains 27,326 observations and about 30 variables. The variable married is a marital status dummy variable. We have injected about 10 missing values into this binary variable. We create an imputation equation for married with the IMPUTE command. The procedure then fits a probit model that uses married and several other variables. The missing values are imputed using age, education and income in each of 25 iterations. The second set of results is the simple probit results using casewise deletion rather than imputation. Multiple Imputation in Stata: Imputing This is part four of the Multiple Imputation in Stata series. For a list of topics covered by this series, see the Introduction . This section will talk you through the details of the imputation process. Be sure youve read at least the previous section, Creating Imputation Models. so you have a sense of what issues can affect the validity of your results. Example Data To illustrate the process, well use a fabricated data set. Unlike those in the examples section, this data set is designed to have some resemblance to real world data. female (binary) race (categorical, three values) urban (binary) edu (ordered categorical, four values) exp (continuous) wage (continuous) Missingness . Each value of all the variables except female has a 10 chance of being missing completely at random, but of course in the real world we wont know that it is MCAR ahead of time. Thus we will check whether it is MCAR or MAR (MNAR cannot be checked by looking at the observed data) using the procedure outlined in Deciding to Impute : unab numvars: unab missvars: urban-wage misstable sum, gen(miss) foreach var of local missvars local covars: list numvars - var display newline(3) quotlogit missingness of var on covarsquot logit missvar covars foreach nvar of local covars display newline(3) quotttest of nvar by missingness of varquot ttest nvar, by(missvar) See the log file for results. Our goal is to regress wages on sex, race, education level, and experience. To see the quotrightquot answers, open the do file that creates the data set and examine the gen command that defines wage. Complete code for the imputation process can be found in the following do file: The imputation process creates a lot of output. Well put highlights in this page, however, a complete log file including the associated graphs can be found here: Each section of this article will have links to the relevant section of the log. Click quotbackquot in your browser to return to this page. Setting up The first step in using mi commands is to mi set your data. This is somewhat similar to svyset. tsset. or xtset. The mi set command tells Stata how it should store the additional imputations youll create. We suggest using the wide format, as it is slightly faster. On the other hand, mlong uses slightly less memory. To have Stata use the wide data structure, type: To have Stata use the mlong (marginal long) data structure, type: The wide vs. long terminology is borrowed from reshape and the structures are similar. However, they are not equivalent and you would never use reshape to change the data structure used by mi. Instead, type mi convert wide or mi convert mlong (add, clear if the data have not been saved since the last change). Most of the time you dont need to worry about how the imputations are stored: the mi commands figure out automatically how to apply whatever you do to each imputation. But if you need to manipulate the data in a way mi cant do for you, then youll need to learn about the details of the structure youre using. Youll also need to be very, very careful. If youre interested in such things (including the rarely used flong and flongsep formats) run this do file and read the comments it contains while examining the data browser to see what the data look like in each form. Registering Variables The mi commands recognize three kinds of variables: Imputed variables are variables that mi is to impute or has imputed. Regular variables are variables that mi is not to impute, either by choice or because they are not missing any values. Passive variables are variables that are completely determined by other variables. For example, log wage is determined by wage, or an indicator for obesity might be determined by a function of weight and height. Interaction terms are also passive variables, though if you use Statas interaction syntax you wont have to declare them as such. Passive variables are often problematic8212the examples on transformations. non-linearity. and interactions show how using them inappropriately can lead to biased estimates. If a passive variable is determined by regular variables, then it can be treated as a regular variable since no imputation is needed. Passive variables only have to be treated as such if they depend on imputed variables. Registering a variable tells Stata what kind of variable it is. Imputed variables must always be registered: mi register imputed varlist where varlist should be replaced by the actual list of variables to be imputed. Regular variables often dont have to be registered, but its a good idea: mi register regular varlist Passive variables must be registered: mi register passive varlist However, passive variables are more often created after imputing. Do so with mi passive and theyll be registered as passive automatically. In our example data, all the variables except female need to be imputed. The appropriate mi register command is: mi register imputed race-wage (Note that you cannot use as your varlist even if you have to impute all your variables, because that would include the system variables added by mi set to keep track of the imputation structure.) Registering female as regular is optional, but a good idea: mi register regular female Checking the Imputation Model Based on the types of the variables, the obvious imputation methods are: race (categorical, three values): mlogit urban (binary): logit edu (ordered categorical, four values): ologit exp (continuous): regress wage (continuous): regress female does not need to be imputed, but should be included in the imputation models both because it is in the analysis model and because its likely to be relevant. Before proceeding to impute we will check each of the imputation models. Always run each of your imputation models individually, outside the mi impute chained context, to see if they converge and (insofar as it is possible) verify that they are specified correctly. Code to run each of these models is: mlogit race i. urban exp wage i. edu i. female logit urban i. race exp wage i. edu i. female ologit edu i. urban i. race exp wage i. female regress exp i. urban i. race wage i. edu i. female regress wage i. urban i. race exp i. edu i. female Note that when categorical variables (ordered or not) appear as covariates i. expands them into sets of indicator variables. As well see later, the output of the mi impute chained command includes the commands for the individual models it runs. Thus a useful shortcut, especially if you have a lot of variables to impute, is to set up your mi impute chained command with the dryrun option to prevent it from doing any actual imputing, run it, and then copy the commands from the output into your do file for testing. Convergence Problems The first thing to note is that all of these models run successfully. Complex models like mlogit may fail to converge if you have large numbers of categorical variables, because that often leads to small cell sizes. To pin down the cause of the problem, remove most of the variables, make sure the model works with whats left, and then add variables back one at a time or in small groups until it stops working. With some experimentation you should be able to identify the problem variable or combination of variables. At that point youll have to decide if you can combine categories or drop variables or make other changes in order to create a workable model. Prefect Prediction Perfect prediction is another problem to note. The imputation process cannot simply drop the perfectly predicted observations the way logit can. You could drop them before imputing, but that seems to defeat the purpose of multiple imputation. The alternative is to add the augment (or just aug ) option to the affected methods. This tells mi impute chained to use the quotaugmented regressionquot approach, which adds fake observations with very low weights in such a way that they have a negligible effect on the results but prevent perfect prediction. For details see the section quotThe issue of perfect prediction during imputation of categorical dataquot in the Stata MI documentation. Checking for Misspecification You should also try to evaluate whether the models are specified correctly. A full discussion of how to determine whether a regression model is specified correctly or not is well beyond the scope of this article, but use whatever tools you find appropriate. Here are some examples: Residual vs. Fitted Value Plots For continuous variables, residual vs. fitted value plots (easily done with rvfplot ) can be useful8212several of the examples use them to detect problems. Consider the plot for experience: regress exp i. urban i. race wage i. edu i. female rvfplot Note how a number of points are clustered along a line in the lower left, and no points are below it: This reflects the constraint that experience cannot be less than zero, which means that the fitted values must always be greater than or equal to the residuals, or alternatively that the residuals must be greater than or equal to the negative of the fitted values. (If the graph had the same scale on both axes, the constraint line would be a 45 degree line.) If all the points were below a similar line rather than above it, this would tell you that there was an upper bound on the variable rather than a lower bound. The y-intercept of the constraint line tells you the limit in either case. You can also have both a lower bound and an upper bound, putting all the points in a band between them. The quotobviousquot model, regress. is inappropriate for experience because it wont apply this constraint. Its also inappropriate for wages for the same reason. Alternatives include truncreg, ll(0) and pmm (well use pmm ). Adding Interactions In this example, it seems plausible that the relationships between variables may vary between race, gender, and urbanrural groups. Thus one way to check for misspecification is to add interaction terms to the models and see whether they turn out to be important. For example, well compare the obvious model: regress exp i. race wage i. edu i. urban i. female with one that includes interactions: regress exp (i. race i. urban i. female)(c. wage i. edu) Well run similar comparisons for the models of the other variables. This creates a great deal of output, so see the log file for results. Interactions between female and other variables are significant in the models for exp. wage. edu. and urban. There are a few significant interactions between race or urban and other variables, but not nearly as many (and keep in mind that with this many coefficients wed expect some false positives using a significance level of .05). Well thus impute the men and women separately. This is an especially good option for this data set because female is never missing. If it were, wed have to drop those observations which are missing female because they could not be placed in one group or the other. In the imputation command this means adding the by(female) option. When testing models, it means starting the commands with the by female: prefix (and removing female from the lists of covariates). The improved imputation models are thus: bysort female: reg exp i. urban i. race wage i. edu by female: logit urban exp i. race wage i. edu by female: mlogit race exp i. urban wage i. edu by female: reg wage exp i. urban i. race i. edu by female: ologit edu exp i. urban i. race wage pmm itself cannot be run outside the imputation context, but since its based on regression you can use regular regression to test it. These models should be tested again, but well omit that process. The basic syntax for mi impute chained is: mi impute chained ( method1 ) varlist1 ( method2 ) varlist2. regvars Each method specifies the method to be used for imputing the following varlist The possibilities for method are regress. pmm. truncreg. intreg. logit. ologit. mlogit. poisson. and nbreg. regvars is a list of regular variables to be used as covariates in the imputation models but not imputed (there may not be any). The basic options are: add( N ) rseed( R ) savetrace( tracefile. replace) N is the number of imputations to be added to the data set. R is the seed to be used for the random number generator8212if you do not set this youll get slightly different imputations each time the command is run. The tracefile is a dataset in which mi impute chained will store information about the imputation process. Well use this dataset to check for convergence. Options that are relevant to a particular method go with the method, inside the parentheses but following a comma (e. g. (mlogit, aug) ). Options that are relevant to the imputation process as a whole (like by(female) ) go at the end, after the comma. For our example, the command would be: mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm) exp wage, add(5) rseed(4409) by(female) Note that this does not include a savetrace() option. As of this writing, by() and savetrace() cannot be used at the same time, presumably because it would require one trace file for each by group. Stata is aware of this problem and we hope this will be changed soon. For purposes of this article, well remove the by() option when it comes time to illustrate use of the trace file. If this problem comes up in your research, talk to us about work-arounds. Choosing the Number of Imputations There is some disagreement among authorities about how many imputations are sufficient. Some say 3-10 in almost all circumstances, the Stata documentation suggests at least 20, while White, Royston, and Wood argue that the number of imputations should be roughly equal to the percentage of cases with missing values. However, we are not aware of any argument that increasing the number of imputations ever causes problems (just that the marginal benefit of another imputation asymptotically approaches zero). Increasing the number of imputations in your analysis takes essentially no work on your part. Just change the number in the add() option to something bigger. On the other hand, it can be a lot of work for the computer8212multiple imputation has introduced many researchers into the world of jobs that take hours or days to run. You can generally assume that the amount of time required will be proportional to the number of imputations used (e. g. if a do file takes two hours to run with five imputations, it will probably take about four hours to run with ten imputations). So heres our suggestion: Start with five imputations (the low end of whats broadly considered legitimate). Work on your research project until youre reasonably confident you have the analysis in its final form. Be sure to do everything with do files so you can run it again at will. Note how long the process takes, from imputation to final analysis. Consider how much time you have available and decide how many imputations you can afford to run, using the rule of thumb that time required is proportional to the number of imputations. If possible, make the number of imputations roughly equal to the percentage of cases with missing data (a high end estimate of whats required). Allow time to recover if things to go wrong, as they generally do. Increase the number of imputations in your do file and start it. Do something else while the do file runs, like write your paper. Adding imputations shouldnt change your results significantly8212and in the unlikely event that they do, consider yourself lucky to have found that out before publishing. Speeding up the Imputation Process Multiple imputation has introduced many researchers into the world of jobs that take hours, days, or even weeks to run. Usually its not worth spending your time to make Stata code run faster, but multiple imputation can be an exception. Use the fastest computer available to you. For SSCC members that means learning to run jobs on Linstat, the SSCCs Linux computing cluster. Linux is not as difficult as you may think8212Using Linstat has instructions. Multiple imputation involves more reading and writing to disk than most Stata commands. Sometimes this includes writing temporary files in the current working directory. Use the fastest disk space available to you, both for your data set and for the working directory. In general local disk space will be faster than network disk space, and on Linstat ramdisk (a quotdirectoryquot that is actually stored in RAM) will be faster than local disk space. On the other hand, you would not want to permanently store data sets anywhere but network disk space. So consider having your do file do something like the following: Windows (Winstat or your own PC) This applies when youre using imputed data as well. If your data set is large enough that working with it after imputation is slow, the above procedure may help. Checking for Convergence MICE is an iterative process. In each iteration, mi impute chained first estimates the imputation model, using both the observed data and the imputed data from the previous iteration. It then draws new imputed values from the resulting distributions. Note that as a result, each iteration has some autocorrelation with the previous imputation. The first iteration must be a special case: in it, mi impute chained first estimates the imputation model for the variable with the fewest missing values based only on the observed data and draws imputed values for that variable. It then estimates the model for the variable with the next fewest missing values, using both the observed values and the imputed values of the first variable, and proceeds similarly for the rest of the variables. Thus the first iteration is often atypical, and because iterations are correlated it can make subsequent iterations atypical as well. To avoid this, mi impute chained by default goes through ten iterations for each imputed data set you request, saving only the results of the tenth iteration. The first nine iterations are called the burn-in period. Normally this is plenty of time for the effects of the first iteration to become insignificant and for the process to converge to a stationary state. However, you should check for convergence and increase the number of iterations if necessary to ensure it using the burnin() option. To do so, examine the trace file saved by mi impute chained. It contains the mean and standard deviation of each imputed variable in each iteration. These will vary randomly, but they should not show any trend. An easy way to check is with tsline. but it requires reshaping the data first. Our preferred imputation model uses by(). so it cannot save a trace file. Thus well remove by() for the moment. Well also increase the burnin() option to 100 so its easier to see what a stable trace looks like. Well then use reshape and tsline to check for convergence: preserve mi impute chained (logit) urban (mlogit) race (ologit) edu (pmm) exp wage female, add(5) rseed(88) savetrace(extrace, replace) burnin(100) use extrace, replace reshape wide mean sd, i(iter) j(m) tsset iter tsline expmean, title(quotMean of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv1.png, replace tsline expsd, title(quotStandard Deviation of Imputed Values of Experiencequot) note(quotEach line is for one imputationquot) legend(off) graph export conv2.png, replace restore The resulting graphs do not show any obvious problems: If you do see signs that the process may not have converged after the default ten iterations, increase the number of iterations performed before saving imputed values with the burnin() option. If convergence is never achieved this indicates a problem with the imputation model. Checking the Imputed Values After imputing, you should check to see if the imputed data resemble the observed data. Unfortunately theres no formal test to determine whats quotclose enough. quot Of course if the data are MAR but not MCAR, the imputed data should be systematically different from the observed data. Ironically, the fewer missing values you have to impute, the more variation youll see between the imputed data and the observed data (and between imputations). For binary and categorical variables, compare frequency tables. For continuous variables, comparing means and standard deviations is a good starting point, but you should look at the overall shape of the distribution as well. For that we suggest kernel density graphs or perhaps histograms. Look at each imputation separately rather than pooling all the imputed values so you can see if any one of them went wrong. The mi xeq: prefix tell Stata to apply the subsequent command to each imputation individually. It also applies to the original data, the quotzeroth imputation. quot Thus: mi xeq: tab race will give you six frequency tables: one for the original data, and one for each of the five imputations. However, we want to compare the observed data to just the imputed data, not the entire data set. This requires adding an if condition to the tab commands for the imputations, but not the observed data. Add a number or numlist to have mi xeq act on particular imputations: mi xeq 0: tab race mi xeq 15: tab race if missrace This creates frequency tables for the observed values of race and then the imputed values in all five imputations. If you have a significant number of variables to examine you can easily loop over them: foreach var of varlist urban race edu mi xeq 0: tab var mi xeq 15: tab var if missvar For results see the log file . Running summary statistics on continuous variables follows the same process, but creating kernel density graphs adds a complication: you need to either save the graphs or give yourself a chance to look at them. mi xeq: can carry out multiple commands for each imputation: just place them all in one line with a semicolon ( ) at the end of each. (This will not work if youve changed the general end-of-command delimiter to a semicolon.) The sleep command tells Stata to pause for a specified period, measured in milliseconds. mi xeq 0: kdensity wage sleep 1000 mi xeq 15: kdensity wage if missvar sleep 1000 Again, this can all be automated: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var sleep 1000 mi xeq 15: kdensity var if missvar sleep 1000 Saving the graphs turns out to be a bit trickier, because you need to give the graph from each imputation a different file name. Unfortunately you cannot access the imputation number within mi xeq. However, you can do a forvalues loop over imputation numbers, then have mi xeq act on each of them: forval i15 mi xeq i: kdensity exp if missexp graph export expi. png, replace Integrating this with the previous version gives: foreach var of varlist wage exp mi xeq 0: sum var mi xeq 15: sum var if missvar mi xeq 0: kdensity var graph export chkvar0.png, replace forval i15 mi xeq i: kdensity var if missvar graph export chkvari. png, replace For results, see the log file . Its troublesome that in all imputations the mean of the imputed values of wage is higher than the mean of the observed values of wage. and the mean of the imputed values of exp is lower than the mean of the observed values of exp. We did not find evidence that the data is MAR but not MCAR, so wed expect the means of the imputed data to be clustered around the means of the observed data. There is no formal test to tell us definitively whether this is a problem or not. However, it should raise suspicions, and if the final results with these imputed data are different from the results of complete cases analysis, it raises the question of whether the difference is due to problems with the imputation model. Last Revised: 8232017
Comments
Post a Comment