久久精品成人-久久精品成人国产午夜-久久精品成人免费网站-久久精品第一页-亚洲午夜精品aaa级久久久久-亚洲午夜精品一区二区

統(tǒng)計(jì)基礎(chǔ)

首頁 > > 統(tǒng)計(jì)基礎(chǔ)
  • 第4章 基本抽樣問題

    來源:默認(rèn)管理員點(diǎn)擊數(shù):1176發(fā)布時(shí)間:2012-12-18

      本章重點(diǎn)介紹的內(nèi)容:

      l 掌握抽樣概念

      l 學(xué)習(xí)制定抽樣計(jì)劃的步驟

      l 明確隨機(jī)樣本與非隨機(jī)樣本的區(qū)別

      l 明確抽樣誤差和非抽樣的概念

      l 復(fù)習(xí)隨機(jī)抽樣法類型

      l 了解非隨機(jī)抽樣方法

      4.1 重要術(shù)語的定義

      4.1.1 總體與全域

      在抽樣領(lǐng)域,總體和全域是可以相互代替的。但在這里,我們將選用“總體”這個(gè)術(shù)語。總體或同質(zhì)總體,是指能提供所需信息的人的全體。分析人員的首要任務(wù)是定義同質(zhì)總體,這又經(jīng)常涉及到對產(chǎn)品和服務(wù)目標(biāo)市場的界定。

      舉例來說,一個(gè)研究人員正在為一種新型非處方感冒藥進(jìn)行產(chǎn)品創(chuàng)意測試。他也許會(huì)認(rèn)為同質(zhì)總體包括每個(gè)人,因?yàn)槊總€(gè)人會(huì)有患感冒的可能性。即便如此,并非每個(gè)患者都會(huì)選擇這種非處方藥。在這種情況下,調(diào)查過程中的重要任務(wù)是確定哪些人是目標(biāo)主體,這就要看感冒時(shí)他們是否選購或使用這種或多種品牌的藥。只有那些購或使用的人們,才應(yīng)包括在同質(zhì)總體內(nèi)。

      為同質(zhì)總體下定義是抽樣調(diào)查中關(guān)鍵的一步。為達(dá)到研究目的,究竟誰的觀點(diǎn)才是我們真正需要采納的呢?定義同質(zhì)總體沒有一定之規(guī),需要研究人員有良好的辯別和判斷能力。通常,對于總體的定義是常常基于已有的和潛在的顧客的特征。

      4.1.2 抽樣與普查

      普查這一概念用于描述獲取同質(zhì)總體中每個(gè)成員的信息。市場調(diào)研中并不經(jīng)常用到普查,因?yàn)槠渫|(zhì)總體一般情況下包括成千上萬的個(gè)體,這樣大規(guī)模地進(jìn)行普查在成本和時(shí)間上的耗費(fèi)都是巨大的,以致于在通常情況下是不可行的。

      事實(shí)已不止一次地證明:一個(gè)相對較小、但精心選擇的樣本能準(zhǔn)確地反映出所抽查的總體的特征。一個(gè)樣本是總體所有成員的一個(gè)子集。從總體中子集獲得的有關(guān)信息,可以用來估測總體的特征。理想的情況是,子集能夠代表總體的各個(gè)部分。

      盡管市場調(diào)查中很少用到普查,但是有時(shí)它們也適用于某些案例。譬如,在工業(yè)產(chǎn)品營銷中,一個(gè)企業(yè)只向少量客戶銷售極為特殊的產(chǎn)品。這時(shí),普查則是適當(dāng)和可行的,有可能從整個(gè)總體獲取信息。盡管普查可能很具有吸引力(因?yàn)橐话阏J(rèn)為普查與抽樣相比具有更大的準(zhǔn)確性),但有時(shí)并非如此。例如,做人口普查時(shí),試圖從總體每個(gè)成員中獲取信息事實(shí)上存在很多障礙。我們不能取得總體中每個(gè)成員完整、準(zhǔn)確的資料,或許總體中某些成員會(huì)拒絕提供信息,考慮到這些障礙,即使涉及的總體規(guī)模較小,也很難進(jìn)行普查。你也許讀到或曾聽到過美國人口普查中存在的問題。

      4.2 制定抽樣計(jì)劃的步驟

      開發(fā)一個(gè)具有可操作性的樣本計(jì)劃大致需要7個(gè)步驟,圖4.1。下面詳細(xì)討論這些步驟。

      4.2.1 定義同質(zhì)總體

      為了滿足研究目的的需要,必須詳細(xì)說明可提供信息或所需信息有關(guān)的個(gè)體或?qū)嶓w(譬如公司、商店等)所具有的特性。同質(zhì)總體可以從以下幾方面進(jìn)行描述:地域特征、人口統(tǒng)計(jì)學(xué)的特征、產(chǎn)品或服務(wù)使用情況、認(rèn)知程度等。在調(diào)查中,從調(diào)查表開始部分的過濾性問題,可以看出某個(gè)體是否屬于同質(zhì)總體。即使有總體和樣本清單,仍有必要使用過濾性問題識(shí)別合格的應(yīng)答者。

      另外,為了確定總體包括哪些人,通常情況下,重要的是確定那些應(yīng)排除在外的人的特征。例如,大部分商業(yè)市場調(diào)查就因?yàn)橐恍┧^的安全性問題而排除某些個(gè)本。通常,問卷調(diào)查表上的第一個(gè)問題就是詢問采訪對象或其家庭成員是否從事市場研究、廣告或生產(chǎn)與調(diào)查內(nèi)容有關(guān)產(chǎn)品的工作。如果采訪對象指出他們從事某項(xiàng)工作,那么就不必要去采訪他了。這就所說的安全性問題,因?yàn)檫@樣的采訪對象不保險(xiǎn)。他們也許是競爭對手或?yàn)楦偁帉κ址?wù)的,所以,我們不能給予他們關(guān)于我們打算干什么的暗示。

      此外,排除某些個(gè)體還有其他原因。譬如,可口可樂公司就寧愿采訪一些一周內(nèi)飲用5瓶或5瓶以上各種包裝飲料的人,而不愿采訪一些只喝可口可樂的人。因?yàn)楣疽由顚@些不喝可口可樂而喝軟飲料的人的了解。因此,就會(huì)排除那些過去一周內(nèi)經(jīng)常喝可口可樂的人。

      4.2.2 選擇資料收集方法

      資料收集方式對抽樣過程有著重要的影響。例如,電話采訪有一種內(nèi)在優(yōu)勢,購物中心攔截顧客有著自身的劣勢。

      4.2.3 選擇抽樣框

      在整個(gè)過程中的第三步就是確定抽樣框。以往,我們把抽樣框定義為總體的數(shù)據(jù)目錄或單位的名單,從中可以抽出樣本單位。理想的情況是,我們有一個(gè)完整和準(zhǔn)確的名單。遺憾的是,通常這樣的名單是不存在的。例如,在一項(xiàng)調(diào)查中,調(diào)查總體是那些在近30天內(nèi)打三輪或三輪以上十八洞高爾夫球的人。但是,根本就沒有一種計(jì)算方法可以完全提供這份名單。在不存在傳統(tǒng)意義上的抽樣框的情況下,我們需要依據(jù)能夠產(chǎn)生具有希望特征的樣本個(gè)體的程序來反映抽樣框。例如,電話號碼本就可能是電話調(diào)查的框架。這個(gè)例子也予明了在抽樣框和同質(zhì)總體間很少有極好的對應(yīng)關(guān)系。在問卷中,同質(zhì)總體很有可能是城市中的所有居民。但是,電話號碼本就不包括那此沒電話的居民和那此沒有公布他們號碼的居民。

      一些潛在的因素證明,公布電話的居民和不公開電話號碼的居民在一些重要的特征方面具有很大的區(qū)別。很明顯地,那些不主動(dòng)提供電話號碼的居民很大可能是房客,居住在城市中心,最近剛搬家,或人口多,孩子小,收入低。在某產(chǎn)品的購買、擁有、使用方面,兩種類型的人具有很顯著的差別。

      在西部、大城市、非白人和18-34歲的人,不公布自己電話號碼的人一般是比較多的。這項(xiàng)發(fā)現(xiàn)已一系列的調(diào)查所證實(shí)。這個(gè)發(fā)現(xiàn)的意義很明顯,即當(dāng)樣本單位是從電話調(diào)查中獲得時(shí),還應(yīng)該包括那些不公布電話號碼但是卻適合采訪的城市居民。在這種情況下,可以使用一種程序來產(chǎn)生樣本的名單。隨機(jī)電話抽取就是隨意抽取電話號碼來產(chǎn)生樣本名單。在抽樣領(lǐng)域,形成一個(gè)適當(dāng)?shù)某闃涌蚪?jīng)常是調(diào)查者面臨的最有挑戰(zhàn)性的問題之一。

      4.2.4 選擇抽樣方法

      制定抽樣計(jì)劃的第四部是選擇抽樣方法。選擇哪種抽樣方法取決于研究目的、經(jīng)濟(jì)實(shí)力、時(shí)間限制、欲調(diào)查問題的性質(zhì)。可供選擇的重要抽樣方法可以分為兩大類:概率抽樣與非概率抽樣。每大類中又有許多可供選擇的具體方法。

      (1)概率抽樣

      概率抽樣指在總體中的每個(gè)單位都具有同等可能性被抽中。簡單隨機(jī)抽樣是一種眾所周知并廣為使用的概率抽樣。在概率抽樣法中,調(diào)查員必須嚴(yán)格遵守正確的選擇程序,即要求避免武斷或有偏見地選擇抽樣單位,當(dāng)嚴(yán)格執(zhí)行這些程序時(shí),概率論中的法則都是有效的。這就是說,對于預(yù)測的范圍來說,樣本中的數(shù)據(jù)可以認(rèn)為是不同于總體數(shù)據(jù)的,其差異稱為抽樣誤 差。

      (2)概率抽樣

      非概率抽樣指從總體中非隨機(jī)地選擇特定的要素(單位)。根據(jù)簡便易行、減少開支的原則選擇總體中的某些要素(單位),會(huì)導(dǎo)致非隨機(jī)性。有目的的非隨機(jī)抽樣可能會(huì)系統(tǒng)地排除或過分強(qiáng)調(diào)總體的某些部份。例如, 一項(xiàng)要調(diào)查所有18歲以上女性意見的調(diào)查若在周一至周五的白天通過電話進(jìn)行,顯然會(huì)系統(tǒng)地排除了所有女性。

      概率抽樣包括以下幾個(gè)優(yōu)點(diǎn):

      l調(diào)查者可獲得被抽取的不同年齡、不同層次的人們的信息。

      l 能估算出抽樣誤差。

      l 調(diào)查結(jié)果可以用來推斷總體。例如,在一和概率抽樣法的調(diào)查中,如果有5%的被訪者給出了某種特定回答,那么,調(diào)查者就可以以此百分比再結(jié)合抽樣誤差,推及總體情況。

      另一方面,概率抽樣也有一些弊病:

      l 在大多數(shù)案例中,同樣規(guī)模的概率抽樣的費(fèi)用要比非概率抽樣高。通常精挑細(xì)選的做法不僅增加調(diào)研費(fèi)用而且還要專門的時(shí)間對樣本進(jìn)行復(fù)核修改。

      l 概率抽樣比非概率抽樣需要更多時(shí)間策劃和實(shí)施。必須遵守的抽樣計(jì)劃執(zhí)行程序會(huì)大量增加收集資料的時(shí)間。

      非概率抽樣的弊病恰好是概率抽樣的優(yōu)勢:

      l不能估計(jì)出抽樣誤差。

      l 調(diào)查者不知道抽中的單位所具有代表性的程度。

      l 非概率抽樣的結(jié)果不能也不應(yīng)該推及總體。

      看到非概率抽樣的這些弊病后,你會(huì)奇怪:為什么還使用電腦呢?其實(shí)他們經(jīng)常被市場調(diào)研人員使用。使用非概率抽樣的原因與其本身固有的優(yōu)勢有關(guān):

      l 非概率抽樣比概率抽樣費(fèi)有低。非概率抽樣的這一特點(diǎn)對那些精確性要求不嚴(yán)格的調(diào)查有相當(dāng)大的吸引力。試探性調(diào)查就是其中的一例。

      l一般來計(jì),非概率抽樣實(shí)施起來要比概率抽樣用的時(shí)間少。原因在前面已討論過了。

      如果合理運(yùn)用非概率抽樣,它能產(chǎn)生極具代表性的合理的抽樣結(jié)果。

      除了是否選擇概率抽樣或非概率抽樣之外,調(diào)研人員還須在眾多抽樣程序中選擇其一。這些程序在圖4.2中做了概括。

      4.2.5確定樣本量

      一旦選定抽樣方法,下一步就要確定合適的樣本量。關(guān)于這個(gè)問題,下一章會(huì)有詳細(xì)闡述。在下章中,我們討論預(yù)算的重要性、各種各樣的抽選規(guī)則、子集量的分析和傳統(tǒng)的統(tǒng)計(jì)樣本量的計(jì)算。對非概率抽樣,通常我們僅依靠可能的預(yù)算、抽選規(guī)則、子集量分析來決定樣本量。然而,就概率抽樣而言,需要在允許誤差的目標(biāo)水平(抽樣結(jié)果和總體指標(biāo)的差異)和置信水平(置信區(qū)間的概率,置信區(qū)間是樣本結(jié)果加減允許誤差形成的一個(gè)涵蓋總體真值的范圍)下,計(jì)算樣本量。如前所述,基于樣本指標(biāo)推測總體指標(biāo)是概率抽樣的主要優(yōu)勢 。

      4.2.6 制定選擇樣本單位的操作程序

      無論使用概率或非概率抽樣,在一個(gè)項(xiàng)目的資料收集階段必須指定和明確選擇樣本單位的操作程序。對于概率抽樣的成功來說,這個(gè)程序更為重要,必須詳細(xì)、清晰,不受訪問員的干擾。若不能制定合適選擇樣本單位的操作程序,則整個(gè)抽樣程序會(huì)陷入困境。表4.1提供了一個(gè)適于操作的抽樣計(jì)劃。

      表4.1 適用于操作的抽樣計(jì)劃

      4.2.7抽樣計(jì)劃的實(shí)施

      在實(shí)施適于操作的抽樣計(jì)劃前,應(yīng)先對其進(jìn)行討論研究。這一步很重要,它包括檢查、明確是否要根據(jù)擬好的詳細(xì)程序來實(shí)施計(jì)劃。

      4.3 抽樣誤差和非抽樣誤差

      請假想一種情景:我們的目標(biāo)是想確定一個(gè)特殊人群的平均年齡。如果可以獲得總體中每個(gè)人的確切信息,我們就可以計(jì)算出這些具有同一特征的人的平均年齡。總體的參數(shù)是總體真實(shí)特征定義的數(shù)值。假設(shè)(總體參數(shù)或平均年齡)為36.3歲。正如已討論的那樣,要調(diào)查整個(gè)總體中每一個(gè)人是不可能的,但是,研究人員會(huì)抽取樣本,并根據(jù)樣本的調(diào)查結(jié)果對總體的特征(參數(shù))進(jìn)行推測。如在計(jì)算平均年齡的問題中,研究人員從25萬人的總體中抽取400個(gè)樣本單位。估計(jì)的總體平均年齡要從本數(shù)據(jù)中計(jì)算出來,假設(shè)樣本年齡為35.8歲。同樣可以在總體中抽出第二個(gè)400人為樣本,再計(jì)算其平均數(shù),結(jié)果是36.8歲。另外,可能有很多適當(dāng)?shù)姆椒◤目傮w中抽出若干個(gè)樣本。研究人員將對不同的樣本計(jì)算出相當(dāng)接近但不完全同于總體參數(shù)的樣本指標(biāo)。

      樣本結(jié)果的準(zhǔn)確性受到兩種誤差的影響:一種是抽樣誤差,另一種是非抽樣誤差(測量誤差)。下列公式描述了在估計(jì)總體平均數(shù)時(shí)這二種誤差的影響。

      其中,為樣本平均數(shù);為真正的總體平均數(shù);為抽樣誤差;為非抽樣誤差或測量誤差。

      抽樣誤差是指所選樣本的結(jié)果不能全代表總體而導(dǎo)致的誤差。有兩類抽樣誤差:隨機(jī)的和管理上的。管理上的抽樣誤差涉及抽樣執(zhí)行中的問題,即樣本的設(shè)計(jì)和執(zhí)行中有缺陷而不是樣本不能代表總體。這類誤差能在樣本設(shè)計(jì)和執(zhí)行中通過小心謹(jǐn)慎而避免或使之極小化。隨機(jī)抽樣誤差是由于偶然事件引起的,是無法被避免的。這類誤差只能依靠增加樣本量使之縮小,但不能完全消除。非抽樣或測量誤差是在研究過程中由于計(jì)算的不準(zhǔn)確和偏見等原因產(chǎn)生的不同于抽樣誤差的各種誤差。

      4.4 概率抽樣方法

      4.4.1 簡單隨機(jī)抽樣

      簡單隨機(jī)抽樣是最完全的概率抽樣。如前面提到的,隨機(jī)抽樣就是總體中每個(gè)單位在抽選時(shí)有相等的被抽中機(jī)會(huì)。在簡單隨機(jī)抽樣條件下,抽樣概率公式為:

      例如,如果總體單位數(shù)為10000,樣本數(shù)為400,那么抽樣概率為4%,計(jì)算過程為:

      如果一個(gè)抽樣框(列出所有的總體單位)是可以得到的,那么調(diào)查人員可以選擇簡單隨機(jī)抽樣方式,步驟如下:

      (1) 對總體的每個(gè)單位進(jìn)行編號,總體單位數(shù)為10000的總體可編號為1-10000;

      (2) 在隨機(jī)數(shù)表中,從任意的一個(gè)編號數(shù)開始向上數(shù)或向下數(shù)或跳躍數(shù)選編號,在0001和10000之間選出400個(gè)(樣本單位數(shù));

      (3) 在有明確總體單位的數(shù)字表中選出的數(shù)字將包括在樣本中。

      簡單隨機(jī)抽樣的優(yōu)越性在于,它看起來簡單,并且滿足概率抽樣的一切必要的要求,保證每個(gè)總體單位在抽選時(shí)都有相等的被抽中機(jī)會(huì)。簡單隨機(jī)抽樣以一個(gè)完整的總體單位表為依據(jù),在現(xiàn)實(shí)中編制這樣一個(gè)完整的表是極其困難的,也是不可能做到的。簡單隨機(jī)抽樣可以通過電話隨機(jī)撥號功能完成這個(gè)步驟。最后,簡單隨機(jī)抽樣可以從電腦檔案中挑選調(diào)查對象。電腦資料是可以得到的或從電腦檔案中抽取隨機(jī)樣本的記錄,如顧客名單。

      4.4.2等距抽樣

      等距抽樣經(jīng)常作為簡單隨機(jī)抽樣的代替物使用。由于其簡單,所以應(yīng)用相當(dāng)普遍。等距抽樣得到的樣本幾乎與隨機(jī)抽樣得到的樣本相同。

      使用這種方式,必須獲得一份總體單位表,這一點(diǎn)與簡單隨機(jī)抽樣方式一樣。調(diào)查人員必須決定一個(gè)間隔,并在此間隔基礎(chǔ)上選擇單位,樣本距離可通過下面公式確定:

      例如,假設(shè)你使用本地電話號碼本并確定樣本距離為100,那么100個(gè)中取1個(gè)組成樣本。這個(gè)公式保證了整個(gè)列表的完整性。

      等距抽樣方式隨意用一個(gè)起點(diǎn),例如你正使用一本電話本,必須隨意取出一個(gè)號碼決定從該頁開始翻閱。假設(shè)從第53頁開始,在該頁上再另選一個(gè)數(shù)決定從該行開始。假設(shè)選擇從第3行開始,最后在該行任選一個(gè)數(shù),這就決定了實(shí)際開始的位置。假定從第17個(gè)數(shù)開始,那么以此為起點(diǎn),樣本距離就確定下來了。

      等距抽樣方式相對于簡單隨機(jī)抽樣方式最主要的優(yōu)勢就是經(jīng)濟(jì)性。等距抽樣方式比簡單隨機(jī)抽樣更為簡單,花的時(shí)間更少,并且花費(fèi)也少。使用等距抽樣方式最大的缺陷在于總體單位的排列上。一些總體單位數(shù)可能包含隱蔽的形態(tài),調(diào)查者可能疏忽,把它們抽選為樣本。然而,這種缺陷在使用字母表時(shí)可以消除。

      4.4.3 分層抽樣

      分層抽樣是一種卓越的概率抽樣。具體程序是:

      l 把總體各單位分成兩個(gè)或兩個(gè)以上的相互獨(dú)立的完全的組(如男性和女性)。

      l 從兩個(gè)或兩個(gè)以上的組中簡單隨機(jī)抽樣,樣本相互獨(dú)立。

      總體各單位按主要標(biāo)志加以分組。盡管一些作者指出,分層抽樣的要求沒有指明分層標(biāo)志,但是根據(jù)常識(shí)的判斷,分組的標(biāo)志與我們關(guān)心的總體特征相關(guān)。例如,如果你正在進(jìn)行一次政治性民意調(diào)查,要預(yù)測選舉結(jié)果。結(jié)果證明,男性和女性投票的方式大不相同,那么性別是劃分層次的適當(dāng)標(biāo)志。如果不以這種方式進(jìn)行分層抽樣,分層抽樣就得不到什么效果,花再多時(shí)間、精力和物資也是白費(fèi)。前面的例子中,將性別作為分層抽樣的標(biāo)志,我們得到男、女兩組,各組都相互完全獨(dú)立。在一組中(男性組或女性組)保證每個(gè)總體單位都有被選的機(jī)會(huì),沒有哪些總體單位是不能被抽中的。第二步就是進(jìn)行簡單隨機(jī)抽樣,在每個(gè)組中獨(dú)立進(jìn)行。

      分層抽樣與簡單抽樣相比,人們往往選擇分層抽樣,因?yàn)樗酗@著的潛在統(tǒng)計(jì)效果。也就是說,如果我們從相同的總體中抽取兩個(gè)樣本,一個(gè)是分層樣本,另一個(gè)是簡單隨機(jī)抽樣樣本,那么相對來說,分層樣本的誤差更小些。另一方面,如果目標(biāo)是獲得一個(gè)確定的抽樣誤差水平,那么更小的分層樣本將達(dá)到這一目標(biāo)。由于排除了一種變差的來源,所以分層抽樣在統(tǒng)計(jì)上更為有效率。為此,后面的部分將做詳細(xì)的解釋。

      你也許會(huì)問:“如果分層抽樣統(tǒng)計(jì)效果更好,為什么不一直使用這種方式呢?”原因有兩個(gè):

      (1) 將樣本適當(dāng)劃分層次所需的信息常常是得不到的。例如,幾乎沒有人知道某種特殊產(chǎn)品的消費(fèi)者的人口統(tǒng)計(jì)特征。注意,我們強(qiáng)調(diào)的是:“適當(dāng)”分層。要適當(dāng)分層并得到分層的好處,必須選擇個(gè)層次間存在明顯差異的因素為分層基礎(chǔ)。

      (2) 即使必要的信息是可以得到的,但是從所得信息的價(jià)值看,分層所需的時(shí)間和費(fèi)用不劃算。

      對于簡單隨機(jī)抽樣,調(diào)查者完全依照隨機(jī)原則抽取總體中有代表性的樣本;對于分層抽樣,調(diào)查者按各組總體單位數(shù)占全部總體單位數(shù)的一定比例來抽取樣本,某種程度上更具有代表性。例如,調(diào)查者可能了解到,盡管男性和女性同樣有可能是某種特殊產(chǎn)品的使用者,但女性更有可能成為產(chǎn)品的主要使用者。在設(shè)計(jì)一個(gè)方案分析產(chǎn)品消費(fèi)情況時(shí),抽取的樣本中如果女性不具更大的代表性,將會(huì)導(dǎo)致片面的消費(fèi)設(shè)計(jì)方案。假定女性占總體的60%,男性占總體的40%。即使每件事都做得完全正確,但是簡單隨機(jī)抽樣的程序可能會(huì)抽取到這樣的樣本,女性占55%,男性占45%,這種結(jié)果是由于樣本的波動(dòng)。當(dāng)我們將一枚硬幣擲10次時(shí)也會(huì)有這種誤差。正確的結(jié)果將是5次正面和5次背面,但是大部分時(shí)間我們得到的結(jié)果不是這樣。同樣,即便設(shè)計(jì)正確和操作簡單的隨機(jī)抽樣,也不可能從女性占60%和男性占40%的總體中恰好抽取到一個(gè)含60%的女性和40%的男性的樣本。然而,對于分層抽樣,調(diào)查者可以控制樣本含60%的女性、40%的男性。

      如上所述,提高分層樣本的精確度要付出一些代價(jià)。實(shí)現(xiàn)正確的分層抽樣有三個(gè)步驟:

      首先,辨明突出的(重要的)人口統(tǒng)計(jì)特征和分類特征,這些特征與所研究的行為相關(guān)。例如,研究某種產(chǎn)品的消費(fèi)比率時(shí),按常理認(rèn)為男性和女性有不同的平均消費(fèi)比率。為了把性別作為有意義的分層標(biāo)志,調(diào)查者肯定能夠拿出資料證明男性與女性的消費(fèi)水平明顯不同。用這方式可識(shí)別出各種不同的顯著特征。調(diào)查表明,一般來說,識(shí)別出6種重要的顯著特征后,再增加顯著特征的辨別對于提高樣本代表性就沒有多大幫助了。

      第二:確定在每個(gè)層次上總體的比例(如性別已被確定為一個(gè)顯著的特征,那么總體中男性占多少比例,女性占多少比例呢?)。利用這個(gè)比例,可計(jì)算出樣本中每組(層)應(yīng)調(diào)查的人數(shù)。當(dāng)然,在做最終決定之前,還要確定是否按總體比例或不按總體比例分配樣本各組單位數(shù),以達(dá)到最佳樣本。

      l 按比例分配,即樣本各組比例與總體各層比例等同。

      用公式表示:

      式中 n--樣本量;

      N—總體單位數(shù);

      i--各組(層)單位數(shù)。

      l 非比例分配或最佳分配,它能產(chǎn)生最有效的樣本,并為樣本提供最精確的和最可靠的估計(jì)。這種方法需要一個(gè)雙重方案,其一是考慮樣本量中各組比例與總體各層比例相關(guān);其二是,樣本量中各組單位數(shù)的樣本還要考慮總體各層之中共有特征的離差(變差)。前者固然很重要,它涉及對總樣本數(shù)的估計(jì);后者對總體某個(gè)變異較大的層,通過擴(kuò)大其在樣本量中的比例,可提高樣本的代表性,相應(yīng)也提高了估計(jì)的準(zhǔn)確性。如果總體各層之中變異(標(biāo)準(zhǔn)差)相同,不成比例抽樣則沒有太大意義。

      最后,調(diào)查者必須從每層中抽取獨(dú)立簡單隨機(jī)樣本。現(xiàn)實(shí)中,這個(gè)步驟可以以不同的方式完成。假設(shè)按分層抽樣計(jì)劃要求訪問240位女性和160位男性。樣本從包括男性和女性的總體中抽取,在訪問過程中對被訪的男性和女性的人數(shù)進(jìn)行跟蹤。在訪談過程中的某個(gè)時(shí)點(diǎn),可能訪問了240位女性和12位男性。自此以后,只訪問男性,直到達(dá)到160人的目標(biāo)。按這種方式,樣本中男性和女性的比例將與第二步中的要求一致。

      分層抽樣在市場研究中用到并不很頻繁。因?yàn)椋覀兺A(yù)先得不到給樣本分層的必要信息。分層不能建立在猜測或預(yù)感的基礎(chǔ)上,而應(yīng)建立在對總體特征及其內(nèi)部變量關(guān)系和所調(diào)查行為的充分認(rèn)識(shí)的基礎(chǔ)上。分層抽樣經(jīng)常被用在政治選舉和大眾媒體的研究,在這些領(lǐng)域,研究者更情愿也更容易掌握分層的必要信息。

      4.4.4 整體抽樣

      迄今為止,我們討論的抽樣類型全部是按單位抽取,即按樣本單位數(shù),分別一個(gè)單位一個(gè)單位地抽取。在整群抽樣中,樣本是一組單位一組單位地抽取。這里有兩個(gè)步驟:

      l 同質(zhì)總體被分為相互獨(dú)立的完全的較小子集。

      l 隨機(jī)抽選子集構(gòu)成樣本。

      如果調(diào)查者在抽中的子集中觀察全部單位,我們就有了一級整群樣本。如果在抽中的子集中再以概率方式抽取部分單位觀察,我們就有了二級整群樣本。分層和整群抽樣都要將總體分為相互獨(dú)立的和完全子集。它們的區(qū)別是,分層抽樣的樣本是從每個(gè)子集中抽取,而整群則是抽取部分子集。全部觀察一級樣本或先抽取部分子集再在抽中的子集中抽取部分單位,取得二級樣本。

      所有概率抽樣法 需要列舉或提供一些已組織好的關(guān)于目標(biāo)總體所有單位的統(tǒng)計(jì)表。在整群抽樣中,研究人員開發(fā)出了不需列舉所有單位而只需列舉子集的抽樣。抽取子集后,再列舉其內(nèi)部單位統(tǒng)計(jì)表,最后取得樣本。

      地理區(qū)域抽樣是整群抽樣的典型方式。挨門挨戶去調(diào)查一個(gè)特定城市的調(diào)查者也許會(huì)隨機(jī)抽選一些區(qū),較集中地訪查一些群體,大量減少訪問時(shí)間和經(jīng)費(fèi)。整群抽樣被認(rèn)為是概率抽樣技術(shù),因?yàn)樗S機(jī)抽出群和隨機(jī)抽出單位。

      在整群抽樣下,我們假定群中單位與全及總體一樣存在異質(zhì)性。如果一群中單位的特征非常相似,那么就違反了這個(gè)假設(shè)。在上面的例子中,由于共同環(huán)境使群內(nèi)差異小而群與群之間差異大。一般來說,要解決這個(gè)問題可以擴(kuò)大群數(shù),然后從各群中抽取少量單位數(shù),以保證樣本的代表性。

      這種整體抽樣的類型是一個(gè)兩級抽樣。第一級是群的抽取。第二級是群內(nèi)單位的抽取。多級區(qū)域抽樣或多級概率抽樣也許有著更多的步驟。這種類型被應(yīng)用于覆蓋廣闊區(qū)域的全國性調(diào)查。在這種抽樣方法下,調(diào)查者隨機(jī)抽取相對較小的區(qū)域。例如,在一個(gè)州內(nèi)的挨門挨戶的調(diào)查也許包括以下步驟:

      (1) 選取這個(gè)州內(nèi)的縣以表明不同區(qū)域都有代表性,縣也許是通過與縣中家庭數(shù)成正比的方式抽出,家庭數(shù)目較多的縣比家庭數(shù)目較少的縣抽中的機(jī)會(huì)要大一點(diǎn)。

      (2) 在樣本縣中抽住宅區(qū)域。

      (3) 在中選住宅區(qū)域中抽取家庭。

      從統(tǒng)計(jì)效率的立場看,一般說來整體抽樣的效率沒有其他類型高。換言之,一組一定大小的整體樣本,將比一組簡單隨機(jī)樣本或一組同樣大小的分層樣本有更大的抽樣誤差。我們用下面的例子來說明這種方法的高成本績效及其低統(tǒng)計(jì)效率。

      比如,我們需要在某個(gè)特定的城市選取一個(gè)由200個(gè)家庭組成的樣本來進(jìn)行家訪。如果這200個(gè)家庭是通過簡單隨機(jī)抽樣抽取的,它們會(huì)散布到整個(gè)城市之中。但通過整群抽樣可以抽取城市中20個(gè)住宅區(qū)并從每區(qū)中抽取10戶人家來采訪。容易看出,整群抽樣可以大幅度降低費(fèi)用,采訪者將不必花費(fèi)大量時(shí)間穿梭于各個(gè)被采訪的對象之間。然而,簡單隨機(jī)抽樣的抽樣誤差卻小一些。散布在整個(gè)城市的200戶人家,提高了得到一組涉及各個(gè)方面被訪者代表的可能性。相反,如果采訪僅僅在城市中選定的住宅區(qū)中進(jìn)行,那么,就有可能錯(cuò)過、夸大或降低某些宗教,社會(huì)或經(jīng)濟(jì)團(tuán)體的代表意義。

      如前所述,整體抽樣沒有簡單隨機(jī)抽樣的統(tǒng)計(jì)效率高。簡單隨機(jī)抽樣也可視為一種特殊的整群抽樣,其中樣本量與整群相當(dāng),從每群中選一個(gè)樣本單位。在這一點(diǎn)上,整體抽樣的統(tǒng)計(jì)效率和簡單隨機(jī)抽樣相同。從這一點(diǎn)開始,我們只選擇一個(gè)群并從中抽所有的樣本單位。例如,可以在城市中選一個(gè)相對小的地區(qū),在那訪問200人。如果這種方式能抽出代表整個(gè)城市居民的樣本,那么,工作也太容易了!

      4.5非概率抽樣

      一般而言,任何不滿足概率抽樣要求的抽樣都被歸為非概率樣。非概率抽樣的缺點(diǎn)是,不能計(jì)算其抽樣誤差,這意味著評估非概率抽樣的總體質(zhì)量有很大的困難。我們知道它們不滿足概率抽樣所需的標(biāo)準(zhǔn),但問題是它們脫離標(biāo)準(zhǔn)有多遠(yuǎn)?資料的使用者必須對非概率抽樣進(jìn)行評估。評估應(yīng)該建立在對非概率抽樣方法論仔細(xì)評價(jià)的基礎(chǔ)上。那么,使用的方法是否能夠覆蓋目標(biāo)總體的各個(gè)部份?或者樣本是否無目的地傾向于一些特殊方面?這些是仔細(xì)評估時(shí)必須考慮的。經(jīng)常使用的非概率抽樣有四類:便利抽樣、判斷抽樣、配額抽樣和滾雪球抽樣。

      4.5.1便利抽樣

      顧名思義,便利抽樣被應(yīng)用是因?yàn)楸憷H鏔rito-Lay公司的R&D部門經(jīng)常讓員工對其開發(fā)的新產(chǎn)品進(jìn)行初步測試。固然,這個(gè)方法看上去有很大的偏差,然而他們不要求雇員評估現(xiàn)有的產(chǎn)品或競爭對手的產(chǎn)品進(jìn)行比較。他們要求雇員提供總的感覺(如成色、脆度、油膩度)。在類似情況下,便利抽樣是獲得必要信息的有效而實(shí)用的方法。在進(jìn)行試探性調(diào)研時(shí),即缺乏經(jīng)驗(yàn)而急需真實(shí)數(shù)據(jù)的近似值時(shí),這種方法很實(shí)用。

      有人認(rèn)為,與概率抽樣相比,便利抽樣應(yīng)用比率增長很快。其原因是由于在低發(fā)生率和難以分類情形下消費(fèi)者資料庫的可獲得性。例如,一家公司開發(fā)出了一種新型腳癬治療儀,并且需要在受疾病困擾的人中做一次調(diào)查。它發(fā)現(xiàn)這些人僅占人口的4%。這表明在電話調(diào)查中,調(diào)查員在找到一個(gè)忍受腳癬痛苦的人之前,不得不與25個(gè)人交談。一個(gè)變通的辦法是努力取得一個(gè)已知目標(biāo)者(忍受腳癬痛苦者)的名單。這樣,調(diào)查成本和所需時(shí)間就會(huì)大大減少。盡管一個(gè)名冊中也許會(huì)包括那些購買產(chǎn)品時(shí)使用優(yōu)惠券的人,公司仍甘愿低成本快速獲得低質(zhì)量的樣本。從Survey Sampling 公司可以獲得3000多份類似的名單,具體可參見www.ssisamples.com/lite/lite.qry。

      4.5.2 判斷抽樣

      判斷抽樣適用于調(diào)查員基于選擇標(biāo)準(zhǔn)抽取典型樣本的任何情形。購物中心進(jìn)行的大部分市場或產(chǎn)品測試調(diào)查基本上都屬于判斷抽樣。就市場測試而言,是選擇一個(gè)還是幾個(gè)市場需看它們能否代表全及總體。為調(diào)查產(chǎn)品品味而選擇購物中心取決于調(diào)查人員的判斷。特殊的購物中心會(huì)吸引不同階層的消費(fèi)者,而這些人恰好是某種被調(diào)查產(chǎn)品的既定調(diào)查群。

      4.5.3 配額抽樣

      配額抽樣是根據(jù)一定標(biāo)志對總體分層或分類后,從各層或各類中主觀地選取一定比例的調(diào)查單位的方法。所謂“配額”是指對劃分出的總體各類型都分配給一定數(shù)量而組成調(diào)查樣本。因而,配額抽樣較之判斷抽樣加強(qiáng)對樣本結(jié)構(gòu)與總體結(jié)構(gòu)在“量”的方面的質(zhì)量控制,能夠保證樣本有較高的代表性。配額抽樣類似于隨機(jī)抽樣中的分層抽樣。不過,有兩點(diǎn)重要的區(qū)別:配額抽樣的被調(diào)查者不是按隨機(jī)原則抽出來的,而分層抽樣必須遵守隨機(jī)原則。其次,在分層抽樣中,用于分類的標(biāo)志,應(yīng)聯(lián)系研究目標(biāo)來選擇,而配額抽樣無此要求。

      4.5.4 滾雪球抽樣

      滾雪球抽樣是指,通過使用初始被調(diào)查者的推薦來挑選另外的被調(diào)查者的抽樣程序。這種方法用于低發(fā)生率或少見的總體中進(jìn)行抽樣。至于低發(fā)生率或少見的總體,是指全及總體中所占比例很少的那一部分。要找到這些少見總體中的個(gè)體,代價(jià)是很大的,使得調(diào)查人員因?yàn)橘M(fèi)用的原因不得不使用例如滾雪球抽樣那樣的技巧。例如,某保險(xiǎn)公司可能想得到過去6個(gè)月中從健康保險(xiǎn)轉(zhuǎn)入康復(fù)組織的全國性個(gè)體樣本,為了找到符合條件的1000個(gè)樣本。可能需要在全國范圍內(nèi)進(jìn)行大量的調(diào)查。然而,若先取得特征總體中200個(gè)最初樣本單位,平均從每個(gè)最初調(diào)查者那里得到另外4個(gè)人的名單,以此來完成這1000個(gè)樣本單位就經(jīng)濟(jì)多了。

      滾雪球抽樣調(diào)查的優(yōu)點(diǎn)是調(diào)查費(fèi)用大大減少,然而這種成本的節(jié)約是以調(diào)查質(zhì)量的降低為代價(jià)的。整個(gè)樣本很可能有偏差,因?yàn)槟切﹤€(gè)體的名單來源于那些最初調(diào)查過的人,而他們之間可能十分相似。結(jié)果,樣本可能不能很好地代表整個(gè)總體。另外,如果被調(diào)查者不愿意提供人員來接受調(diào)查,那么這種方法就會(huì)受阻。

      小結(jié)

      總體或全域是指能提供所需信息的一群人的總和。普查指從總體的所有個(gè)體中搜集令人滿意的信息。一個(gè)樣本僅僅是總體的一個(gè)子集。制定抽樣調(diào)查計(jì)劃的步驟如下:定義同質(zhì)總體、選擇資料收集的方法、選擇抽樣框、選擇抽樣方法、決定樣本容量、確定一個(gè)可執(zhí)行的實(shí)施計(jì)劃、然后執(zhí)行抽樣調(diào)查計(jì)劃。抽樣框是列出總體中個(gè)體名單的方法,樣本就是從中抽出來的。

      由于概率抽樣法是按隨機(jī)原則抽選樣本,以致總體中每個(gè)單位者可能按已知非零的概率被抽中。非概率抽樣調(diào)查法包括按非隨機(jī)原則從總體中選擇特定單位的各種方法。概率抽樣法有一些非概率抽樣法所沒有的優(yōu)點(diǎn),包括信息來源于總體中具有代表性的各層次,抽樣誤差可被計(jì)算出來,并且可以用調(diào)查結(jié)果來估計(jì)總體。然而,概率抽樣法的費(fèi)用比非概率抽樣法高,并且通常需用更多的時(shí)間來設(shè)計(jì)和實(shí)施調(diào)查。

      抽樣調(diào)查結(jié)果的準(zhǔn)確度是由抽樣誤差和非抽樣誤差決定的。抽樣誤差是因?yàn)闃颖静荒芾硐氲卮砜傮w特征造成的。有兩種形式的抽樣調(diào)查誤差:隨機(jī)性誤差和管理性誤差。隨機(jī)性抽樣誤差是因?yàn)榕既皇录a(chǎn)生的,不可避免,只能通過增大樣本容量而減少誤差。

      概率抽樣法包括簡單隨機(jī)抽樣、等距抽樣、分層抽樣和整群抽樣。非概率抽樣包括便利抽樣、判斷抽樣、配額抽樣和滾雪球抽樣。

    上一篇下一篇
?