本發(fā)明提供一種面向用戶(hù)生成內容的分布式采集方法,包括:1)根據采集頁(yè)面的采集量和采集難度劃分頁(yè)面類(lèi)型,基于頁(yè)面類(lèi)型構建采集任務(wù)并將其加入采集隊列;其中,所述采集任務(wù)包括復合采集任務(wù),所述復合采集任務(wù)根據采集量和采集難度將多個(gè)同類(lèi)型的采集頁(yè)面劃入;2)并發(fā)地從所述采集任務(wù)隊列取出采集任務(wù),執行該采集任務(wù)并返回所采集的信息。本發(fā)明還提供了相應的分布式采集系統,包括主控節點(diǎn)和多個(gè)子節點(diǎn),主控節點(diǎn)用于構建并維護采集任務(wù)隊列;各個(gè)所述子節點(diǎn)用于并發(fā)地執行采集任務(wù)。本發(fā)明的采集速度快,顯著(zhù)地提高了UGC新聞采集的實(shí)時(shí)性;可以適用于各種不同類(lèi)型頁(yè)面的采集,執行多樣化的采集任務(wù);能夠規避采集對象的監控措施。


