想必大家都知道,在從事網(wǎng)絡(luò)爬蟲工作之前,我們需要掌握很多知識,除了基本的爬蟲原理之外,我們還需要學(xué)習(xí)框架、數(shù)據(jù)庫等,其中就包含MongoDB。那么為什么Python爬蟲使用MongoDB呢?我們一起來看看吧。
Python爬蟲為什么使用MongoDB呢?
1.文檔結(jié)構(gòu)的存儲方式:簡單講就是可以直接存Json、list;
2.不要事先定義表,隨時可以創(chuàng)建;
3.表中的數(shù)據(jù)長度可以不一樣。
比如說:你的第一條記錄有10個值,第二條記錄就不要規(guī)定10個值了,對爬蟲很亂的數(shù)據(jù)來講,這樣是非常適用的。
什么是MongoDB呢?
MongoDB是一個基于分布式文件存儲的數(shù)據(jù)庫。由C++語言編寫。旨在為WEB應(yīng)用提供可擴展的高性能數(shù)據(jù)存儲解決方案。
MongoDB是一個介于關(guān)系數(shù)據(jù)庫和非關(guān)系數(shù)據(jù)庫之間的產(chǎn)品,是非關(guān)系數(shù)據(jù)庫當(dāng)中功能最豐富,最像關(guān)系數(shù)據(jù)庫的。它支持的數(shù)據(jù)結(jié)構(gòu)非常松散,是類似json的bson格式,因此可以存儲比較復(fù)雜的數(shù)據(jù)類型。Mongo最大的特點是它支持的查詢語言非常強大,其語法有點類似于面向?qū)ο蟮牟樵冋Z言,幾乎可以實現(xiàn)類似關(guān)系數(shù)據(jù)庫單表查詢的絕大部分功能,而且還支持對數(shù)據(jù)建立索引。
MongoDB有什么功能呢?
它的特點是高性能、易部署、易使用,存儲數(shù)據(jù)非常方便,主要功能特性有:
面向集合存儲,易存儲對象類型的數(shù)據(jù);
模式自由、支持動態(tài)查詢、支持完全索引,包含內(nèi)部對象;
支持查詢、支持復(fù)制和故障恢復(fù);
使用高效的二進制數(shù)據(jù)存儲,包含大型對象;
自動處理碎片,以支持云計算層次的擴展性;
支持GOlang、Ruby、Python、Java、C++、PHP、C#等多種語言;
支持存儲格式為BSON,一般json的擴展;
可通過網(wǎng)絡(luò)訪問。