日韩欧乱色一区二区三区在线_久久―日本道色综合久久_欧美日本一区二区_网曝91综合精品门事件在线

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  技術干貨  > 要求找出a、b文件共同的url?

要求找出a、b文件共同的url?

來源:千鋒教育
發布人:wjy
時間: 2022-09-14 15:49:40 1663141780

  給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url?

  可以估計每個文件安的大小為5G×64=320G,遠遠大于內存限制的4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。

找出a、b文件共同的url

  分而治之/hash映射: 遍歷文件a,對每個url求取,然后根據所取得的值將url分別存儲到1000個小文件(記為,這里漏寫個了a1)中。這樣每個小文件的大約為300M。遍歷文件b,采取和a相同的方式將url分別存儲到1000小文件中(記為)。這樣處理后,所有可能相同的url都在對應的小文件()中,不對應的小文件不可能有相同的url。然后我們只要求出1000對小文件中相同的url即可。

  hash_set統計: 求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然后遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。

  如果允許有一定的錯誤率,可以使用Bloom filter,4G內存大概可以表示340億bit。將其中一個文件中的url使用Bloom filter映射為這340億bit,然后挨個讀取另外一個文件的url,檢查是否與Bloom filter,如果是,那么該url應該是共同的url(注意會有一定的錯誤率)。”

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
開班信息
北京校區
  • 北京校區
  • 大連校區
  • 廣州校區
  • 成都校區
  • 杭州校區
  • 長沙校區
  • 合肥校區
  • 南京校區
  • 上海校區
  • 深圳校區
  • 武漢校區
  • 鄭州校區
  • 西安校區
  • 青島校區
  • 重慶校區
  • 太原校區
  • 沈陽校區
  • 南昌校區
  • 哈爾濱校區
主站蜘蛛池模板: 淳安县| 逊克县| 怀宁县| 玛多县| 定结县| 饶平县| 新干县| 高雄市| 错那县| 扎兰屯市| 夹江县| 丰都县| 博湖县| 庆元县| 凤山市| 临武县| 沙雅县| 建宁县| 保亭| 呼伦贝尔市| 永清县| 郯城县| 黄骅市| 绥江县| 澄城县| 涿州市| 永新县| 西乌珠穆沁旗| 辛集市| 洱源县| 惠州市| 肇东市| 阿合奇县| 开远市| 凌源市| 连平县| 琼结县| 金昌市| 历史| 玉树县| 卓尼县|