Publication View

Efficient Crawling Through URL Ordering (1998)

Abstract
In this paper we study in what order a crawler should visit the URLs it has seen, in order to obtain more "important" pages first. Obtaining important pages rapidly can be very useful when a crawler cannot visit the entire Web in a reasonable amount of time. We define several importance metrics, ordering schemes, and performance evaluation measures for this problem. We also experimentally evaluate the ordering schemes on the Stanford University Web. Our results show that a crawler with a good ordering scheme can obtain important pages significantly faster than one without. 1. Introduction A crawler is a program that retrieves Web pages, commonly for use by a search engine [Pinkerton 1994] or a Web cache. Roughly, a crawler starts off with the URL for an initial page P 0 . It retrieves P 0 , extracts any URLs in it, and adds them to a queue of URLs to be scanned. Then the crawler gets URLs from the queue (in some order), and repeats the process. Every page that is scanned is given...

Publication details
Download http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.55.6710
Source http://www-db.stanford.edu/pub/papers/efficient-crawling.ps
Contributors CiteSeerX
Repository CiteSeerX - Scientific Literature Digital Library and Search Engine (United States)
Type text
Language English
Relation 10.1.1.31.1768, 10.1.1.43.1111, 10.1.1.18.1519, 10.1.1.30.5342, 10.1.1.2.447, 10.1.1.1.7474, 10.1.1.18.4230, 10.1.1.40.9845, 10.1.1.20.814, 10.1.1.2.4767, 10.1.1.102.9301, 10.1.1.36.1958, 10.1.1.1.9569, 10.1.1.19.3985, 10.1.1.14.4717, 10.1.1.51.4870, 10.1.1.17.2266, 10.1.1.123.6711, 10.1.1.1.2671, 10.1.1.115.6215, 10.1.1.1.9422, 10.1.1.20.6331, 10.1.1.13.2035, 10.1.1.21.2434, 10.1.1.115.7609, 10.1.1.11.8830, 10.1.1.128.2782, 10.1.1.4.4956, 10.1.1.21.3351, 10.1.1.20.4777, 10.1.1.1.8703, 10.1.1.16.1766, 10.1.1.13.4020, 10.1.1.64.8403, 10.1.1.14.1830, 10.1.1.14.3321, 10.1.1.58.8360, 10.1.1.11.3290, 10.1.1.78.1466, 10.1.1.21.3938, 10.1.1.1.9881, 10.1.1.1.6934, 10.1.1.16.9952, 10.1.1.3.238, 10.1.1.20.5276, 10.1.1.34.9963, 10.1.1.18.9864, 10.1.1.19.7820, 10.1.1.13.5836, 10.1.1.21.6902, 10.1.1.35.1749, 10.1.1.39.6470, 10.1.1.84.7401, 10.1.1.24.2443, 10.1.1.105.6237, 10.1.1.4.1080, 10.1.1.80.2984, 10.1.1.21.8085, 10.1.1.10.4087, 10.1.1.13.4113, 10.1.1.35.4241, 10.1.1.35.5537, 10.1.1.51.3177, 10.1.1.68.1685, 10.1.1.72.2657, 10.1.1.58.7211, 10.1.1.101.6190, 10.1.1.102.4388, 10.1.1.107.6656, 10.1.1.61.5886, 10.1.1.62.1549, 10.1.1.86.7992, 10.1.1.90.2436, 10.1.1.127.939, 10.1.1.13.426, 10.1.1.10.8182, 10.1.1.108.4901, 10.1.1.11.3494, 10.1.1.11.7835, 10.1.1.20.6091, 10.1.1.25.2371, 10.1.1.3.5243, 10.1.1.58.6792, 10.1.1.60.4722, 10.1.1.80.6273, 10.1.1.89.14, 10.1.1.63.7587, 10.1.1.114.4342, 10.1.1.117.4096, 10.1.1.139.2894, 10.1.1.12.4064, 10.1.1.59.3428, 10.1.1.100.7056, 10.1.1.100.8442, 10.1.1.101.7030, 10.1.1.101.8590, 10.1.1.102.1837, 10.1.1.102.3668, 10.1.1.102.9606, 10.1.1.100.1725, 10.1.1.107.1706, 10.1.1.107.5859, 10.1.1.108.8198, 10.1.1.109.2823, 10.1.1.109.669, 10.1.1.11.9332, 10.1.1.12.4308, 10.1.1.13.1497, 10.1.1.19.4036, 10.1.1.2.3872, 10.1.1.58.6859, 10.1.1.62.8450, 10.1.1.63.7805, 10.1.1.65.3035, 10.1.1.65.6743, 10.1.1.65.9812, 10.1.1.66.6437, 10.1.1.67.4492, 10.1.1.71.5913, 10.1.1.71.8558, 10.1.1.72.1464, 10.1.1.73.2622, 10.1.1.74.4544, 10.1.1.75.6026, 10.1.1.76.4364, 10.1.1.77.6773, 10.1.1.78.1937, 10.1.1.78.4694, 10.1.1.111.1769, 10.1.1.78.7794, 10.1.1.120.1258, 10.1.1.80.1680, 10.1.1.83.6528, 10.1.1.84.4434, 10.1.1.84.8326, 10.1.1.85.3388, 10.1.1.85.6202, 10.1.1.85.9446, 10.1.1.86.4174, 10.1.1.87.4238, 10.1.1.87.5196, 10.1.1.88.3564, 10.1.1.88.3605, 10.1.1.90.7704, 10.1.1.91.1720, 10.1.1.91.6734, 10.1.1.93.9103, 10.1.1.94.3857, 10.1.1.95.2080, 10.1.1.95.3731, 10.1.1.95.8510, 10.1.1.96.6426, 10.1.1.97.4431, 10.1.1.98.6037, 10.1.1.99.585, 10.1.1.113.544, 10.1.1.115.8292, 10.1.1.116.8002, 10.1.1.132.5813, 10.1.1.127.634, 10.1.1.137.2560, 10.1.1.138.5020, 10.1.1.32.7489, 10.1.1.32.9347, 10.1.1.33.7805, 10.1.1.27.4343, 10.1.1.28.6257, 10.1.1.21.5449, 10.1.1.21.7332, 10.1.1.23.6092, 10.1.1.23.9064, 10.1.1.24.8051, 10.1.1.16.3924, 10.1.1.16.8706, 10.1.1.19.5070, 10.1.1.19.8194, 10.1.1.1.9512, 10.1.1.12.1568, 10.1.1.12.1902, 10.1.1.13.2814, 10.1.1.14.4659, 10.1.1.14.5928, 10.1.1.6.8172, 10.1.1.3.7723, 10.1.1.3.8375, 10.1.1.3.8886, 10.1.1.58.1782, 10.1.1.58.2182, 10.1.1.58.5703, 10.1.1.2.2884, 10.1.1.1.3410, 10.1.1.1.4382, 10.1.1.1.5528, 10.1.1.1.8679, 10.1.1.58.6958, 10.1.1.58.7140, 10.1.1.61.5372, 10.1.1.61.7172, 10.1.1.62.593, 10.1.1.140.2507