Web crawler 有人能推荐蜘蛛吗?
是否有一个网络蜘蛛可以抓取论坛的内容 我的公司不提供互联网连接,所以我想画一个论坛的线程,然后我可以看看公司的内容 我已经尝试过WebLech,它可以只绘制静态页面。试试。我用它来镜像整个(或部分)网站供离线使用,效果很好。请参阅以获取介绍。+1我甚至使用wget通过FTP镜像站点作为一种备份
是否有一个网络蜘蛛可以抓取论坛的内容 我的公司不提供互联网连接,所以我想画一个论坛的线程,然后我可以看看公司的内容 我已经尝试过WebLech,它可以只绘制静态页面。试试。我用它来镜像整个(或部分)网站供离线使用,效果很好。请参阅以获取介绍。+1我甚至使用wget通过FTP镜像站点作为一种备份
我有一个页面,其中包含许多url。此URL从数据库动态生成。 当我使用Goggle站长工具检查我的站点时,我发现数据库中的一个url有语法错误,站长工具给了我404(未找到)错误。结果我纠正了那个错误。 那天之后,Goggle仍然给我同样的信息(未发现错误)。 为什么会发生这种情况?为了解决这个问题,我做了什么? 谢谢。请稍等。G将在几天后再次抓取您的页面。在那之后,问题可能会得到解决。我已经等了三个星期了。但是这个错误每天都在重复。我还需要等待吗?作为一个选项,尝试重新提交您的站点地图,并使用
我必须使用crawler4j-4.1.jar及其依赖项在ssl网站上爬行。我可以添加https url作为我的第一个种子吗 是的,你可以。Crawler4j还支持ssl认证站点
我们正在编写一个网络爬虫使用木偶。 我们编写的傀儡爬虫程序执行并爬网网站URL,对于页面大约为1500-5000的网站没有问题 然而,当我们执行网站超过5000,如果它在中间由于一些错误或崩溃,那么它需要重新启动。 如果发生错误,如何使基于木偶的网络爬虫从最后一次爬网状态恢复? 木偶戏里有内置的功能吗? 如何让这个傀儡无头chrome网络在队列系统中爬行?我自己用puppeter.js构建了一个爬行器来爬行Google和Bing,我为此奋斗了很长时间。我强烈建议在每次浏览器崩溃或页面调用挂起时使
当用户进入我的页面时,我必须进行另一个AJAX调用…以在div中加载数据。 这就是我的应用程序的工作原理 问题是…当我查看此代码的源代码时,它不包含该AJAX的源代码。当然,当我使用wget URL时,它也不会显示ajaxhtml。有道理 但是谷歌呢?谷歌能像浏览器一样抓取内容吗?如何让谷歌像用户看到的那样抓取我的页面?更新:从我找到的这个文档的答案来看,它是关于的文档集合的一部分 简言之,这意味着您需要使用而不是,然后为URL路径/to/path?\u转义\u片段=data提供真正的服务器端答
我正在处理由Heritrix爬网生成的ARC文件。当我在Wayback机器中查看这些页面时,看起来大部分图形都是从本地机器加载的,因此我假设这些图形存储在ARC文件中。对吗?如果是这样,提取图像的最佳方法是什么?我找到了一个解决方案,一个名为arc_extractor的perl脚本: 它提取ARC文件中的所有文件,并根据接收文件的站点按文件夹分隔。是的,它确实包括图像文件 剧本不太优雅。。。因此,如果有人有任何其他建议,我会有兴趣了解他们
我正在尝试编写一个网络爬虫程序,但现在我想知道:存储所有URL的最佳方法是什么,这样爬虫程序就可以一起工作,但不会相互干扰 例如: 爬虫程序1找到一个包含100个URL的页面 爬虫程序2查找没有任何URL的页面 爬虫程序1和2应共享爬虫程序1找到的100个URL 我的想法(两种不同的方法) 让爬虫程序扫描页面以查找新的URL 将所有找到的URL保存在队列(优先队列)中,该队列由爬虫程序的所有实例共享 一旦队列变得太大(例如,最大大小的80%),就将URL外包到数据库 让爬虫保存HTML,
有一个非常著名的论坛,我想实时获得最新的帖子,并将其发布在我的博客上。该论坛没有API 我正在考虑每5秒钟向论坛发送一次请求,检查是否有新帖子并复制 但是每天我都要发送7200个请求,这很糟糕,不是吗 请问有什么方法/建议吗?简单方法RSS怎么样?thanx。我在谷歌上搜索RSSthanx Robin。当我尝试feed43时,它返回了论坛51个帖子的列表。然而,我只想要最新的(51)。你知道我怎样才能得到最新的消息吗?所有帖子格式之间没有模式差异,所以我无法获取最新的。谢谢,最后,我决定使用解析
我希望有人能帮我解决这个问题。我正在用PHP编写一个spider应用程序,它编译一个域中唯一URL的列表,处理每个唯一URL上的HTML数据,然后生成关于这些页面的统计数据 我的问题在于,当参数值不同时,是否知道我插入的URL对于我的列表是唯一的 例如,我的spider收集的两个URL在技术上是唯一的(“replytocom”的参数值不同),但也直接指向同一页面: 这些链接是你在博客上可以找到的,它可以让你更容易地回复特定的评论,同时仍然使用相同的回复形式。这就是我的问题所在:它们都是同
我的设置与相同。在爬网模式下运行爬网程序时,出现以下错误: [Thread-130-status-executor[109]]错误c.d.s.p.AbstractStatusUpdaterBolt-存储时捕获异常 com.mysql.jdbc.MysqlDataTruncation:数据截断:第1行“nextfetchdate”列的日期时间值不正确:“2099-12-31 00:00:00” 在com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.jav
我正在尝试提取我的所有域子网站,并将它们添加到excel工作表中。到目前为止,我使用的所有网络爬虫只从爬虫基金会页面报告URL。我想知道是否有一种方法来报告URL是无法访问的基础页,如果不是,什么是一些可能的解决方案。 爬虫通常用于访问许多网站和他们的网页。若你们想在一个域中列出网页的网址,你们不需要使用网络爬虫。 保留从主页传出的链接列表。检查它们是否属于同一个域。在访问每个页面的列表中迭代,每次都重新检查,直到您使用整个域。请记住,如果没有指向同一域中特定页面的任何链接,则无法访问该页面。如
嗨,我正试图为我的网站生成一个robots.txt文件,但我在处理多语言URL时遇到了一个问题。 例如,我想禁用此URL http://www.example.com/en/shop http://www.example.com/ar/shop http://www.example.com/fr/shop 那么我必须写作吗 Disallow: /en/shop Disallow: /ar/shop Disallow: /fr/shop 还是这就够了 Disallow: /*/shop 多谢
我可以知道nutch对待插件url规范化程序吗。 例如,我给了nutch 10个URL的输入,以抓取10个URL。 nutch如何在db_中保存URL获取该值基于urlnormalizer,否则将使用与输入URL相同的名称进行保存
我习惯于创建一些爬虫来编译信息,当我来到一个网站时,我需要这些信息,我开始为该网站创建一个新的爬虫,大多数时候使用shell脚本,有时使用PHP 我的方法是使用一个简单的for来迭代页面列表,一个wget下载它并sed,tr,awk或其他实用程序来清理页面并获取我需要的特定信息 所有过程都需要一些时间,具体取决于站点,下载所有页面需要更多时间。我经常进入一个AJAX站点,这会使一切变得复杂 我想知道是否有更好的方法,更快的方法,甚至一些应用程序或语言来帮助这项工作。使用正则表达式解析内容是一个坏
我想在网页上搜索某些关键字和关键短语,并将它们的存在作为继续解析网页和提取内容字段的条件。有人能提出解决办法吗 一般来说,我认为代码应该是这样的: # All the preceding information for the spider (imports, class declarations, rules etc.). if response.xpath('//*[contains(/text(), "some keyword" or "some key phrase" or "som
我有一个小项目,我正在尝试使用crawler4j4.1对几百万页进行爬网(我对这个数字没有确切的估计)。我使用的是BasicCrawler示例,只是对它做了一些小的修改。 在我开始爬行Crawler4J日志后的一段时间,显示以下错误不断出现 [Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com. 我曾尝试将礼貌策略时间提高到1000
我是否可以发送结果而不是存储在JSON文件中,将其发送到PHP 我有这两个文件 settings.json { "outputFile" : "C:\\wamp\\www\\drestip\\admin\\crawls\\mimshoes.json", "logFile" : "C:\\wamp\\www\\drestip\\admin\\crawls\\mimshoes.tsv", "pause" : 1, "local" : false, "connections" : 3, "cookie
我希望抓取整个网站,并保存它在本地脱机。它应该有两个部分: 认证 这需要使用Java实现,我需要重写HttpsURLConnection逻辑来添加两行身份验证(Hadoop),以便获取url响应(keytab)。如下所示: AuthenticatedURL.Token token = new AuthenticatedURL.Token(); URL ur = new URL(url); //HttpsURLConnection.setDefaultHostnameV
我对这类事情还不熟悉,但我想创建一个机器人,它可以抓取某些站点,并每隔几个小时左右更新另一个站点(使用它进行NBA统计) 我相信我在编写机器人程序时不会遇到问题。我主要涉猎了java(Firefox navigator)插件、JavaHTTP请求和普通的旧机器人类 我想咨询的是我应该在哪里以及如何维护/运行代码 我想我需要把它放在某个服务器上。我可以买我自己的(最终需要)或者我可以把它放在某个地方。网上有没有可靠地(或者免费)提供这项服务的地方 至于如何设置,有哪些常见的设置?我对Java比较熟
我的主页有到a.html和b.html页面的链接。在与这两个页面相同的目录中,我有c.html和d.html两个页面,它们没有被任何其他页面链接到 我的问题是,webcrawlers是否仅仅因为在目录中就索引了c.html和d.html?或者他们只从主页开始链接,只索引主页加上a和b页?谢谢。大多数网络爬虫(特别是谷歌的)都是专有程序,所以你无法确定它们在细节中是如何工作的 网络爬虫的细节极其复杂。据说谷歌的爬虫(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌的人说他们
我已经使用Jsoup编写了Java代码,或者从网站中提取了一些数据。我是通过使用Firefox插件“Live HTTP headers”读取标题并在登录时传递它们来实现的。虽然它工作得很好,但会话每两天就过期一次。我写这段代码的主要座右铭(完全自动化)仍然没有实现 如果我重新登录并使用新的“身份验证id”和“cookie id”更新代码,代码将重新开始工作 有人能告诉我怎么做吗 另外,我也为网站developer.getjar.com做了同样的工作,它就像一个魔咒。到现在还没有给我任何问题 谢谢
我想浏览一个关于一些问题和答案的3层网站。其结构简单,如下所示: 第二深度->包含元数据(问题描述) 第三深度->包含实际数据(问题和答案) 我使用response.meta['depth']作为条件,编写了如下的零碎代码 有没有更好的办法 class DmzSpider(CrawlSpider): rules = ( Rule(SgmlLinkExtractor(deny=('index\.htm',callback='parse_list'))),
我正在做我个人的学士学位期末项目,大约50天后到期。我希望创建的网站是一个用户可以分享他们觉得有趣的文章链接的网站(这让他们很开心)。这是一种类似reddit的格式,用户可以在全球范围内发布文章,其他人可以根据文章的快乐程度对文章进行投票。最热门的趋势帖子将显示在列表的顶部,最不受欢迎的帖子将显示在底部 该项目更令人兴奋的部分是实现一个NLP机器学习服务,该服务在网络上搜索与热门文章相似的文章,并自动将文章发布到网站上(除了投票之外,无需用户输入)。为了做到这一点,我考虑在服务器上运行一个斯坦福
我需要获取特定URL列表的HTTP状态码。此外,当邮递员遇到带有重定向(3XX状态代码)的URL时,我需要它显示原始URL重定向的位置。我知道有很多程序可以轻松地实现这一点(尖叫青蛙、深海爬行等),但我还需要利用Postman的另一个功能,即在请求时传递头值。我真的很惊讶,没有一个现成的网络爬虫能够做到这一点 无论如何,我偶然发现了Postman的这篇博文,它似乎是我所需要的50%,但我对如何修改测试脚本以从静态列表操作而不是通过抓取网页来构建动态列表没有任何线索 任何帮助都将不胜感激!!也可
我有一个将托管在tclhttpd服务器上的应用程序。我想知道是否有一种方法可以阻止网络爬虫读取目录结构。 PS:我读到了robots.txt。但我发现的问题是,即使我提供robots.txt文件,也无法阻止机器人阅读更多内容。 非常感谢您的帮助。 TIA有几种方法可以做到这一点,但最简单的方法可能是将Tcl Web服务器放在nginx实例后面。(Apache也可以很好地工作,但我不喜欢配置Apache;它不像我想的那样工作。)然后,您可以使用为该系统记录的所有常用方法来处理爬行器和爬虫。您还可以
我已经编写了NutchRESTAPI,它是generate类型的,但它并没有创建段。 命令是 curl -H "Content-Type: application/json" -X POST -d '{ "crawlId":"crawl01", "type":"GENERATE", "confId":"default", "args
一位朋友问我这个问题,我无法回答 他问:我正在制作这个网站,你可以在这里存档你的网站 它的工作原理是这样的,你进入你的网站,比如something.com,然后我们的网站抓取该网站上的内容,比如图片,所有这些,然后上传到我们的网站。然后,人们可以在oursite.com/something.com上查看站点的精确副本,即使挂起something.com的服务器已关闭 他怎么能这样做?(php?)还有什么要求?使用wget。gnuwin32包中的linux版本或windows版本 听起来你需要创建
我写了一篇短文。我获取了所有的网站,但它们都在我的硬盘上。 现在我想对它们进行分析,这样我就可以编写一个简单的界面,比如www.google.de,并在我获取的页面中搜索信息 问题是如何“快速”找到重要信息。因此,计算非常重要。它可以是实时的,也可以是在提取之后。我的想法是写一份含有英语单词列表的口述材料,并数一数词条。。。或者怎么办?我需要学习如何提取信息并压缩它们。但是我不知道去哪里找 爬虫是基于C++的MySQL,其中链接存储。 我希望我的问题是清楚的D 顺便说一句,我的英语很差,但在德语
每次我运行时。/nutch crawl url-dir crawl-depth 3-topN 5。纳奇决定抛出这个错误。我的nutch-site.xml和nutch-default.xml都设置了 Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fet
我正在使用Norconex HTTP收集器和导入器。在哪里可以找到标记器可用字段的信息。即,将在此处显示的字段: <tagger class="com.norconex.importer.handler.tagger.impl.KeepOnlyTagger"> <fields>id,title,keywords,description,content,document.reference, document.contentType</fields>
我有一个网站,我在上面实现了无限滚动:当用户到达页面末尾时,会发出一个AJAX调用,并将新内容附加到页面底部。然而,这意味着搜索爬虫无法获取第一次“分页符”之后的所有内容。例如,我有一个页面,其中列出了带有“infographic”标记的所有项目。实际上有几十个这样的项目,但爬虫程序只能看到前10个,因为其他项目是根据内容相对于浏览器窗口的位置加载的。由于爬虫程序没有浏览器窗口,因此根本不会加载新项目 那么,让搜索爬虫通过无限卷轴访问网页的全部内容,同时也让用户享受无限卷轴和无分页的正确方式是什
我需要问一些关于Geliyobot的问题,在我的网站首次发布的站点地图中,在发布机器人之后,我在5月份的url中看到了,请帮助我了解这个机器人是什么? 网络搜索引擎Geliyoo Search是该公司最受欢迎的服务。Geliyoo还开发了自己的搜索引擎爬虫,Geliyoo Spider。(GeliyooBot/1.0),这是第一个土耳其搜索引擎机器人,GeliyooBot/1.0,是为Geliyoo搜索引擎建立可搜索索引而创建的。通过在robots.txt文件中使用适当的命令,或在网页中添加me
我用这个刮刀来爬柱子。我按照说明填写我的应用程序ID和应用程序机密,并将“ChinaEUMission”填写为页面ID。但是,始终存在错误: <urlopen error [Errno 65] No route to host> Error for URL https://graph.facebook.com/v2.6/355117227946201_512441325547123/?fields =reactions.type(LIKE).limit(0).summary(tota
我正在学习本教程,并尝试了以下代码,但当我使用ls命令时,它没有显示.env文件。在运行docker compose build命令时,还显示未设置MYSQL_DATA_PATH变量。有人能帮忙吗 git config --global user.name "username" git config --global user.password "paswd" git clone https://github.com/username/eth-indexer.git
我正在编写一个定制的爬虫程序,需要知道是否对特定的url进行了爬虫,所以我不会两次添加相同的url。现在我正在使用mysql存储每个url的哈希值。但我想知道,如果我有一大组URL,比如说,数亿个,这是否会变得非常缓慢 还有其他存储URL的方法吗?人们用lucene来做这件事吗?或者有具体的数据结构来实现这一点吗?您还没有指定您的开发平台,但是有一个非常好的数据结构称为Trie() 在java、C++、C语言……中有很多实现。p> 你可能想试试伯克利DB太晚了! 但您可以使用一个示例来描述在哪里
我有一个元素链接。(链接是) 我正在尝试使用 stringurl=link.attr(“href”)它给出一个空字符串。为什么? (abs:href也已尝试。不起作用)您应该深入到特定元素,然后使用选择器 link.select("li a").attr("href") 在这种情况下,我们需要的属性“a”元素,而不是的“li”
如何查找网站的sitemap.xml文件 e、 g.转到stackoverflow/sitemap.xml会给我一个404 stackoverflow/robots.txt中写入以下内容: “从技术上讲,这是无效的,因为出于某些该死的原因 站点地图路径必须是绝对路径,而不是相对路径。 站点地图:/Sitemap.xml“ 我认为对于站点地图的位置没有一个标准。这就是为什么在使用谷歌网站管理员工具添加网站地图时,您应该为网站地图指定任意URL的原因。网站地图的位置会影响它可以包含哪些URL,但除此
我想建立一个爬虫来收集(免费)亚马逊应用商店的android应用程序。但我在它的网站上找不到任何下载链接。 我只是想知道是否有办法使用PC(或服务器)抓取亚马逊应用商店。是否有相关的项目或API?您可能想看看
我想从在线数据库中提取数据: 在左侧,有一个“发布数据”部分,我可以在其中指定音乐的开始和结束日期。无论我选择什么日期,URL“”都不会发生任何更改 我想写一个小爬虫,它从URL“”开始,在我选择一个过滤日期(即“2010-2014”)后将所有数据取出。如何将日期部分与默认URL相关联,以便程序可以从第一页开始,并按照所有链接获取该数据范围内的所有数据 URL本身不起作用,因为它没有为我提供爬行的起始页 谢谢。这可行吗?谢谢。
我的公司从一个旧的CMS合并到一个新的CMS,并最终按照逻辑顺序构建了网站。我现在的家伙,将需要找到大约500页,现在是404找到新的网页,并插入重定向文件中的信息。这500页将作为旧网站的列表呈现给我,我必须从中找到该内容的新网站版本 当然,没有一个URL匹配(旧的带有ID,新的带有友好URL)。但对绝大多数人来说,内容是一样的。请注意,我可以访问旧站点的暂存版本,而新站点是实时的,并且引用良好 知道了这一点,我想知道是否有人可以告诉我一些技巧,或许可以自动化,或者至少可以减轻手动抓取两个站点
Builtwith.com和类似的服务(收费)提供使用特定技术(如SalesForce或NationBuilder)构建的域列表。我对builtwith不扫描的一些技术感兴趣,可能是因为它们的市场份额太小 如果我们知道某个网站使用了某项技术的某些页面签名,那么识别尽可能多的这些网站的最佳方法是什么?我们预计会有1000家,我们对流量排名前1000万的网站感兴趣。(我们不认为最大的网站使用这种技术。) 我有一个开源WebCrawler的列表——但我的用例似乎不同于爬虫的许多常规标准,因为我们只想用
我正在使用stormcrawler来抓取40k个站点,最大深度=2,我想尽可能快地抓取。 我有5个storm节点(具有不同的静态IP)和3个elastic节点。 目前,我最好的拓扑结构是: spouts: - id: "spout" className: "com.digitalpebble.stormcrawler.elasticsearch.persistence.CollapsingSpout" parallelism: 10 bolts: - id: "part
我对构建分类广告的网络爬虫感兴趣。爬网分类广告的问题是,这些项目不断过期。当一个用户在我的网站上搜索时,有没有办法在列表过期时“即时”检查 基本上,如果我的页面显示20条记录,如何检查是否过期?有什么方法可以检查“在飞行中”吗?是否隐藏此记录,而不是将其显示给用户?可能是一个.js脚本,检查删除记录() 您可以编写一些东西,定期检查列表(通过cron作业)并查看是否过期 如果你正在抓取的页面有某种指示器,可以告诉你它什么时候会过期(“列表在2011年7月8日到期”),你的抓取程序可以对此进行解析
我正在比较这四个Nutch/Heritrix/OpenPipeLine/apachetika 哪一个最好?各自的优点和缺点是什么? 我想有一些可扩展的爬虫,可以爬网的网站列表,并可以修改,如果需要 我还没有研究你提到的爬虫程序,但我知道我编写的爬虫程序是可扩展的,可以修改。它还可以用于AJAX和“仅javascript”网站(即使用Google Web Toolkit的网站) 名称为forklabs javaxpcom,可在上找到。Nutch是其中最全面的,非常可配置。尝试了100万份文件。值得
我将此配置用于tt_新闻的爬虫配置: tx_crawler.crawlerCfg.paramSets { items = &tx_ttnews[tt_news]=[_TABLE:tt_news;_PID:6;] items { baseUrl = http://www.example.com cHash = 1 procInstrFilter = tx_indexedsearch_reindex } } 从而使爬虫
我正在使用nutch-1.2,但无法将配置文件限制为仅对给定URL进行爬网 我的crawl-urlfilter.txt文件是 # Each non-comment, non-blank line contains a regular expression # prefixed by '+' or '-'. The first matching pattern in the file # determines whether a URL is included or ign
我们在负载平衡环境中有一个Umbraco站点,我们需要确保只对实际URL进行爬网,而不是对不同的生产URL进行爬网 我们只希望example.com被索引,而production1.example.com和production2.example.com上的负载平衡器则不被索引 我是要在robots.txt中添加一个不允许这些URL的规则,还是在头部添加一个metanofollow标记?或者有没有其他方法使负载平衡URL不被爬虫编入索引?最佳解决方案:不要公开特定于节点的URL(我们通常使用本地i
我需要抓取一个网站,但问题是,在底部没有链接分页。如果滚动到底部,数据将追加。现在我怎样才能让我的爬虫做到这一点?有什么想法吗?向下滚动时,尝试检查执行的脚本以追加数据。它必须以某种方式检索额外的数据——只要看看它在做什么,然后让你的爬虫做同样的事情。使用像Selenium这样的机器人可以工作,你可以在真实的导航器中模拟真实的用户。我曾经在facebook上做过一件事,就是在C++/Qt中使用JavaScript解释器,然后通过它发送请求。比硒快得多 我相信谷歌的处理能力比你们强得多,网站管理员
大家好 我们使用StormCrawler和elasticsearch为我们的主页建立索引,其中包括“旧页面”和“新页面”。 简言之,我的问题是: 如果两个页面A(旧)和B(新)链接到页面X,如何将元数据从B传递到X 我的问题是: 我们一步一步地重新打开了我们的主页。所以当时我们有pdf文件,可以通过旧的html页面、新的html页面或两种方式访问 出于“订购依据”的目的,我们必须标记新html页面可访问的所有pdf文件。 因此,我们在seeds.txt中插入“newHomepage=true”,
我已经添加了Tika作为我的StormCrawler实现的参考,它可以在爬网中获取PDF文档。但是,标题、作者和其他属性不会被解析。我尝试了“index.md.mapping:”的不同组合,并向ES_IndexInit添加了相应的属性,但PDF文档的Kibana(索引)中的内容字段始终为空。一切都适用于HTML页面。如果我遗漏了一些东西,或者我可以看一个例子,你能帮我提些建议吗 es爬虫。流量: 名称:“爬虫” 包括: -资源:真的 文件:“/crawler default.yaml” 覆盖