我正在尝试使用YQL来抓取一些网站。当我在YQL控制台中测试各种查询时,我得到一个results节点。例如,当我跑步时:
select * from html where url="http://www.reverbnation.com/" and xpath='/html/body'
我得到一个空的节点()。
提前谢谢 可能正在阻止来自雅虎的请求!基于某些标准,如标题。我看了reverbnation的robots.txt,他们并没有阻止Yahoo!基于“Yahoo Pipes 2.0”用户代
我想使用PHP使用简单的HTML DOM解析器解析HTML对象。我想要提取的特定部分没有正确地包装在任何标签中
<li class="tags">
Required text: <span itemprop="testCat"><a href="/topics/new-topic/index.html" title="New Topic" onclick="s_objectID="http://www.example.com/topics/n
当我在浏览器中为mindbodyonline客户端调出一个时间表时,我可以毫不费力地从页面中获取我想要获取的项目的Xpath。然而,当我试图用scrapy shell对站点进行爬网时,我的XPath永远不会返回任何对象
例如,我尝试从scrapy shell中抓取以下URL:
$ scrapy shell https://clients.mindbodyonline.com/ASP/adm/home.asp?studioid=2260
2013-07-15 15:50:45-0700 [scr
设置“任意日期”、输出格式并单击银行网站上的链接后,一些javascript在后台运行,使用GET请求调用download.qfx,然后下载CSV文件
不幸的是,当我尝试用CasperJS复制这些操作时,对download.qfx的调用失败,我得到了一个不完整的CSV文件(它已经运行了一两次,但我不知道为什么)。我查看了所有引用此错误的堆栈溢出问题,但没有找到解决方案
我将以下脚本称为:
casperjs --ssl-protocol=any --ignore-ssl-errors=true c
我被要求创建一个任务,点击网站上的随机链接(为了测试一些东西)
所以我有这样的想法:
await page.evaluate((a, shuf) =>
{
function shuffle(array)
{
//..
我有两种情况需要在抓取代码时进行不同的处理。
2个类似的类都包含建筑物的价格,需要按时间顺序添加到excel中,因为它们必须与我正在收集的其他数据相匹配
我正在清除数据的属性有两个不同的类。
一个是这样的:
<div class="xl-price rangePrice">
375.000 €
</div>
这就是我试图获取价格并将其添加到列表中的
我正在尝试从以下网站将大量文本导入google sheets:
我尝试做的第一件事是将团队名称导入到工作表中,但我做的每件事都会产生#不适用:导入的内容是空的错误。我尝试了以下所有方法:
=导入XML(“https://www.nrl.com/draw/nrl-premiership/2021/round-10/sharks-v-rabbitohs/“,”/*[@id='match-team\uuuu info match-team\uuu info--home']))
=导入XML(“http
我需要一些网站的新闻,比如CNN、BBC和路透社来做我的研究。我想知道如何编写一个程序来下载这些网站近10年前的RSS内容。我使用了GoogleReaderAPI,但它看起来很傻。RSS数据通常不会包含这样的过时数据。您可能需要订阅一项服务(美联社、所有头条新闻、路透社),该服务允许您搜索档案RSS数据通常不会包含这样的过时数据。你可能需要订阅一项服务(美联社,所有头条新闻,路透社),允许你搜索档案RSS只是一堆特殊格式的网页;网页(或门户中的单个页面)可以而且确实比10年前消失得更早。你唯一的
我是Phantomjs的初学者,有太多问题我自己解决不了。你介意帮我解决这个问题吗?我无法通过Phantomjs获取多个动态URL
例如:
--我的index.html是:
<!DOCTYPE html>
<html>
<body>
<h1>Homepage</h1>
<ul>
<li><a href="laptop.html">Laptop</a></li>
有人能帮我了解一下刮痧统计数据吗。
我正在尝试优化aws实例的爬行速度。
我当前的抓取速度是:抓取32429页(72页/分钟),抓取197项(0项/分钟)
如果scrapy以72页/分钟的速度爬行,那么32429页是多少?绝对不是每秒32429页…已爬网X页这是Scrapy在爬网时收到的HTTP响应总量
仅供参考,负责您在控制台上看到的报告。噢,总页数!泰
我在PhantomJs中创建了一个web抓取机器人,我使用onResourceReceived嗅探站点的请求,并使用以下简单代码检索它们:
page.onResourceReceived = function(response)
{
if (response.url.match("XXXXXXX"))
{
console.log(response.url);
}
};
我的问题是response.url会自动将数据更新为该文件的url解码版本。我
我正在使用goutte sracper来刮取数据,我得到了错误,如InvalidArgumentException-当前节点列表为空。下面是我正在使用的代码
$string = $crawler->filter('div#links.results')->html();
if ( empty( $string ) )
return false;
$dom = new \DOMDocument;
$state =
我正在浏览这个网站:
并尝试从表中下载所有zip文件。然而,我无法从“汤”中找到桌子。它什么也不返回
req = Request(
'https://www.misoenergy.org/markets-and-operations/market-reports/market-report-archives/#nt=%2FMarketReportType%3ABids%2FMarketReportName%3AArchived%20Cleared%20Bids%20%20(zip)&am
我试图从以下网站上列出的文章中获取标题、日期和作者:
这是我运行的代码
from bs4 import BeautifulSoup
import requests
import lxml
import csv
source = requests.get('http://coreyms.com').text
soup=BeautifulSoup(source,'lxml')
for match in soup.find_all('div',class_='site-
container'):
我正在做一些网页抓取的任务,我从一个网站得到价格。问题是,我希望获得所有选项之间的最小值。例如:它将查找一部8GB且未锁定B的手机,但我还需要它返回找到的所有选项之间的最小值谷歌查询语言:如何选择最小值?
这是我的床单。
如何修改该公式,使其返回最小价格?这就像一个循环函数,可能吗?不管它的颜色
例如,我希望函数查找价格,它已经找到了,但我希望得到它能找到的最低价格,而不是它找到并与公式匹配的第一个价格
试试:
=QUERY(IMPORTJSON(C2),
"select Col4,Col2
我有一个小的shellscriptscrape.sh,它可以刮取一个网站并将结果数据放入一个新目录:
website='test.com'
dir_name=“datev_data/$(日期-u+%Y-%m-%dT%H:%m:%S)”
mkdir$dirname
wget--目录前缀=“$dir_name”“$website”
(我真的不在乎数据在哪里结束,只要它每次都有一个新的目录,我就可以访问数据。因此,我现在把它放在我的主目录/home/kaligule中。)
手动运行这个脚本效果很好,
我试图从建筑师注册中获取一些信息,但我只能抓取25页,如何才能访问25页之后的页面
示例URL尝试将以下参数添加到api的源URL
kimoffset=xxx&kimlimit=1000
其中xxx是“元素页码x要跳过的页数”
我目前使用
custom_settings = { "ITEM_PIPELINES" : { ... } }
设置每个十字轴的管道。接下来,对于某些起始URL,我需要排除一些管道。我在\uuuu init\uuuu中检测到这一点。尝试重新分配自定义\u设置,但无效。是否可以动态更改管道列表?否,请确保在spider运行期间无法更改自定义设置
然而,您在这里看到的解决方案是将检测逻辑添加到管道本身。例如,向名为\u的项目添加额外字段到\u pipeline2,如果管道不存在,则中断管道。
例如:
嗨,我正在使用噩梦从网站上刮取数据和课程细节。我遇到一个问题:-
错误:{消息:“导航错误”,
代码:0,
详情:'好',
网址:'https://www.myskills.gov.au/courses/details?Code=CHC14015“}
在每次url遍历时。请建议我解决这个问题:
var Nightmare = require('nightmare')
var vo = require('vo')
var fs = require('fs')
var filesyste
我已经写了一个代码,可以从网页上抓取一些细节。我的问题是,每当我运行代码时,它都会打印输出,如下所示:
|[“卡皮尔·萨拉瓦吉”ksdesigngroup@gmail.com“1412702594”]| |[“马建筑私人有限公司”studio@maarchitects.in“141429999”]| |[“帕布·达亚尔·卡诺西亚”prabhudayalkanojiya@yahoo.in''9829055412']|
但我希望它是这样的
|[“卡皮尔·萨拉瓦吉”ksdesigngroup@gmai
标签: Web Scraping
asciichromiumheadlessgoogle-chrome-headless
我想从动态加载的网站上抓取文本,我需要动态抓取。由于动态加载,诸如$lynx--dump google.com之类的选项似乎不起作用。为此,我使用了无头铬合金
$ Chrome --headless --disable-gpu --no-sandbox --run-all-compositor-stages-before-draw --virtual-time-budget=1000 --window-size=1200,3000 --screenshot http://mtv.com
但我找
我想在我的网络爬网中使用“后退”包,但我无法让它工作。我应该在哪里插入它?如何让“r=请求…”仍然被识别
我尝试过以各种方式将语句放入代码中,但它不起作用。我希望能够将其用于软件包的预期用途。谢谢
要插入的代码
@backoff.on_exception(backoff.expo,
requests.exceptions.RequestException,
max_time=60)
def get_url(
我试图抓取一个标签“nationaldoughnutday”的所有推文,但由于速率限制,未能抓取
参考下面的代码,我尝试将代码放入while循环中,这样当速率限制重置时,我可以从最后一个爬网日期(直到_日期)恢复刮取
然而,我不断得到这个错误反复和我的爬虫似乎并没有重新开始爬虫后,睡了很长一段时间
TweepError Failed to send request: ('Connection aborted.', error (10054, 'An existing connection was
我正在尝试使用google sheets中的importxml函数从网站上获取产品列表(大约2000个)的MPN(制造商零件号)
网站:
说明中说要使用importxml公式。链接是A1,然后在chrome中使用inspector复制xpath。结果是:
=IMPORTXML(A1,"//*[@id='content']/div[3]/div[2]/div/div/div/div/div/div[2]/dl/div[2]/dd/a")
(说明中还提到将双引号改为单引号。)
运行公式时会导入
我需要帮助来删除html代码和元素,并且只保留了中间的文本(在图片中用黄色标记)
文本应列在标题为“说明”的列内的表格中
Im用于获取结果的代码:
soup=BeautifulSoup(html,'html.parser')
ul=汤。选择(“h2>a”)
有什么想法吗?请参考此以提取标记之间的文本
否则
试试这个
soup.p.next_sibling.strip()
您可以直接使用soup.p*(这取决于它是解析树中的第一个)
然后对soup.p返回的标记对象使用next\u sibl
我有一个网站上的表格,我需要从中获取手机
HTML表有一列ID和一列状态。
我正在查找与已知ID值匹配的ID,并存储位置的Y部分。
这就是我如何知道我在哪一排。
然后我转到状态列,其中有一个已知的X坐标
在这些坐标处获取Text/ui元素的最佳函数是什么
示例(我需要ID为“2”的对象的状态):
(应返回“坏”)
我知道你可以用鼠标点击一个位置,但是我怎样才能得到一个位置的文本(UIElement也可以)
如果有一种更快/更可靠的方法来获取不涉及坐标的状态,我洗耳恭听您最好的选择是使用UiPat
我正在尝试刮取一个站点,而不获取403状态代码错误的唯一方法是包含某个cookie(我从普通浏览器获取)。cookie过期日期设置为“会话”
我假设我可以无限期地使用cookie处理请求,对吗
我知道cookie应该在浏览器会话结束时过期,但是站点是否可能使cookie服务器端失效
如果可能的话,是请求量异常还是过了一段时间才过期?cookie过期的时间由网站决定。有关更多信息,请参阅。
嗨,我正在浏览一个网站
我通过以下方法获取页面信息:
$url = "http://www.cleartrip.com/m/flights/results?from=CCU&to=DEL&depart_date=22/06/2012&adults=1&childs=0&infants=0&dep_time=0&class=Economy&airline=&carrier=&x=57&y=16&flex
我有一个客户,他想构建一个面向大学生的web应用程序。他们希望学生能够从有效的班级和老师列表中选择他们所在的班级。网站,如,和都有准确的名单,从许多大学是准确的一年一年
这些公司如何汇总这些数据?这些大学是否有专门的api?或者,这些公司是否每年向这些大学的学生支付输入这些数据的费用 我猜这些公司有某种协议,使用API进行数据交换。如果您没有访问该API的权限,您仍然可以构建一个简单的webscraper来为您提取数据。我们已经为客户做了一些这方面的工作,在每种情况下,我们都必须刮取数据。如果你
我有一个大约36000个URL的列表,范围从到(其中一些页面返回404个错误)
每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为5
是否有一种相当简单的方法来编译excel或csv文件,并将URL和相关的团队数量作为一个字段
我曾尝试研究phantomJS,但我的方法只花了10秒就打开了一个网页,我真的不想花100个小时来做这件事。我不知道如何(或者是否有可能)使用诸如import.io之类的刮削工具来完成这项工作
谢谢 对于您想要实现的目标,我可以看到两种解决方
最近我发现了这样的事情。
如果我读得没错,API可用于酒店供应商,他们可以将自己的酒店添加为库存并管理其价格。谷歌利用其信息为特定搜索提供酒店广告
我的问题是-我(我的公司)作为一个用户,是否可以仅仅通过知道酒店的位置和名称来使用酒店价格信息。基本上,通过API获取我们没有添加到谷歌酒店广告中的酒店的价格
在这些API中提供价格的每个API似乎都要求酒店ID,酒店ID似乎是特定于供应商的,现在普通用户可以访问任何酒店价格。如果有,请提示我怎么做。多谢各位
这是我的第一个网页抓取任务。我的任务是清理一个网站
这是一个包含丹麦律师姓名的网站。我的困难在于,我只能根据我在搜索栏中输入的特定名称查询来检索名称。是否有一个在线的网络工具,我可以用来刮网站包含的所有名称?我使用过Import.io之类的工具,但迄今为止没有成功。我对所有这些是如何工作的感到非常困惑。请向下滚动到更新2
该网站强制您输入至少一个搜索参数,因此您可以循环搜索Arbejdsområde列表的所有项目,并对每个项目提出请求。下面的示例显示了如何在Excel VBA open VBE中
我正在努力学习网页抓取工具
因此,如果有人帮助我开始学习,一些教程链接可能会有所帮助
什么时候应该去刮网
rss提要有什么好处
市场上提供的最佳web抓取工具
谢谢 简而言之:“这取决于你想要实现什么。”
如果你有一个RSS提要,里面有你所需要的所有信息,你就不需要去抓取网页
如果您试图从未提供API直接访问数据的网站提取数据,则可以使用刮取以结构化方式从页面提取所需的信息。您可以将数据保存到数据库中并从那里开始工作
例如:在早期的Web 2.0时代,有一些网站刮去了所有其他“航班”页面,
当前,当我从浏览器()访问Google Play商店时,我只能看到:
顶级应用、最畅销应用、最畅销应用、最畅销游戏、最畅销游戏、最畅销游戏
我正在努力搜集数据,以获得Play Store中每种类型应用(即教育、健康、社交等)的最畅销/最卖座应用。我本以为这些数据可以在浏览器Play Store上获得,因为很明显,它可以在Android应用程序Play Store上获得。在web浏览器Play Store上选择类别时,没有选项可查看最畅销/最卖座的应用程序
有许多(商业)API提供每种类型的顶级G
我必须找到所有包含特定部分文本的段落
我觉得是这样的
本段全文如下:
"Open Until: Tuesday November 20, 2018, // 4:00 pm MST"
每次都有一个新的日期,所以我必须给出部分文本,如
element = soup.findAll("p",text="Open Until")
您尚未共享该部分的相关html元素,因此很难为您提供任何解决方案。但是,text=“Open-Until”不能以这种方式工作。它只查找全文而不是部分内容。试试下面的方法
f
我一直在从事网页抓取工作,在一个robots.txt文件中遇到了以下模式
Disallow: /*{{url}}*
Disallow: /*{{imageURL}}*
它们是否意味着不允许我删除任何URL?这看起来像是网站作者犯了一个错误,因为{{URL}和{{imageURL}}可能是应该用实际值替换的变量
根据原始robots.txt规范解释此记录时,所有字符都必须按字面解释,因此不允许使用以下URL:
https://example.com/*{{url}}*
https://exam
您好,我有一个关于我的蜘蛛脚本的问题,我想让我的脚本尽可能可读,我想保存代码尽可能多。是否可以在不同的URL上使用相同的解析
我只想每页刮取10个项目,并将其保存在items.py的不同项目功能中
这是我的密码
def start_requests(self): #I have 3 URL's Here
yield scrapy.Request('https://teslamotorsclub.com/tmc/post-ratings/6/posts', self.parse) #Ur
我正在尝试使用cmdline.execute将html代码存储到名为response的变量中,如下面的代码所示,但无法在scrapy shell中存储和程序代码中断,有人能告诉我如何将原始html存储到变量中吗
进口羊瘙痒
从scrapy导入cmdline
linkedinURL=“”
response=cmdline.execute(“scrapy shell.split()))
打印(响应)您可以这样将原始html存储到变量:
class MySpider(scrapy.Spider):
我正在使用python 3.7中的beautifulsoup进行web抓取。下面的代码成功地抓取了日期、标题、标签,但没有抓取文章的内容。相反,它什么也不给
import time
import requests
from bs4 import BeautifulSoup
from bs4.element import Tag
url = 'https://www.thehindu.com/search/?q=cybersecurity&order=DESC&sort=publi
我想用wget抓取/刮取wordpress网站。
问题:wget将下载文档/链接,尽管它们具有rel=nofollow属性。是的,我允许robots.txt
例如:
wget--mirror--page requisites--adjust extension--convert links--restrict file names=windows--no parent--span hosts--domains=randomscii.wordpress.com,wp.comhttps://rand
我一辈子都想不出如何使用beautiful soup从以下网页中获取隔离源信息:
我一直试着检查标签是否存在,当我知道它确实存在时,它总是返回它不存在。如果我甚至不能证实它的存在,我也不知道该怎么刮
谢谢 数据是从外部URL加载的。要获取隔离\u源,可以使用以下示例:
重新导入
导入请求
从bs4导入BeautifulSoup
url=”https://www.ncbi.nlm.nih.gov/nuccore/JOKX00000000.2/"
soup=BeautifulSoup(reques
我有一个项目的想法,我想在另一个网站上挖掘公开可用的数据,该网站通过众包获得。这就是为什么我有自己项目的初始数据。重申一下,我想编写一个机器人来抓取显示在另一个网站上的数据,并将其用于我自己的网站。有人知道这种事情的合法性吗?原始网站是否拥有人群提供给它的数据?即使是这样,我可以使用它吗?网络抓取是一个法律上复杂的问题。
法律行动和可执行性的麻烦常常使刮油者避免陷入麻烦。
尽管法院裁定允许“事实的重复”(美国),但完全重复被认为是可以起诉的
我建议你在这里读一下:
最好,从法律上讲,你应该没事。
我需要将网页的顶部菜单和网页的内容区域提取到XML文档中,是否有任何工具可以为我这样做?
这个输出应该是网站的顶部菜单结构,也就是它的站点地图和页面主要内容区域内每个页面的内容
或者,如果您不能推荐现有的工具,您可以建议如何解决此问题吗 允许您从URL自动提取数据,而无需编写任何脚本 允许您从URL自动提取数据,而无需编写任何脚本
如何在google.com中获取HTML
比如说,我去谷歌输入“Humpty Dumpty”,我会得到搜索结果,URL会更改为:
但是当我试图下载这个网页时,里面没有任何HTML搜索结果。我想这是因为谷歌在页面加载后请求搜索结果
有什么方法可以得到HTML吗
附言:我知道从谷歌抓取是违反他们的TOS的。我正在努力学习如何刮这样的网站 使用下面的代码,我看到正确的HTML又回来了(关于童谣的东西回来了)
下面的代码使用WebClient检索正确的HTML
WebClient wbclient =
我在开发我的代号为One的应用程序时遇到了障碍。在我的项目中,我的一个类解析了一个网站中3个特定的html“td”元素,并将文本保存到一个字符串中,然后我将该文本数据输入到一个代号为One的多按钮中。我最初使用jSoup进行此操作,但很快意识到Codename One不支持第三方jar文件,所以我使用了如下所示的方法
public void showOilPrice() {
if (current != null) {
current.show();
re
我最近开始使用scrapy进行web抓取,我生成了一个URL列表,我想从中抓取到一个以新行分隔的txt文档中。这是我的爬虫程序代码:
import scrapy
import csv
import sys
from realtor.items import RealtorItem
from scrapy.spider import BaseSpider
#from scrapy.selector import HtmlXPathSelector
#from realtor.items impo
我一直在运行一个普通的“爬行蜘蛛”,我用它来收集元数据,在一个大约10k个不同域的列表上。目标是完全抓取每个网站
由于这是一个“大爬网”,我给了它6个运行单元,并将并发请求加载到900,同时将AUTOTHROTTLE_TARGET_并发保持在1
它会在第一个小时运行得非常快,然后会慢慢减速,大约3小时后,速度会达到每分钟50个项目,我认为当我们有900个并发请求时,速度不会太快
通过将AUTOTHROTTLE_TARGET_并发度增加到50,我可以将其平均速度提高到大约250个项目/分钟,但是一
看看这个简单的代码:
const browser = await puppeteer.launch({headless: false});
const page: Page = await browser.newPage();
await page.evaluate((a) =>
{
//This will open a new page :
所以,我正在抓取一个网站,但偶尔我会被临时禁止几分钟。我在我的代码中使用了标题来进行抓取,但我想知道我们是否还能做更多的事情来让自己看起来像一个真实的人,而不仅仅是一个机器人
我做了一点研究,发现我们可以让我们的抓取稍微慢一点,也可以绕过检测
我想听听你的想法和建议
ua=UserAgent()
hdr = {'User-Agent': ua.random,
'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-En
我的爬虫程序工作不正常,我找不到解决方案
以下是我的spider的相关部分:
def parse(self, response):
original_price=0
discounted_price=0
star=0
discounted_percent=0
try:
for product in response.xpath("//ul[@class='c-listing__ite
1 2 3 4 5 6 ...
下一页 最后一页 共 16 页