Google bigquery 我可以安全地查询被WRITE\u TRUNCATE替换的BigQuery表吗

如果在加载作业期间设置为WRITE\u TRUNCATE,是否有一段时间查询表会引发错误 作业标记为挂起和/或运行的整个期间 加载作业结束时更换工作台的小时刻 会有什么错误?status.errors[].reason=>“notFound”写入截断是原子的,并在加载作业结束时应用。因此,在此期间发生的任何查询都将只看到旧数据或所有新数据。在任何情况下,查询表时都不会出现错误 如果加载失败,则不应对表进行任何更改,如果加载成功,所有数据应立即显示在表中 如果该表不存在,并且指定了一个加载作业

Google bigquery Google大查询后端错误

我在Google Big Query上上传了一些日志文件,并且已经有了一个流程,已经运行了大约7个月。我们重建了网站,所以我制作了一个新表和一个几乎相同的过程。我可以从谷歌存储中批量上传旧文件,大多数文件都可以正常加载。然后,当我在cronjob中运行相同的程序时,BQ报告了一个后端错误,并且没有加载数据 该文件是gzip文件,以制表符分隔。我正在使用Pythongzip包。我相信我已经正确地预处理了这些文件,读取了原始文件,删除了所有没有正确字段数的行(本例中为476行),然后写入并上传到go

Google bigquery 查询失败错误:意外。请再试一次。谷歌大查询

我无法使用Google BigQuery执行简单的选择查询(select*from[.]LIMIT 1000)。它给了我以下错误: Query Failed Error: Unexpected. Please try again. Job ID: job_51MSM2uo1vE5QomZA8Sv_RUE7M8 该表包含大约10条记录。我能够在其他表上执行查询 作业Id为-Job_51msm2 uo1ve5qomza8sv_RUE7M8。在查询最近通过流式插入(tabledata.inserta

Google bigquery 两个bigquery时间戳字段之间的分钟差异

如何获得google bigquery中两个时间戳字段之间的分钟差? 我知道的唯一一个函数是Datediff,它以天为单位显示差异 谢谢使用TIMESTAMP\u TO\u USEC()并进行计算 奔腾10的答案适用于传统SQL。如果您使用的是标准SQL,则可以使用TIMESTAMP_DIFF,它将为您计算: TIMESTAMP_DIFF(timestamp_1, timestamp_2, MINUTE) 日期时间差异(日期时间1,日期时间2,分/秒)有人知道日期时间字段的答案吗?你的比率很低

Google bigquery 从BigQuery导出数据

我正在尝试从BigQuery导出数据,默认情况下分隔符是逗号。我可以更改BigQuery中的分隔符吗 可以通过在插入的导出作业上设置configuration.extract.fieldDelimiter来完成此操作。从: [可选]在导出数据的字段之间使用的分隔符。默认值为“,” 我可以在UI中设置此参数吗?不,不可能,但这是一个合理的请求。我已经在内部提交了一个功能请求。

Google bigquery BigQuery包含字段内精确匹配的或正则表达式匹配

这可能是一个业余问题,但是我如何通过使用另一个按特定字段值匹配的字段来查找字段中的匹配字符串 例如: Field_A=‘狗吃了索尔兹伯里牛排’ 字段_B='Sal' 在字段_A包含字段_B的地方运行将返回true,即使字段_A中没有隔离Sal 如何使用CONTAINS进行查询,但指定精确匹配,例如: Field_A=‘狗吃了索尔兹伯里牛排’ 字段_B='Sal' 将返回False 但是 Field_A='狗吃了Sal' 字段_B='Sal' 将返回真值 我尝试了正则表达式,但似乎无法指定字段,它

Google bigquery 如何提高谷歌大查询日查询额度

我们正在运行一个批处理过程,并达到每天20000个查询配额 有办法提高限额吗 谢谢。每天的查询限额(目前为40k/天)是我们通常乐于提高的限额。一般来说,它是用来防止滥用场景的(使用BigQuery作为计算器的人,如SELECT 17+32)。如果您在非平凡大小的数据上运行真正的查询,我们几乎肯定会愿意提高这个上限 如果您与谷歌云支持部门有联系,请让他们知道您的项目ID 如果您没有支持联系人,可以在此处指明您的项目ID,或给我发电子邮件(tigani@google.com)我将适当地发送请求。早

Google bigquery Bigquery上ETL的最佳实践方法?

我想知道人们在bigquery上构建和管理ETL作业时发现了哪些最佳实践/工具 目前我有很多sql“模板”(使用sed类型的字符串替换将lob、date等参数化到tmp.sql文件中,然后运行),我使用命令行工具运行它们的序列,并将输出发送到表。它工作正常,但有点笨重。我仍然不明白为什么不能在bigquery上运行存储过程类型参数化脚本。甚至可以使用某种gui来构建和管理管道 我喜欢bigquery,但我真的觉得我要么错过了一些非常明显的东西,要么是产品中的一个真正的差距(例如,非常确定Apac

Google bigquery bigquery中的Rank()

我试图根据产品的数量分配等级值(例如,产品1的数量为100,最大值应为等级1,产品2的第二高数量为80,应为等级2,依此类推),但当我执行下面的查询时,我得到一个错误,说明-在表中未找到字段“rank\u”。请告诉我哪里出了问题 SELECT ProdName, NoofProds, rank_ FROM ( SELECT ProdName, COUNT(ProdName) AS NoofProds, RANK() OVER (PARTITION BY P

Google bigquery 未知的命令行标志压缩

我正在尝试使用命令行工具将表从BQ导出到CS。 我按照这里的指示: 我尝试运行示例脚本: extract --compression=GZIP 'bigquery-public-data:samples.shakespeare' gs://my_bucket/shakespeare.zip 我不断得到: Error parsing command: Unknown command line flag 'compression' 有人知道吗?我只是在下面跑,它对我非常有效 bq extrac

Google bigquery 如何在没有超时的情况下在BigQuery中创建getQueryResults作业?

使用JavaAPI查询异步作业数据的BigQuery表示,如果调用jobs.getQueryResults(jobId)而没有超时,则无需轮询结果。但是,根据作业文档,默认超时时间为10秒 我的问题是如何在没有超时的情况下调用getQueryResults。我应该将一个非常大的数字作为超时参数,还是该参数可能为0?所说的“无超时”是指永远等待 BigQuery使用的底层基础设施(Google API前端)不允许无限期的连接。您最好设置一个合理的超时值,并在获得超时后重试 无论如何,这可能是一个很

Google bigquery 为什么我会得到一个“;“内部错误”;在执行BigQuery提取时

我正在使用bq命令行将表提取到GCS bq --project_id=<project-id> extract -F "\t" mydataset.mytable gs://mybucket bq--project\u id=extract-F“\t”mydataset.mytable gs://mybucket 我得到一个错误: “发生内部错误” 这是一个cron任务,在8月11日之前一直运行良好。但它从8月12日开始失败。请检查您试图从GCS存储桶加载到表中的文件的方案。在您

Google bigquery 多个条件导致架构错误的Bigquery案例

我有一个查询,它有一个case语句,在不同的列上有多个条件 案例 当X='A'而不是Y为空时,则为1 以公制1结尾 查询运行时,我得到了预期的结果,但在尝试访问目标表时,出现以下错误: 找不到表: 已自动检测到此表的架构。如果未正确检测到架构,您可以使用调整后的架构重新运行加载作业。您的加载率较低。重要信息:因此,您必须使用投票下方张贴答案左侧的勾号来标记已接受的答案。这将提高你的利率。通过访问此链接了解其工作原理:这种情况会发生多次吗?你能用一个公共查询和数据集重新创建这个问题吗?我不能重新创

Google bigquery 从字符串中提取子字符串

在google bigquery中,我需要提取域**和**之间的字符串,如下面的示例所示 该字符串位于“站点数据”列下 有人能帮我吗?10倍 见下面的例子 标准SQL 以你的桌子为例 选择“756-1”,标记类型**未映射,域**www.sport.com,用户直接到达**False”作为站点数据 选择 REGEXP\u EXTRACTSite\u数据,r'domain\*\*.\*\*'作为x, 现场数据 从你的桌子上 见下面的例子 标准SQL 以你的桌子为例 选择“756-1”,标记类型**

Google bigquery 如何在google bigquery数据集中创建动态表并在tableau中访问?

我有一个BigQuery数据库,我想创建动态表 例如:表_20170609-如果日期为2017年6月9日 表_20170610-如果日期为2017年6月10日 每天我会得到一些excel数据,我必须上传到上面动态创建的表格。excel中的数据不是按天计算的,而是从开始日期到今天的日期 我知道将bigquery连接到tableau并运行查询。是否有任何自动化方法,tableau将从bigquery读取动态表并生成报告 当前工作-我已经创建了一个表格(报告),每天我都会将表格报告重命名为report

Google bigquery BigQuery标准SQL:使用_TABLE_后缀的最后7天

问题:我想使用_TABLE_后缀从多个Google Analytics sessions表中提取数据,但我想将后缀参数设置为“七天前”和“一天前”(即提取过去7天的数据) 当前语法(不起作用): 在我看来,语法中没有错误,但BigQuery无法读取我的日期函数,因此无法将它们附加到ga_sessions_*通配符中 灵感: BigQuery Cookbook有一个legacySQL示例,我一直以此为基础:() 我尝试过的事情:(那不起作用) 使用DATE_SUB代替DATE_ADD,使用CURR

Google bigquery bigquery在巨大数据负载期间的波束处理失败

我最近开始使用Apache beam。我肯定我错过了一些东西。我需要从一个非常庞大的数据库加载到bigquery。这些桌子很大。我已经编写了示例梁作业,以从简单表中加载最少的行 如何使用JDBCIO从表中加载n行?我是否可以像在传统数据迁移作业中那样批量加载这些数据 我可以从数据库批量读取数据并批量写入bigquery吗 我还看到,将数据加载到bigquery的建议方法是将文件添加到数据存储桶中。但是,在自动化环境中,需要将其作为数据流作业写入,以便从db加载并写入bigquery。我应该用什么

Google bigquery 将BigQuery分位数导入DataStudio

我有一些timeseries IOT是按分钟收集的,但Data Studio似乎只支持每日聚合。如果我也能在timeseries图表中得到min/max/quantile,这将很好。不过,我似乎找不到一种方法将分位数数据放入图表中。有没有办法将大查询分位数结果放入DataStudio timeseries图表中?也许类似的方法可以奏效?您需要输入自定义查询并取消选中“使用旧SQL”: SELECT date, min_value, max_value, quantile_valu

Google bigquery ht期)。为什么?哈!聪明整洁!我看到你试图模仿“循环”的方式了!我们试过了,但是当我们用表替换数据表时,我们得到了一个“臭名昭著”的错误:左外连接不能使用,除非条件是连接两边的字段相等。在谷歌搜索之后,它似乎带来了一些类似于我们的问题,但对于如何解决这些

ht期)。为什么?哈!聪明整洁!我看到你试图模仿“循环”的方式了!我们试过了,但是当我们用表替换数据表时,我们得到了一个“臭名昭著”的错误:左外连接不能使用,除非条件是连接两边的字段相等。在谷歌搜索之后,它似乎带来了一些类似于我们的问题,但对于如何解决这些问题没有明确的答案以其他方式处理问题。 id STRING dt DATE SELECT COUNT(DISTINCT id) AS total FROM `events` WHERE dt BETWEEN DATE_ADD(

Google bigquery 基于user\u dim.user\u properties.key计算用户数

我对Bigquery相当陌生,似乎不知道如何根据未列出的数组计算字段 我想根据与名为“persistent\u user\u id”的user\u dim.user\u properties.key关联的值来计算和列出唯一的用户。同时,我想在user_dim.user_properties.key中为另一个名为“status”的字段设置一个过滤器,该字段的值字符串为“Active” 第一个条件: user\u dim.user\u properties.key=“persistent\u use

Google bigquery BigQuery是否支持avro压缩?

在这里的一个文档中:它明确表示不支持avro压缩 在这里的另一个文档中:它说Avro格式是压缩数据的首选格式 有人能告诉我这是什么意思吗?我真的很困惑。这两个地方的文档只讨论压缩数据块,它是受支持的,并且它们是一致的 压缩数据块表示压缩Avro文件中的数据。不能将Avro文件粘贴到zip或gzip容器中。这就像PNG是如何进行压缩的,但gzip图像不是一回事。这两个地方的文档都只讨论压缩数据块,这是受支持的,在我看来是一致的。我缺少什么吗?所以,只支持压缩文件gzip,但同时支持数据块gzip和

Google bigquery google bigquery使用另一个表更新表

嗨,我在BigQuery中有两个表: 表A:ConsumerRid,consumerSegment 表B:消费者权益 我所要做的就是用“find”更新TableA.consumerSegment,其中TableA.consumerID=TableB.consumerID 我正在使用此语句,但作为回报,我得到一个错误: UPDATE `MyTableLongNameA` AS TableA SET TableA.consumerSegment = "Found" FROM `MyTableLo

Google bigquery 如何在dataflow workers上强制执行google cloud bigquery==0.28.0安装

我很难在dataflow workers上获得最新版本的bigquery。 有人能给我一些建议,让这项工作更简单的方法是什么。 如果将setup.py与google cloud bigquery==0.28.0一起使用,将无法在workers启动时安装工作流 从这个链接可以看到: google cloud bigquery 0.25.0是目前数据流支持的最新版本,它非常繁琐,效率低下。 如果你有什么建议,请告诉我 非常感谢,, 埃拉兰不幸的是,这在目前是不可能的。这应通过梁2.7.0固定 同时-

Google bigquery 以增量方式将数据从GCP数据存储移动到BigQuery的最佳实践

我们正在从数据存储数据源设计数据仓库解决方案。我们希望在预定义的时间间隔内将新插入/更新/删除的数据存储实体加载到BigQuery for analytics中 似乎有几种选择: 进行完整备份,并将数据加载到BigQuery中。以及BigQuery中的重复数据消除。这在概念上非常简单,但每次加载/处理所有数据对我来说效率很低 执行操作时发布所有新的/更新的/删除的实体,并让Dataflow subscribe和TL订阅BigQuery 在实体上具有上次修改的时间戳,并仅拉出在指定时间范围内修改的

Google bigquery 使用array_agg创建数组之前筛选表达式

是否有任何方法可以过滤文档内容中的数据 数组_agg 在一个步骤中,不先编写CTE来过滤内容 使用以下构造: ARRAY_AGG(IF(condition, NULL, column_value) IGNORE NULLS) 下面是说明该方法的简化示例 #standardSQL WITH `project.dataset.table` AS ( SELECT 1 id, 1 val UNION ALL SELECT 1, 2 UNION ALL SELECT 1, 3 UNION

Google bigquery BigQuery选择expect双嵌套列

我正在尝试从BigQuery表中删除一列,并按照以下说明操作: 这没有直接起作用,因为我要删除的列在结构中嵌套了两次。下面的问题是相关的,但没有一个能解决这个问题 单个嵌套字段: 双嵌套字段解决方案枚举了架构中的所有字段,这对我来说没有用处,因为我的架构很大: 我已经尝试过采用上述解决方案,我想我已经接近了,但还不能完全实现 这将删除字段,但只返回嵌套字段,而不是我要删除a.b.field\u name的示例的整个表。请参见末尾的示例模式: SELECT AS STRUCT * EXCEPT

Google bigquery 如何在大查询中从元表转换“创建时间”和“上次修改时间”格式的列?

我运行了查询: 从project.dataset.表格中选择*__ 从特定数据集中获取我的所有表的摘要 我的问题是关于列创建时间和上次修改时间的格式。它以13位数字序列的形式向我显示日期 有没有办法将其转换为通用日期格式 我希望是YYYY-mm-dd这样的格式 谢谢该字段包含自纪元以来的毫秒数。你可以用 时间戳\u毫秒创建时间作为创建时间, 时间戳\u毫秒\u修改\u时间为上次修改\u时间 以获得适当的时间戳 我用的是 选择 *替换 时间戳\u毫秒创建时间作为创建时间, 时间戳\u毫秒\u修改\

Google bigquery 在案例陈述的不同部分重复使用聚合计算

我有一个表myTable,其中一个单列表包含一个整数,该整数表示一个单字节值,如下所示: status_code ----------- (single bit values:) 1 2 4 8 (multiple bit values:) ... 12 3 etc. 我根据匹配某个值的位的总比例选择一个整体“状态”,使用如下逻辑。正如你所看到的,我重复了一些相同的计算: 选择 sum时的case状态\ u代码>>时的case 4=1,然后1其他0结束/计数*+ 当状态代码>>3=1,然后是1

Google bigquery Bigquery-如何抽象重复逻辑

我发现自己处于这样一种境地,我会像这样一遍又一遍地重复同样的逻辑 SELECT city, CAST(SUM(IF(date > DATE_SUB(CURRENT_DATE(), INTERVAL 7 DAY), value, 0)) AS INT64) AS value_7, CAST(SUM(IF(date > DATE_SUB(CURRENT_DATE(), INTERVAL 14 DAY), value, 0)) AS INT64) AS value_14 FRO

Google bigquery Google analytics和BigQuery之间的会话不匹配,同时取消了hits和hits.product的测试

当我尝试运行以下查询时,我得到Google analytics和BQ数据之间15%的差异: 选择 将(会话)合计为会话 从( 挑选 分析日期(“%Y%m%d”), 日期)作为日期, 将不同的CONCAT(fullVisitorId,“-”,CAST(visitStartTime作为字符串))计数为会话, (计数(不同) 案例 当totals.bounces=1时,则为CONCAT(fullVisitorId,CAST(visitStartTime作为字符串)) 否则无效 结束)/计数(不同的CO

Google bigquery GCP BigQuery在尝试获取架构的_状态时抛出无效URL,即使该架构存在

模式存在得很好,我可以复制并运行BigQuery。 在requirements.txt中,我们使用的是最新的软件包(google cloud bigquery) 异常无效URL“None/bigquery/v2/projects/XXXXXX/XXXXX” 没有提供架构。也许你的意思是 代码段: client = bigquery.Client(project="XXXXXXXX") client_bq.get_table(table_ref) 我不清楚这个变量table_ref到底传递了什么

Google bigquery put方法是否在Google';s Bigquery客户端库是否利用流式插入?

我想知道下面的代码是否会导致src的每个值都发生流式插入(假设为src传递了一个结构片) func(u*Inserter)Put(ctx context.context,src接口{})(错误){ ctx=trace.StartSpan(ctx,“cloud.google.com/go/bigquery.Inserter.Put”) defer func(){trace.EndSpan(ctx,err)}() 保存器,错误:=值保存器(src) 如果错误!=零{ 返回错误 } 返回u.putMu

Google bigquery 如何在标准SQL中的WHERE子句中将子查询用作选项列表

有什么问题 我有一个非常大的结果列表。我希望筛选查询,使其仅包含一小部分基于表中最常用结果的查询 当我将筛选子查询放入WITH子句时,它不起作用。但是如果我把它直接放在WHERE子句中,它确实起作用。为什么? 为了清楚起见,我更喜欢第一个,但我无法让它工作 我在使用标准SQL的BigQuery中工作 示例 WITH most_common AS ( SELECT page FROM `mydataset` LIMIT 100 ) SELECT * F

Google bigquery Bigquery Datetime时间戳函数

有人能给我解释一下下面的代码吗 DATETIME(TIMESTAMP_SECONDS(created_time_epoch), "America/Texas"), created_time_epoch, DATE(TIMESTAMP_SECONDS(pickup_time_epoch)), 如何使用DATA PREP将这些更改合并到GCP?您正在尝试将某个SQL查询中的函数复制到某些DATA PREP配方中 从BigQuery的角度,我可以解释代码在做什么,然后我认为您可以找出使用DataPr

Google bigquery 表中一列的更新成本是否与BigQuery中的FTS成本相同?

在BigQuery中,我想更新我的一个表中的一列,这样做的成本似乎与我对该表进行FTS全表扫描一样高 假设我有一个1TB的表employee,它有两列:first_name、last_name各512GB,我想将所有员工的firs_name设置为“john”,如下所示 UPDATE my_dataset.employee SET first_name = 'john' WHERE TRUE IS TRUE # mandatory WHERE clause 这个多少钱 从下面

Google bigquery bigquery标准中按汇总分组的分组函数

我知道bigquery遗留SQL有一个grouping()函数,用于按汇总分组以区分空值 标准SQL是否有类似的函数?或者有没有其他方法可以在不首先用硬编码值替换的情况下区分空值?根据文档,可以在StandardSQL中找到。其定义如下: GROUP BY ROLLUP返回GROUP BY对 汇总列表中的表达式,每个表达式都称为分组 设置对于汇总列表(a、b、c),分组集为(a、b、c), (a,b),(a),() 您可以按如下语法使用它: SELECT * FROM `project_id.

Google bigquery 加上一句「;“计算列”;在不重复计算的情况下执行BigQuery查询

我想在新的第三列中恢复计算列的值。 例如,此查询适用于: select countif(cond1) as A, countif(cond2) as B, countif(cond1)/countif(cond2) as prct_pass From Where Group By 但是当我尝试使用A,B而不是重复countif时,它不起作用,因为A和B是: 我能让第二个版本更具可读性吗? 第一个查询效率低吗?您应该构造一个子查询(即,双击查询),如 或 我们可以看到,

Google bigquery 维护/设置写入截断计划查询的列描述

场景:我们有许多计划查询,这些查询将数据复制到我们用作集中数据仓库的项目中。这些是计划查询,配置为每晚运行,并设置为WRITE_TRUNCATE 问题:我们在几个目标表中的列中添加了描述,以记录它们。但是,当计划查询运行时,它们删除了所有列描述。保留表说明 期望的结果:是否有一种方法可以插入列描述作为计划查询的一部分,或者有其他方法可以避免每晚删除这些列描述?或者这仅仅是WRITE_TRUNCATE调度查询的一个限制 我已经搜索了Google&Stack Overflow,并查看了文档,但我找不

Google bigquery 如何在GCP Bigquery表中创建包含空格的列名?

我正在使用dataflow Jdbc到Bigquery模板将mssql数据迁移到Bigquery中 我在bigquery中使用相同的模式创建表,然后运行数据流管道 但mssql中有些表的列名包含空格(例如员工详细信息)。如何在包含空格的Bigquery中创建相同的列?在Bigquery中-字段必须仅包含字母、数字和下划线,以字母或下划线开头,长度最多为128个字符。那么,我的问题的解决方案是什么?如何将MSSQL映射到bigquery列?可以将空格替换为example@MikhailBerlya

Google bigquery 大查询删除嵌套在结构对象中的列

我在从bigquery表中删除一列时遇到了一些麻烦。 我有一个名为jsonPayload的结构对象。 此字段具有多个子字段。 e、 g: 我想删除列jsonPayload.markers.message\u timestamp,它是一个字符串,不删除任何其他字段 这与该线程的情况完全相同,但当我执行此操作时,它会删除所有jsonPayload.*如jsonPayload.source 我找不到正确的语法来执行此操作。有人能帮我吗 编辑: 以下是我的bigquery表的数据结构: 字段名 类型 模

Google bigquery 尝试从AVRO文件创建表时BQ load作业失败

我正在尝试从AVRO文件创建一个BQ表。我在运行BQ加载作业时遇到此错误: 读取数据时出错,错误消息:Apache Avro库 无法分析标头,出现以下错误:意外类型 用于默认值。应为长,但为null:null“ AVRO文件的架构为: { "type" : "record", "name" : "Pair", "namespace" : "org.apache.avro.ma

Google bigquery BQ LoadJob配置拼花地板问题

我们有一个Java代码,它从GCS读取拼花文件,并使用LoadJobConfiguration写入BQ。我注意到,当文件中有数组时,它的模式会发生变化 TableId TableId=TableId.of(bqProjectID,datasetName,tableName); LoadJob配置= LoadJobConfiguration.builder(tableId,sourceUri) .setFormatOptions(FormatOptions.parquet()) .build();

Google bigquery BigQuery:由开始日期和结束日期描述的用户元数据-在多个表中创建排列

我有一些BigQuery表,其中包含一些与用户相关的元数据,以及该值有效的时间间隔 例如: 此表跟踪用户颜色随时间的变化: 此表跟踪用户在时间上的变化: 首先,请注意,根据单个元数据的性质,两个表之间的时间间隔不相等,可以部分重叠、完全重叠或不完全重叠 这里的目标是合并2个表的元数据列,以便创建一个表,该表创建相同的日期开始结束结构,同时考虑所有值和每次更改的日期 到目前为止,我做到了: input_1 AS ( SELECT DATE('2021-05-01') AS date_

  1    2   3   4   5   6  ... 下一页 最后一页 共 76 页