最近有几个关于数据库索引和集群索引的问题,直到最近几周对我来说还是一个新问题。我想知道它有多重要,创建它们可以带来什么样的性能提升
编辑:当您第一次开始创建聚集索引时,通常要查看的最佳字段类型是什么?非常非常(,)重要。在我看来,明智的索引是数据库性能优化中绝对最重要的事情
这不是一个简单的问题,在一个单一的答案涵盖。好的索引需要了解数据库上将要发生的查询,进行大量权衡,并理解特定数据库引擎中特定索引的含义。但这是非常重要的
编辑:基本上,聚集索引通常应该具有较短的长度。它们应该在反映范围的查询
我刚开始使用JavaHelp包。我对目录做了一些基本的修改,没有任何问题
我的问题在于我创建了各种新的帮助文件(添加到我的开发团队中的现有项目中),并将各种部分添加到现有的帮助文件中。我现在需要确保index.xml文件是更新的、有用的和有意义的
似乎这应该是自动生成的,但我似乎找不到一种方法来实现,而且我尝试使用的任何解决方案似乎都不起作用
有什么方法可以做到这一点吗?您可以随时创建一个更新此索引文件的方法
谢谢
-布莱克·尼米斯基
我手头上有一个案例,我必须是超级骗子,确保谷歌(或任何雅虎/必应)不会为特定内容编制索引,因此冗余越多越好
据我所知,有3种方法可以实现这一点,我想知道是否还有更多(冗余是这里的关键):
将meta标记设置为无索引
不允许robots.txt中受影响的url结构
通过ajax后加载内容
所以,如果这些都是方法,那就好了,但如果有人知道如何更加确定,那就太棒了:D
(我知道这有点疯狂,但如果内容以某种方式出现在谷歌上,对我的公司来说会变得非常昂贵:“-()嗯,我想你可能需要某种注册/认证才能看到内
我们正在寻找一些关于在Solr中系统地重新编制索引的建议。Solr是一个不断增长的文档库(现在有几千万个,一年内有几亿个),而不需要降低当前运行的索引。需要定期重新编制索引,因为:
新的功能将围绕
搜索现有的
需要其他架构字段
这是我们无法预料的
前进
语料库是跨多个数据库建立索引的
碎片。当它增长到某个特定的时间
门槛,我们需要创造更多
碎片和重新平衡文档
均匀地分布在所有这些区域(其中
索尔克劳德似乎还没有
支持)
当前索引接收非常频繁的更新和添加,需要在几分钟内可供搜索。因此,批量脱机
我有一个wordpress多语言网站。默认语言是英语,对于翻译,我使用gettext和.po文件(我有很多其他语言,如日语、俄语、捷克语等)。
让我们假设一个说法语的人碰巧接触到了英语);现在,只需点击一个特定的链接(例如:lang=fr“>法语“>),他就可以到达用法语查看相同内容的地方
我的与本地化相关的wp配置文件是:
<?php if (!session_id())
session_start();
if(isset($_GET['lang']))
{
switch($_GE
下面是我写的两个简单的Cython方法。在g_cython()方法中,我对numpy数组a和b使用了额外的类型,但令人惊讶的是,g_cython()比g_less_cython()慢两倍。我想知道为什么会这样?我想加上它会使a和b上的索引速度更快吗
另外,我知道这两个函数都可以在numpy中矢量化——我只是在探索cython的优化技巧
import numpy as np;
cimport numpy as np;
def g_cython(np.ndarray[np.int_t, ndim
我非常迫切地想继续使用我的代码,需要帮助
我是编程新手,最近才学会如何切片
我正在练习写我自己的代码,类似于pyg拉丁语,除了不检查第一个字符外,我需要检查通过原始输入作为字符串输入的最后一个字符
我需要检查最后一个字符,我不知道如何索引长度未知的字符串
比如说
word=原始输入(“输入word:”)
..输入字符串“纸张”
我需要我的代码来识别字符串的最后一个字符
我只想到了两种解决办法
基于
如果len(word)如果你说的是Python,你可以简单地用一个负的起始索引进行切片,从字符串的
我使用IndexedDB,我有两个对象存储:Equipm(表示不同的设备,主键tagNo)和EquipmParts(表示设备的部件,索引基于标签号/序列号,主键SegNo,带有一个表示该部件所属设备的字段tagNo)
如果我在Equipment中删除一条记录,我想删除EquipmParts中带有Equipm标记号的所有记录(就像“where equipmParts.tagNo=Equipm.tagNo”)
摘自我的代码:
var tx = db.transaction(["equip", "eq
我试图在代码中消除硬编码的属性名称,并坚持使用嵌套数组的索引
字符串版本看起来非常简单:
DocumentCaollection.EnsureIndex("ChangesList._id");
但我不知道如何使用IndexKeysBuilder编写:
new IndexKeysBuilder<TransactionEntity>().Ascending(x => x.ChangesList. ???? )
例如,此代码可编译,但在运行时失败:
new IndexKeysBu
我有一个关于美国的页面上的图像,我不希望谷歌索引在其图像引擎。有没有一个简单的方法可以做到这一点?该网站是使用Wordpress构建的。为了防止网站中的图像显示在谷歌的图像查询项目中,请在服务器根目录中添加robots.txt文件,以阻止图像显示。从查询项中删除图片比删除URL设备需要更多的时间,但这是一个适用于所有Internet搜索者的Internet标准,通过使用特殊情况或子路径阻塞,您可以进行更灵活的控制
举个例子,如果您需要Google排除出现在您的网站www.yoursite.com
有没有人有使用同义词过滤器工厂的同义词文件的经验?我们希望在没有自己经验的情况下,为一个新项目写下功能需求(用层次同义词按方面对搜索结果进行分组)
每个文档的索引时间将如何增加?同义词文件的通用文件大小是什么?该文件不应超过什么大小 我想你会惊喜的,Solr可以处理一些相当大的列表:
也就是说,要知道您的特定用例是否会根据您的特定需求进行操作,唯一的方法就是测试它
但是有一件事,如果您使用存储在Zookeeper(SolrCloud)中的配置集,默认ZK配置中的最大文件大小是1Mb。如果您的同义
标签: Indexing
azure-cognitive-searchazure-search-.net-sdk
在我无法控制的情况下,我有义务使用多个索引和可能的多个azure搜索服务来存储可搜索的数据
由于不支持多个索引查询,且搜索结果相关性得分与其索引相关-如何获得从多个搜索源编译的结果、合理排序并支持分页?如果需要跨多个索引搜索,这是一个选项,可以构建一个包含来自它们的数据的新索引。我们将获得分页和有意义的排名
如果需要从多个Azure搜索服务进行搜索,应用程序需要将所有服务作为数据源,并自行处理排名和分页。这要复杂得多
在_defaultsolr 7.6.0托管模式文件中,它声明:
'要获得最佳索引大小和搜索性能,请将“index”设置为false'
在浏览了Solr文档之后,我不知道如果索引设置为false,Solr如何搜索字段
我完全理解为什么这是“最佳尺寸”,但我的问题是;将索引设置为false如何提供最佳的“搜索性能”
当然,将index设置为true的全部目的是提高搜索性能。好吧,它这样说(在我现在的版本中):
为了获得最佳索引大小和搜索性能,请将“index”设置为false
对于所有常规文本字段,
标签:elasticsearch Indexing
information-retrieval
我正在创建一个查找索引,我将仅将其用作索引。因此,无需搜索/聚合,只需过滤和GETs
我正在讨论这个查找索引的结构,每个文档是否应该包含我要筛选的所有字段,或者是否应该为每个字段创建一个索引
例如,假设每个文档都属于一个用户。每个用户都有他们玩过的游戏、读过的书和看过的电影的列表。在搜索游戏/书籍/电影推荐时,我将使用术语过滤器过滤掉他们已经互动过的项目
我想知道我是否应该有一个带有文档映射的查找索引,如:
用户索引
{
'game_ids': [],
'movie_ids' : [],
我正在学习elasticssearch,在给我的一个演示数据库中,我有一个日期时间字段,该字段用名称time_戳保存。日期数据保存为文本:
"time_stamp":"13-06-2019 04:44:23"
我想创建一个名为“date”的新数据字段,只从每个文档中提取日期,并将其存储在同一文档中。当前索引映射如下所示:
{
"vp1": {
"mappings": {
"dynamic": "false",
"prope
我想要发送到Solr服务器的最后一个对象。有一个第三方想要相同的精确数据,但他们想要直接从Hybris获得(现在他们是从Solr服务器本身获得的)。如果我运行索引作业,它将更新当前的Solr索引。我不想更新Solr索引。
我需要以列表的形式发送响应这就是神奇发生的地方-
SolrInputDocument solrDocument = this.createInputDocument(itemModel, indexConfig, indexedType);
在
/hybris/bin/ext
我正在使用elasticsearch从rails应用程序获取快速结果。我想知道执行一个特定查询需要多少时间?是否有任何工具可用于查找和比较执行时间,以便优化查询?响应对象中的“take”属性是以毫秒为单位的执行时间。例如:
{
"took" : 17,
"timed_out" : false,
"_shards" : {
"total" : 5,
"successful" : 5,
"skipped" : 0,
"failed" : 0
},
我找不到有关以下问题的任何文档:
我们正在为要索引到Elasticsearch的所有字段创建模板文件。问题是关于模板中未定义的字段:
它们的索引默认弹性值是多少
索引这些字段有哪些限制(如果有)
我试图索引一个字段,它的值是JSON和
我遇到了一个异常:“无法在1:311获取START_对象上的文本”,
这是什么意思
字符串字段使用带有标准分析器的文本字段和带有关键字数据类型的子字段.keyword编制索引,上面的选项ignore_设置为256。试图将日期字段解析为iso 8601格式-此格式y
对于具有类似项的数组:
是否有一种简单的方法来获取(索引,值),类似于枚举
枚举仍然对元素进行计数收集(枚举(a))返回:
3-element Array{Tuple{Int64,Int64},1}:
(1, 1)
(2, 2)
(3, 3)
我正在寻找:
(0, 1)
(1, 2)
(2, 3)
尝试eachindex(a)获取索引,请参见下面的示例:
julia> tuple.(eachindex(a),a)
3-element OffsetArray(::Array{
我一直在疯狂地寻找答案,但我仍然一无所知:
我正在使用
int[] getTermPositions(int index)
一个TermPositionVector的一个字段,它被设置为存储偏移量和位置,以获得我感兴趣的术语的术语位置,作为上下文中的关键字突出显示
问题是:这些立场对应什么?显然不是
String[] getTerms()
这是由TermFreqVector接口返回的,因为它只包含我的术语的原始计数
我要寻找的是一种获取字段的标记化数组的方法,这样我就可以从getTermPo
我有一个数据框架,主索引上有三个级别:
from pandas import *
df_multi = DataFrame(np.random.rand(6,2), index = [['CF', 'CF', 'CF', 'DA', 'DA','DA'], ['x', 'y', 'y', 'x', 'y', 'y'], ['a', 'b', 'a', 'a', 'a', 'b']], columns = ['PC1', 'PC2'])
df_multi.index.names =['l1','l
我对这两个二级索引以及它们之间的差异感到好奇。很难想象这是什么样子。我认为,这将帮助更多的人而不仅仅是我。本地二级索引仍然依赖于原始散列键。
当您提供具有hash+range的表时,请将LSI视为hash+range1、hash+range2。。哈希+范围6。
您还可以查询5个范围属性。
此外,只有一个配置的吞吐量
全局二级索引定义了一个新的范例-每个索引具有不同的哈希/范围键。
这打破了原来每个表使用一个哈希键的习惯。
这也是为什么在定义GSI时,需要为每个索引添加一个已配置的吞吐量并为此付费
鉴于我有以下结构(去掉不必要的细节)
如果我有很多这类产品存储在raven中,并且我想通过制造商id(或者其他一些东西)对它们进行索引,我会制作一个这样的索引(当然在现实生活中,这个索引还包含一些其他信息…)
公共类ProductManufacturerIndex:AbstractIndexCreationTask{
公共产品制造商索引(){
映射=产品=>来自产品中的产品
选择新的{
制造商标识=产品.Manufacturer.Id,
};
}
}
我的问题是,为什么我需要命名我的现场制造商
标签: Indexing
cpucpu-registerscomputer-architecturecpu-architecture
索引寄存器可以有负值吗?
例如:开始时Xr为0,然后我们需要减小它?Xr的值是多少?寄存器可以保存任何适合其位数的值。是什么让这个值为负值还是负值取决于你对待它的方式。你应该问自己的问题是-你的基本CPU是否支持有符号算术运算,以及它是如何编码的
到目前为止,您必须了解的常用方法是2的补码,因此,如果寄存器的值为0xffff(假设它是16位宽),则可以将其解释为2^16减1,或-1,具体取决于读取它的用户和方式。
因此,术语索引有点模棱两可,因为所使用的值将由操作类型决定-如果您打算在某些计算中
是重新编制索引的示例。但如果在重新索引期间更新了date字段,该怎么办?在多次滚动请求之后,我需要将日期从date设置为now。elasticsearch scroll如何处理这种情况:它只是使用旧的日期值滚动文档,或者永远滚动直到更新请求结束?扫描和滚动API的工作方式描述为远离链接的一个链接,即
在那一页上写着
滚动搜索会及时获取快照 — 它没有看到任何变化
在初始搜索请求完成后对索引进行的
…制造的它通过保留旧的数据文件来实现这一点,以便
保留索引开始时的“视图”
因此,这意味着无论您是使
我正在使用elasticsearch短语前缀查询进行一些自动补全。
它通常工作得很好,但有时再也找不到不完整的单词了,尽管多了一个或少了一个字母,它还是找到了
例如:它确实通过查询“Anomal”和查询“Anomalie”找到了包含“Anomalie”的内容,但没有找到任何包含“Anomalie”的内容。这对于用户体验来说真的很奇怪
我之前的谷歌搜索让我尝试禁用stopwords,但这并没有解决我的问题。我尝试在分析器中使用stopwords配置并将其用作过滤器
复制:
索引创建、配置和添加文档
我有一个用于GIS地图上的大型实体的基础设施——使用图形绘制卡(WebGL)
今天,我将使用四叉树对数据进行索引和查询-用于选择/绘制目的
最近,我发现了一种方法,可以让我的用户更新实体的位置并快速绘制更改。例如,更新15000个位置并重新绘制所需时间少于0.05毫秒
现在的问题是更新我的数据结构。它非常非常慢
我已经看过很多数据结构,比如R树、B树等等。。但尚未找到令人满意的结果
我的问题是
从性能角度来看,用于插入/更新和查询(按与点的距离、矩形)的2d点的最佳数据结构是什么
也许有一个we
我有下面的logstash配置文件,用于索引数据库(在本例中只是一个csv文件)。每次使用此配置调用logstash时,它都会添加到现有的elasticsearch索引中,从而生成重复项。我真的希望它覆盖现有的索引。我意识到我可能可以通过两个配置调用来实现这一点,一个是action=>“delete”,另一个是action=>“index”,但似乎我应该能够在一个步骤中完成这一点。此外,从报告中还不清楚我是否可以使用upsert进行此操作。(另外,请注意,我正在使用stdin选项,这意味着一旦文
我正在使用logstash、elastic search和Kibana。
输入文件为.csv格式
我首先通过Kibana中的开发工具>控制台创建了以下映射:
PUT /defects
{
"mappings": {
"type_name":{
"properties" : {
"Detected on Date" :{
"type": "date"
},
"D
例如,dynamo db具有以下格式的数据:-
{
"id":"<id>",
"field-1":"<field-1-value>",
"field-2":"<field-2-value>",
"field-3":"<field-3-value>",
"field-4":"<field-4-value>",
"metadata":{
"subfield-1":"<subfield-1-value>",
我创建了一个数据库
类别:选项卡,
财产:
id int唯一
idTag int
标记名字符串
类型字符串
日期时间
xy点地理空间
z双
我想建立一个索引来加速查询
如果用户为1个属性(如idTag)创建索引
在标签idTag NOTNUNIQUE上创建索引idTag
一,/
我可以在同一查询中查询index_idTag和键入谁
差不多
从索引为10且类型为«人员»的选项卡中选择
二,/
我想查询索引idTag,但返回所有信息id、索引idTag、标记名、类型、日期、xy、z
Ty为您提供帮助
我需要从索引的Url中删除查询参数。为此,我在扩展中编写了IndexPage钩子。当我点击重建索引时,它并没有进入我的钩子。如何执行钩子
config.php
$GLOBALS['TL_HOOKS']['indexPage'][] = array('MyExtension\SearchIndex', 'myIndexPage');
SearchIndex.php
<?php
namespace MyExtension;
use Contao;
class SearchIndex{
我使用的是MySQL 8,对于如何选择用于不同查询的索引,我仍然有一些疑问
表如下所示:
CREATE TABLE IF NOT EXISTS`collection\u stats`(
`id`BIGINT UNSIGNED NOT NULL AUTO_INCREMENT,
`日期`日期不为空,
`org_uuid`二进制(16)不为空,
`project_uuid`二进制(16)不为空,
`集合名称'VARCHAR(255)不为空,
`计数器1`BIGINT未签名非空默认值0,
`计数器2`B
标签:elasticsearch Indexing
full-text-searchelastic-stack
我需要索引“客户”实体的弹性。我的对象“CLIENT”person由几个片段(JSON文档)组成,如
所以我的索引必须存储所有这些段(JSON文档)。然后我必须通过不同的字段和段组合进行搜索,例如:搜索COMMON.firstname、COMMON.lastname、EDUCATION.field1、EDUCATION.field2中的“university”。我是否可以将搜索结果作为包含所有段的客户端列表返回?我想说的是,文档可以是这样的
{
...common properties,
我正在尝试使用chaincode中的查询从区块链获取数据。我在区块链中调用了大约2,50000条记录,并尝试使用查询获取数据。当我运行链码并获取对等日志时,我得到以下错误
failed to invoke chaincode name:"scbcch" , error: timeout expired while executing transaction
当我查询较少的数据时,我的代码运行良好,没有这些错误
有谁能帮我解决这个问题吗
我正在使用Hyperledger Fabric 1.4
这
我的应用程序要求能够通过相关联系人的编号过滤/搜索对
对始终存储了对联系人的引用,但该联系人的号码不会也不会存储在引用中。因此,我尝试为此创建一个自定义索引,因为对和联系人存储在不同的集合中
索引的简化示例如下所示
public class Pairs_Search : AbstractMultiMapIndexCreationTask<Pairs_Search.Result>
{
public class Result
{
public string
标签: Indexing
robots.txtgooglebotgoogle-index
有没有可能阻止文件名中包含特定字符串的图像被谷歌索引?robots.txt部分应该是什么样子
谷歌表示:
此外,“Disallow”语法可以包含一个“*”来表示任何
字符串
这是否意味着robots.txt条目如下:
User-agent: Googlebot
Disallow: *blocked.jpg
会不会阻止像这样命名的图像被谷歌编入索引
image-of-my-dog-blocked.jpg
image-001-blocked.jpg
我们正在做一个白标签网站,它不能被谷歌索引
有人知道一个工具来检查谷歌机器人是否会索引一个给定的url吗
我已经把放在了所有页面上,所以它不应该被编入索引——但是我宁愿通过测试它来获得110%的确定度
我知道我可以使用robots.txt,但是robots.txt的问题如下:
我们的主站点应该被编入索引,它与白标签站点在IIS(ASP.Net)上的应用程序是相同的——唯一的区别是url
我无法根据传入的url修改robots.txt,但我可以从我的代码隐藏向所有页面添加元标记。您应该向站点添加元
我有一个问题,我怎么能有一个类似的谷歌结果比维基百科,myspace
当你在谷歌上搜索维基百科时,在搜索结果的下方有一个对维基百科的输入搜索,这对用户来说是友好的。当你在谷歌上搜索Myspace时,在谷歌搜索结果的下方有一些链接:登录、注册、注册、搜索
我真的希望我的网站在谷歌上有这样的结果
雅虎搜索和必应也可以这样做吗
谢谢。创建网站地图:
创建自定义搜索引擎:
谢谢谷歌 谢谢皮埃尔!输入搜索呢?如何启用它?在google上搜索wikipedia并看到第一个结果,你就会知道我所说的输入搜索。我
这是汤姆的问题,但他现在很忙
我不是DBA,只是一个简单的JavaEE开发人员,也是Oracle的新手,我被要求优化一些查询
我有一张像这样的大桌子
create table test_table(
DUMMY VARCHAR2(50),
COB DATE,
DATA VARCHAR2(100)
);
CREATE INDEX "TEST_TABLE_DUMMY_COB_IDX" ON "TEST_TABLE" (
case
when DUMMY IS NULL t
我创建了一些实体的数据集,如用户、媒体及其关系。我的neo4j.properties文件已为节点和关系启用自动索引。我还添加了一个属性'type'到节点\u keys\u indexable。但是,当我在运行以下查询时出现以下错误时
START user =node:node_auto_index(fn="Balaji")
RETURN user.ln
Error: Index `node_auto_index` does not exist
我不熟悉neo4j。谢谢你的帮助
谢谢和问候
使用Box2D 2.2.0,我正在使用Box2D开发一个游戏。玩家射击AABBs。在每个步骤()中,我移动AABB并通过b2World->QueryAABB(&queryCallback,AABB)处理冲突。然而,我的游戏世界是由链式形状组成的。所以b2World->QueryAbb只检测倾斜链形状的AABBs。因此,我目前的目标是从ReportFixture()中获取子索引,以便根据chainshape的指定边测试AABB
我发现:
在那篇文章之后,我向ReportFixture添加了子索引,
我正在使用neo4j创建一个版本化的图形数据库,在数据库中实现唯一约束时遇到了一些问题
我想知道是否有可能做类似的事情
CREATE CONSTRAINT ON (u:CaliopeUser) ASSERT u.timestampt+u.name IS UNIQUE
或者关于如何在neo4j中为版本化数据库实现唯一性约束的任何其他想法。在2.0复合模式索引中是不可能的。建议的解决方法是创建另一个包含复合值的属性(可能transactionEventHandler有助于实现此操作的自动化),并对
Arangodb 2.8b3
有一些属性文件“规格”,里面可以有1-100个键,如
document {
...
specification: {
key1: "value",
...
key10: "value"
}
}
按specification.key进行任务快速查询
For Doc IN MyCollection FILTER Doc.specification['key1'] == "value" RETURN Doc
已尝试使用字
我们使用的是托管在Tomcat上的Solr和Sitecore 8.0。我们遇到了一个奇怪的问题,sitecore_master_索引在Tomcat或服务器启动后大约半小时内增量更新索引,但随后停止索引。过去4天一直如此
在Sitecore的爬网日志中,从未找到任何与Sitecore\u主索引相关的条目,但其他索引(包括Sitecore\u core\u索引和Sitecore\u web\u索引)会得到更新。后一个索引的条目出现在爬网日志中
我已经检查了所有内容,包括eventqueue表的大小、
查询索引属性范围时,范围大小是否有最大限制
为了澄清,我有一个以毫秒为单位的timestamp属性,它被编入索引,我正在尝试获取一个月内发生的所有事件。我有一个这样的问题
Match (e:Event)-[R:type{'has metadata'}]-> (S:EventMetaData) where e.type=~".*ELec.*" AND e.timestamp IN RANGE (1480550400000,1483228740000) return S.Location,
对于ncsim,以下代码引发错误:
位选择或部分选择索引超出声明的界限
然而,注释掉的代码做了完全相同的事情,却没有。我是遗漏了什么还是编译器弄错了
模块局部放电测试;
genvar i,j;
注册表[10-1:0]从注册表中分配\u;
reg[256:0]将\分配给\ reg;
生成
对于(i=0;i将条件if(i+2*j
我正在使用弹性搜索为我的文档编制索引,并希望根据特定属性筛选文档。这是我的密码:
filter.push({
range: {"audience.ethnicity.asian" : { gt: 50 } }
})
它不适用于gt运算符(返回不一致的结果),但适用于lt运算符
filter.push({
range: {"audience.ethnicity.asian" : { lt: 50 } }
我有var记录=[CKRecord]()
我有record.recordID.recordName
如何在记录中找到哪个索引是record.recordID.recordName
我需要它来通过indexPath更新我的tableView。您只需在数组上使用该方法即可
let index = arr.firstIndex(where: { r in
r.recordID.recordName == record.recordID.recordName
})
请注意,索引是可选的,如果在数组
我有一个NxN数组a、一个NxN数组B和一个NxN掩码(位矩阵)M。现在我只想为M为真的索引将B的值复制/分配给a。最好的方法是什么?您可以使用
或者简单地写一个循环:
julia> for i in eachindex(A, B, M)
if M[i]
A[i] = B[i]
end
end
在我的电脑上,@inbounds在循环中,速度会有10倍的显著差异。如果您使用eachindex(A,B,M
1 2 3 4 5 6 ...
下一页 最后一页 共 29 页