Lucene HTTP错误:solr配置中存在500个严重错误

我正试图通过这个链接从mysql导入数据 我得到以下错误 HTTP ERROR: 500 - Severe errors in solr configuration. Check your log files for more detailed information on what may be wrong. If you want solr to continue after configuration errors, change: <abortOnConfigurationErr

如何搜索';和';和lucene?

我正在看电视。我不知道如何搜索“和”。我试过“一个后面有and和单词的句子”我试过+和\和。它总是忽略它。如何搜索“和”?我正在使用lucene.net您是否在索引中包含“and”以便其可搜索 如果您使用StandardAnalyzer为文档编制索引,则默认的停止词列表中包含“和”。如果您想在索引中包含单词“and”,可以将自己的停止词列表作为字符串数组传递给StandardAnalyzer的构造函数。您是否尝试过所有大写字母中的和 如果你想做一个和搜索,你有几个选择。你能行 +foo +bar

为什么像Lucene/Solr这样的文档存储不包括在NoSQL对话中?

我们所有人最近都遇到过没有SQL解决方案的炒作。MongoDB、CouchDB、BigTable、Cassandra和其他已被列为无SQL选项。下面是一个例子: 然而,三年前,我和一位同事使用Lucene.NET,似乎符合无SQL的描述。我们不只是使用它进行用户输入的搜索查询;我们使用它使一些重新编制索引的RDBMS表数据非常高效。我们实现了自己的.NET服务,类似于Solr服务,以管理这些索引并使其可调用。当我离开公司时,团队转而使用Solr。(对于那些不知道的人来说,Solr是一个web服

Lucene Solr请求在索引更新期间超时。也许复制是一个可能的解决方案?

我们正在运行Solr安装(一切都是标准的jetty环境,只是在模式中添加了一些字段) 索引大约有80k个平均大小的文档(可能有20个字段,每个字段大约有100个字符) 问题是,有时一些请求会超时。它们不会在服务器端超时,但会花费超过10秒的时间,我们的应用程序会将其视为超时。它们是非常简单的查询,通常不会花费超过80毫秒的时间 它似乎与重建索引相关(我们正在从数据库收集信息,并在200个文档中不断更新索引)。我的意思是,如果没有文档可以更新,索引工作就会被发送到睡眠状态。我估计每15-20分钟就

Lucene 您以前是否使用elasticsearch为nutch爬行结果编制过索引?

有没有人有幸为nutch编写自定义索引器,用elasticsearch为爬网结果编制索引?或者您知道已经存在的任何问题吗?还没有完成,但这肯定是可行的,但需要借助SOLR代码(src/java/org/apache/nutch/indexer/SOLR)并使其适应ElasticSearch。顺便说一句,我知道Nutch将添加可插拔的后端,很高兴看到它。我需要将elasticsearch与Nutch 1.3集成。代码张贴在这里。利用(src/java/org/apache/nutch/indexe

Lucene 我可以根据其中一个字段的分数调整排序吗

我们的网站正在使用Lucene2.1对产品信息进行索引和搜索,如产品名称、描述等。有一个排序条件,具有折扣价格的产品应位于结果页面的顶部 一个新的要求:如果关键字与产品名称匹配,我们应该将此产品放在结果页面的顶部,即使它没有折扣价格。 如何做到这一点,我可以得到排序过程中的一个字段的分数吗 example: product1(name: aaa, description: ddd bbb, discount:null) product2(name: bbb, description: ddd b

Lucene 吕森-奎里帕尔问题

有人能解释一下为什么原始查询(以编程方式生成)中的OR(左起第二个)在解析的查询中成为必须的吗?我如何防止这种情况 Original Query: +matchAllDocs:true +( request_id:(00000000000000000000000000002796 OR 00000000000000000000000000002829) OR ( matchAllDocs:true AND ( request_id:(0000000000000000000000000000279

CLucene 2.3.2使用Lucene 2.9索引格式读取目录时出现代码块故障

(my)CLucene版本为2.3.3 (客户端)Lucene文件索引格式为2.9.1 此时出现一个错误: IndexReader* reader = IndexReader::open(index); 错误: 告诉我如何避开Lucene当前的错误、不兼容的版本 卢克…?在这一点上?哪一个?IndexReader*reader=IndexReader::open(索引);如果你需要,我可以给你所有的源代码

确定满足Lucene查询的确切术语

Lucene 4.4有没有办法准确地确定哪些术语满足查询?我只需要强调导致文档返回的术语,而不是文档中其他地方的相同术语。例如,给定文档: We are going to visit the White House today. I hear it is painted white. 还有短语query“whitehouse”,我想强调以下术语: We are going to visit the <b>White</b> <b>House</b>

Luke-在ram中访问我的Lucene索引?

当我将hibernate搜索的目录提供程序配置为ram时,如何使用Luke访问Lucene索引 我不知道为路径输入什么: 那是不可能的。Lucene RAM索引不能与Luke一起检查。您需要一个基于文件系统的索引。RAM索引仅在创建它的JVM中可见,并且在重新启动时丢失。它的主要用途是在开发和测试期间,或者在仅暂时需要索引的应用程序中

Lucene 我可以在节点/集群上创建ElasticSearch索引,然后稍后更改集群吗?

我可以在集群上创建一个ElasticSearch索引吗,让我们把它命名为“集群1” 然后假设有另一个集群“集群2”,我希望节点将来移动到其中。将来是否可以只更改集群名称而不影响数据?当然,如果碎片移动到集群中的其他节点也可以,但我只是不希望任何数据丢失。是的,我相信您可以在配置中更改es进程(节点)的集群名称,并且数据碎片仍将存在于新集群中 是的,Cluster 2可以从Cluster 1节点获取索引,但您必须确保: 将ESHOME/data/Cluster 1节点上的数据目录从ESHOME/d

Lucene 无法从Sitecore电子商务服务检索产品

我正在尝试将Sitecore电子商务服务(SES)与现有产品(作为Sitecore项目提供)集成到现有站点中 当我尝试检索以下产品时: IPProductRepository productRepository=Sitecore.Ecommerce.Context.Entity.Resolve(); var builder=new CatalogQueryBuilder(); var productTemplateId=“{C7B33629-A35B-4EF8-8FE7-9343ACAA6FBE

Lucene ElasticSearch:查询字符串,但必须匹配特定字段中的1个术语?

我想构建一个ElasticSearch查询,其中我查询多个字段,但查询中的一个单词必须与其中一个字段匹配 例如,假设我查询“holiday party food”,我希望它返回所有在标题中至少有一个术语的文档,其余的在html_源中 如果文件具有: title: Holiday, html_source: party food => MATCH title: Party, html_source: food holiday => MATCH title: Food, html_sou

如何使用ApacheLucene4.0分析字段

我正在使用lucene 4.0,现在我想分析使用StringField的字段。。谁能告诉我有什么方法可以分析字符串 Document d = new Document(); d.add(new StringField("id_c", rs.getString("id_c"), Field.Store.YES, Field.Index.ANALYZED)); d.add(new StringField("id_c", Field.Store.YES, Field.Index.ANALYZED

lucene如何构建VSM?

我理解VSM、TFIDF和余弦相似性的概念,但是在阅读lucene网站后,我仍然对lucene如何构建VSM和计算每个查询的相似性感到困惑 据我所知,VSM是一个矩阵,其中填充了每个项的TFIDF值。当我尝试从一组文档构建VSM时,使用此工具花费了很长时间 这实际上与编码无关,因为直观地构建大型数据的VSM矩阵非常耗时,但lucene似乎不是这样 此外,使用预先构建的VSM,查找最相似的文档基本上是计算两个文档之间的相似性,或者查询vs文档通常非常耗时(假设有数百万个文档,因为一个人必须计算与其

短语查询的Lucene评分

我使用StandardAnalyzer为我的文本编制索引。然而,在查询时,我正在进行术语查询和短语查询。对于术语查询和短语查询,我相信lucene在计算术语频率和短语频率方面没有问题。然而,这对于类似Dirichlet相似性的模型来说是很好的。对于BM25相似性或TFIDF相似性模型,它需要IDF(术语)和IDF(短语)。lucene如何处理这个问题 将TFIDF计算为其组成项的IDF之和。也就是说:idf(“ab-cd”)=idf(ab)+idf(cd) 然后将该值乘以短语频率,并将其视为一个

elasticsearch 使用通配符elasticsearch搜索文档中的完整术语

我使用通配符为文档编制了索引: 例如: _source: { "keyword": "*ower" } 现在我想用完整术语搜索并找到匹配项: 例如: "match": { "keyword": "tower" } 应与初始文档匹配。 我怎样才能用Elasticsearch做到这一点?我需要专门的分析仪吗 请注意,它与通配符查询完全相同,但工作方式相反(通配符在文档中,而不是在搜索词中)。为什么要这样做,为什么不为普通词编制索引,然后在搜索时使用通配符?假设我想将一组有效词(包括wu

ClassCastException:Lucene40PostingsFormat on Hibernate搜索

我尝试使用Hibernate搜索添加全文搜索功能,但当我尝试在glashfish应用服务器上部署ear项目时,我得到了Lucene40PostingsFormat classCastException 这是完整的服务器日志: Información: HHH000412: Hibernate Core {[WORKING]} Información: HHH000206: hibernate.properties not found Información: HHH000021: B

Hibernate Envers和Lucene搜索索引

我使用了Spring3.2.6.RELEASE和Hibernate4.3.0.Final,以便用@Indexed对实体进行索引,结果很好。但当我向pom.xml添加任何Envers版本并添加@Audited时,它会抛出异常 classNotFoundException: org.hibernate.boot.registry.classloading.spi.ClassLoaderService 我试过很多不同的版本。Envers、Lucene索引搜索的正确版本是什么 Caused by: j

elasticsearch 跨碎片弹性搜索不同的查询规范

我是ES的新手,我一直在研究ES的评分,试图提高搜索结果的质量。我遇到过这样一种情况,即queryNorm函数在碎片之间非常不同(5倍大)。我可以看到查询中的术语对idf的依赖关系,在碎片之间可能有所不同。但是,在我的例子中,我有一个搜索词+碎片间的idf度量值彼此接近(绝对不足以导致X 5倍的差异)。我将简要描述我的设置,包括我的查询和解释端点的结果 设置 我有一个包含6500个文档的索引,这些文档分布在5个碎片上。我提到,在下面的查询中显示的字段上没有索引时间提升。我提到我的设置使用带有“q

在Lucene 6.5.1中查找唯一术语

我正试图从Lucene目录中检索唯一术语的列表。在索引过程中,我创建了一个具有TermVector类型的字段: private void addDoc(IndexWriter writer, String content, String title, String id) throws IOException { Document doc = new Document(); doc.add(new TextField("content", content, Field.Store

通过字段值的存在提升Lucene中的搜索结果

我通过Kentico使用Lucene.net。我试图提高在某个领域具有特定价值的结果。例如: myfield:“myvalue”^2 不幸的是,这被视为一个搜索词,并改变了分数(通过tf和idf等) 有没有一种方法可以基于某个值的存在来提升结果,但不将该值作为搜索项包括在内 更新 所以我只想提高那个字段中包含该值的记录的分数,而不是任何形式的搜索值 如果做不到这一点,因为我实际上使用了两个索引,我可以对一个特定的索引应用提升吗?例如,索引-1中的项目总体得分略高于索引-2中的项目得分。如果您在“

elasticsearch 用于搜索文本的Kibana Watcher查询

我正在寻找创建Kibana watcher的指针,在这里我想查看我的日志,如果在任何30分钟内我在日志中看到文本“安全警报”超过10次,我想发送警报 我指的是这篇文章 文档中不清楚如何1>通读、过滤和解析字符串2>如何设置相同的计数 对于此要求,您应该使用高级观察程序,而不是更简单(且功能较弱)的阈值观察程序。在Kibana Watcher UI中,您可以在这两种类型中进行选择 看 作为介绍和 高级观察者的语法和总体行为 因此,根据您在问题中描述的需求,以下是您将如何实现watcher(简而言

elasticsearch 导数度量不';不显示任何数据图

我正在做一个小项目,我现在面临一个问题 我正在使用: 格拉法纳7.1.5 基巴纳7.9.0 Elasticsearch 7.9.0 我的问题是我有一个grafana仪表板,其中有数据源elastic collectd。在查询中,我有一个度量,其中我得到了主机的平均rx(确实显示了一个图表),我有一个从我的平均rx派生的度量。但在我的导数度量中,它没有显示任何图形 我的问题是: request:Object url:"api/datasources/proxy/8/_msearch?

如何使用ApacheLucene 8.6.2进行词干分析

我需要对我的项目中的搜索问题功能进行词干分析。 我使用ApacheLucene版本8.6.2。 由于snowball analyzer已被弃用,如何使用ApacheLucene对英语语言进行词干分析。 我的功能是,我的数据库中有一组问题,用户可以使用任意组合的单词进行搜索以获得问答。 如何实现这一目标

Lucene 如何从Java WEB应用程序访问WEB-INF下的文件

你知道如何从我的应用程序中访问WEB-INF/index文件夹中的文件吗?我正在为我的应用程序使用OpenCMS,我想打开位于WEB-INF/index文件夹中的Lucene搜索索引(借助Lucene IndexReader类)。Lucene jar存储在WEB-INF/lib文件夹中。如果要在WEB-INF文件夹下的RFS(真实文件系统)上查找文件,可以通过以下方式获取路径: String filepath = pageContext.getServletContext().getRealPa

Lucene 2.2和3.0.2中的差异

Lucene 2.2和Lucene 3.0.2在功能方面的差异发布说明中列出了每个版本的所有更改。读它们 每个版本的所有更改都列在发行说明中。读它们 为什么不阅读发行说明可能重复?为什么不阅读发行说明可能重复?

如何将多文件Lucene索引转换为单个复合文件索引?

我有一个多文件格式的Lucene索引。在JAVA中将其转换为复合文件格式索引的最佳方法是什么 一种方法是创建一个新索引(writer设置为使用复合文件)并调用addIndexes()。有没有一种方法可以在不创建新索引和合并的情况下执行此操作?您可以在现有索引上创建IndexWriter,将“使用复合格式”设置为true,然后优化()。但是,我猜它不会比您提到的方法快。您可以在现有索引上创建IndexWriter,将“使用复合格式”设置为true,然后优化()。然而,我猜这不会比你提到的方法快

Lucene Gremlin中的数字比较运算符和通配符

有没有一种方法可以使用数值比较运算符(>=,=0&&“property”在Neo4j中搜索手动索引可能您最好的选择是通过groovy使用Neo4j API,很像?您可以在所有边上使用Gremlin filter步骤,但这会进行表扫描: g.E.filter{it.property >= 0 && it.property <= 1.6} 请注意,Neo4jTokens.QUERY\u HEADER解析为“%QUERY%”,因此您也可以这样编写它: start = g.

在lucene 4中计算无索引项向量

我正在将我的代码从Lucene 3.5迁移到Lucene 4.1,但是在没有索引的情况下获取术语向量时遇到了一些问题 问题是,给定一个文本字符串和一个分析器,我需要计算术语向量(从技术上讲,找到术语及其频率)。显然,可以通过编写索引(使用IndexWriter)然后再读取它们(使用IndexReader)来实现,但我认为这会很昂贵。此外,我不需要文档频率(df)。因此,我认为一个无索引的解决方案是合适的 在Lucene 2和3中,用于上述目的的一种简单技术是使用QueryTermVector,它

Lucene 4.2.1白空间分析仪

我有一个与Luce 3.6配合使用的代码。我刚刚升级到Lucene 4.2.1,我很难使用WhiteSpaceAnalyzer(也是StandardAnalyzer和WhiteSpaceTokenizer)。它给了我“WhiteSpaceAnalyzer无法解析为类型”错误。感谢您的帮助 两种可能的可能性: 看到一些可能过于热心的camelcasing,虽然很有可能代码中没有复制它,但它是: 它从:org.apache.lucene.analysis.WhitespaceAnalyzer移动到

Lucene 如何将ElasticSearch路由到特定节点(不是碎片)?

我知道可以将搜索路由到特定的碎片,但我希望将搜索路由到特定的节点。原因是一些节点比其他节点更强大,我希望在执行查询时,逻辑能够比较弱的节点更有效地命中这些节点 这可能吗?我知道,简短的问题,但请相信我,我做了大量的研究和谷歌搜索,却找不到答案。找到了答案: 搜索“&preference=\u primary\u first”时,只需将其附加到REST URL中即可。如果您要根据机器的类别设置感知属性,则可以使用该属性在该类别中设置。如果您使用的是基于java的传输或节点客户端,您只需将相同的感知

使用LUCENE 4.6和PDF Box在PDF中搜索文本的示例代码

Iam使用LUCENE 4.6在PDF中搜索短语。我已经编写了以下代码。但它在“Analyzer”和“QueryPhrase”行中抛出了错误。请帮我做这件事 Analyzer analyzer = new Analyzer(Version.LUCENE_44); // Store the index in memory: Directory directory = new RAMDirecto

Lucene(或其他替代方案),用于根据字段值提升结果

他们在Lucene中应用boosting的方法是基于每个值,而不是每个字段或每个文档吗 基本上,我会提前知道每个特定文档的多值字段中的值的提升,并且我会以某种方式将该提升值存储在lucene索引中 如果没有,Lucene有哪些可能的替代方案或扩展?这样就可以了 例如: Document1:boost值为{apple,10},{pear,50}的关键字字段 Document2:boost值为{apple,15}的关键字字段 Document3:boost值为{apple,20},{pear,10}

乌节-需要启用Lucene吗?

我安装了Orchard 1.8安装程序,在管理区域的顶部有一条消息,上面写着“你需要启用像Lucene这样的索引实现模块。”这里令人困惑的是,Lucene已经根据管理区域安装/启用了,所以我有点迷茫。我在App_Data/Sites/Default中没有任何要删除的索引(这意味着没有损坏的索引),也没有创建索引的选项 我尝试过禁用/重新启用Lucene和搜索功能,但没有成功。有什么猜测吗?转到/Admin/Indexing并创建索引。无法-在Admin/Indexing中,它显示“当前没有索引”

带dcs的集群远程lucene indec

我尝试使用远程服务器上的lucene索引作为同一服务器上安装的carrot2的输入。关于文档,这应该可以通过carrot2 dcs实现(文档第3.4章carrot2文档群集服务器:包括各种文档源。carrot2文档群集服务器可以从大量源获取和群集文档,包括主要搜索引擎和索引引擎(Lucene,Solr)) 在安装Carrot2DCS 3.9.3之后,我发现lucene不能作为文档源。如何继续?要从Lucene索引对内容进行群集,该索引需要在DCS运行的服务器上可用(通过本地文件系统或作为NSF挂

Sitecore 6.6 Lucene搜索-无法搜索Guid值

我已将搜索索引添加到Sitecore 6.6网站。为了进行测试,我创建了两个与索引参数匹配的项,即使用被索引的单个模板 这个模板有一个名为“Story Data Item”的DropLink字段,我要做的是返回该字段的值与提供的Guid匹配的所有项目 下面的代码返回所有已索引的文档,当我运行它时,会返回这两个项目,这表明它们已被索引。此外,第一项满足以下条件:items.first().Fields[“Story Data item”]。Value==“{3F810A26-5D57-49CA-8

Lucene sitecore 7中的自定义搜索配置

我最近一直在研究sitecore contentSearch API。当我尝试构建自定义索引时,我得到如下运行时错误 Could not find property 'initializeOnAdd' on object of type: Sitecore.ContentSearch.LuceneProvider.LuceneIndexConfiguration 这是我的配置示例 <configuration xmlns:patch="http://www.sitecore.net/xm

如何在lucene 5.0中使用ngram标记器?

我想为字符串生成ngram字符。下面是我用于它的Lucene 4.1库 Reader reader = new StringReader(text); NGramTokenizer gramTokenizer = new NGramTokenizer(reader, 3, 5); //catch contiguous sequence of 3, 4 and 5 characters CharTermAttribute charTermAttribute = gramT

Lucene 露天生产环境MaxDocsForemorymerge的尺寸是多少

具有两种不同的生产露天(3.3.5和4.0.2)系统。我们已经准备好了 maxDocsForInMemoryMerge=40000和maxDocsForInMemoryIndex=16000 堆大小增加到18GB,然后服务器响应变慢。我们必须每周重新启动服务器以服务于生产用户 当Profile得知Lucene正在服务器上使用更多内存时。在某些链接上,找到了设置MaxDocsForMemoryMerge=0的解决方案,但不确定结果 有什么建议吗 提前谢谢。这些数字看起来很大!这两个属性的默认值都是

Lucene 搜索数百万模糊哈希的最佳方法

我有一个数据库表中大约1000万个文件的复合哈希,我希望找到彼此相当相似的文件。Spamsum哈希由两个最大64字节的CTPH哈希组成,它们如下所示: 384:w2mhnFnJF47jDnunEk3SlbJJ+SGfOypAYJwsn3gdqymefD4kkAGxqCfOTPi0ND:wemfOGxqCfOTPi0ND 它们可以分为三部分(在冒号上拆分字符串): 块大小:384在上面的散列中 第一个签名:w2mhnfnjf47jdnuek3slbjj+SGfOypAYJwsn3gdqymefD

elasticsearch elasticsearch中的多字段和多关键字搜索

假设我的文档有三个字段message,key,file\u name。还假设我想找到所有文档,如下所示: message contains keyword A and B key contains keyword C file_name contains keyword D 我应该如何构造我的查询?我应该在这里使用query\u string还是match语句?您可以这样做: POST /test_index/_search { "query": { "bool": {

在启动要运行的完整XQuery之前,如何验证嵌入在较大XQuery中的Lucene查询不包含语法错误?

我有一个应用程序,我需要允许用户对文档执行全文搜索,并在需要时使用。eXist数据库是从用于与eXist对话的Django后端查询的 问题是,当用户使用不正确的语法进行全文搜索时,会在游戏后期发现。Django应用程序必须查询SQL数据库以确定搜索的一些参数。在构建完整的XQuery并访问eXist时,SQL查询已经运行,这意味着SQL查询的成本已经消耗殆尽。(我知道我可以将SQL端查询的数据封送到eXist中,以便只查询eXist。目前这不是一个选项。) 我想提前知道Lucene查询是否有语法

elasticsearch 是否可以在Elasticsearch中取消删除文档?

通过阅读,我了解到Elasticsearch中已删除的文档只是被标记为已删除,这样它们可能会在磁盘上保留一段时间 因此,我想知道是否有办法在Elasticsearch中恢复已删除的文档?已删除的文档和旧文档版本将通过段合并过程完全删除:( 此时,这些旧的已删除文档将从文件系统中清除。已删除的文档(或更新文档的旧版本)不会复制到新的较大段 所以无法撤消错误的删除操作?

Lucene Sitecore自定义索引配置语言

我在Sitecore 8.1环境中创建了一个自定义Lucene索引,如下所示: $(id) $(id) 主人 /sitecore/内容/常规/产品存储库 假的 假的 真的 Sitecore.ContentSearch.LuceneProvider.LuceneDocumentBuilder,Sitecore.ContentSearch.LuceneProvider 真的 {843B9598-318D-4AFA-B8C8-07E3DF5C6738} 实际上,一个非常简单的索引指向一个根,包括一

如何使用ApacheLucene6.4.0从IndexReader获取最频繁的术语

似乎每个版本的ApacheLuceneAPI都在发生变化。如何从ApacheLucene 6.4.0的IndexReader中获取最频繁的术语 我看到了在Apache Lucene 6.4.0中不有用的代码,这就是适用于Lucene 6.4的代码。它在所有字段中查找最频繁的项,以便分别在字段调整代码中查找最频繁的项 IndexReader reader = DirectoryReader.open(dir); final Fields fields = Multi

elasticsearch 在elasticsearch中,包含span_和查询内span_之间有什么区别?

文件上说 span_包含: 大子句和小子句可以是任何跨度类型的查询。匹配跨距 从大到小包含匹配项的将被返回 span_在以下范围内: 大子句和小子句可以是任何跨度类型的查询。匹配跨距 从小到大,从大到小 至于查询匹配了哪些文档,没有区别。不同之处在于匹配的跨度 span_包含大的匹配项 span_内的匹配很少 查询将从匹配的span中获得提升,因此span\u containing将从big中获得提升,而span\u in将从匹配的little中获得提升 如果您的span_in或span_c

  1    2   3   4   5   6  ... 下一页 最后一页 共 30 页