我想在斯坦福解析器解析过程中使用gate-EN-twitter.model进行词性标记。命令行上有这样做的选项吗?比如twitter.model上的pos.model门?或者我必须先使用Stanford pos tagger with gate模型进行标记,然后将其输出作为解析器的输入
谢谢 如果我理解正确,您希望强制斯坦福解析器使用这个特定于Twitter的POS标记器生成的标记。这是绝对可能的,尽管斯坦福NLP关于这个确切模型的推特应该作为一个警告:
斯坦福NLP的推特,2014年4月13日
如何从选区解析树中提取名词短语String/Text,而不使用POS标记
我能够在不解析注释的情况下提取名词短语,但无法找到仅提取该名词短语文本的方法。
例如:
String some_sentence = "The dog ran after the intruding bigger dog";
parse Tree :**(ROOT (S (NP (DT The) (NN dog)) (VP (VBD ran) (PP (IN after) (NP (DT the) (JJ intrudin
标签: Stanford Nlp
named-entity-recognitionnamed-entity-extraction
在我的文档中,所有的句子都是用以下特定语法表达式构建的:A:person B:location C:work.如果我想提取命名实体(Tom:person),如何做?我用过,但我找不到大量数据来训练分类器,我不想这样做。所以我们可以通过其他方式找到实体 我不确定我是否理解你的问题。NER系统应该已经将人们从盒子中解救出来;请参阅文档了解如何使用。你是否在尝试对新员工重新培训NER系统?或者,您是否有要注释的人员/地点/工作的自定义列表?是的。我有一组新的人员和一个自定义的实体列表。我已经为一个新的
我试图生成一个语义图,并使用semgrex查找特定节点。
我想使用引理作为semgrex中的节点属性之一。我在这里看到了一个相关的问题和答案:
有人提到
确保节点正在存储引理-请参阅CoreNLP的引理注释器(目前仅适用于英语)
我可以使用当前管道生成所需的注释以生成语义图
Properties props = new Properties();
props.put("annotators", "tokenize, ssplit, pos, lemma, parse");
Stanfor
我制作了一个基本的应用程序,通过OpenIE库使用Stanford解析器,当使用指定的属性初始化StanfordCoreNLP时,它将停止为pos(pos标记器)。我确实认为所有必需的模型都包含在内,因此不确定为什么流程无法找到模型数据
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");
St
我找到了Stanford pos标记器,并希望在我正在进行的项目中使用它。
不幸的是,我在尝试运行它时遇到以下错误:
线程“thread-0”java.lang.NoClassDefFoundError中出现异常:
org/slf4j/LoggerFactory
在edu.stanford.nlp.io.IOUtils.(IOUtils.java:41)
位于edu.stanford.nlp.tagger.maxent.MaxentTagger.readModelAndInit(MaxentTa
的FAQ告诉我们可以在培训时加入定制功能。
首先,NER中有哪些功能?它与tsv培训文件中的标签有何不同?
如本问题所述,在tsv的功能栏中表示标记“编程语言”、“操作系统”是否正确
有点混乱,请解释。标签是您要应用于令牌的标签。例如O、人、地点、组织、编程语言。O指非实体
特征是您希望CRF分类器在其决策中使用的令牌流的一个方面
想想“我去年夏天去了法国”这句话
标签应该是[O位置O]
例如,一个特征可以是单词本身,“word=France”
特征可以是“word_n-2_n-1=转到”序列中
我有Penn treebank(s-expression)格式的中国选区树库,我想获得conll格式的数据。我知道英语数据可以通过StanfordCoreNLP使用此命令进行转换
java -mx1g edu.stanford.nlp.trees.ud.UniversalDependenciesConverter -treeFile treebank > treebank.conllu
我也知道StanfordCoreNLP支持使用命令选择中文模型
java -mx3g -cp "*"
我正在尝试获取给定语义图中所有边的列表。
有,但它似乎只适用于一对2个索引词,而不是整个图形。
是否有其他方法可以在不手动遍历整个图形的情况下获取所有边?您可以尝试:
SemanticGraph parse = ...
for (SemanticGraphEdge edge : parse.edgeIterable()) {
...
}
在outgoingEdgeIterable和incomingEdgeIterable中也有类似之处,您是否知道TreeAnnotation的依赖关系是否有
以下是一个示例文本输出:
下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好/下午好
此命令将接收一个输入文本文件,并使用所有标记创建一个输出json,每个标记都有POS标记和NER标记:
java -Xmx6g -cp "*:." -Xmx2g edu.stanford.nlp
我们想在一个俄语语料库上训练斯坦福NN依赖解析器,有没有关于如何做的提示?超参数在本文中进行了描述,但是了解如何准备训练数据(注释,特别是如何创建word2vec注释)会很好。非常感谢您对某些文档的任何帮助或参考
谢谢 以下是一些答案:
如果要为俄语构建向量表示,请访问word2vec的网站:
依赖项需要采用CoNLL-X格式:
单词嵌入应采用此格式(每行中的每个单词向量):
单词\tn0 n1 n2 n3 n4
例如:
苹果.45242.392323.111423.999334
将您的嵌
斯坦福核心NLP软件有一个情感注释器,但它只支持英文,我想为中文创建一个情感注释器。我该怎么办?谁能给我一些建议,非常感谢 不幸的是,我们没有任何经过训练的中国情绪分析模型。要训练一个中国模型,您需要构造一个类似于的情绪树库,然后再训练情绪模型,但这不是一个小任务
我一直在玩,注意到它是区分大小写的。
例如,它将“i”标记为FW,而将“i”标记为PRP。
我可以训练它忽略这个案例吗?更一般地说,我该如何训练它来处理格式不正确的句子呢?CorenNLP有不区分大小写的模型,您只能在英语中使用。他们叫他们。如果使用3.6.0版,请阅读此处的警告
链接中提到的几点:
您可以修复文本中字母的大小写,并使用普通模型。您可以使用TrueCaseAnnotator
要使用CoreNLP训练自己的不区分大小写的模型,可以指定忽略大小写的令牌预处理器
wordFunctio
我们使用斯坦福CoreNLP已经有一段时间了,大部分时间它都提供了正确的结果
但是对于某些句子,依赖项解析的结果会一团糟。正如我们所观察到的,其中一些错误是由词性标记问题引起的,例如,“我真的很喜欢这家餐厅”中的“like”,或者“ambient”中的“ambient”一词是“非常便宜而且非常好的ambient”
是的,我们正在处理的用户评论可能与斯坦福CoreNLP中的培训语料库的措辞略有不同,因此我们正在考虑自己注释一些文本,并与现有模型混合。对于NER,我们已经有了自己的特殊NEs模型,但
我将斯坦福CoreNLP POS 3.3.1与HeidelTime一起用于时间分析(不幸的是,HeidelTime没有SO标签,所以我打开了一个问题并链接到这篇文章)
我专门研究阿拉伯语,在BBC的一篇阿拉伯语文章中,我注意到HeidelTime忽略了数字“6”,选择了“小时”,并理解为1小时。然后HeidelTime吐出值为PT1H的TIMEX3标记
例如,以下文本是我开始的内容:
قبل6ساعة(“6小时之前”,从右到左阅读,分别是单词顺序,即“قبل”是“之前”)
之所以写这篇文章,是因
在斯坦福大学的NER CRFClassizer中,您可以使用的类的最大数量是多少
当你上了10万个不同的班,会有什么后果吗 我对CRF不太了解,所以我可能会错,但这篇论文:
表示训练时间与课程数量呈二次曲线增长。此外,如果您正在构建一个包含100000个类的模型,那么您需要的令牌将远远超过用于生成4类NER模型的200000个令牌
我相信这将导致一个以世纪或亿万年来衡量的训练时间
我正在使用斯坦福CoreNLP对我收集的一些推文进行情绪分析。我创建了一个模拟训练模型,其中一句话的得分如下:
(0(2熊)(2(2油)(2市场)))
我的得分是0到4分,0分是非常负的,2分是中性的,4分是非常正的。
我正在测试以下两条推文:
熊市
熊市
它将第一个句子赋值为0,这是正确的,第二个句子的分数为2,这是不正确的,因为这个句子也应该是否定的。这两句话之间的唯一区别是第二句话中市场的s
我的问题是:有没有办法回避这样一个事实,即任何单词的任何变化都会导致两句话的得分不同?我认为简短的
在使用Stanford parser的TokenizerFacotry时,我确保将选项设置为“Unnotkenizable=noneDelete”,但我仍然无法获得警告,这可能是什么问题
public static List<Tree> findHeadNounPhrases(List<String> unites)
{
List<Tree> nps = new ArrayList<Tree>();
for(String sente
我试图在一组包含文本页面的卷上执行NER。我从创建管道开始。使用默认设置,在16核机器上,处理1360页的卷大约需要5分钟(并行度手动控制,不使用线程属性-这种方式要快得多)。考虑到目标是处理潜在的数千卷,这被认为太慢了。另一个实验涉及通过将NER.useSUTime和NER.applyNumericClassifiers设置为false来关闭各种NER方面。这似乎没有以任何显著的方式提高处理速度。但是,我无法关闭管道使用的令牌regexGenerator。我尝试将ner.regex设置为fal
我试着打印gs和tdl,gs保留标点,而tdl丢失标点。在使用stanford parser 3.9.1时,如何在将语法结构转换为typedDependencies的同时保留标点?似乎stanford parser很难解决这个问题,有相同问题的人可以尝试corenlp
ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(t);
Collection<TypedDependency> tdl = gs.typ
我在找斯坦福大学的API
我找不到详细信息
在斯坦福大学NLP网站上
请任何人帮我查一下这些
原料药
在那里我可以获得斯坦福Ner API。斯坦福Ner包含在。或者,您可以从下载版本,并从源代码中制作javadocs。斯坦福NER是一个库,您必须下载它,为您的项目导入,所有API都在文件NERDemo.java中声明。
您可以从结果中获得CoreLabel对象。只需访问下面列出的站点,它将解决您的问题。
任何人都知道以下文件的位置:
trainFileList=/u/nlp/data/ner/column_data/muc6.ptb.train,
/u/nlp/data/ner/column_data/muc7.ptb.train
我正在关注FAQ链接
如果我所需要做的只是提供一个包含两列(由令牌和类组成)的文件,那么这就行了。但是我对分类器属性文件中列出的train文件很好奇
serializeTo=english.muc.7class.caseless.distsim.crf.ser.gz
我正在尝试斯坦福依赖解析器。我尝试在windows上从命令行运行解析器,以使用以下命令提取依赖项:
java -mx100m -cp "stanford-parser.jar" edu.stanford.nlp.trees.EnglishGrammaticalStructure -sentFile english-onesent.txt -collapsedTree -CCprocessed -parserFile englishPCFG.ser.gz
我得到以下错误:
Error occur
我直接运行MaxentTagger,如下所示:
private void test() {
MaxentTagger tagger = new MaxentTagger(modelsdir + "wsj-0-18-bidirectional-distsim.tagger");
String input = "Someone will trip over that cable.";
System.out.println(tagger.
有人能告诉我核心NLP的区别吗
和斯坦福NLP
据我所知,斯坦福大学的研究小组致力于不同的NLP机制,其中CoreNLP是主要的机制。因此,核心NLP只不过是斯坦福NLP团队研究和贡献的成果。据我所知,斯坦福大学的团队致力于不同的NLP机制,其中核心NLP是主要的。因此,核心NLP只不过是斯坦福NLP团队研究和贡献的成果。斯坦福NLP是一个开发了核心NLP组件的团队,如标记化、句子检测、词性标记和NER、实体链接和注释,用于培训这些模块等
斯坦福大学与NLP相关的核心组件将归入CoreNLP
我想将实际使用Stanford Parser 2.0.4的Java代码更新为新版本(3.6)
问题是“EnglishGrammaticRelations.SUBJECT.isAncestor”函数在3.6中不起作用,我需要检查一个关系是否等于另一个关系或是另一个关系的祖先。我的斯坦福2.0.4代码如下:
String sentence = "The company is a subsidiary of International Data Group";
Tree depTree;
我正在构建一个基于规则的NER平台,我想知道是否可以利用基于依赖关系的模式来识别命名实体。例如
CYLD抑制TRAF2和TRAF6的泛素化
在这里,我可以使用关系/模式的prep_来识别触发泛素化的蛋白质TRAF2和TRAF6(正如奥丁的符文研究论文中提到的)
如果TokensRegex确实支持依赖项注释,那么任何人都可以在规则文件中分享一个如何实现它的示例吗?我将永远感激你 当然不是。但是,您可以通过将自定义注释附加到CoreLabels;e、 例如,为传入的依赖项弧创建注释。然后,您可以在这
我试图从斯坦福大学的CoreNLP开始学习,但我甚至无法通过这里的第一个简单示例
这是我的密码:
package stanford.corenlp;
import java.io.File;
import java.io.IOException;
import java.nio.charset.Charset;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import com.googl
我使用核心NLP解析器标记我的文本。例如“…格劳本斯康涅格省第十六届人民大会……”
现在的问题是,当我使用解析器标记我的文本时,我得到一个带有“XVI”的标记,这是正确的。但是当我将这个令牌与核心NLP Pos标记器一起使用时,我得到了两个我不想要的令牌[u'XVI',u'NE'],[u'',u'$]。我是否可以以某种方式将标记器重新标记为原始标记?如果在该文本上运行管道,它应该正确标记
以下是示例命令:
java -Xmx8g edu.stanford.nlp.pipeline.Stanfor
我试图分析斯坦福大学corenlp的代码情感模型分析,我在本页上发现:
但是我找不到用于进行实验的“感伤树调试.txt”文件,有人可以告诉我该文件的位置或外观
TrainPath String=“感伤树调试.txt”
如果您能给我帮助或建议,我将不胜感激
这是我的问题
线程“main”edu.stanford.nlp.io.RuntimeIOException中的异常:MemoryTreebank.processFile IOException(位于文件MONTIONTREEESDEBUG.t
我只想在coreNLP服务器启动后调用openIE模块。我在shell上试过这个:
$ java -mx4g -cp "$HOME/corenlp/*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer &
$ java -cp "$CORE/*" -Xmx1g edu.stanford.nlp.pipeline.StanfordCoreNLPClient edu.stanford.nlp.naturalli.OpenIE -file inp
我有一个例子,在我的语言中,一个词有三种含义,这三种含义在词典中都有明确规定。例如,马其顿语中的“аааö”可以是介词、副词和连词。我的问题是如何解决在搜索某个句子时显示正确词义的问题 简单的回答是你不能
斯坦福POS标记器基于双向方法计算标记。一个单词的词性标签是根据它出现的上下文计算出来的,这意味着前面的两个单词和后面的两个单词都会被考虑。在此基础上,算法输出最有可能正确的标签。
在不同的句子群中,同一个单词可以有不同的词性标记,但一个单词一次只能有一个标记。没有任何选项可以获取超过一定概率
我在看斯坦福大学的纳特,想知道这些词是如何表达的。使用线性CRF训练模型时,是否使用Word2Vec或手套将其转换为向量
更多的研究表明,数据存储在CRFDatum结构中。有人能详细解释一下吗?好吧,现在我知道了老派人工智能人的感受
回到过去(包括构建NER系统时),在神经网络开始发展之前,统计ML使用定制的特征化器将离散输出转换为向量。对于语言,这通常会导致一个非常长但稀疏的热点特征向量。例如,Featureizer可能会为每个单词指定一个热表示:在对应于该单词的索引处为1,在其他地方为0。对
有办法做到这一点吗
向regexner.mapping文件中添加另一列,该列描述命名实体的某些方面,例如:
工程学士学位2.0一些数据信息1
Lalor定位人员2.0一些数据信息2
劳动
组织2.0
一些数据信息3
其思想是,当检测到实体提及时,可以访问此信息,例如某些数据\u信息可能是来自另一个数据库或任何东西的密钥
List<CoreMap> entityMentions = document.get(MentionsAnnotation.class);
for (CoreMa
我试图使用斯坦福代币器,并从其网站上获得以下示例:
import java.io.FileReader;
import java.io.IOException;
import java.util.List;
import edu.stanford.nlp.ling.CoreLabel;
import edu.stanford.nlp.ling.HasWord;
import edu.stanford.nlp.process.CoreLabelTokenFactory;
import edu.s
我在努力寻找英语句子的语义标签。
我正在使用斯坦福NLP解析器。有没有办法呢
我正在浏览文档,但我能找到的最接近的东西是:
CoreAnnotations.SemanticWordAnnotation
CoreAnnotations.SemanticTagAnnotation
不,我们目前在CoreNLP中没有语义角色标记(SRL)系统
除非您已经有了一个明确要求语义角色标签的系统,否则我建议您看看这个表示。尽管这种表示主要是一种语法表示,但它也编码了许多语义,在许多语义任务中与SRL一样有效
有没有办法将核心NLP情绪分析的输出保存在文件中,而不是在输出中发送消息
发送结果消息的我的代码:
`
NLP.init()
`
一旦聊天内容从这篇文章中删除,它看起来就相当简单了。我不知道这项技术,但关于您试图解决的问题,您是否可以补充更多细节?谢谢@halfer的评论。例如,它的corenlp将结果显示为消息,将推文的情绪显示为负面和正面,但它显示的是输出中的消息,而不是将其保存在文件中。我们可以看到控制台输出的示例,编辑到问题中吗?假设你使用的是*nix类操作系统,你能用grep过滤它们吗
我正在尝试使用网络训练一个NER模型。我有一个所需格式的文件,大小为6GB。配置文件:
usePrevSequences=true
useClassFeature=true
useTypeSeqs2=true
useSequences=true
wordShape=chris2useLC
useTypeySequences=true
useDisjunctive=true
noMidNGrams=true
serializeTo=ner-model50.ser.gz
maxNGramLeng=6
大家好,提前谢谢你们的帮助。我对尝试使用斯坦福NLP是一个全新的尝试,我正在努力学习斯坦福大学的C#示例。我收到一个错误:
stanford-corenlp-3.9.1.dll中发生类型为“edu.stanford.nlp.io.RuntimeIOException”的未处理异常
其他信息:无法从edu/stanford/nlp/models/kbp/regexner_caseless.tab读取令牌regexner
正在以下行中抛出错误:
var pipeline = new Stanford
当我试图用下面的命令构建PTB格式的数据集时,我得到了一条类似“未知参数-模型”的消息。为什么我会收到这个信息?命令有问题吗
java -cp "*" edu.stanford.nlp.sentiment.BuildBinarizedDataset -model edu/stanford/nlp/models/sentiment/sentiment.ser.gz -input train.txt
使用-mountainmodel标志,而不是-modelmountainmodel和model之间
我已经训练了自己的NER分类器,现在我想用它来做共指消解。我该怎么做?我试过这个:
java-Xmx5g-cp stanford-corenlp-3.7.0.jar:stanford-corenlp-models-3.7.0.jar:*edu.stanford.nlp.pipeline.StanfordCoreNLP-annotators-ner,coref-loadClassifier./classifiers/my_classifier.ser.gz-coref.algorithm-neu
我使用的是Stanza(),我想获取依赖关系树并将其转换为图像,类似于这里所做的()
但是,我已经下载了节源代码,似乎找不到任何类似于to_dot()方法的东西。在第节中,我应该如何进行此操作
我有一个庞大的句子语料库(~110万)要通过Stanford Core NLP进行解析,但在输出中我得到的句子比输入中的多,可能系统会将一些超出给定分段的句子分割成几行
为了控制发生了什么,我想在输入中加入“标签”。这些标记在输出中应该是可识别的,并且不应该影响解析
差不多
<0001>
I saw a man with a telescope .
</0001>
我已经尝试了很多格式,在所有情况下,“标记”都被解析为文本的一部分
是否有某种方法可以告诉解析器“不要解析
这就是问题所在。比方说,我有一条规则:
{
pattern: ( [ner:/DATE|TIME/] ),
action: ( Annotate($0, myNER, "MY_DATETIME" ) )
}
如何指定整个文档,而不是注释捕获组$0,有点像这样:
{
pattern: ( [ner:/DATE|TIME/] ),
action: ( Annotate( <document>, myNER, "MY_DATETIME" ) )
}
{
我试图使用Semgrex提取一个节点,该节点应该是动词live或名词life。我尝试了以下方法,但每种方法都有一个SemgrexParseException:
{lemma: live; pos: /VB.*/} | {lemma: life; pos: /NN.*/}
{lemma: live; pos: /VB.*/ | lemma: life; pos: /NN.*/}
({lemma: live; pos: /VB.*/}) | ({lemma: life; pos: /NN.*
根据Stanford CoreNLP dependencies,QuoteAnotator没有dependencies。但是,当我单独调用anotator时,会出现一个错误:
java.lang.IllegalArgumentException:注释器引号需要注释CorefChainAnnotation。此注释器的通常要求是:标记化、ssplit、pos、引理、ner
这是预期的行为吗?我是否提前运行完整的管道?文档页面不正确,我将努力修复它。在最新版本中,默认情况下,我们将quote属性添加到
我正在使用斯坦福大学CoreNLP来探索球队2.0数据集。当使用最新版本3.9.2的选区解析时,我发现这句话返回为NP根:
卡罗莱纳州的第二名球员是职业保龄球安全专家库尔特·科尔曼,他带领球队完成了职业生涯最高的七次拦截,同时也完成了88次铲球,职业保龄球后卫乔什·诺曼在本赛季发展成了一个停球角,有四次拦截,其中两次因触地而返回
但在这个演示站点中,它以S-root的形式返回(似乎是2016-9-12版本):
我发现不止一个句子有相同的情况。现在无法连接该站点。我的问题是:
这两个版本有什么不
我想使用一个由多个文件组成的语料库来训练斯坦福的标记者,这个语料库将在将来扩展
是否有可能更新现有的模型,或者我每次都必须使用整个语料库进行训练
有没有关于如何使用API进行培训的示例?MaxentTagger的JavaDoc仅涵盖通过命令行进行的培训
谢谢大家! 目前,您每次都必须使用整个语料库进行训练。(从理论上讲,用附加数据更新模型是可能的,但这不是目前存在的,也不是我们的首要任务。)
我们所有的模型训练都是从命令行开始的。。。。实际上,从代码上看,train方法似乎是私有的,因此您需要将
有没有一种方法可以使用Stanford CoreNLP处理已经标记了POS的文本
例如,我有这个格式的句子
They_PRP are_VBP hunting_VBG dogs_NNS ._.
我想通过强制给定的POS注释,用引理、ner、parse等进行注释
更新。我试过这个代码,但不起作用
Properties props = new Properties();
props.setProperty("annotators", "tokenize, ssplit, pos, lemma");
我正在写一个tokens正则表达式,我需要检查下面是否没有更多的token。我正在使用[]{0}来执行此操作,但它不起作用
具体来说,对于这样的短语,“在星期二或之后”,我的tokens regex是
/在| at | for/[ner:/DATE | TIME/]/和|或//after | later/[]{0}
但是,这个表达式也与“在星期二或星期四之后”匹配,这在语义上与“在星期二或星期四之后”不同。你知道如何检查后面没有标记,或者重新编写正则表达式以匹配第一个短语而不是第二个短语吗?谢谢
1 2 3 4 5 6 ...
下一页 最后一页 共 8 页