我正在使用NLTK从以下命令开头的文本字符串中提取名词:
tagged_text = nltk.pos_tag(nltk.Text(nltk.word_tokenize(some_string)))
它的英文很好用。 有没有一种简便的方法也可以使其适用于德语?
(我没有自然语言编程的经验,但是我设法使用了到目前为止很棒的python nltk库。)
自然语言软件通过利用语料库及其提供的统计数据来发挥其魔力。您需要告诉nltk一些德语语料库,以帮助它正确地标记德语。我相信EUROPARL语料库可能会帮助您前进。
请参阅nltk.corpus.europarl_raw及其配置示例的答案。
另外,考虑使用“ nlp”标记该问题。
我正在用c#进行一个项目,我必须集成斯坦福pos tagger API,虽然我已经完成了,但是当我编译代码时,我得到了一个错误 stanford-postagger-3.6.0.dll中发生了类型edu.stanford.nlp.io.RuntimeIOExcure的异常,但用户代码中没有处理 其他信息:加载标记器模型时出错(可能缺少模型文件) 在我的代码中,此错误所指向的行是: 注意:我是如何安
问题内容: 我想在python中使用wordnet lemmatizer,并且我了解到默认pos标记为NOUN,并且除非为pos标记明确指定为VERB,否则它不会为动词输出正确的引理。 我的问题是,为了准确地进行上述词素化,什么是最好的镜头? 我使用了pos标记,但是迷失了将树库pos标记集成到wordnet兼容pos标记中的信息。请帮忙 我得到了NN,JJ,VB,RB中的输出标签。如何将它们更改
我想在python中使用wordnet lemmatizer,我了解到默认的pos标记是NOUN,并且它不会为动词输出正确的引理,除非pos标记明确指定为动词。 我的问题是什么是最好的镜头,以便准确地执行上述表达? 我使用做了pos标记,我迷失在将树库pos标记集成到wordnet兼容pos标记中。请帮助 我得到了NN、JJ、VB、RB中的输出标签。如何将这些更改为与wordnet兼容的标签? 我
我使用StanfordNLP来标记用智能手机编写的一组消息。这些文本有很多拼写错误,不遵守标点符号规则。通常,空格缺失会影响标记化。 例如,以下句子漏掉了“California.This”和“university,founded”中的空格。 斯坦福大学位于加利福尼亚州,这所大学是一所伟大的大学,创建于1891年。 标记器返回: {“斯坦福”、“大学”、“是”、“位于”、“加利福尼亚州”。这个”、“
我是nlp的新手,我正在尝试找出pos标签。目前我正在试用斯坦福nlp pos标签,url:http://nlp.stanford.edu/software/tagger.shtml 从上面的链接中,有这样一句话: 只要该语言有POS注释的培训文本,就可以对标记者进行任何语言的再培训。 然而,我无法让它工作。我现在所能做的就是给它一个文本文件来标记。例如,
Spacy的pos-tagger非常方便,它可以直接标记原始句子。 但我使用的是中的标记器。那么,如何使用像这样的标记化句子,而不是用'I am eating'作为Spacy的标记呢? 顺便说一句,我在哪里可以找到详细的Spacy留档?我只能在官网链接上找到概述 谢谢
我正在为一个项目使用POS标记器,当它从我的计算机(项目文件夹)读取标记器文件时,它会成功工作。但是我需要先上传tagger文件,然后从URL读取tagger文件。为此,我上传了POS-tagger文件,并试图通过向MaxentTagger方法的构造函数提供URL来读取tagger文件:(我的代码是C#,我已经重写了MaxentTagger类,因此它的构造函数如下所示: 公共标记器(){ JAVA
我正在使用斯坦福nlp工具提供的left3word模型。在道具文件中,arch参数指示了一些我无法定位的目录。有人能帮忙吗?非常感谢。 arch=left3word, naacl2003未知数,字形(-1,1),字形(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1),字形(/u/nlp/data/pos_tags_are_u