Advertisement

斯坦福 stanford coreNLP 中的PCFG parser-lexparser

阅读量:

PCFG模型训练

复制代码
复制代码
    Java -Xmx7g  edu.stanford.nlp.parser.lexparser.LexicalizedParser   -tLPP edu.stanford.nlp.parser.lexparser.ChineseTreebankParserParams  -train data/source/dataCTBZh//bracketed  -saveToSerializedFile  data/models/pcfgZH.ser.gz

其中:

复制代码
复制代码
复制代码
复制代码
复制代码

输入的文件格式为:

复制代码
 <DOC>

    
 <DOCID>XIN.19960210.0178</DOCID>
    
 <HEADER>
    
 <DATE>1996-02-10</DATE>
    
 </HEADER>
    
 <BODY>
    
 <HEADLINE>
    
 <S ID=1>
    
 ( (IP-HLN (NP-SBJ (NP-PN (NR 上海) 
    
 			 (NR 浦东)) 
    
 		  (NP (NN 开发) 
    
 		      (CC 与) 
    
 		      (NN 法制) 
    
 		      (NN 建设))) 
    
 	  (VP (VV 同步))) ) 
    
 </S>
    
 </HEADLINE>
    
 <TEXT>
    
 <P>
    
 <S ID=2>
    
 ( (FRAG  (NN 新华社) 
    
 	 (NR 上海) 
    
 	 (NT 二月) 
    
 	 (NT 十日) 
    
 	 (NN 电) 
    
 	 (PU () 
    
 	 (NN 记者) 
    
 	 (NR 谢金虎) 
    
 	 (PU 、) 
    
 	 (NR 张持坚) 
    
 	 (PU )) )) 
    
 </S>

CoreNLP FPEG模型测试和效果

复制代码
 public static void main(String[] args) {

    
  
    
     LexicalizedParser lp;
    
     boolean newFlag= true;
    
     if (newFlag){
    
       String parserModel = "data/models/pcfgZH.ser.gz";
    
       lp = LexicalizedParser.loadModel(parserModel);
    
     }
    
     else {
    
       String basedir = "D:/WorkSpaceIntelliJ/coreNLP/stanford-chinese-corenlp-2016-10-31-models/";
    
       String parserModel = "edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";
    
       lp = LexicalizedParser.loadModel(basedir+parserModel);
    
     }
    
     String line = "统计还 显示 , 台商 投资 祖国 大陆 正 趋向 大型化 。";
    
     String line2="俄国希望 伊朗 没有 制造 核武器 计划 。";
    
     Tree parser = lp.parse(line);
    
     parser.pennPrint();
    
  
    
     //dependency
    
   ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(parser);
    
   Collection<TypedDependency> tdl =gs.typedDependenciesCCprocessed();
    
   System.out.println(tdl.toString());
    
  
    
 }

输出结果为:

复制代码
 (ROOT

    
   (IP
    
    (NP (NN 统计))
    
    (VP
    
      (ADVP (AD 还))
    
      (VP (VV 显示) (PU ,)
    
    (IP
    
      (IP
    
        (NP (NN 台商))
    
        (VP (VV 投资)
    
           (NP (NN 祖国) (NN 大陆))))
    
      (VP
    
        (ADVP (AD 正))
    
        (VP (VV 趋向)
    
           (NP (NN 大型化)))))))
    
    (PU 。)))
    
 [nsubj(显示-3, 统计-1), xsubj(趋向-10, 统计-1),advmod(显示-3, 还-2), root(ROOT-0, 显示-3), nsubj(投资-6, 台商-5), dep(趋向-10, 投资-6), nn(大陆-8, 祖国-7), dobj(投资-6, 大陆-8), advmod(趋向-10, 正-9), ccomp(显示-3, 趋向-10), dobj(趋向-10, 大型化-11)]

全部评论 (0)

还没有任何评论哟~