CodeBus
www.codebus.net
Search
Sign in
Sign up
Hot Search :
Source
embeded
web
remote control
p2p
game
More...
Location :
Home
Search - SHORTEST-PATHS
Main Category
SourceCode
Documents
Books
WEB Code
Develop Tools
Other resource
Search - SHORTEST-PATHS - List
[
Search Engine
]
SharpICTCLAS
DL : 0
ICTCLAS分词的总体流程包括:1)初步分词;2)词性标注;3)人名、地名识别;4)重新分词;5)重新词性标注这五步。就第一步分词而言,又细分成:1)原子切分;2)找出原子之间所有可能的组词方案;3)N-最短路径中文词语粗分三步。 在所有内容中,词典库的读取是最基本的功能。ICTCLAS中词典存放在Data目录中,常用的词典包括coreDict.dct(词典库)、BigramDict.dct(词与词间的关联库)、nr.dct(人名库)、ns.dct(地名库)、tr.dct(翻译人名库),它们的文件格式是完全相同的,都使用CDictionary类进行解析。如果想深入了解ICTCLAS词典结构,可以参考sinboy的《ICTCLAS分词系统研究(二)--词典结构》一文,详细介绍了词典结构。 -ICTCLAS word of the overall process include: 1) initial segmentation 2) POS tagging 3) names, places identification 4) to re-word 5) This five-step re-speech tagging. The first word, the thin, divided into: 1) atom splitting 2) to identify all the possible atomic set of words between the program 3) N-shortest paths Chinese words rough three steps.
Date
: 2025-12-18
Size
: 1.87mb
User
:
ounata
CodeBus
is one of the largest source code repositories on the Internet!
Contact us :
1999-2046
CodeBus
All Rights Reserved.