Skip to content

Commit

Permalink
Merge branch 'dev'
Browse files Browse the repository at this point in the history
  • Loading branch information
dan-zeman committed Feb 24, 2017
2 parents 1d9342f + dd65e4d commit 0b525a7
Show file tree
Hide file tree
Showing 6 changed files with 26,143 additions and 34,485 deletions.
1 change: 1 addition & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
*-test.conllu
9 changes: 9 additions & 0 deletions README.txt
Original file line number Diff line number Diff line change
Expand Up @@ -7,3 +7,12 @@ Genre: news
Contributors: Nguyễn Thị, Lương; Hà Mỹ, Linh; Lê Hồng, Phương; Nguyễn Thị Minh, Huyền
Contact: [email protected], [email protected], [email protected], [email protected]
===============================================================================



Changelog

2017-03-01 v2.0
* Converted to UD v2 guidelines.
2016-11-15 v1.4
* Initial release in Universal Dependencies.
93 changes: 48 additions & 45 deletions stats.xml
Original file line number Diff line number Diff line change
Expand Up @@ -5,60 +5,63 @@
fused is the number of tokens that are split to two or more syntactic words
The words and fused elements can be omitted if no token is split to smaller syntactic words. -->
<size>
<total><sentences>3000</sentences><tokens>43754</tokens><words>43754</words><fused>0</fused></total>
<total><sentences>2200</sentences><tokens>31799</tokens><words>31799</words><fused>0</fused></total>
</size>
<lemmas unique="5419" /><!-- ., ,, ", và, là, không, có, của, người, ông, một, đã, được, ..., những -->
<forms unique="5419" /><!-- ., ,, ", và, là, không, có, của, người, ông, một, đã, được, ..., những -->
<lemmas unique="4382" /><!-- ., ,, ", và, không, là, có, của, người, một, được, đã, :, ông, ... -->
<forms unique="4382" /><!-- ., ,, ", và, không, là, có, của, người, một, được, đã, :, ông, ... -->
<fusions unique="0" /><!-- -->
<!-- Statistics of universal POS tags. The comments with the most frequent lemmas are optional (but easy to obtain). -->
<tags unique="13">
<tag name="ADJ">2555</tag><!-- nhiều, khác, gần, cùng, sau, đúng, mới, nhỏ, phải, trước -->
<tag name="ADP">2543</tag><!-- của, với, trong, ở, cho, để, từ, đến, vào, về -->
<tag name="CONJ">1223</tag><!-- thì, nhưng, như, là, mà, nếu, rồi, nên, Và, hay -->
<tag name="DET">691</tag><!-- những, các, mọi, mấy, mỗi, một_số, vài, toàn_bộ, tất_cả, nửa -->
<tag name="INTJ">20</tag><!-- à, Thôi, nhỉ, ạ, I, thay, vâng, Ô, Ơ, ơi -->
<tag name="NOUN">13951</tag><!-- người, ông, anh, nhà, bà, khi, con, ngày, hùng, năm -->
<tag name="NUM">1300</tag><!-- một, hai, ba, mỗi, 2, 10, năm, 20, 5, bốn -->
<tag name="PART">267</tag><!-- chính, ngay, cả, thế, thôi, thật, đến, riêng, mà, gì -->
<tag name="PROPN">1837</tag><!-- này, đó, tôi, mình, đây, họ, gì, chúng_tôi, nào, ai -->
<tag name="PUNCT">6323</tag><!-- ., ,, ", ..., :, ?, -, !, LBKT, RBKT -->
<tag name="SCONJ">506</tag><!-- và, hoặc, &, CC -->
<tag name="VERB">8994</tag><!-- có, là, được, phải, đi, làm, biết, nói, bị, về -->
<tag name="X">3544</tag><!-- không, đã, cũng, lại, sẽ, chỉ, được, rất, đang, ra -->
<tags unique="14">
<tag name="ADJ">1817</tag><!-- nhiều, cùng, khác, gần, nhỏ, đúng, sau, lớn, cao, mới -->
<tag name="ADP">1855</tag><!-- của, với, trong, ở, cho, để, đến, từ, về, vào -->
<tag name="AUX">280</tag><!---->
<tag name="CCONJ">888</tag><!-- thì, nhưng, như, là, mà, nếu, rồi, nên, hay, Và -->
<tag name="DET">459</tag><!-- những, các, mọi, mấy, một số, mỗi, vài, toàn bộ, tất cả, phần lớn -->
<tag name="INTJ">13</tag><!-- à, nhỉ, I, Thôi, thay, Ô, Ơ, ơi, Ủa -->
<tag name="NOUN">10113</tag><!-- người, ông, anh, nhà, bà, khi, con, hải, ngày, thám tử -->
<tag name="NUM">888</tag><!-- một, hai, ba, 20, 2, 10, bốn, năm, mỗi, đôi -->
<tag name="PART">180</tag><!-- ngay, chính, cả, thế, thôi, thật, Riêng, đến, đấy, cái -->
<tag name="PROPN">1343</tag><!-- đó, này, tôi, mình, họ, gì, đây, chúng tôi, ai, nào -->
<tag name="PUNCT">4601</tag><!-- ., ,, ", :, ..., ?, -, !, LBKT, RBKT -->
<tag name="SCONJ">384</tag><!-- và, hoặc, &, CC -->
<tag name="VERB">6404</tag><!-- có, được, đi, phải, biết, làm, nói, bị, về, cho -->
<tag name="X">2574</tag><!-- không, đã, cũng, lại, sẽ, rất, được, chỉ, đang, ra -->
</tags>
<!-- Statistics of features and values. The comments with the most frequent word forms are optional (but easy to obtain). -->
<feats unique="0">
<feats unique="2">
<feat name="NumType" value="Card" upos="NUM">888</feat><!-- một, hai, ba, 20, 2, 10, bốn, năm, mỗi, đôi -->
<feat name="Polarity" value="Neg" upos="ADJ,X">402</feat><!-- không, không thể, chẳng -->
</feats>
<!-- Statistics of universal dependency relations. -->
<deps unique="29">
<dep name="advcl">538</dep>
<dep name="advmod">2788</dep>
<dep name="amod">1298</dep>
<dep name="appos">84</dep>
<dep name="aux">214</dep>
<dep name="auxpass">374</dep>
<dep name="case">2340</dep>
<dep name="cc">1662</dep>
<dep name="ccomp">1224</dep>
<dep name="compound">3541</dep>
<dep name="conj">1543</dep>
<dep name="cop">414</dep>
<dep name="csubj">102</dep>
<dep name="dep">182</dep>
<dep name="det">1573</dep>
<dep name="discourse">306</dep>
<dep name="dobj">4078</dep>
<dep name="iobj">42</dep>
<dep name="advcl">416</dep>
<dep name="advmod">2398</dep>
<dep name="amod">889</dep>
<dep name="appos">53</dep>
<dep name="aux">162</dep>
<dep name="aux:pass">270</dep>
<dep name="case">1731</dep>
<dep name="cc">1224</dep>
<dep name="ccomp">899</dep>
<dep name="compound">2489</dep>
<dep name="conj">1131</dep>
<dep name="cop">282</dep>
<dep name="csubj">74</dep>
<dep name="dep">125</dep>
<dep name="det">1124</dep>
<dep name="discourse">209</dep>
<dep name="iobj">34</dep>
<dep name="list">7</dep>
<dep name="mark">213</dep>
<dep name="neg">544</dep>
<dep name="nmod">2683</dep>
<dep name="nsubj">3540</dep>
<dep name="nummod">1173</dep>
<dep name="parataxis">453</dep>
<dep name="punct">6307</dep>
<dep name="root">3000</dep>
<dep name="mark">156</dep>
<dep name="nmod">872</dep>
<dep name="nsubj">2623</dep>
<dep name="nummod">819</dep>
<dep name="obj">3016</dep>
<dep name="obl">1023</dep>
<dep name="parataxis">338</dep>
<dep name="punct">4593</dep>
<dep name="root">2200</dep>
<dep name="vocative">5</dep>
<dep name="xcomp">3526</dep>
<dep name="xcomp">2637</dep>
</deps>
</treebank>
Loading

0 comments on commit 0b525a7

Please sign in to comment.