・TF 単語の頻出度
・IDF 単語の頻出度の逆数(希少度)
公式)IDF = log(全文書数÷その単語が登場する文書数)
※今回、文書とは1文とする。
コサイン類似度
それぞれのベクトルがどれくらい同じ方向を向いているかを表したもの
結果は0~1の範囲で1の方が類似度が高くなる
MeCabで形態素解析をし品詞に分類する。
MMR手法を用いる。
TF-IDFを使って特徴単語を抽出し最も多い文を見つける。
TFで単語の頻出度を求め、IDFで特徴度を求める。
変数名 | 説明 |
---|---|
document | 単語レベルのデータを格納 |
tf_lst | TF(頻出度)を格納 |
idf_lst | IDF(希少度)を格納 |
tfidf_lst | 特徴度を格納 |
cosSim_lst | Cos類似度を格納 |
rep_lst | 単語のTF-IDF値を文でまとめた値を格納 |
[
["本", "大学", "で", "学ぶ", "皆さん", "は", "、", "・・・"],
["それ", "は", "学問", "を", "身", "に", "つけ", "・・・"]
・・・
]
[
[0.02564102564102564, 0.02564102564102564, ・・・],
[0.06521739130434782, 0.06521739130434782, ・・・]
]
[
[3.9889840465642745, 3.9889840465642745, ・・・],
[0.5549968420791281, 2.8903717578961645, ・・・]
]
[
[0.10228164221959678, 0.10228164221959678, ・・・],
[0.028461376516878367, 0.07411209635631191, ・・・]
]
何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか饑饉とか云う災がつづいて起った。
下人は、手段を選ばないという事を肯定しながらも、この「すれば」のかたをつけるために、当然、その後に来る可き「盗人になるよりほかに仕方がない」と云う事を、積極的に肯定するだけの、勇気が出ずにいたのである。
ある日の暮方の事である。
Sentence: 43
word: 1089
TF list Size: 43
IDF list Size: 43
TF-IDF list Size: 43
Max of TF-IDF: 4.026726087997241
Min of TF-IDF: 1.3304061638800948
Cos Sim list Size: 43
TF-IDF:4.02673, Cos Sim:0.00752 | 何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか饑饉とか云う災がつづいて起った
TF-IDF:2.61455, Cos Sim:0.00723 | 下人は、手段を選ばないという事を肯定しながらも、この「すれば」のかたをつけるために、当然、その後に来る可き「盗人になるよりほかに仕方がない」と云う事を、積極的に肯定するだけの、勇気が出ずにいたのである
TF-IDF:1.90093, Cos Sim:0.00752 | ある日の暮方の事である
x, y, z, t ならびに x', y', z', t' が両基準系 K 及び K' に関する空間及び時間坐標であるならば、基礎とした両原理はx2+y2+z2=c2t2 及びx'2+y'2+z'2=c2t'2なる二つの方程式各が他のものを帰結するように変換方程式を作らなくてはならないことを要求します。
これは恐ろしいディレンマです。
すなわち一つの出来事の坐標 x, y, z, 及び時刻 t が K 系に関して与えられているとき、K 系に対して既知の一様な併移運動にあるような他の系 K' に関する同じ出来事の空間時間坐標 x, y, z, t, を求めると云う事です。
Sentence: 231
word: 7625
TF list Size: 231
IDF list Size: 231
TF-IDF list Size: 231
Max of TF-IDF: 11.172209922115773
Min of TF-IDF: 1.5046028621294616
Cos Sim list Size: 231
TF-IDF:11.17221, Cos Sim:0.00120 | x, y, z, t ならびに x', y', z', t' が両基準系 K 及び K' に関する空間及び時間坐標であるならば、基礎とした両原理はx2+y2+z2=c2t2 及びx'2+y'2+z'2=c2t'2なる二つの方程式各が他のものを帰結するように変換方程式を作らなくてはならないことを要求します
TF-IDF:2.74524, Cos Sim:0.00084 | これは恐ろしいディレンマです
TF-IDF:6.48781, Cos Sim:0.00120 | すなわち一つの出来事の坐標 x, y, z, 及び時刻 t が K 系に関して与えられているとき、K 系に対して既知の一様な併移運動にあるような他の系 K' に関する同じ出来事の空間時間坐標 x, y, z, t, を求めると云う事です
振り返れば、この状態は1年以上前に始まり、ちょうど1年前の本学の開学時には緊急事態宣言が発せられ、教員・職員は初めての経験であるオンライン技術を利用した入学式を始め、その他の入学の行事や授業などをオンラインで行わなければならない状態に追い込まれました。
私達は、これから入っていく社会と自分との関係を考えます。
それは専門職が社会で仕事をする原動力である夢に潜在していると考えます。
Sentence: 54
word: 1828
TF list Size: 54
IDF list Size: 54
TF-IDF list Size: 54
Max of TF-IDF: 3.2532741618555345
Min of TF-IDF: 1.3050631821194816
Cos Sim list Size: 54
TF-IDF:3.25327, Cos Sim:0.00889 | 振り返れば、この状態は1年以上前に始まり、ちょうど1年前の本学の開学時には緊急事態宣言が発せられ、教員・職員は初めての経験であるオンライン技術を利用した入学式を始め、その他の入学の行事や授業
などをオンラインで行わなければならない状態に追い込まれました
TF-IDF:1.30506, Cos Sim:0.00784 | 私達は、これから入っていく社会と自分との関係を考えます
TF-IDF:1.48547, Cos Sim:0.00908 | それは専門職が社会で仕事をする原動力である夢に潜在していると考えます