Skip to content

自然言語処理 MMR手法を使って文章要約をする

Notifications You must be signed in to change notification settings

MORIMOTO520212/NLP-MMR

Repository files navigation

自然言語処理 MMR手法を使って文章要約をする

image image image image

・TF 単語の頻出度
・IDF 単語の頻出度の逆数(希少度)
公式)IDF = log(全文書数÷その単語が登場する文書数)
※今回、文書とは1文とする。

コサイン類似度
それぞれのベクトルがどれくらい同じ方向を向いているかを表したもの
結果は0~1の範囲で1の方が類似度が高くなる

手順

MeCabで形態素解析をし品詞に分類する。
MMR手法を用いる。
TF-IDFを使って特徴単語を抽出し最も多い文を見つける。
 TFで単語の頻出度を求め、IDFで特徴度を求める。

記録データ

変数名 説明
document 単語レベルのデータを格納
tf_lst TF(頻出度)を格納
idf_lst IDF(希少度)を格納
tfidf_lst 特徴度を格納
cosSim_lst Cos類似度を格納
rep_lst 単語のTF-IDF値を文でまとめた値を格納

document

[
    ["", "大学", "", "学ぶ", "皆さん", "", "", "・・・"],
    ["それ", "", "学問", "", "", "", "つけ", "・・・"]
    ・・・
]

tf_lst

[
    [0.02564102564102564, 0.02564102564102564, ・・・],
    [0.06521739130434782, 0.06521739130434782, ・・・]
]

idf_lst

[
    [3.9889840465642745, 3.9889840465642745, ・・・],
    [0.5549968420791281, 2.8903717578961645, ・・・]
]

tfidf_lst

[
    [0.10228164221959678, 0.10228164221959678, ・・・],
    [0.028461376516878367, 0.07411209635631191, ・・・]
]

①要約した結果

芥川龍之介 - 羅生門

何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか饑饉とか云う災がつづいて起った。
下人は、手段を選ばないという事を肯定しながらも、この「すれば」のかたをつけるために、当然、その後に来る可き「盗人になるよりほかに仕方がない」と云う事を、積極的に肯定するだけの、勇気が出ずにいたのである。
ある日の暮方の事である。


Sentence: 43  
word: 1089  
TF list Size: 43  
IDF list Size: 43  
TF-IDF list Size: 43  
Max of TF-IDF: 4.026726087997241   
Min of TF-IDF: 1.3304061638800948  
Cos Sim list Size: 43  
TF-IDF:4.02673, Cos Sim:0.00752 | 何故かと云うと、この二三年、京都には、地震とか辻風とか火事とか饑饉とか云う災がつづいて起った  
TF-IDF:2.61455, Cos Sim:0.00723 | 下人は、手段を選ばないという事を肯定しながらも、この「すれば」のかたをつけるために、当然、その後に来る可き「盗人になるよりほかに仕方がない」と云う事を、積極的に肯定するだけの、勇気が出ずにいたのである  
TF-IDF:1.90093, Cos Sim:0.00752 | ある日の暮方の事である  

アルベルト・アインシュタイン - 相対性理論

x, y, z, t ならびに x', y', z', t' が両基準系 K 及び K' に関する空間及び時間坐標であるならば、基礎とした両原理はx2+y2+z2=c2t2 及びx'2+y'2+z'2=c2t'2なる二つの方程式各が他のものを帰結するように変換方程式を作らなくてはならないことを要求します。
これは恐ろしいディレンマです。
すなわち一つの出来事の坐標 x, y, z, 及び時刻 t が K 系に関して与えられているとき、K 系に対して既知の一様な併移運動にあるような他の系 K' に関する同じ出来事の空間時間坐標 x, y, z, t, を求めると云う事です。


Sentence: 231  
word: 7625  
TF list Size: 231  
IDF list Size: 231  
TF-IDF list Size: 231  
Max of TF-IDF: 11.172209922115773  
Min of TF-IDF: 1.5046028621294616  
Cos Sim list Size: 231  
TF-IDF:11.17221, Cos Sim:0.00120 |  x, y, z, t ならびに x', y', z', t' が両基準系 K 及び K' に関する空間及び時間坐標であるならば、基礎とした両原理はx2+y2+z2=c2t2 及びx'2+y'2+z'2=c2t'2なる二つの方程式各が他のものを帰結するように変換方程式を作らなくてはならないことを要求します  
TF-IDF:2.74524, Cos Sim:0.00084 | これは恐ろしいディレンマです  
TF-IDF:6.48781, Cos Sim:0.00120 | すなわち一つの出来事の坐標 x, y, z, 及び時刻 t が K 系に関して与えられているとき、K 系に対して既知の一様な併移運動にあるような他の系 K' に関する同じ出来事の空間時間坐標 x, y, z, t, を求めると云う事です  

学長メッセージ - 専門職が入っていく「社会」とは

振り返れば、この状態は1年以上前に始まり、ちょうど1年前の本学の開学時には緊急事態宣言が発せられ、教員・職員は初めての経験であるオンライン技術を利用した入学式を始め、その他の入学の行事や授業などをオンラインで行わなければならない状態に追い込まれました。
私達は、これから入っていく社会と自分との関係を考えます。 それは専門職が社会で仕事をする原動力である夢に潜在していると考えます。


Sentence: 54  
word: 1828  
TF list Size: 54  
IDF list Size: 54  
TF-IDF list Size: 54  
Max of TF-IDF: 3.2532741618555345  
Min of TF-IDF: 1.3050631821194816  
Cos Sim list Size: 54  
TF-IDF:3.25327, Cos Sim:0.00889 | 振り返れば、この状態は1年以上前に始まり、ちょうど1年前の本学の開学時には緊急事態宣言が発せられ、教員・職員は初めての経験であるオンライン技術を利用した入学式を始め、その他の入学の行事や授業
などをオンラインで行わなければならない状態に追い込まれました
TF-IDF:1.30506, Cos Sim:0.00784 | 私達は、これから入っていく社会と自分との関係を考えます
TF-IDF:1.48547, Cos Sim:0.00908 | それは専門職が社会で仕事をする原動力である夢に潜在していると考えます

リファレンス

https://toukei-lab.com/python-mecab

About

自然言語処理 MMR手法を使って文章要約をする

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published