ほぼこもワードランキングTOP10(100記事)

ほぼこもセキュリティニュースは2021年1月に掲載を開始しました。
先日、記事の数が100を超えました。

ほぼこもセキュリティニュースはセキュリティに関連するいろいろなネタを扱っています。
これまでの記事の中にどんなワードが重要ワードとして登場しているのか、という切り口でみてみました。
今回利用した手法は、TF-IDF法というものです。
Term Frequency:単語の出現頻度、と、Inverse Document Frequency:逆文書頻度、とを使い、特徴語を抽出する、というものです。
社内の技術者に協力してもらって、過去の記事の特徴語の傾向を数値化することができました。

この情報を使って、100記事までのワードランキングと50記事までのワードランキングとの比較という形で傾向の変化をみてみました。
出来上がったものがこちらです。

100記事までの順位ワードスコア傾向50記事までの順位
1マルウェア4.9425539141
2情報3.7680507283
3ファイル3.648165961圏外
4環境3.0074012086
5脆弱2.9859379054
6システム2.8696508525
7パスワード2.629950044圏外
8データ2.5614484948
9ランサムウェア2.54658019515
10状態2.5253548799
ほぼこもワードランキングTOP10(100記事)

スコアは大きい値であるほど重要、という感じで当たらずとも遠からずなんだと思います。

一番スコアが高いものは、マルウェアでした。
これは50記事まで時点と100記事まで時点で見る場合、継続して一番でした。
大きく順位を上げているものは、ファイル、パスワード、ランサムウェア、でした。
これらのワードもそういえばよく書いたな、という感じです。

たまにこんな感じで傾向の変化を見てみるのも面白いですね。
また頃合いを見て、やってみようと思います。
次はどんなワードがランクをあげてくるんでしょうね。