YouTubeシステムダウン!
2018/10/17の10時ごろYouTubeで大規模なシステム障害があり、世界的にYouTubeの動画を見ることができなくなりました。
YouTubeでNCSなどの音楽を聞きながら作業をする僕にはとてもダメージがでかく、システム復旧するまでなにも手がつかないみたいな状態になりましたが、逆にこんなときTwitterはどれくらい活発化するのだろうと気になったので、すぐにデータを収集して調べてみました。
今回はPythonを使ってデータを収集、解析してみました。
ちなみに収集した総ツイート数は623206件です。
ツイート数
これがツイート数を棒グラフで可視化したものです。
取得したツイートは以下の条件に当てはまるものです。
- 「YouTube」が含まれるツイート
- 2018/10/17/9:00-11:54の間のもの
以上です。
11:54なのはツイートの収集を始めた時間がそれだったからという理由です。
ちなみに一応その後のデータも取得し始めましたが、めんどいのでまぁいいや。
10:14あたりにツイート数が増加し始めます。
NHKニュースWEBを見ると「日本時間の午前10時15分ごろから、ユーチューブにアクセスしようとするとエラーが表示されるという投稿がツイッターなどに相次ぎました。」と書かれているので、このあたりからYouTubeにアクセスができなくなったというのは正しいようです。
それから10:25あたりまでツイート数は急激に伸び始め、10:25あたりからは伸びが緩やかになっていますね。
11:30で一度ツイートの伸びが落ちているのは何なんでしょうか?
YouTubeというコンテンツそのものがTwitterに与える最大の拡散力の持続時間は約90分なのかな?笑
YouTubeが復旧したのが、システムダウンから約一時間半あとなので、つまり11:40分頃。
そのあたりでまた急激にツイートが増えています。
おそらくYouTube復活を祝うTwitter民が喜びの舞を繰り広げているからでしょう。
にしても復旧後のツイートの減りは凄まじいものですね。
「YouTube復活(゚∀゚)キタコレ!!」みたいなツイートがしばらく続いても良さそうなものですが、やはり人の不幸は蜜の味。
悪いニュース以外はあまり伝播しないみたいです。
ツイートに含まれる単語数
次にこの時間帯につぶやかれたツイートの単語ランキングを作ってみました。
たぶんこんなワードが多いかなぁと思いながら…。
- エラー
- システムダウン
- 障害
- 鯖落ち
今回は日本語のツイートとWebメディア等の以外の一般人の声がみたいなぁと思ったので、日本語で書かれているURLが含まれていないツイートのみを解析データとして使いました。
ツイート数は49787件です。
流れとしては日本語判定とURL判定をしたあとに、MeCabで形態素解析を行い、単語数を集計したという感じです。
使用した辞書は「mecab-ipadic-neologd」
この辞書は毎週更新されるMeCab用のシステム辞書なので、一番いいと思ってます。
攻殻機動隊が「攻殻機動隊 名詞」って出るし←
日本語に限定した理由は日本語のほうがネタが通じると思ったから。
URLが含まれていないツイートに限定したのは、Webメディアなどのツイートには確実に「YouTube世界的大規模システム障害」みたいな題名で投稿するからです。
で結果はこんな感じでした。
まぁ想像通りですね。
面白い結果にならなかったのは残念です。
ちなみに"YouTube"とか"ん"とかそういうワードは弾いています。
名詞、動詞、形容詞以外は弾いているはずなのですが、これ名詞か?動詞か?形容詞か?みたいなのがいくつか入っていました…orz
データそのままで上から100件並べるとこんな感じ。
単語の右に書いてあるのが単語の登場数です。
1838回「ω」という文字が使われていますが、これは「(*´ω`*)」なのかな?
これは面白いですね。
299回「www」とか347回「草」とあり、やはりYouTubeのシステムダウンを喜んでいる民がいるようです笑
ただシステム障害前、システム復活後のツイートも入っているので、簡単にはそうは言えないというのは頭の片隅に…。
感情分析
さて、一番おもしろい感情分析の時間です。
東工大の高村教授が作って公開されている「PN Table」という辞書を感情分析に使いました。
この辞書にはこんな風にデータが入っています。
単語に対しての極性情報、つまりポジティブな表現かネガティブな表現かが
−1 〜 +1
の間で割り振られています。
これをツイートに当てはめることで1つ1つのツイートがポジティブかネガティブなのかを調べるわけです。
ちなみにこの辞書に含まれていない単語は0なので、もしこの辞書に含まれていない単語だけで構成されているツイートはネガでもポジでもない文として認識されます。
というわけで、まずは分布図から見てみましょう!!
すごいことになってますね。
YouTubeシステム障害発生直後からはツイート数がとても多いのでもはやなにがなんだかわからなくなっています笑
ただ…”ー1”と”+1”を見てみると、”−1”は綺麗に端まで青くなっていますが、”+1”はジャギジャギしていますね。
ポジティブ値MAXのツイートは発信されなかった時間帯もありますが、ネガティブ値MAXのツイートはシステム障害発生後から常に何者かに発信されていたようです。
システム障害前はいい感じにでてて、全体的にネガティブよりのツイートが多いことがわかりますね。
ではポジティブ度が高いツイートを上から順番に見てみます。
YouTube復旧報告ツイートが多いですね。
なんか顔文字ついてるとほっこりしますね笑
ではネガティブ度がツイートを上から順番に…
やはりYouTubeが見れない報告ツイートが多いですね。
なにかが使えないことを日本人は「死んだ」と表現しますが、「YouTube死亡」と表現する人はやはりいたようです。
”死”というワードはとても強いのでこのワードが入っているだけで結構なネガティブ発言に……。
ちなみに上位1000件くらいはこんな死んだ的な表現のツイートでした。
単語数ランキングに乗ってもいいんじゃないかなぁと思いましたが、”死ぬ”、”死んだ”、"死亡"はそれぞれ別でカウントされるので、そういった理由で単語数ランキング100位以内には入ることができなかったんだと思います。
最後に
YouTube規模のシステムがダウンするなんてめったにあることではないし、それでTwitterは大盛り上がりをしていたので、ちょっと気になってすぐにデータの収集をはじめました。
今回のYouTubeのシステムダウンを受けて、以下に多くの人がYouTubeを使っているのか、YouTubeに依存しているのかがよくわかりました。
特に現代、AmazonやGoogleのサービスありきのサービスありきの商売が当たり前になりつつあります。
YouTuberとかその例の1つですが、彼らが突然姿を消した時などを想像するいいきっかけになったと思います。
このブログもBloggerで書いているし、Googleさんがサービスを終了したらおしまいです。
ある意味GoogleやAmazonは世界をすでに支配完了しているのかもしれません。
いつの日か…国家に変わって"会社"が世界を回す日が来るかもしれませんね。
参考
今回いくつかのサイトやコードを参考にしましたので、以下に乗せておきます。
StatsBeginner: 初学者の統計学習ノート
【Python】MeCabと極性辞書を使ったツイートの感情分析入門
GitHub:GetOldTweets-python
Aidemy Blog
花火大会におけるTwitter民の感情分析
0 件のコメント :
コメントを投稿