データの保存はテキスト？データベース？【その２】

さて前回からの続きです。

前回はデータの保存形式として、筆者はテキスト派だということとテキストデータの例や利点を述べました。本日は対抗と目されるデータベースにデータを格納することについて考えてみます。

執筆に先立って、赤い色で有名な某RDBMSマスターな諸先輩方に取材行いました。様々りな意見がでましたが総じてまとめると「さくっとデータが取り出せればなんでもいいんじゃない？」ということになりました笑。データのほとんどがその利用によって新たな価値を生み出すことを目的として蓄積されていることを考えれば、必要なときに必要な形でかつ短時間で取り出せる方法が望ましいというのはある意味では当然の結論かもしれません。ただ、ここではすこし歴史的な背景を考えてみることにしましょう。

計算機の世界では、メモリは超高速な記憶域であり容量が小さく、HDDは低速な記憶域であるかわりに容量が大きいという特性をいかにして克服するかというのがひとつの目標でした。単位容量あたりの価格はメモリとHDDでは全然違いますし、そもそも今のようなGBクラスの大容量メモリなどは昔は存在すらしませんでした。そして、高速に動作するのは高くて容量の小さいメモリの方だったので、必然的にデータは単価の安いHDDにおいて利用せざるを得なかったのです。

したがって、遅い記憶域であるHDDに大量にため込まれたデータからいかにして高速に所望のデータを取り出すかというが一つのテーマであり、その解決策としてDBMS（特にRDBMS）が選ばれてきたのです。RDBMSにはデータを高速に検索したり、更新したりする機能が備わっており、運用環境もひととおり提供されたので、いまや企業システムではRDBMSは切っても切り離せない存在となりました。排他制御やトランザクション管理などもRDBMSの優れた特性のひとつといえるでしょう。

しかし、ムーアの法則に従って半導体の記憶密度は約2年ごとに倍増を繰り返してきました。それはすなわち同容量の記憶域が2年ごとに半値になることを意味しています。したがって、いまやGBクラスのメモリが数千円で帰る時代になりました。企業向けシステムでは数百GBのメモリを搭載したサーバを構築することも現実的な金額で出来るようになりました。つまり「大きなデータ」とはいっても、一昔前の「大きなデータ」ぐらいであれば、そのすべてがメモリ上にのることを意味します。メモリは高速な記憶域なのでRDBMSなどの機能を使わずとも高速な処理が期待できるようになりました。現代の「ビッグデータ（TB・PB級）」はRDBMSの力を利用した方が有利でしょうが、GBクラスのデータであればメモリ上でテキストデータのまま処理することも現実的になってきたのです。

そう考えると、冒頭の「さくっとデータが取り出せればなんでもよい」という答えに対応して、「データの大きさに応じてテキストなのかDBMSを使うのかを考える」というのも今後はひとつの選択肢になり得るのかもしれません。

取材にご協力いただいた皆様ありがとうございました。