「3分LifeHacking:Office 2007のファイルを何とか開く」っていうか、docxファイルって、zipファイルだったんだあ。

こちら(オフィス2007の.docx、.pptx、.xlsxを古いオフィスでも開いたり編集できるようにする方法 | IDEA*IDEA)経由で見た記事。
http://www.itmedia.co.jp/bizid/articles/0611/30/news026.html

3分LifeHacking:
Office 2007のファイルを何とか開く
Office 2007のファイルを受け取ったが、自分のPCにはまだOffice 2007が入っていない。しかし、書かれている文言だけでいいから確認はしたい──。
2006年11月30日 10時03分 更新
 11月30日に企業向けに正式リリースしたOffice 2007(11月7日の記事参照)。グラフが美しくなったとか、ユーザーインタフェースが刷新されたとか、特徴はいくつもあるが(11月15日の記事参照)、最も重要な変更はファイルフォーマットが変わったことだ。今後、自分がOffice 2007を導入していなくても、次第に周囲から送られてくるWordやExcelのファイルは“2007”になっていくだろう。
 自分のPCで開けないファイルが送られてきたときに、どうやって中身を確認するか。Wordなら少なくとも文章の部分を、Excelならともあれ数字だけでも確認したいものだ。
・・・
Office 2007のファイルかどうかを見分ける方法の1つは、拡張子だ。表の通り、従来のOffice拡張子の末尾に「x」が付いているのがOffice 2007。「エックスエルエスエックス」はちょっと早口言葉みたいだ
 このOffice 2007のフォーマット、実はその中身はXMLファイルをZIP圧縮したものだ。つまり、「○○○x」という拡張子を「zip」に変更し、解凍するとXMLファイルと貼り付けられている画像ファイルなどを取り出すことができる。ZIP圧縮/解凍機能はWindows XPは標準で持っている。XMLファイルは、HTMLのようにタグを含んだテキストファイルであるため、メモ帳のようなテキストエディタやWebブラウザで簡単に開ける。
・・・
このような内容のWord 2007ファイルの中身を探ってみると……
ZIPにリネームして解凍すると、このようなフォルダ構造が現れる。/word/document.xmlに、本文のテキストが入っている
・・・
document.xmlInternet Explorerで開いたみた。元ファイルの本文が入っているのが分かる
Wordファイルに埋め込まれた画像も、Office 2007では単体のファイルとして保存されている。/media/フォルダの下を見てみよう
 Wordの本文は/word/document.xmlExcelのシート内の文字は/xl/worksheets/sheet1.xmlPowerPointの本文は、/ppt/slides/slide1.xmlに置いてある。
・・・
 XMLタグが画面のほとんどを占めるため、どこが本文なのかを見分けるのは難しいが、どのようなテキストが埋め込まれているかは少なくとも把握できる。コピーなども容易だ。
 これまでのOfficeフォーマットはバイナリだったため、中身の一部を見るにも何かしらのソフトウェアやWebアプリケーションが必要になっていた。Office 2007のフォーマットは、少なくともかなりオープンになっている。「実はZIPで圧縮されているだけなんだよ」ということは覚えておいて損はない。
 ちなみに従来のOfficelで、2007形式のWord/ExcelPowerPointファイルの閲覧、編集が可能になるアドインソフト「Word/Excel/PowerPoint 2007 ファイル形式用 Microsoft Office 互換機能パック」も提供されている。

へえ、そうなのか、zipファイルなのか。
ちなみにわたくし、職場のPCには、「互換機能パック」(http://www.microsoft.com/downloads/details.aspx?FamilyID=941b3470-3ae9-4aee-8f43-c6bb74cd1466&DisplayLang=ja)をすでに入れている(学生から送られてくるファイルがdocxだったりするようになってきた。私は学生に、テキスト形式でやれやれといつも言っている訳で、それでもdocxで送ってくる学生というのは、こちらがファイル形式がどうの、とか言っても通じなさそうなほうの子たちなので、まぁ、それ以上言うよりはこちらが対策を立てる)。
それはそれとして、ファイルの正体がわかって仕組みがわかることは重要だ。