211service.com
Microsoftの光沢のある新しいおもちゃ
カリフォルニア州モントレーで開催された昨年3月のテクノロジー、エンターテインメント、デザイン(TED)カンファレンスで、ディゲラティのダボスと呼ばれるサミットで、マイクロソフトの落ち着いた声のソフトウェアアーキテクトが突然デモを開始し、大画面。大量のテキストと画像データのスムーズでスピーディーな探索を可能にするテクノロジーであるSeadragonを使用して、彼は300メガピクセルの地図に簡単に飛び込み、ズームインして米国議会図書館の日付スタンプを片隅に表示します。それから彼はバーコードのように見えたが実際にはチャールズ・ディケンズの完全なテキストである画像に目を向けました 荒涼館 、2つの鮮明な植字文字が画面いっぱいになるまでズームインしてから、テキストと画像の巨大なキルトにさわやかに逆ズームします。

あなたはここにいる: MicrosoftのLiveLabsで開発中のアプリケーションであるPhotosynthは、特定の物や場所の写真を没入型で表示する方法を提供します。このソフトウェアはまだリリースされていませんが、マイクロソフトはこのヴェネツィアのサンマルコ広場のような写真コレクションを使ってオンラインでデモを行っています。
マイクロソフトは前年にSeadragonを買収し、それとともにプレゼンターのBlaiseAgüerayArcasを買収しました。しかし、AgüerayArcasは、Seadragonを披露するためだけにTEDに来たわけではありません。すぐに彼はカナディアンロッキーの写真から一緒に並べられたパノラマにカットしました。モザイクは、彼がそれを横切ってパンするにつれてシフトし、劇的な稜線を明らかにしました。次に、おなじみの建物のモデルのように見えるもの、ノートルダム大聖堂の空中写真が表示されました。モデルは、AgüerayArcasが説明したように、Flickrから収集された何百もの別々の画像から組み立てられていました。それは点群、つまり3次元空間内の点のセットでした。
このストーリーは2008年3月号の一部でした
- 残りの問題を見る
- 購読
彼が話している間、アグエラ・イ・アルカスはノートルダム大聖堂の周辺をいじめながらナビゲートしました。ノートルダム大聖堂は繰り返し生き返り、再び暗くなりました。微妙な遷移効果によって、画像と焦点のシフトによる疾走の効果が和らげられました。それは、フレームごとのアニメーションの意図的に遅くなったリールのように感じました。効果は揺れていました。群衆は、アグエラ・イ・アルカスが建物のアーチ道の正面図に深く押し込み、ガーゴイルのタイトなクローズアップで終わるのを不思議に思っていました。テクノロジーが描いた画像の中には、厳密には写真ではないものもありました。大聖堂のポスターを含む、関連するすべての画像をFlickrで検索していました。 AgüerayArcasが示していたのはビデオではありませんでしたが、それは単なる写真のコレクションではなく、巨大な写真でさえありませんでした。それも地図のようでしたが、形をぼかしたり視点を変えたりするという夢の論理によってアニメーション化された没入型の地図でした。
これはPhotosynthでした。これは、関連する画像を分析し、それらをリンクして、まばゆいばかりの仮想空間に物理的な環境を再現するテクノロジーです。 AgüerayArcas氏によると、このテクノロジーはメタバースを生み出します(Google EarthのようなマッピングテクノロジーとSecondLifeのようなゲームの素晴らしい領域の初期の融合について詳しくは、2007年7月/ 8月のSecond Earthをご覧ください)。しかし、オンラインで利用できる豊富なローカルマッピングと画像データを利用して貢献できるため、MicrosoftのGoogleEarthのライバルであるVirtualEarthのロングテールにもなっています。頭上飛行や衛星画像などからだけでなく、集合的記憶からも収集された、地球のあらゆる興味深い部分の非常に豊富な仮想モデルを提供できると彼は述べた。その時点で、プレゼンテーションは約6分前に開始されたのと同じくらい突然終了しました。アグエラ・イ・アルカスの結論は、拍手喝采を浴びました。
マルチメディア
Photosynthからの画像を表示し、それがどのように機能するかを確認します。
Photosynthのステッチ写真を一緒にご覧ください。
画像ステッチを超えて
Photosynthは、AgüerayArcasがSeadragonとPhotoTourismの結婚と呼んでいるものから生まれました。これは、写真セットのパッケージ化と表示の方法に革命をもたらすことを目的としたMicrosoftプロジェクトです。フォトツーリズムは、熱心な26歳のワシントン大学の大学院生であるノアスネイブリーの博士論文として始まりました。 Snavelyのアドバイザーの1人は、同社のR&D部門であるMicrosoftResearchのコンピュータービジョン研究者であるRickSzeliskiでした。優れた構図のような強力なスライドショーの優れた要素の必要性について説明しました。Szeliskiは、Microsoftでの以前の仕事が、現在デジタルカメラで一般的に使用されている画像ステッチングテクノロジーを開発して、より広いフレームまたはより高いフレームを埋めるのに役立っていました。彼はまた、画像間の流動性とそれらを表示する際の双方向性の感覚を求めました。
Szeliskiとワシントン大学のSteveSeitz教授と協力して、Snavelyは、計算が禁止されている課題、つまり、類似性に基づいて写真を人間の物理的な3Dモデルにマージする方法をコーディングすることに熱心でした。目は、本物の現実世界の風景の一部として認識できます。さらに、モデルは、ユーザーが空間的にナビゲートして体験できるモデルである必要があります。デジタルカメラなどの電子機器で使用されている既存のフォトステッチングソフトウェアは、撮影されたシーケンスから画像間の関係を推測する方法を知っていました。しかし、Snavelyは、まったく異なる方法でそのような評価を行うことができるソフトウェアを開発しようとしていました。彼は2段階のプロセスを考案しました。最初の段階では、すべての2D画像で顕著な点を特定します。次に、異なる画像のどの点が3Dの同じ点に対応するかを調べます。
Snavely氏によると、このプロセスは「運動からの構造」と呼ばれます。基本的に、移動するカメラは3D構造を推測できます。これは、頭を前後に動かすときと同じ考え方であり、見ているものの3D構造をよりよく理解することができます。片方の目を閉じて、頭を左右に動かしてみてください。距離が異なると、異なる点の動きが異なることがわかります。これが、運動からの構造の背後にある基本的な考え方です。
AgüerayArcasが説明するように、コンピュータービジョンは、すべての空間データが定量化可能であるという単純な保証の恩恵を受けています。空間内の各点には、x、y、zの3つの自由度しかありません、と彼は言います。
特定の写真で共有されている属性は、類似しているとマークするのに役立ちます。たとえば、独特の形の敷石が繰り返し表示される場合があります。ソフトウェアが類似点を認識すると(この写真の石もその写真に表示されます)、ソフトウェアはさらに類似点を探すことを認識します。したがって、一致する視覚要素に基づいて画像をグループ化するプロセスは、それらの敷石からパス全体を再作成できるようになるまで蒸気を収集します。システムが開始する画像が多いほど、特に元の写真がさまざまな角度や視点から撮影された場合、結果はより現実的になります。
これは、2番目の計算演習が、共有機能がさまざまな角度から描かれている画像を比較することであるためです。最初のプロセスが2番目のプロセスを支援し、カメラがどこにあるべきかについての情報を提供してくれることがわかりました。各写真が撮影された視点を復元することができ、ユーザーが写真を選択すると、その視点に移動します。各画像に視点を設定し、写真が撮影されたときにカメラがどこにあったかを計算することで、ソフトウェアは両眼視の仕組みを模倣し、3D効果を生み出すことができます。
しかし、シェリスキが知っていたように、人間の目は批評家の中で最も気まぐれです。そこで彼と彼の2人の同僚は、小さな部分を大きな全体に分割する以上のことをしようとしました。また、画像を可能な限りシームレスに一致させることを目的とした遷移効果にも取り組みました。彼らが洗練した技術には、フィルムとビデオの編集者が画像をブレンドする特徴的な方法であるディゾルブまたはフェードが含まれます。
イタリアのトレビの泉を紹介したデモで、フォトツーリズムは、Photosynthが生成するものの高床式の初歩的なバージョン、つまり1つの場所でさまざまな視点を表す画像から組み立てられた点群を実現しました。さらに印象的なのは、説明的なタグに基づいてFlickrからダウンロードされた画像のバンクをくぐり抜けるソフトウェアの機能でした。もちろん、モデルを作成する目的で撮影されたのではない写真です。その結果、シェリスキは、ベテランの目にも驚くべき新鮮な結果をもたらしたことを覚えています。
私たちが持っていたのは、写真コレクションを視覚化する新しい方法、インタラクティブなスライドショーでした、とSzeliskiは言います。フォトツーリズムは、インサイダーとアウトサイダーのさまざまな理由で驚くべきものだったと思います。インサイダーは、経験の魅力的な容易さに当惑しました。部外者は、それが可能であるとはほとんど信じられなかったと彼は言います。
それでも、フォトツーリズムアプリケーションには不確実な未来がありました。これは、Linuxで開発され、Windowsで実行できる技術的な啓示でしたが、それでも非常にプロトタイプであり、さらに開発するためのロードマップは不明確でした。
2006年の春、Snavelyがマイクロソフトの社内ワークショップでPhoto Tourismを紹介していたとき、当時新入社員だったBlaiseAgüerayArcasが通りかかって注目しました。彼は最近、彼の会社であるSeadragonを買収したおかげで到着しました。この会社は、彼が画像用の3D仮想メモリマネージャーとして説明するソフトウェアアプリケーションを開発しました。 Seadragonの目を見張るような魅力は、ユーザーが前例のない量の視覚情報を読み込んだり、閲覧したり、操作したりできる能力にあり、その大きな技術的成果は、ネットワークを介してそれを実行できることでした。 (ただし、Flickrなどの画像を処理するPhotosynthの機能は、Photo Tourismに端を発するテクノロジーに由来します。)
アグエラ・イ・アルカスとスネーブリーはその日から話し始めました。 2006年の夏までに、デモが発表されていました。結果として得られるハイブリッド製品(一部はフォトツーリズム、一部はシードラゴン)は、同様の画像(写真またはイラスト)の大規模なクラスターを集約し、それらを実際の被写体の3Dビジュアルモデルに織り込みます。 2D写真が集まる領域にも立体感を与えます。個々の画像は完全に忠実に再現されますが、それらの間の遷移で、Photosynthは、写真のコレクションがより広い視点の画像の一部のように感じられないようにする知覚のギャップを埋めます。そして、実際のシーンの視覚的アナログであることに加えて、合成されたモデルは完全にナビゲート可能です。 Snavelyが説明するように、ナビゲーションの主なモードは、コントロールをクリックして次にアクセスする写真を選択することです。システムは、視点を3Dでその新しい場所に自動的に移動します。ロービングアイはこれの良い比喩です。ソフトウェアは、文書化されたあらゆる角度から鑑賞できる場所として、撮影された被写体を再現します。
Photosynthの驚くべき技術的成果は、帽子からウサギを引っ張るようなものです。それは、写真の2Dメディアからリアルな3Dインターフェイスを生成します。コンピュータビジョンを専門とするカーネギーメロン大学のアレクセイA.エフロス教授は、これは何もないところからだと言います。エフロスが説明する秘密は、写真の量です。より多くの視覚データを取得するにつれて、量は質になります、と彼は言います。そして、驚くべき量のデータを取得すると、それはあなたが前に知らなかったことをあなたに伝え始めます。改善されたパターン認識、インデックス作成、およびメタデータのおかげで、マシンは3次元性を推測できます。エフロス氏によると、私たちが予想するよりも早く、視覚は、現在の人間の場合と同じように、機械の主要なセンサーになるでしょう。


マイクロソフトは、ヴェネツィアのサンマルコ広場の1つなどの写真コレクションを使用して、Photosynthをオンラインでデモンストレーションしています。このコレクションのショットは、1人の写真家が10日間にわたって撮影したものです。
クレジット:Microsoft LiveLabs提供
それがどうなるか
Photosynthに関するMicrosoftの取り組みは、100人の強力なLiveLabsに対するMicrosoftの戦略を例示しています。一部はWebベースのスカンクワークスであり、一部は親会社が適していないプロペラヘッズの募集地であり、Live Labsは、Microsoftのすべてについて人々が考えていることに挑戦することを目的としています、と40歳のGaryFlakeは言います。ラボの創設者兼ディレクターであるテクニカルフェロー。そのより直接的な目的は、Webテクノロジーを市場に投入することです。
フレークのLiveLabs文化に関する売り込みは、研究科学と製品工学の架け橋となる彼の取り組みについて語っているため、エネルギッシュなものです。 NEC ResearchInstituteやYahooResearch Labsを含む多くの研究機関で働いてきたフレークは、これを業界全体の課題として説明しています。 Live Labsには、意図的なヘッジポートフォリオがありますと彼は説明します。 40の異なるプロジェクトを含む非常に興味深いミックスがあります。
フレークは彼のプロジェクトの多くを詳細に議論することを望んでいませんが、生の才能の方法でより多くのDNAを持ち込むという彼の使命について興奮に満ちています。私たちはインターネット製品とサービスの状態を作り上げ、前進させたいと彼は言いますが、彼はまた、エンジニアと科学者が事実上異なる話をすることが多い研究開発の世界で翻訳者として役立つことができる人間のロゼッタストーンとしてLiveLabsの従業員について情熱的に話します言語。
フレーク氏によると、Photosynthプロジェクトは、科学と製品工学の間の伝統的な隔たりを克服するための努力を通じて、彼が擁護したい種類の成功の典型です。それは最先端の深刻な進歩を表しています。
現在、Photosynthはオンラインデモでのみ見ることができますが、AgüerayArcasのチームは年末までにリリースすることを望んでいます。それを取得した誰かが実際にそれで何ができるかはまだ分からない。点群はわずか2、3枚の画像から作成できるため、ユーザーが自分の写真の比較的洗練されていないシンセサイザーを作成していることを想像できます。たとえば、ラシュモア山への家族旅行などです。 (もちろん、Photosynthを持っている人は、後でリッチシンセを作成できるようにするために、特定の場所でさらに多くの写真を撮り始める可能性があります。)しかし、ユーザーが写真のオンラインライブラリを利用する可能性もあります。高度に写真を撮られたサイトの独自のシンセを作成するには、おそらくローカルコンピュータにダウンロードする必要があります。
それでも、Photosynthはほとんど証拠がなく、約束されています。使いやすさ、正確にはその機能については、技術的な質問がたくさんあります。また、Linuxのフォトツーリズムの起源にもかかわらず、Photosynthは当面の間だけWindowsのままになります。
そして、すべてのPhotosynthの当面の魅力については、そのアプリケーションも不明確なままです。画期的なものであっても、世界には別の画像ブラウザは必要ありません。ユーザーが現在の形でPhotosynthにお金を払う可能性はさらに低いようです。それまでの間、Photosynthの運命は、幅広いユーザーコミュニティを構築できるかどうかにかかっています。グーグルアースが行ったように、それはそれを受け入れる人々のために新しい用途を引き受けるでしょうか?さらに重要なことに、マイクロソフトは、そのようなコミュニティが当初意図されていたものとは異なる用途を探すことができるように、十分にオープンな最終製品をリリースしますか?
Flakeは、Photosynthチームが数十の潜在的な用途を生み出したと報告しており、そのうちの2つは特に可能性が高いと思われます。
1つは、Microsoft Virtual Earthとより完全に統合し、ユーザーをディープズームの次のステップに導くツールにすることです。バーチャルアースが地形と航空写真を処理し、Photosynthが豊富な地上写真素材を調整することで、2つのアプリケーションは、TEDでAgüerayArcasが呼び出した用語を使用して、一種の軽量メタバースを生み出す可能性があります。
建物や街の広場があるPhotosynthの施設に注目して、Seitzは大規模なスケールアップも想定しています。都市全体をキャプチャしたいと彼は言います。実際、AgüerayArcasとMicrosoftのVirtualEarthプロジェクトのゼネラルマネージャーであるStephenLawlerは、2007年8月にラスベガスで開催された毎年恒例のハッカー会議Defconで、パートナーシップを計画していると発表しました。いくつかの比較的小さな技術的ハードルがクリアされたら、都市のモデリングを妨げるものは何もないとSeitz氏は言います。
人々がこれまでになく大量のデジタルメディアを作成して保存するにつれて、Photosynthは、ユーザーが家族のフォトアルバムをライフキャストできるようにする可能性さえあります。あなたの子供があなたの家で成長するのを見ることができるかどうか想像してみてください、とフレークはあなたの写真コレクションから言います。
そのようなアイデアが浸透しているため、Photosynthチームはほとんどじっと座っていません。昨年の夏、研究者たちはNASAとのオンラインデモコラボレーションをリリースしました。現在、彼らはジェット推進研究所と協力して火星の表面のごく一部を合成しています。
マイクロソフトがこの種のオタクをどこまで資金調達する用意があるのか不思議に思う人もいます。それではまた、アグエラ・イ・アルカスとフレークが修辞的に尋ねているように、この種の技術的成果をどのように評価するのでしょうか。 Photosynthは市場への明確な道筋がやや不足しているように見えますが、競争も完全に不足しているようです。
Jeffrey MacIntyreは、文化、科学、テクノロジーについて幅広く執筆しているフリーランスのジャーナリストです。