Senin, 18 April 2011

Rekayasa Web

Pelacakan pengembangan Web, yang menentukan inovasi baik (misalnya P2P) dan yang buruk (phishing misalnya), dan memberikan kontribusi bagi perkembangan menguntungkan adalah tujuan utama dari Web Ilmu. Pada bagian ini, kita akan meninjau beberapa petunjuk saat pembangun Web. Kami akan melihat Web Semantic dan beberapa isu dan kontroversi sekitarnya yang (Bagian 3.1), masalah berkaitan dengan referensi dan identitas (Yang penting untuk Web Semantic untuk memastikan, tetapi juga untuk setiap jenis analisis informasi berbuah - Bagian 3.2), dan kemudian pilihan inisiatif lebih lanjut, termasuk layanan Web, P2P, komputasi grid dan sebagainya (Bab 3.3).
Web adalah arsitektur berprinsip standar, bahasa dan formalisms yang menyediakan platform untuk aplikasi heterogen banyak subpopulasi. Hasilnya bisa mudah menjadi kusut, dan keputusan yang dibuat tentang standar yang mengatur satu formalisme dapat memiliki konsekuensi di luar, yang dapat timbal tentu saja untuk keputusan desain yang kompleks (cf. [146]).

Memang, beberapa tuntutan di Web membuat godaan untuk model yang semantik dengan formalisms sangat ekspresif, namun expressivity seperti perdagangan umum off melawan kegunaan dan satu set kecil baik dipahami prinsip-prinsip. Namun, sering terjadi bahwa trade-off antara expressivity dan kegunaan adalah akibat dari penyalahgunaan umum dari formalisms tersebut. Untuk contoh - kita akan membahas contoh ini secara lebih rinci di bawah ini - menggunakan dari mesin, diimplementasikan dan diusulkan, dari Web Semantic [35, 17] untuk memperpanjang Web merupakan tujuan umum. Tapi desain SW dan terkait formalisms dan alat-alat dimaksudkan untuk memperpanjang Web untuk menutupi data terkait, tidak, seperti yang sering diasumsikan, untuk meningkatkan pencarian atau mendapatkan kekuatan yang lebih besar dari teks beranotasi (yang lain, terpisah, jenis ekstensi dari Web). Ini mungkin, sebagai klaim banyak dan berharap, bahwa lokal model dan muncul semantik merupakan bagian penting dari cara kita memahami Web. Jika demikian, akan ada serius trade-off dengan interoperabil- ity: manfaat dari pencarian didistribusikan terstruktur dan berbagi data besar namun memerlukan semantik interoperable. Meninggalkan semantik underde- termined berarti memaksa pengguna (manusia) untuk melakukan pembuatan rasa, seperti untuk Misalnya dengan sistem P2P saat ini yang, jika mereka memaksakan semantik di semua, cenderung hanya menggunakan sangat sederhana, tingkat rendah, struktur tugas-relatif. Dalam tertentu, asumsi bahwa aparat dari Web Semantic adalah dirancang untuk memperpanjang teknologi yang tersedia untuk melihat dokumen dapat menyebabkan khawatir tentang trade-off antara Seman "mudah" muncul- tics dan "sulit" logika yang salah, kita harus berhati-hati untuk tidak bingung dua area aplikasi terpisah.
Web memulai hidup sebagai upaya untuk membuat orang untuk mengubah mereka perilaku dalam cara penting. Banyak orang membuat dokumen, namun Web pra-asumsi bahwa dokumen adalah swasta prop- kemiskinan dari penciptanya, dan keputusan untuk mempublikasikan miliknya nya atau sendirian. Selain itu, teknologi untuk memungkinkan orang untuk menerbitkan dan dissemi- dokumen nate murah dan mudah sangat kurang. Tujuan Web adalah untuk mengubah perilaku yang radikal dan menyediakan teknologi untuk melakukannya: orang akan membuat dokumen mereka tersedia untuk orang lain dengan menambahkan link
untuk membuat mereka dapat diakses dengan mengikuti link. Pertumbuhan pesat dari Web, dan cara di mana perubahan ini cepat diadopsi di semua sektor masyarakat Barat mungkin mengaburkan radikalisme dari langkah ini. Web Semantik (SW) merupakan upaya untuk memperluas potensi Web dengan ekstensi analog perilaku orang. SW mencoba untuk membuat orang untuk membuat data tersedia untuk orang lain, dan menambahkan link untuk membuat mereka dapat diakses dengan mengikuti link. Jadi visi SW adalah sebagai perluasan dari prinsip-prinsip Web dari dokumen untuk data. Ini ekstensi, jika hal itu terjadi dan diterima, akan memenuhi lebih dari Web potensial, dalam hal ini akan memungkinkan data yang akan dibagi secara efektif dengan yang lebih luas masyarakat, dan untuk diproses secara otomatis oleh alat serta manual [34]. Hal ini tentu saja menciptakan suatu persyaratan besar: seperti alat-alat harus dapat memproses data dalam format bersama heterogen, berkumpul menggunakan prinsip yang berbeda untuk berbagai tugas utama. The Web kekuasaan akan yang jauh lebih besar jika data dapat didefinisikan dan terkait sehingga bahwa mesin bisa melampaui tampilan, dan bukannya mengintegrasikan dan alasan tentang data berbagai aplikasi (dan di seluruh organisasi atau masyarakat batas). Saat ini, Web yang sangat tidak baik pada teks, musik dan gambar, dan boleh juga di video dan jasa, namun data tidak dapat dengan mudah digunakan pada skala Web [135]. Tujuan dari SW adalah untuk memfasilitasi menggunakan data serta penemuan mereka, melampaui Google dalam hal ini. Dalam konteks ini adalah layak disebut perbedaan antara pengambilan informasi dan pengambilan data (alias otomatis pertanyaan- menjawab). Tujuan yang pertama adalah untuk menghasilkan dokumen yang relevan dengan query; dokumen ini tidak perlu menjadi unik, dan dua episode berhasil pencarian informasi tetap dapat menghasilkan hasil yang sama sekali berbeda. Tujuan yang terakhir adalah untuk menghasilkan benar jawaban query. Ada perbedaan besar antara dua jenis pencarian, dan kepatuhan ketat terhadap prinsip-prinsip formal bahwa proyek terakhir membutuhkan mungkin menjadi penentu utama dari apa yang struktur seseorang harus pilih ketika salah satu adalah menemukan skema untuk memberikan signifikansi istilah dalam kueri seseorang. Data dalam arti yang sangat nyata lebih fundamental dari sebuah dokumen, maka potensi kenaikan Web kekuasaan. Ada juga banyak data di luar sana. Masalah terbuka kedua adalah apa fungsi dapat dicapai dengan membawa keluar hubungan antara berbagai sumber data.
Secara tradisional, di AI misalnya, basis pengetahuan atau sistem pakar, atau bahkan database dalam sebuah organisasi, yang digunakan untuk mewakili certi- fied informasi yang handal, dapat dipercaya, mungkin konsisten dan sering didasarkan pada strategi akuisisi terpusat dan representasi protokol. Di Web, tentu saja, asumsi ini tidak selalu berlaku. Sebagai contoh, kita harus memastikan bahwa inkonsistensi (yang kita harus berharap menemukan di Web) tidak menggelincirkan semua kesimpulan dari kelompok tertentu sumber-sumber pengetahuan yang saling tidak konsisten. Banyak aplikasi untuk SW belum mulai beroperasi, tetapi beberapa cara datang untuk berdamai dengan potensi scruffiness bahkan baik terstruktur data dari beberapa sumber adalah sebuah isu [278]. Strategi SW berikut, oleh karena itu, adalah untuk menyediakan umum kerangka kerja untuk pembebasan data, berdasarkan deskripsi Resource- tion Framework (RDF), yang mengintegrasikan berbagai aplikasi menggunakan XML sebagai pertukaran sintaks [195]. Raw data dalam database dibawa bersama-sama, dan terhubung ke model dunia (melalui ontologi - lihat di bawah), yang kemudian memungkinkan agregasi dan analisa data dengan memproduksi interpretasi konsisten di seluruh heterogen sumber data. fokus, oleh karena itu, pada data itu sendiri. SW ini tidak hanya masalah menandai dokumen HTML di Web, ataupun varian pada masalah IR tradisional pengambilan dokumen. Ini adalah berusaha untuk membawa bersama data di seluruh Web sehingga membuat luas database melampaui komponennya, yang membuat aplikasi mungkin- tions yang menyimpulkan seluruh data heterogen, seperti CS AKTive Space yang memungkinkan browsing dan kesimpulan di berbagai sumber data kronik keadaan disiplin ilmu komputer di Amerika Kerajaan [251]. Model data SW sangat berhubungan dengan dunia relasional data (di mana data direpresentasikan sebagai hubungan n-ary, yang sesuai ke sebuah meja - [62]), begitu dekat memang bahwa ada langsung pemetaan dari database relasional untuk RDF. Sebuah database relasional adalah tabel yang terdiri dari catatan, yang merupakan baris. Setiap record terdiri dari ladang, yang analog dengan kolom, dan seorang individu catatan tidak lebih dari isi dari bidangnya (isi sel-sel dari matriks yang jatuh dalam baris). Catatan node RDF, bidang adalah properti RDF dan bidang rekaman nilai [28].
Jadi, misalnya, seperti meja mungkin merepresentasikan data tentang mobil. Setiap baris (record) akan terkait dengan mobil tertentu, dan setiap kolom beberapa properti atau lapangan (warna, pemilik, nomor registrasi, jenis, baru-baru ini mekanik sejarah dan sebagainya). Jadi beberapa properti tertentu dari mobil diwakili dalam merekam akan diwakili dalam rekaman yang sesuai lapangan. Tabel tersebut juga mungkin berisi informasi tambahan yang lebih sulit untuk mengungkapkan dalam RDF atau dalam model relasional itu sendiri. Misalnya, Mas- Negara sachusetts mungkin memiliki database relasional mobil yang mencakup bidang untuk pelat Massachusetts. Dalam hal ini, database mungkin dimaksudkan untuk menjadi definitif, yaitu mobil direpresentasikan dalam database jika dan hanya jika memiliki plat Massachusetts hukum. Itu tentu saja suatu harta penting dari meja [28]. Semacam ini database adalah jenis sumber pengetahuan yang eksploitasi tion dipahami sebagai dasar untuk SW. Jadi SW adalah perpanjangan dari WWW dalam hal yang menjadi tahap berikutnya menghubungkan - menghubungkan data tidak dokumen. Ini bukan satu set metode untuk secara khusus menangani dokumen yang saat ini di Web, bukan seperangkat kesimpulan metode berdasarkan metadata atau cara mengelompokkan halaman web saat ini, atau cara super-pintar pencarian. Hal ini dimaksudkan untuk berfungsi dalam konteks model relasional data. Menghubungkan adalah kunci untuk SW tersebut. Secara khusus, meskipun penerbitan data dan penggunaan RDF sangat penting, dalam banyak kasus praktek telah menjadi konversi data ke RDF dan publikasi yang bercerai dari dataflow dunia nyata dan manajemen. Bahasa, metode dan alat-alat yang masih terguling keluar untuk lapisan SW, demi lapis, dan mungkin mengherankan bahwa menang cepat tidak muncul dari publi- kation RDF sebelum alat untuk melihat, query dan manipulat- database ing telah mencapai pasar. Memang, sebagai data publikasi sering menghapus data dari konteks organisasi, situasi baru bagi banyak akan tampak lebih buruk dari era pra-SW: aplikasi dan organisasi-spesifik alat untuk memanipulasi data yang telah berevolusi dengan organisasi akan telah menyediakan banyak fungsi yang mungkin telah hilang atau terkikis. Sementara itu, kurangnya menghubungkan antara data potensi merusak yang lebih besar dari SW. Lapisan berikutnya dari SW adalah Web Ontologi Bahasa OWL [198], yang menyediakan sarana ekspresif dapat terhubung data ke dunia
(Seperti juga melakukan RDF RDF Schema atau-S - [44]). RDF dan OWL memungkinkan pertukaran data dalam konteks dunia nyata, di atas inti ini akan duduk bahasa query untuk RDF yang akan memungkinkan didistribusikan dataset untuk di-query dengan cara yang standar dan dengan beberapa implementasi. SPARQL memungkinkan interogasi dataset digabungkan untuk memberikan akses ke informasi gabungan mereka [232]. Visi asli dari SW telah dirumuskan dalam bentuk terkenal berlapis diagram ditunjukkan pada Gambar 3.1. Seperti dapat dilihat, pengembangan Proses SW bergerak ke atas, dengan perhubungan / RDF OWL di tengah. RDF seperti yang tercantum duduk di atas XML, dan tingkat terendah dari semua adalah bahwa dari Uniform Resource Identifier (URI). Dalam ayat berikutnya kita meneliti peran mendasar bahwa URI bermain di visi SW.
Visi telah bergerak dengan upaya pelaksanaan, sebagai salah satu harapkan. Setelah implementasi ontologi menggunakan OWL, perhatian beralih ke bahasa aturan layer dan sesuai untuk menyatakan aturan; pemikiran terkini menunjukkan bahwa Interchange Peraturan Format (RIF) saat ini dalam pengembangan [112] harus duduk bersama OWL sebagai perpanjangan RDF-S. Lapisan tersebut tercakup dalam bahasa query SPARQL. Visi revisi SW stack, bersama-sama dengan pengakuan akan kebutuhan user interface yang efektif dan aplikasi- tions, ditunjukkan pada Gambar 3.2.
URI: Nama atau alamat? Atau keduanya? RDF didasarkan pada identifikasi sumber daya melalui URI, dan menggambarkan mereka dalam hal sifat dan nilai properti [195]. Membandingkan RDF dengan XLink, bahasa menghubungkan untuk XML, yang menyediakan beberapa informasi tentang link tetapi tidak memberikan rujukan eksternal untuk apapun sehubungan dengan yang link relevan. Sebaliknya, RDF memberikan URI khusus untuk hal-hal pribadi, seperti yang kita lihat di bawah ini contoh. Ketika kami membuat grafik RDF node dan busur (Gambar 3.3), kita dapat melihat bahwa URI bahkan digunakan untuk hubungan. Sebuah referensi URI digunakan sebagai node dalam sebuah grafik RDF mengidentifikasi apa yang mewakili node; URI digunakan sebagai predikat suatu mengidentifikasi hubungan antara hal-hal diidentifikasi oleh node yang terhubung [172].
<Versi xml = "1.0"??> RDF <: RDF xmlns: RDF = "http://www.w3.org/1999/02/22-rdf-syntax-ns #" xmlns: kontak = "http://www.w3.org/2000/10/swap/pim/contact #"> <contact:Person rdf:about="http://www.w3.org/People/EM/contact#me"> <contact:fullName> Eric Miller </ hubungi: nama lengkap> <contact:mailbox rdf:resource="mailto:em@w3.org"/> <contact:personalTitle> Dr </ hubungi: personalTitle> </ Hubungi: Person> </ RDF: RDF> Secara umum, menggunakan URI untuk mengidentifikasi sumber daya merupakan faktor penting dalam pengembangan Web [33]. Menggunakan sintaks penamaan global con- pernah ditemukan (namun sintaks qua sewenang-wenang) memberikan efek jaringan global, dari mana manfaat dari berasal Web; URI memiliki lingkup global dan diinterpretasikan secara konsisten di seluruh konteks. Bergaul dengan URI sumber daya harus terjadi jika ada cukup mungkin ingin link ke sana, lihat atau mengambil representasi itu [155]. Hubungan, diidentifikasi dengan URI, link sumber daya yang juga diidentifikasi- fied oleh URI. Untuk mendapatkan mesin-pembacaan yang dimaksudkan SW aman, maka mesin harus bisa mendapatkan pada hubungan, dan karenanya harus dapat dereference URI yang mengidentifikasi relasi dan mengambil sebuah representasi dari sumber daya diidentifikasi. Jika informasi yang relevan tentang hubungan (misalnya, properti pembatasan tions) juga tersedia di URI, maka mesin akan dapat membuat kesimpulan mengenai hubungan menegaskan. RDFS dan semakin com- OWL kompleks memungkinkan pernyataan dari pembatasan hak kekayaan yang pada gilirannya memungkinkan mesin untuk membuat kesimpulan dengan cara ini. Dengan cara ini, SW ini diperkuat oleh URI, penggunaan URI memungkinkan mesin untuk proses data secara langsung memungkinkan pergeseran penekanan dimaksudkan dari dokumen data. Kami mencatat di atas bahwa banyak inspirasi bagi SW datang dari database relasional, dalam rangka mencapai keuntungan yang diantisipasi dalam fungsi sehubungan dengan database tertentu, benda-benda di database harus diekspor sebagai objek kelas pertama ke Web, dan di sana- kedepan perlu untuk dipetakan ke dalam sistem URI. Para menghubungkan bahwa di bawah- SW pin yang tentu saja dimaksudkan untuk menyediakan infrastruktur generik untuk konten web mesin-processable, tetapi telah berpendapat bahwa ini infrastruktur juga membahas banyak kekhawatiran tradisional hypermedia komunitas [278].
Melakukan fungsi ini memerlukan pergeseran mendasar dalam kita di bawah- berdiri tentang bagaimana kita menggunakan URI. Biasanya, nama dan alamat-alamat berbeda, nama sesuatu merujuk langsung ke sana, alamat yang mengatakan Anda mana (jika tidak tepat bagaimana untuk mendapatkan itu). Dalam tradisional com- pengidentifikasi menempatkan muncul dalam bahasa pemrograman, alamat adalah lokasi di memori. Nama yang dipakukan ke obyek, alamat ke tempat-tempat, dan karena itu obyek harus memiliki satu nama selamanya sementara alamatnya bisa berubah sewenang-wenang sering. Hal ini dalam beberapa hal dimasukkan ke dalam "klasik" melihat dari Web: ada asumsi bahwa identifier (URI) akan menjadi salah satu dari dua macam hal. Itu baik akan menjadi nama sesuatu, dipahami secara terpisah dari lokasi - sebuah URN - atau menentukan lokasi hal - URL. Jadi kelas URI dipartisi ke dalam kelas guci-guci dan kelas URL (dan mungkin satu atau dua lain, seperti Uniform Resource Citations). Skema HTTP, untuk misalnya, dilihat sebagai skema URL. Lapisan ini tambahan komplikasi konseptual secara bertahap terlihat bisa berguna kurang, dan gagasan tentang URI menjadi primer. URI bisa melakukan yang mengidentifikasi baik secara langsung atau melalui lokasi, namun ini bukan konseptual dalam perbedaan. Oleh karena HTTP adalah skema URI, meskipun sebuah URI HTTP mengidentifikasi objek dengan mewakili akses primer mekanisme, dan sebagainya (informal) kita bisa bicara tentang URI HTTP yang URL. Nama / alamat Perbedaan adalah sebuah metafora spasial yang bekerja dengan baik dalam lingkungan komputasi standar, tapi dalam jaringan sistem komputasi perbedaan rusak. Demikian pula, objek dapat diganti, dan sering adalah (alasan mengapa mereka tidak boleh dibahas dalam Bagian 5.4.6 di bawah). Jika sistem hirarki penamaan sudah diatur dan dikelola oleh otoritas, maka nama tersebut akan berfungsi hanya selama sebagai otoritas yang mendukung bahwa sistem hirarkis, dan pada batas hanya selama sebagai otoritas itu sendiri tetap ada. Jadi kita harus berhati-hati dari menekan analogi spasial nama / sistem alamat terlalu dekat. Lokasi literal adalah titik di ruang 3-D, dan dalam sistem komputer jaringan kita tidak harus mendapatkan juga tetap pada apa yang kita harus memanggil nama, atau alamat, atau fisik lokasi sel memori yang akan menyimpannya. Seorang anggota komputer Alamat ORY sering alamat dalam ruang memori virtual yang dialokasikan suatu benda, yang diterjemahkan digunakan oleh perangkat keras ke dalam fisik alamat memori. alamat IP yang tidak terikat pada komputer tertentu,
namun secara implisit berisi referensi ke informasi routing, sehingga com- puter sesuai dengan alamat IP yang diberikan tidak dapat dipindahkan jauh di struktur routing. Nama domain bisa digunakan untuk merujuk ke komputer atau apa komputer menyajikan ketika kita ingin berhak untuk memindahkan hal yang berhubungan dengan identifikasi dari satu bagian dari Inter- bersih yang lain. Jadi Domain Name System (DNS), karena kemerdekaan- penyok dari sistem routing, tidak membatasi alamat IP yang dapat diberikan ke komputer dari sebuah nama domain yang diberikan. DNS memang terlihat seperti sistem nama, sedangkan alamat IP lakukan tampaknya berfungsi seperti alamat [26]. Namun, juga sangat diamati bahwa domain nama untuk tertentu sumber daya melakukan perubahan, karena protokol yang digunakan untuk penamaan mereka diubah - alasan adalah bahwa ada informasi tertanam dalam nama. Dalam dunia offline, nama bisa bertahan kegagalan tersebut embed- informasi DED untuk tetap benar (John Stuart Mill memberikan contoh 'Dartmouth' sebagai tempat yang lokasinya mungkin atau tidak mungkin tetap di muara Sungai Dart). Perubahan tersebut ada yang dipermasalahkan. Tapi online, ini lebih sulit untuk memastikan. Pertimbangkan contoh http://pegasus.cs.example.edu/disk1/ siswa / romeo / keren / terbaru / readthis.html [26]. Ada berbagai macam alasan mengapa hal ini URI bisa berubah. 'Pegasus', 'cs', dll 'mahasiswa' mungkin semua perubahan selama bertahun-tahun sebagai komputer yang berbeda terbiasa dengan tuan rumah informasi, atau sebagai lulusan Romeo dan menjadi anggota fakultas. pendapat-Nya tentang apa yang 'keren' atau apa yang 'terbaru' juga akan berevolusi dari waktu ke waktu (satu harapan). 'Http', yang merupakan protokol yang digunakan untuk mempresentasikan sumber daya, dan 'readthis' yang relatif bermakna adalah yang paling mungkin bagian dari URI yang terkait dengan sumber daya tertentu untuk berubah. Alasan informasi tersebut disertakan adalah karena nama harus dereferenced dalam rangka untuk mencari tahu apa pun tentang apa nama adalah penamaan. Biasanya yang melibatkan menggunakan semacam index atau set indeks, yang mungkin resmi dan kanonik, atau informal dan tidak resmi, untuk mencari nama. indeks tersebut sering hirarkis untuk memfasilitasi lookup, sebagai DNS namanya. Ini mungkin untuk menghilangkan semua informasi dari nama domain, dan memastikan identifikasi unik untuk sumber daya (Dan memang ada maka akan ada alasan yang jelas, segala sesuatu yang sama, mengapa identifier tidak boleh permanen juga), pada biaya membuat sulit untuk mencari dan dereference.
hal-hal seperti itu yang penting relatif kecil sebagai manusia selama adalah pengguna utama dan pemeras Web - setelah semua, satu terutama setelah sumber daya dan konten yang mengandung, dan meskipun mungkin frustasi untuk mengikuti URI hanya untuk menemukan sumber daya tidak lagi tinggal sana, yang adalah iritasi daripada gangguan serius dalam sistem- tem. Orang juga relatif fleksibel dalam temu online dan dapat toler- makan ambiguitas. Tetapi beberapa jenis resolusi untuk nama / alamat masalah diperlukan jika kita mengharapkan sistem formal untuk menangani dengan URI. SW ini alat untuk melakukan hal-hal dalam ruang sosial, bukan hanya satu set aturan untuk memanipulasi formula, jadi kita perlu tahu apa yang kita maksud, dan bagaimana mendapatkan pada saat-referen mana yang sesuai. Hal ini diinginkan untuk e- sistem perdagangan, misalnya, untuk merujuk tanpa ambiguitas ke suatu nomor hal: dokumen seperti tagihan dan faktur, barang-barang abstrak seperti harga, dan hal-hal konkret seperti pembeli dan barang-barang yang sebenarnya dibeli dan dijual. merangkum [31] dan memberikan kritik dari num besar ber cara pemahaman masalah ini dalam konteks HTTP. Penamaan, pada akhirnya, adalah satu set pengaturan kontrak sosial. Kami seharusnya tidak membiarkan sifat virtual dunia maya membutakan kita pada fakta bahwa orang-orang meminta dan membayar, dan mendapatkan diberikan, nama domain dan ruang pada server. Pihak berwenang menjaga hal-hal ini, dan juga bertindak sebagai akar untuk dereferencing tujuan. Stabilitas setup ini kelembagaan membantu menentukan stabilitas sistem Web penamaan.
Di atas RDF dan RDFS pada Gambar 3.2 duduk ontologi. Pada tradisional konsepsi [123], ontologi berisi spesifikasi dari konsep yang diperlukan untuk memahami sebuah domain, dan kosa kata yang diperlukan untuk masuk ke dalam wacana tentang hal itu, dan bagaimana konsep-konsep dan kosakata- ulary saling berhubungan, bagaimana kelas dan contoh dan sifat mereka didefinisikan, dijelaskan dan disebut. Sebuah ontologi dapat formal atau informal. Keuntungan dari formalitas adalah bahwa hal itu membuat ontologi mesin-dibaca, dan karena itu memungkinkan mesin untuk melakukan lebih dalam penalaran atas sumber daya web. Kerugiannya adalah bahwa seperti formal konstruksi yang dianggap sulit untuk membuat.
Data dapat dipetakan ke sebuah ontologi, menggunakannya sebagai lingua franca untuk memfasilitasi berbagi. Ontologi karena itu dimaksudkan untuk menaruh semacam urutan ke informasi dalam format heterogen dan representasi, sehingga berkontribusi pada ideal melihat Web sebagai pengetahuan tunggal sumber. Sejauh itu, ontologi adalah mirip dengan skema database, kecuali bahwa itu akan ditulis dengan relatif kaya dan ekspresif bahasa, informasi akan kurang terstruktur, dan menentukan teori domain, tidak hanya struktur sebuah wadah data [96]. Jadi ontologi dipandang sebagai tambahan berarti yang penting untuk berbagi data, dan Tujuan utama memperlakukan Web sebagai satu-satunya sumber informasi, tetapi mereka juga memiliki penentangnya. Banyak komentator khawatir bahwa fokus pada ontologi ketika datang ke mendalilkan formalisms untuk masa depan Web adalah untuk membuat kesalahan klasifikasi atas-privileging ketika datang untuk memahami bahasa manusia dan komunikasi [113]. Ini tentu harus ditunjukkan bahwa banyak ontologi sebenarnya digunakan, untuk Misalnya di industri, adalah taksonomi untuk klasifikasi tujuan khusus dokumen atau halaman Web, cenderung tidak rumit, dan tidak bergantung pada formalisms sangat ekspresif [88]. OWL memiliki akar di bahasa sebelumnya DAML + MINYAK [65] yang termasuk deskripsi logika (DL - [42]) di antara berbagai pengaruh. Melampaui OWL DL, yang menetapkan konsep domain dan terminologi dengan cara terstruktur, dengan menggunakan link yang disediakan oleh RDF untuk memungkinkan ontologi akan didistribusikan ke seluruh sistem, kompatibel dengan standar web- menerima standar, terbuka, extensible dan scalable. Ontologi dapat menjadi didistribusikan sebagai OWL memungkinkan ontologi untuk merujuk pada ketentuan dalam ontologi lainnya. Dalam hal ini OWL cara adalah rekayasa khusus untuk Web dan Semantic Web, dan simbol banyak bahasa berbagi ([cf 134.]). Sulit untuk menentukan formalisme yang akan menangkap semua pengetahuan yang- tepi, dari tipe sewenang-wenang, dalam suatu domain tertentu. Ontologi, tentu saja, melayani tujuan yang berbeda, dan bisa lebih dalam (mengungkapkan ilmiah konsensus dalam disiplin, dan Sejalan padat karya untuk con- struct) atau lebih dangkal (dengan istilah yang relatif sedikit yang mengatur besar jumlah data - [34]). Memang, ada banyak jenis wacana melampaui ontologi tentu saja, dan banyak logika mengekspresikan mereka, untuk contoh sebab akibat, logika temporal dan probabilistik.
Causal logika [mis 258] dikembangkan dari logika tindakan di AI, dan dimaksudkan untuk menangkap aspek penting dari akal sehat mengerti- ing mekanisme dan sistem fisik. Temporal logika formalises yang aturan untuk penalaran dengan proposisi diindeks untuk waktu tertentu, dalam konteks dari Web yang berkembang pesat, prevalensi waktu-stamping online dan risiko dari informasi yang digunakan yaitu dari tanggal menjamin relevansi itu. Tentu saja pendekatan logika temporal telah disarankan untuk manajemen versi ontologi [149]. logika Probabilistik adalah kalkuli yang memanipulasi konjungsi prob- kemampuan peristiwa individu atau negara, yang mungkin paling baik dikenal adalah Bayesian, yang dapat digunakan untuk menurunkan probabilitas untuk acara-acara didasarkan pada teori sebelumnya tentang bagaimana probabilitas didistribusikan (dan sangat terbatas data real). penalaran Bayesian merupakan hal yang biasa dalam pencarian mesin, dan bahkan mencari spam (cf. [117]). Di domain mana rea- soning bawah ketidakpastian sangat penting, seperti bioinformatika, Bayesian ontologi telah diusulkan untuk mendukung perluasan dari Web untuk memasukkan penalaran seperti [19]. Utilitas pendekatan Bayesian dalam sistem komputasi tidak dapat diragukan; lebih kontroversial beberapa juga mengklaim bahwa penalaran manusia sesuai dengan pola Bayesian [118], meskipun tubuh signifikan kerja menunjukkan manusia tidak Bayesian estimator [162]. Meskipun, pada mesin sangat sedikit yang con- sistently menyesuaikan probabilitas mereka dalam terang pengalaman akan memiliki melengkapi peran pendukung pengambilan keputusan manusia. Web sering salah dipahami sebagai statis, sementara itu terus berubah. Dynamic semantik berhubungan dengan kegiatan sur- pembulatan isi dari Web: membuat konten, tindakan pengguna-dipandu, waktu, pengguna pribadi profil dan seterusnya [104]. Fry et al, yang dukungan- kuli proyek SW, berpendapat bahwa asumsi yang mendasari visi SW adalah bahwa semantik adalah deklaratif - kita berurusan dengan data pasif yang dapat diambil dari server - dan bahwa perubahan lambat - peristiwa penerbitan lebih jarang daripada browsing atau mengklik pada link. Di sisi lain, konteks pengambilan, seperti pengguna profil dan apa tugas-tugas ia terlibat dalam pada waktu pengambilan, juga suatu masalah, seperti konteks browsing (pola yang berbeda navigasi mungkin berarti set berbeda hubungan dan konteks informasi perlu untuk dipahami), agen dinamis komputasi metadata, atau proses yang biasa mengedit web menciptakan edisi yang berbeda dari sebuah halaman.
Oleh karena itu ada tentu aparat logis dan konseptual yang akan memungkinkan beragam alasan untuk diekspresikan, meskipun lebih dalam argumen yang dibuat oleh banyak kritikus, seperti [113], bahwa banyak sekali-lim itations hasil dari sifat terletak, diwujudkan dan tertanam penalaran banyak dan konseptualisasi, tidak akan ditangani oleh pro- liferation dari formalisms abstrak. Tapi sama kita harus berusaha menghindari asumsi bahwa SW dimaksudkan sebagai sistem menyeluruh tunggal, dengan cara tunggal berinteraksi dan satu set tertentu representasi persyaratan yang memaksa semua pengetahuan menjadi satu bentuk (cf. [158]). Sebagaimana telah kita lihat, SW dimaksudkan terutama untuk mengeksploitasi satu jenis data, data relasional. Jika data tersebut memiliki nilai dalam konteks, maka SW teknologi juga harus memiliki nilai, dan memang harus menambahkan nilai sebagaimana mestinya (a) memungkinkan inferensi lebih lanjut harus dilakukan pada data, dan (b) memungkinkan, melalui ontologi, data yang akan dihubungkan dengan potensial luas menyimpan data di tempat lain. Klaim SW, maka, bukankah itu semua data atau pengetahuan harus ditampilkan dalam beberapa set yang sempit formalisms, melainkan bahwa kekuatan menghubungkan data yang memungkinkan banyak yang harus dilakukan dengan itu. Untuk banyak tujuan, dan dalam beberapa konteks untuk paling biasa tujuan, skema representasi ambisius yang mungkin muncul kurangnya kaya berbagai kemungkinan ekspresif mungkin sepenuhnya memadai. SW tidak dimaksudkan untuk menjadi sebuah sistem yang akan memenuhi segala keperluan, tetapi itu adalah perluasan dari Web yang dimaksudkan untuk memanfaatkan potensi yang menghubungkan kuantitas data belum pernah terjadi sebelumnya. Ontologi akan memungkinkan pemahaman umum mengumpulkan data dari heterogen sumber, selama bagian yang relevan mereka sesuai untuk tugas di tangan. ambisi ini pada kisaran data yang pendekatan semacam dapat memanfaatkan, dan nilai SW teknologi berharap dapat menambah, bukan dalam perpanjangan dari berbagai inferensi yang bisa dicapai secara otomatis (Meskipun memperluas jangkauan juga harus mungkin).
Folksonomi dan struktur sosial muncul Penggunaan ontologi menambah struktur data. Namun, struktur dapat muncul secara organik dari manajemen individu mereka sendiri persyaratan informasi, selama ada orang cukup. Ada semakin banyak aplikasi didorong oleh desentralisasi komunitas dari-bawah ke atas, yang pergi di bawah-sakit didefinisikan tetapi
populer nama perangkat lunak sosial. Sebagai contoh, wiki adalah sebuah situs web yang memungkinkan pengguna dan pembaca untuk menambah dan mengedit konten, yang memungkinkan komunikasi, argumen dan komentar, Wikipedia (http://en. wikipedia.org / wiki / Halaman Utama untuk versi bahasa Inggris), sebuah ensiklopedi online yang ditulis oleh komunitas pengguna, telah menjadi sangat handal meskipun kekhawatiran yang sedang berlangsung tentang kepercayaan entri yang dan ketakutan dari vandalisme. Ontologi dapat dilengkapi dengan rakyat- sonomies, yang timbul ketika sejumlah besar orang yang tertarik dalam beberapa informasi, dan didorong untuk menggambarkan itu - atau tag itu (mereka mungkin tag egois, untuk mengatur pengambilan sendiri isi, atau altruisti- Cally untuk membantu navigasi orang lain '). Daripada bentuk terpusat diklasifikasikan sification, pengguna dapat menetapkan kata kunci ke dokumen atau informasi tion sumber. Dan ketika tag tersebut dikumpulkan, hasilnya sangat menarik. Contoh aplikasi yang telah berhasil memanfaatkan dan mengeksploitasi penandaan adalah Flickr (http://www.flickr.com/ - fotografer a- phy publikasi dan situs berbagi) dan del.icio.us (http://del.icio.us/ - sebuah situs untuk penanda berbagi). Penjaga resmi weblog (blog) tag mereka output. British Broadcasting Corporation (BBC) telah melihat kesempatan di sini dengan program radio didorong oleh 'pengguna penandaan (Via ponsel) dari lagu-lagu pop [61]. Karena jumlah tag pada peningkatan aplikasi, meningkatkan struktur- mendatang terdeteksi - tag cenderung digunakan kembali, dan diterapkan kembali untuk baru item dengan pengguna baru, dan semua hubungan biasa subsumption, dll, mulai muncul. Struktur kasar yang dihasilkan folksonomi (= Taksonomi rakyat). Mereka tentu tidak logis dan istimewa, dan berisi banyak contoh membingungkan sinonim (kata beberapa makna hal yang sama - fiksi ilmiah, sci-fi dan SF) dan polisemi (beberapa makna yang dicakup oleh kata yang sama - tidak SF = fiksi ilmiah atau San Francisco), yang akan menghambat pencarian yang lebih efisien -? Dan tentu saja tergantung pada bahasa. Tidak hanya itu, tapi membayangkan bahwa sebagai tag struktur semakin sering digunakan untuk mengatur Web tertentu aplikasi, para spammer akan mulai penandaan otomatis untuk meningkatkan kemungkinan data yang diambil. Di sisi lain, tag dihasilkan oleh interaksi dunia nyata dengan isi tag, dan jadi jangan mengungkapkan pola asli keterlibatan antara konten penyedia dan pengguna. Evolusi tag, lebih dari set yang sangat besar
penandaan data, dapat dilacak untuk menunjukkan pola-pola ini berkembang melalui waktu [84]. struktur tersebut memungkinkan semantik untuk muncul dari implisit setuju- KASIH, yang bertentangan dengan pembangunan ontologi yang menunjukkan eksplisit perjanjian; bidang dinamika semiotik ini didasarkan pada gagasan bahwa komunikasi yang disepakati atau sistem informasi organisasi sering berkembang melalui proses desentralisasi yang sama penemuan dan nego- tiation [268]. Telah dikatakan bahwa kesepakatan implisit, dalam bentuk terjemahan on-demand di skema informasi dapat memadai untuk mendukung semantik interoperable untuk, dan pencarian disalurkan melalui, Sistem P2P - meskipun apakah terjemahan implisit tersebut akan mudah untuk menghasilkan seluruh sumber informasi yang dirancang untuk tugas-tugas yang berbeda sangat banyak pertanyaan terbuka [2].
Ontologi folksonomi v? Dikatakan - meskipun saat ini argumen yang hanya penyaringan perlahan ke dalam literatur akademik - yang folksonomi lebih disukai untuk penggunaan dikendalikan, ontologi terpusat [mis 259]. Annotating Web halaman menggunakan kosakata terkontrol akan meningkatkan kemungkinan seseorang balik halaman di pencarian Web yang 'benar', namun di sisi lain basis pengguna besar heterogen dari Web tidak mungkin mengandung banyak orang (atau organisasi) bersedia untuk mengadopsi atau mempertahankan kompleks ontologi. Menggunakan sebuah ontologi melibatkan membeli ke cara tertentu ukiran Facebook dunia, dan menciptakan suatu ontologi memerlukan investasi ke metodologi dan bahasa, sedangkan penandaan informal dan cepat. tag seseorang mungkin tidak membantu atau tidak akurat, dan tidak diragukan lagi ada suatu seni untuk penandaan berhasil, tapi satu mendapatkan hasil (dan tanggapan) sebagai salah satu belajar; ontologi, di sisi lain, memerlukan sesuatu dari suatu investasi waktu dan sumber daya, dengan masukan yang datang lebih lambat. Dan, yang terpenting, alat untuk menurunkan hambatan untuk masuk ke kosakata terkontrol yang muncul jauh lebih lambat daripada yang digunakan untuk dukungan sosial Software [61]. Tagging tentu perkembangan menarik dan menarik-phe nomenon, tetapi kita harus waspada terhadap asumsi bahwa tag dan ontologi bersaing untuk ruang yang sama. Tagging memberikan sumber potensial
metadata, dengan semua kekurangan informalitas dan semua Advan the- tages hambatan rendah untuk masuk dan basis pengguna yang tinggi. Tapi tag hanya bagian dari cerita tentang sumber daya Web [128]. Ontologi dan folksonomi telah karikatur sebagai berlawanan. Dalam kenyataannya, mereka adalah dua hal yang terpisah, meskipun beberapa fungsi- ality ontologies uncontroversially dapat diambil alih oleh folksonomi dalam berbagai konteks. Ada dua terpisah (kelompok) poin untuk membuat. Yang pertama harus dilakukan dengan seharusnya trade-off antara ontolo- gies dan folksonomi, yang kedua berkaitan dengan persepsi tentang ontologi. Ontologi dan folksonomi ada di sana untuk melakukan hal yang berbeda, dan menangani kasus-kasus yang berbeda. Folksonomi adalah varian pada kata kunci- cari tema, dan merupakan upaya yang muncul menarik di informasi pengambilan - bagaimana saya bisa mengambil dokumen (foto, katakanlah) yang relevan dengan konsep di mana saya tertarik? Ontologi merupakan upaya untuk mengatur bagian dari dunia data, dan untuk memungkinkan pemetaan dan interaksi- tions antara data dalam format yang berbeda atau lokasi, atau yang telah telah dikumpulkan oleh organisasi yang berbeda dengan asumsi yang berbeda. Apa yang telah ditampilkan sebagai sebuah kompetisi-off perdagangan, atau, atau bahkan zero-sum game mungkin lebih baik diwakili sebagai dua pendekatan yang terpisah untuk dua jenis masalah. Ini mungkin bahwa masalah set mereka pendekatan tumpang tindih, dalam hal ini ada pada mungkin kesempatan menjadi pilihan yang harus dibuat antara mereka, tetapi bahkan sehingga kedua ontologi dan folksonomi memiliki kegunaan yang pasti dan sama-sama berpotensi berbuah jalan penelitian [257]. Telah berpendapat bahwa ontologi berguna bisa menggabungkan-mate Material dari jaringan sosial dan perangkat lunak, sebagai informasi yang dimodelkan memiliki dimensi sosial [201]. Hal ini mungkin menawarkan satu set baru kesempatan - untuk contoh adalah perangkat lunak blog yang secara otomatis CRE- Ates metadata bisa menjadi cara untuk memanfaatkan bottom up sosial lunak Pendekatan ware [163]. Selain itu, seharusnya dasar dari pembedaan antara kedua - yang folksonomi berkembang secara organik dan tanpa rasa sakit sedangkan ontologi pemeliharaan tinggi dan overhead tinggi - adalah anyway meragukan. Dimana ada yang dianggap perlu untuk ontologi, ringan tapi yang kuat jangan muncul dan secara luas digunakan, seperti misalnya dengan Friend-of-a-Friend (FOAF - [45]), dan aplikasi yang terkait seperti Flink [200]. Hal ini sesuai pada umumnya dengan panggilan untuk ganda dan 34 Rekayasa Web pelengkap pengembangan teknologi SW dan teknologi yang mengeksploitasi organisasi-diri dari Web [misalnya 101]. Persepsi ontologies tergantung pada pemahaman ini dis- tinction. Perhatikan, misalnya, biaya ontologi. Dalam pertama tempat, akan ada daerah di mana biaya, akan mereka pernah begitu besar, akan mudah untuk menutup. Di daerah baik terstruktur seperti aplikasi ilmiah, upaya untuk menciptakan spesifikasi kanonik kosakata akan sering senilai keuntungan, dan mungkin penting, memang, Semantic Web tech- tehnik yang mendapatkan tanah dalam konteks ilmiah dengan data yang kaya di mana terdapat kebutuhan untuk pengolahan data dan kemauan untuk mencapai konsensus tentang istilah. Dalam aplikasi komersial tertentu, potensial the- TiAl keuntungan dari penggunaan spesifikasi baik terstruktur dan terkoordinasi kosakata akan lebih besar daripada biaya tenggelam untuk mengembangkan atau menerapkan ontologi, dan biaya marjinal pemeliharaan. Misalnya, facil- itating pencocokan istilah dalam persediaan pengecer dengan orang-orang dari agen pembelian akan menguntungkan kedua belah pihak. Dan biaya ontologies berkembang mungkin berkurang pengguna dasar dari ontologi meningkat. Jika kita menganggap bahwa biaya pembangunan ontologi tersebar di komunitas pengguna, jumlah ontologi insinyur yang dibutuhkan meningkat seiring dengan log ukuran komunitas pengguna, dan jumlah waktu meningkat bangunan sebagai kuadrat dari jumlah insinyur - asumsi yang sederhana saja tapi yang wajar untuk dasar model - upaya yang terlibat per pengguna dalam ontologi bangunan besar masyarakat menjadi sangat kecil sangat cepat [29]. Selain itu, karena penggunaan menyebar ontologies, teknik untuk digunakan kembali mereka, segmentasi dan penggabungan juga akan menjadi lebih akrab [212, 256, 10], dan memang ada akan menjadi dasar meningkat dan semakin terkenal ontologies ada untuk digunakan kembali. Kedua, ada persepsi ontologies sebagai top-down dan beberapa- apa yang otoriter konstruksi, tidak terkait, atau hanya tenuously istimewa, untuk orang-orang yang sebenarnya praktek, dengan berbagai tugas potensial di domain, atau dengan operasi konteks (lih. misalnya [158]). Dalam beberapa hal, ini persepsi mungkin berhubungan dengan gagasan pengembangan tunggal Ontologi konsisten Segalanya, seperti misalnya dengan CYC [183]. Seperti ontologi luas dan mencakup semua mungkin memiliki jumlah aplikasi menarik, tapi jelas tidak akan skala dan perusahaan
penggunaan yang tidak bisa ditegakkan. Jika SW dilihat sebagai memerlukan luas membeli- ke suatu titik tertentu pandang, maka dapat dimengerti bahwa yang muncul struktur seperti folksonomi mulai tampak lebih menarik (cf. [259]). Namun ini bukan merupakan persyaratan SW. Bahkan, sikap SW untuk ontologi tidak lebih dari rasionalisasi data aktual-berbagi praktek. Aplikasi dapat dan memang berinteraksi tanpa mencapai atau mencoba untuk mencapai konsistensi global dan cakupan. Sebuah sistem yang menyajikan barang-barang ritel untuk pelanggan akan panen informasi dari pemasok 'database (sendiri cenderung menggunakan format heterogen) dan peta itu ke format data yang diinginkan pengecer untuk kembali presentasi. Otomatis pajak perangkat lunak kembali mengambil data bank, di bank pilihan format, dan peta mereka ke formulir pajak. Tidak ada persyaratan untuk global ontologi di sini. Bahkan tidak ada persyaratan untuk persetujuan atau Terjemahan global antara ontologi spesifik digunakan kecuali dalam subset dari istilah yang relevan untuk transaksi tertentu. Perjanjian hanya perlu lokal. Tujuan dari SW harus dilihat dalam konteks rutin sifat jenis perjanjian. SW ini dimaksudkan untuk menciptakan dan mengelola standar untuk membuka dan membuat rutin ini sebagian setuju- pemerintah dalam format data, standard tersebut harus memungkinkan untuk eksploitasi data relasional pada skala global, dengan bersamaan leverage bahwa skala yang membeli.
Metadata Isu-isu yang berkaitan dengan semantik atau penafsiran Web melampaui Semantic Web. Sebagai contoh, metadata dapat digunakan untuk menggambarkan atau membubuhi keterangan sumber daya dalam rangka untuk membuatnya (lebih) dimengerti untuk pengguna. Pengguna ini mungkin menjadi manusia, dalam hal metadata dapat menjadi tidak terstruktur, atau mesin, dalam hal metadata harus mesin-dibaca. Biasanya, metadata adalah deskriptif, termasuk misalnya elemen dasar sebagai nama penulis, judul atau abstrak dokumen, dan administrasi informasi seperti jenis file, hak akses, menyatakan HKI, tanggal, nomor versi dan sebagainya. item multimedia dapat dijelaskan dengan deskripsi tekstual konten, atau kata-kata kunci untuk membantu berbasis teks pencarian.
Secara umum, metadata yang penting untuk pencarian yang efektif (mereka membiarkan sumber daya yang ditemukan oleh berbagai kriteria, dan membantu- berguna dalam menambah struktur dicari sumber daya non-teks), organis- berbagai sumber daya (misalnya, memungkinkan portal untuk berkumpul komposit laman web secara otomatis dari sumber daya yang sesuai-beranotasi beberapa), pengarsipan bimbingan (cf. [58]), dan informasi mengidentifikasi (seperti nomor referensi yang unik, yang membantu memecahkan masalah satu ketika sumber daya Web adalah 'sama' seperti yang lain). Mungkin penggunaan paling penting untuk metadata adalah untuk mempromosikan interoperabilitas, memungkinkan kombinasi sumber daya heterogen di seluruh platform tanpa kehilangan konten. skema Metadata memfasilitasi pembuatan metadata dalam standar format, untuk memaksimalkan interoperabilitas, dan ada sejumlah seperti skema, termasuk Dublin Core (http://dublincore.org/) dan Teks Encoding Initiative (TEI - http://www.tei-c.org/). RDF pro- vides mekanisme untuk mengintegrasikan skema metadata tersebut. Ada sejumlah pertanyaan menarik yang berkaitan dengan metadata. Di tempat pertama, apa metadata perlu diterapkan untuk konten? Sec- ondly, bagaimana metadescription mempengaruhi inferensi? Apakah itu membuat lebih sulit? Apa yang dapat dilakukan tentang annotating isi warisan? Banyak yang telah tertulis tentang semua pertanyaan ini, tetapi itu sangat berharga sebuah penyimpangan kecil untuk melihat beberapa pendekatan yang pertama. Sehubungan dengan metadata yang diperlukan, tentu saja banyak tergantung pada tujuan untuk sumber daya yang dijelaskan. Untuk berbagai tujuan - misalnya, foto digital berbagi - metadata dapat melihat setelah mereka- diri, sebagai keberhasilan situs seperti pertunjukan Flickr. Lebih umum, menarik kemungkinan untuk metadata termasuk waktu-stamping, asalnya, ketidakpastian- tainty dan perizinan pembatasan. Time-stamping adalah kepentingan karena unsur temporal con- teks adalah penting untuk memahami teks (untuk mengambil sebuah contoh nyata, ketika membaca sebuah makalah tentang geopolitik global pada tahun 2006 adalah penting untuk mengetahui apakah itu ditulis sebelum atau setelah peristiwa 11 September, 2001). Selanjutnya- lebih, beberapa informasi memiliki 'menjual-menurut tanggal': setelah titik tertentu mungkin menjadi tidak dapat diandalkan. Seringkali hal ini tidak mudah ditebak persis, tapi luas indikasi dapat diberikan; alami banyak tergantung pada apakah informasi tersebut- mation sedang digunakan dalam beberapa sistem misi kritis dan bagaimana toleran kegagalan sistem. Umum temporal informasi tentang sumber daya
dapat diberikan dalam tag XML dengan cara biasa. Namun, di dalam tubuh sumber daya, yang kita tidak bisa berasumsi menjadi terstruktur, mungkin ada kebutuhan informasi temporal juga, bagi pengguna untuk menemukan secara manual. Dalam kasus, sulit untuk mengidentifikasi informasi temporal yang diperlukan dalam tubuh teks tidak terstruktur, dan untuk menentukan apakah suatu cap waktu mengacu pada perusahaan memiliki bagian atau beberapa bagian lain dari sumber daya. Mungkin beberapa ide dapat diimpor dari organisasi temporal lebih sumber daya terstruktur seperti database, selama over-resep dihindari [173]. Dalam kasus apapun, adalah penting untuk mengetahui waktu penciptaan dan asumsi tentang umur panjang kualitas informasi yang mendasari; jika isi dari sumber daya 'dapat berubah atau penarikan dengan- keluar pemberitahuan, maka integritasnya dapat dikompromikan dan nilainya sebagai catatan budaya sangat berkurang '[107]. PROVENANSI informasi sangat penting untuk menentukan nilai dan integritas sumber daya. Banyak pengarsipan standar digital yang disetel dengan jelas informasi apa yang diperlukan asalnya. Misalnya, Terbuka Sistem Informasi Kearsipan model (OAIS) dari Consulta- Komite tive di Ruang Data Systems tuntutan metadata tentang sumber atau asal sumber daya, log dari perubahan yang telah diambil tempat, dan di bawah naungan yang, dan catatan dari rantai [57]. Eksemplar CURL ini dalam proyek Arsip Digital (Cedars) pergi lebih lanjut, menuntut sebuah sejarah tentang asal (termasuk alasan mengapa sumber daya diciptakan, daftar lengkap kustodian bertanggung jawab sejak penciptaan dan alasan itu sedang diusulkan untuk pengarsipan), teknis informasi tentang lingkungan penciptaan dokumen (termasuk ing perangkat lunak dan sistem operasi), sejarah pengelolaan (termasuk sejarah proses pengarsipan dan kebijakan dan tindakan diterapkan untuk itu sejak diarsipkan), dan catatan yang berhubungan dengan HKI dokumen [58]. Konteks teknologi seperti e-ilmu pengetahuan dan grid komputasi telah mendorong penelitian teknologi-independen representasi dari asalnya, informasi asalnya yang perlu harus dikodekan, peran kunci untuk arsitektur asal-pencatatan dan proses-item terkait seperti distribusi arsitektur dan secu- rity persyaratan (cf. [122] - ironisnya dokumen saat ini berkembang pada saat penulisan yang mencakup account terstruktur sendiri asalnya).
Faktor kunci dalam menilai kepercayaan dokumen adalah keandalan atau klaim disajikan di dalamnya; meta- data tentang asal tidak diragukan lagi akan membantu dalam penilaian seperti ini, tetapi perlu belum tentu mengatasinya. Mewakili kepercayaan dalam keandalan memiliki selalu sulit di logika epistemic. Dalam konteks pengetahuan pendekatan representasi meliputi: logika subjektif, yang merupakan pendapat sebagai (, percaya ketidakpastian keyakinan,) real-nilai triple mana tiga item menambahkan hingga 1 [, 159 160]; grading berdasarkan kualitatif-hakim KASIH, walaupun nilai kualitatif tersebut dapat diberikan numerik antar pretations dan kemudian beralasan tentang matematis [110, 115]; fuzzy logika (cf. [248]); dan probabilitas [148]. Sekali lagi kita melihat trade-off yang yang formalisms yang paling ekspresif mungkin yang paling sulit untuk digunakan. Akhirnya, metadata yang berhubungan dengan pembatasan lisensi telah berkembang dengan gerakan untuk, 'creative commons' perlindungan fleksibel berdasarkan hak cipta yang lebih tepat untuk Web dan weblike con- teks. Daripada hanya menggunakan instrumen tumpul hukum hak cipta, CRE- ative commons lisensi memungkinkan penulis untuk menyempurnakan pelaksanaan mereka hak oleh waiving beberapa dari mereka untuk memfasilitasi penggunaan pekerjaan mereka dalam konteks berbagai specifiable [187]. Kami membahas hak cipta lebih terinci dalam Bagian 6.2 di bawah ini. Pertanyaan-pertanyaan tentang kesulitan penalaran dengan metadata, dan tugas raksasa annotating data warisan, tetap sangat terbuka. Ini telah berpendapat bahwa annotating Web akan memerlukan otomatis skala besar- metode matic, dan metode tersebut pada gilirannya akan memerlukan tertentu yang kuat pengetahuan komitmen pemodelan [170], apakah ini akan melanggar semangat desentralisasi dari Web ini belum jelas. Banyak akan tergantung pada pendekatan kreatif seperti annotating on the fly seperti penjelasan yang diperlukan, atau sumber daya warisan annotating seperti database bawah berbaring Web mendalam [283].
Referensi dan identitas Semantic Web mengandalkan konvensi penamaan dengan URI, dan Tentu saja setiap bagian dari sistem pelabelan Web yang bergantung pada beberapa con- pernah ditemukan atau lainnya. Masalah dengan label di Web adalah bahwa setiap
sistem desentralisasi dan dasarnya tidak diawasi, sesuai dengan Web yang mengatur prinsip-prinsip, tetapi ini tidak sentralisasi memungkinkan skema yang berbeda dan konvensi, dan memang kecerobohan, untuk berkembang, yang pada gilirannya membuka kemungkinan kegagalan referensi unik.
Referensi: Kapan dua benda yang sama? Desentralisasi adalah masalah dari sudut pandang logis, meskipun besar keuntungan dari yang pencipta konten. Obyek yang sama mungkin disebut online, sempurna benar, sebagai 'Jane Doe', 'Janey Doe', 'Jane A. Doe ',' Doe, J.A. 'dan sebagainya. Selanjutnya, setiap atau semua istilah ini dapat digunakan untuk merujuk ke objek yang berbeda. Dan, tentu saja, orig the- inal Jane Doe mungkin misnamed atau salah eja: 'Jnae Doe', dll kegagalan referensi unik relatif sepele bagi pengguna manusia untuk dis- melibatkan, tetapi tentu saja sangat sulit bagi mesin untuk bekerja keluar. Dan jika kita berharap untuk mengekstrak informasi yang berguna dari reposi sangat besar Tories informasi, di mana solusi kerajinan tangan dan memeriksa merujuk- ence oleh mata tidak layak, pengolahan mesin tidak bisa dihindari. Referensi masalah yang sangat mungkin terjadi ketika sumber-sumber informasi digabung, masalah di mana-mana tapi yang serius dalam konteks dari Web Semantic. Dan desentralisasi Web menghalangi membuat asumsi nama yang unik, dalam cara [240]. Di sisi lain, URI menyediakan Web dengan sumber daya untuk menghindari setidaknya beberapa masalah grounding tradisional, ketika dapat diatasi bahwa dua istilah ini menunjuk ke URI yang sama. Jadi jika "bintang pagi" dan "bintang malam" menunjuk langsung kepada http://ex.org/planets.owl # venus maka setiap landasan lebih lanjut super- fluous. Di sisi lain, dua URI yang berbeda mungkin mengacu sama objek non-jelas, dan mungkin melakukannya hanya dengan melalui beberapa operasi di mana ia digunakan. Kadang-kadang ini akan terdeteksi melalui algoritma- rithmic analisis sintaksis (misalnya, nama domain tidak case sensitif, jadi ini dapat digunakan untuk mendeteksi kesamaan), tetapi tidak secara umum. Masalahnya tidak pergi dengan penggunaan URI, tetapi mereka berada di setidaknya satu set pengidentifikasi memberikan dasar potensial bagi stabilitas di beberapa situasi - situasi khususnya ilmiah di mana perjanjian di atas simbol- bols dan definisi sering diformalkan. 40 Rekayasa Web Sebuah metode heuristik untuk menyelesaikan bentrokan tersebut, di dunia nyata, adalah untuk membuat penilaian cerdas berdasarkan informasi jaminan, dan ini telah menirukan online dengan perhitungan komunitas praktek nama, berdasarkan jaringan hubungan sekitarnya masing-masing instansi yang disengketakan. Misalnya, jika 'Jane Doe' dan 'Doe, JA 'memiliki keduanya punya asosiasi yang kuat dengan' Universitas Loamshire ', satu karena dia bekerja di sana, yang lain karena dia telah bekerja pada proyek yang UoL adalah partner, maka itu adalah bukti prima facie bahwa dua istilah mengacu pada objek yang sama - meskipun tentu saja seperti penghakiman akan selalu sangat yg dpt dibatalkan [11]. Secara umum, manajemen referensi, dan resolusi referensi masalah, akan selalu sulit mengingat bahwa Web mencakup sejumlah besar mengumpulkan informasi untuk sejumlah alasan yang berbeda dan untuk memecahkan berbagai tugas, makna dan interpretasi sering shift, dan ada mungkin pada kesempatan menjadi kesepakatan sedikit tentang referen istilah. Sebuah isu penting untuk Web Sains justru bagaimana memahami merujuk- pengalaman dan representasi, dan menentukan sistem yang manajemen dan formalisms akan memungkinkan pemahaman yang lebih besar dan pelacakan dari apa yang Web ini dimaksudkan untuk mengatakan tentang yang objek.
Kapan dua halaman yang sama? Alternatif mengambil masalah referensi adalah bahwa penentuan ketika dua halaman web adalah halaman yang sama. Hal ini tentu saja akan menjadi sepele dalam banyak kasus, tetapi sering kali "utama" teks yang disalin dari satu halaman ke lain, tetapi dikelilingi oleh iklan yang berbeda, logo, header dan footer. Banyak metrik yang tersedia yang dimaksudkan untuk menentukan kuantitatif tingkat hubungan antara dua halaman. Kesamaan penilaian bisa sembarangan dan pragmatis, tergantung pada konteks (misalnya memutuskan plagiat atau kasus pelanggaran hak cipta), tetapi teknik dari teori informasi yang ada untuk menghasilkan set nomor tujuan untuk memberi makan ke dalam proses penilaian - misalnya, Levenshtein edit jarak, dan varian algoritma, diberikan dengan jumlah minimum operasi dari beberapa basis yang diperlukan untuk bisa mengubah satu string menjadi lain (bdk. [38]).
Dasar untuk membuat penilaian kemiripan tidak perlu hanya menjadi konten pada halaman, tetapi juga bisa menjadi struktur hyperlink dalam halaman yang tertanam. Informasi yang mengharuskan pengguna tidak perlu berasal dari satu halaman, tapi malah bisa dipetik dari cluster dokumen seputar topik dasar, dan hubungan yang struktur ada bisa sangat penting. Dan lebih jauh kemungkinan cara kesamaan pemahaman antara pola penggunaan tertentu halaman - dua halaman yang sering diakses pada titik-titik serupa di Web sesi surfing [76]? Konten berbasis kesamaan dapat didekati dengan mencocokkan kata-kata atau subsequences dari dua halaman. Teknik yang relatif sederhana digunakan untuk menentukan kemiripan antara dua halaman (rasio antara ukuran persimpangan dari subsequences dan ukuran serikat mereka), dan penahanan satu dengan yang lain (rasio antara persimpangan dan ukuran dari himpunan yang terkandung) [48]. Link- berdasarkan metrik berasal dari bibliometrics dan analisis kutipan, dan fokus pada keluar link dan link dalam dua halaman memiliki kesamaan, relatif ke ruang umum link di cluster topik. Penggunaan berbasis metrik memanfaatkan informasi yang dikumpulkan dari server log dan sumber-sumber lain tentang ketika halaman yang dikunjungi, pada asumsi bahwa kunjungan dari yang sama pengguna dalam sesi yang sama di situs yang sama kemungkinan akan konseptual terkait, dan semakin besar kesamaan antara waktu akses pengguna untuk halaman web, semakin besar kemungkinan halaman tersebut yang entah bagaimana terkait secara konseptual [227].
Rekayasa web: arah Baru pembangunan Web adalah campuran dari standar-setting, tidak terstruktur, desentralisasi kegiatan dan inovasi, dan rekayasa yang disengaja. Pada bagian ini kita akan fokus pada yang terakhir, dan review menonjol teknik isu dan keharusan terbuka. Pertumbuhan Web jelas merupakan sesuatu yg diinginkan kunci. Penyimpanan jumlah yang selalu lebih besar dari informasi- mation, dalam konteks perhitungan pernah-cepat, akan sangat vital untuk masa mendatang. Tanpa lebih cerdas pengambilan penyimpanan dan cepat untuk media memori-lapar seperti video, maka akhirnya Web akan tumbuh terlalu besar untuk teknologi sendiri. Sebagai contoh, PageRank membutuhkan merangkak dan caching dari bagian signifikan dari Web; keberhasilan tergantung Google 42 Rekayasa Web pada kemampuan untuk menjaga cache penurut sementara juga ukuran yang signifikan. Greater permintaan untuk layanan personalisasi dan pencari juga akan menempatkan tekanan- yakin pada sistem. Memperluas cakupan pencarian untuk mencakup item seperti multimedia, jasa atau komponen ontologi, juga akan memerlukan mengejar program penelitian akademik, interface efektif dan model bisnis yang masuk akal sebelum layanan komersial mulai beroperasi. Yang ada dan mengembangkan pendekatan untuk memanfaatkan Web harus diperluas ke lingkungan Web yang baru sebagaimana yang diciptakan (seperti P2P jaringan, misalnya).
Layanan web Layanan area utama di mana kami rekayasa model kebutuhan Web untuk terlibat dan diperpanjang. Web services didistribusikan potongan kode ditulis untuk memecahkan tugas-tugas tertentu, yang dapat berkomunikasi dengan pelayanan lain- kejahatan melalui pesan. tugas yang berskala lebih luas dapat dianalisis dan secara rekursif dipecah menjadi sub-tugas yang dengan keberuntungan peta akan ke spe the- tugas yang spesifik yang dapat ditangani oleh layanan. Jika itu terjadi, dan jika layanan ditempatkan dalam konteks Web, yang berarti bahwa pengguna dapat memanggil layanan yang bersama-sama dan kooperatif memenuhi kebutuhan mereka. Software abstrak jauh dari hardware dan memungkinkan kita untuk menentukan komputasi mesin dalam hal fungsi logis, yang memfasilitasi spesifikasi masalah dan solusi dengan cara yang relatif intuitif. The evolusi dari Web untuk memasukkan penyediaan dan difusi layanan membuka prospek abstraksi baru: pertanyaan sekarang adalah bagaimana kita bisa melakukan abstraksi yang sama jauh dari perangkat lunak. Apa metode menggambarkan layanan akan memungkinkan kita untuk berhenti khawatir tentang bagaimana mereka akan dilakukan? Sejumlah metode proses menentukan telah berkembang selama beberapa tahun terakhir dan diterapkan pada domain layanan Web. Misalnya, WS-Net adalah bahasa deskripsi arsitektural berdasarkan teori Petri jaring berwarna (yaitu perluasan dari teori Petri sederhana bersih dengan terhormat, token diidentifikasi - lihat Bagian 4.2.5 untuk diskusi singkat Petri jaring), yang menggambarkan komponen layanan Web dalam hal jasa yang memberikan untuk komponen lain, layanan yang diperlukan untuk fungsi, dan operasi internal. Hasil akhirnya adalah model yang mencakup baik global dan aspek-aspek lokal dari sistem pelayanan, 3.3. Rekayasa web: arah Baru 43 memfasilitasi integrasi layanan Web untuk mencapai tujuan-tujuan baru, sementara juga pro- masi sebuah formalisme untuk evaluasi integrasi [296]. Proses aljabar (lihat Bagian 4.2.5) juga telah diterapkan untuk layanan. Sekali lagi, seperti dengan pendekatan Petri net, penggunaan formal aljabar memungkinkan baik desain dan evaluasi untuk mengambil tempat (atau memang salah satu atau yang lain, tergantung pada apa metode alternatif yang tersedia untuk menghasilkan atau survei kode). Sebagai contoh, [98] menggambarkan pemetaan antara aljabar proses ekspresif dan BPEL4WS (standar- notasi yang tidak sah berbasis XML untuk mendeskripsikan proses bisnis executable), yang memungkinkan baik pembentukan jasa di BPEL4WS diikuti oleh mereka evaluasi dan verifikasi menggunakan aljabar proses, atau gen yang- timbangkan kode BPEL4WS otomatis dari penggunaan aljabar untuk menentukan layanan yang diinginkan. Secara umum, spesifikasi aljabar pelayanan pada tingkat abstrak dan penalaran tentang mereka telah menjadi utama bidang penelitian pada layanan [mis 75, 105, 208]. BPEL4WS adalah versi panjang dari Eksekusi Proses Bisnis Bahasa BPEL, yang menjadi cara yang semakin penting untuk Sun Web layanan dengan proses bisnis. BPEL ada batasnya, tapi memungkinkan penciptaan layanan komposit dari layanan yang telah ada. The Tahap selanjutnya adalah menyesuaikan pendekatan ini untuk lingkungan P2P, dan kendaraan saat ini dalam pengembangan untuk itu adalah CDL, alias WS-CDL, alias Koreografi (Web Services Choreography Description Language - [164]), sebuah bahasa berbasis XML untuk mendefinisikan umum dan pelengkap- mentary diamati perilaku dalam kolaborasi P2P. Tujuannya adalah agar interoperable P2P kolaborasi dapat disusun dengan menggunakan Koreografi tanpa memperhatikan spesifik seperti platform dasar yang digunakan; bukan fokus pada tujuan umum dari kolaborator. Sedangkan BPEL memungkinkan ada pelayanan yang akan digabungkan bersama-sama, Koreografi pergeseran fokus ke deskripsi global kolaborasi, informasi tion pertukaran, pemesanan tindakan dan sebagainya, untuk mencapai tujuan yang disepakati.
Distributed pendekatan: komputasi Pervasif, P2P dan grid Ada banyak lingkungan hardware yang akan Web diharapkan untuk menembus, namun asumsi teknik mana yang berlaku 44 Rekayasa Web untuk skala besar, lebih-atau-kurang tetap mesin komputasi khusus tidak harus berlaku. contoh nyata termasuk mobile computing, ubiqui- tous (atau meresap) komputasi mana interoperabilitas menjadi masalah, P2P sistem dan komputasi grid. komputasi Mobile membuat segala macam tuntutan rekayasa, daya komputasi yang tersedia tidak luas dan pengguna harus diasumsikan terus-menerus bergerak dengan variabel bandwidth dan akses. Selain itu, menyajikan informasi kepada pengguna memerlukan paradigma yang berbeda dari PC, misalnya untuk memungkinkan pengguna untuk menerima informasi yang cukup pada layar kecil untuk membuat alis- ing menarik [20, 193]. Akses mobile ke Web dapat menjadi mode dominan di banyak negara, terutama yang berkembang, terima kasih untuk harga yang relatif rendah dan keandalan koneksi nirkabel dan kelelawar- daya tery [222]. Penelitian di bidang ini penting untuk adil distribusi sumber daya web. Mana-mana komputasi, P2P dan berbagi komputasi grid banyak seri ous penelitian masalah, terutama koordinasi perilaku dalam jumlah besar terdistribusi skala sistem. membayangkan komputasi Ubiquitous kecil, rel- perangkat komputasi bertenaga rendah atively tertanam di lingkungan pervasively berinteraksi dengan orang. Ada berbagai-pos imajinatif jawabnya, seperti benang cerdas yang dapat ditenun menjadi pakaian. Tapi tanpa menebak-nebak kecenderungan jelaslah bahwa perangkat yang lebih kecil akan perlu koneksi nirkabel ke jaringan arsitektur yang memungkinkan otomatis ad hoc konfigurasi, dan ada sejumlah kesulitan rekayasa yang terkait dengan masalah (cf. [244, 176]). Sebagai contoh, penemuan layanan dalam paradigma meresap harus mengambil tempat tanpa manusia dalam loop. Layanan harus mampu adver- tise diri untuk memfasilitasi penemuan. Standar layanan penerbitan akan diperlukan untuk menjamin keamanan dan privasi, kepercayaan dari layanan keandalan, kompensasi untuk penyedia layanan, dan tepat bagaimana layanan akan terdiri dengan layanan dipanggil lain untuk mencapai beberapa tujuan atau memecahkan masalah yang dihadapi [179]. Ini hanyalah salah satu contoh lingkungan komputasi saat ini berkembang- pemerintah yang kemungkinan akan semakin penting. Dalam konteks Web Sains dan mencari dan deskripsi dari invariants dari pengalaman Web ence, adalah penting bahwa asumsi kita buat tentang lingkungan, dan teknologi yang hidup di dalamnya, diminimalkan.
P2P jaringan, ditandai dengan otonomi dari server pusat, konektivitas intermittent oportunistik dan penggunaan sumber daya [220], lain adalah lingkungan yang menarik bagi generasi Web berikutnya. Dalam seperti jaringan (termasuk jaringan file-sharing seperti Napster, com- munication jaringan seperti Skype, dan jaringan komputasi seperti sebagai SETI @ home), komputer menjadi komponen dalam terdistribusi sistem, dan mungkin melakukan berbagai hal: back up orang lain file, menyimpan fragmen dienkripsi file, melakukan pengolahan untuk besar skala usaha di latar belakang, dan sebagainya. Ada banyak jelas potensi aplikasi untuk baik bersih P2P terstruktur dan tidak terstruktur- bekerja dalam konteks Web. Pertanyaan bagi para ilmuwan Web adalah apa yang fungsi penting bagi pengalaman Web dapat disimpan dalam longgar ditambah sistem otonomi. Mengingat karakteristik yang tidak biasa P2P, termasuk nomor yang berpotensi besar dan heterogenitas dari node P2P, tradisional rekayasa metode seperti eksperimentasi online (yang akan membutuhkan jumlah unfeasibly besar pengguna untuk mendaftar ke arsitektur- tecture dan memungkinkan transaksi mereka yang akan dimonitor) atau skala besar sim- modulasi (skala hanya terlalu besar) akan tidak pantas. Skala izin dari Web, yang kami akan terus melihat dalam jaringan P2P, membuat jaringan teori model penting (lih. misalnya [249, 189]), tapi kami harus mengharapkan eksperimentasi radikal, inovasi dan kewirausahaan- isme untuk memimpin upaya dalam bidang ini. Godaan untuk mengeksploitasi lingkungan radikal desentralisasi seperti sebagai jaringan P2P pada generasi berikutnya dari Web adalah kuat; desentralisasi- isation adalah aspek kunci dari keberhasilan Web. Jadi, misalnya, orang bisa bayangkan P2P jaringan yang digunakan untuk menemukan halaman cache untuk backup di hal terjadi kegagalan atau kesalahan yang mengarah ke halaman yang hilang atau link menggantung. Perlu dibentuk apakah kemampuan jaringan P2P untuk melakukan bahwa (yang sendiri saat ini belum terbukti) akan merusak domain nama sistem atau mendukungnya. Sedangkan sistem distribusi P2P mengeksploitasi skala besar untuk mencapai banyak dari ujung kecil, komputasi grid [102] sering merupakan pendekatan didistribusikan ke masalah skala besar menggunakan daya komputasi substansial untuk menganalisis enor- MoU jumlah data. Masalahnya adalah mengkoordinasikan perilaku sejumlah besar komputer, mengeksploitasi peluang-sumber daya yang tidak terpakai tunistically seperti P2P; lagi seperti P2P, dan tidak seperti tradisional didistribusikan 46 Rekayasa Web komputasi, komputasi grid ini dimaksudkan untuk menjadi netral tentang administrasi atau platform batas. Standar terbuka Oleh karena itu diperlukan, dan Grid membutuhkan deskripsi abstrak sumber daya komputasi. Dengan analogi ke Web Semantic, Grid telah melahirkan Seman- tic Grid, di mana informasi dan sumber daya komputasi yang dijelaskan dengan metadata (dan sebagai dengan RDF SW adalah bahasa pilihan), memungkinkan eksploitasi spesifikasi mesin yang dapat dibaca untuk otomatis koordinasi sumber daya untuk memecahkan tertentu skala besar prob- memiliki kualifikasi [72]. Penerapan Grid dan Grid Semantic hingga besar masalah skala menunjukkan janji besar - memang sebagai data dari CERN Large Hadron Collider akan mulai beroperasi pada gigabyte / detik, Grid sangat diperlukan. Grid dan Grid Semantik meningkatkan sejumlah pertanyaan tua di penyamaran baru. Mengingat bahwa sumber daya komputasi seseorang diberikan ke luar, kepercayaan dan keamanan akan membutuhkan peninjauan kembali [23]. Sosial, issue yang menarik adalah memahami apakah akan benar-benar Grid perubahan ilmu pengetahuan, atau hanya memungkinkan pengolahan data yang lebih dan lebih [207]. Secara umum, semua paradigma komputasi baru meningkatkan pertanyaan tentang bagaimana banyak individu yang relatif otonom dapat bekerja sama untuk menghasilkan hasil yang saling menguntungkan (baik hasil yang bermanfaat untuk masing-masing individu, atau untuk masyarakat secara keseluruhan). Koordinasi masalah seperti ini selalu tampak besar dalam banyak disiplin, dan kita seharusnya tidak akan terkejut menemukan mereka di pusat Web Science.
Personalisasi Hal ini sering mengklaim bahwa personalisasi penting bagi leverag- ing nilai jaringan [81], dan meningkatkan konsumen lock-in [281]. Mengizinkan pengguna untuk menyesuaikan alat-alat mereka dan berarti ruang kerja yang Web tetap lebih dari commoditised satu ukuran cocok untuk semua daerah dan malah menjadi sebuah ruang di mana orang dapat mengukir sendiri niche. Selain itu, mereka juga harus dapat menerima pelayanan yang lebih baik- kejahatan, disesuaikan dengan keadaan khusus mereka sendiri dan preferensi, untuk sama atau hanya sedikit lebih biaya [90]. sistem industri tersebut adalah jelas aplikasi teknologi [6].
Untuk mendapatkan personalisasi yang efektif, harus ada pemanfaatan yang terintegrasi dari informasi dari sejumlah sumber, termasuk data tentang pengguna (klik- data stream, download pola, profil online), sumber daya yang dikirim (konten situs, struktur situs) dan pengetahuan domain, bersama-sama dengan data teknis pertambangan yang cukup untuk menciptakan pandangan holistik dari sumber daya yang meliputi sebanyak mungkin informasi yang dibutuhkan pengguna, dalam representasi yang akan masuk akal bagi mereka, sementara tidak termasuk informasi- mation mereka tidak akan mau, dan yang bisa memperhitungkan dinamika sifat model pengguna. Semua itu, sambil tetap mempertahankan hubungan antara invariants dari pengalaman Web dan con tertentu- teks menggunakan individu yang memberdayakan dia untuk klaim sudut dari dunia maya dan mulai menggunakannya sebagai perpanjangan dari ruang pribadi. Mengingat bahwa, di Web, informasi yang relevan mungkin sangat didistribusikan dan dinamis, personalisasi diharapkan dapat menjadi salah satu besar keuntungan dari Web Semantic, yang unggul struktur yang memungkinkan penalaran atas sumber data dan didistribusikan. Ada banyak program teknik berjalan menyelidiki heuristik untuk personalisasi dari informasi yang tersedia, termasuk menggunakan mesin belajar [120], ontologi [74, 165], jaringan P2P [126], dan menghasilkan representasi untuk memfasilitasi pengumpulan informasi pengguna mation [74, 157, 223], serta menyediakan lingkungan yang memfasilitasi personalisasi [136, 53, 194] dan link asosiatif didasarkan pada user-bukan dari penulis-preferensi [54]. Lain benang penting dari personalisa- rekayasa tion adalah pengembangan alat untuk memungkinkan neophytes relatif untuk menciptakan atau meningkatkan pengetahuan teknik artefak kompleks, seperti ontologi [213, 211] atau pembungkus [250].
Multimedia Web adalah lingkungan multimedia, yang membuat untuk kompleks semantik - ini tentu saja tidak masalah yang unik ke Web. Meta- epistemologi penalaran dan sering menganggap media tekstual, bahkan meskipun sebenarnya banyak penalaran dalam bentuk analog. Misalnya ahli sering menggunakan diagram untuk mengekspresikan pengetahuan mereka [174, 263]. Ada memiliki upaya telah menghasilkan taksonomi generatif 'bahasa-seperti' representasi visual [190], tetapi ini tidak tampaknya telah 48 Rekayasa Web menarik aplikasi. Beberapa peneliti telah mencoba untuk menemukan prinsip-prinsip yang mungkin mendasari penalaran diagramatik [60]. Ada juga telah aplikasi penting untuk decoding dari perwakilan visual- tions untuk [147] gangguan penglihatan dan koleksi gambar visualisasi terhadap ontologi domain [8]. Pada akhirnya, integrasi multi- representasi modal dari adegan yang sama atau entitas adalah prob sangat keras- lem [224]. Secara umum, tidak diketahui bagaimana mengambil semantik dari representasi non-tekstual andal; fenomena ini dikenal sebagai semantik kesenjangan. Namun demikian, generasi Web berikutnya tidak harus didasarkan pada palsu asumsi bahwa teks adalah pencarian dominan dan kata kunci berbasis akan mencukupi untuk semua tujuan yang wajar [127]. Memang, isu-isu berkaitan dengan navigasi melalui repositori multimedia seperti video arsip dan melalui Web tidak berhubungan: keduanya kebutuhan informasi link untuk mendukung browsing, dan keduanya perlu untuk mendukung mesin manual link traversal. Namun, pendekatan kata kunci dapat goyah di mul- timedia konteks karena kekayaan yang lebih besar dari banyak non-tekstual Media [264]. Pendekatan gambar Google pencarian bergantung pada surround- ing teks untuk gambar, misalnya, yang memungkinkan pencarian yang relatif cepat, dan sekali lagi pada umumnya pengguna seringkali mampu membuat pilihan final memilah-milah rekomendasi yang disampaikan (gambar kata kunci berbasis pencarian cenderung menghasilkan banyak hits lebih sedikit, yang mungkin berarti mereka banyak kemungkinan hilang masuk akal). Kehadiran manusia dalam loop sulit untuk menghindari saat ini: intervensi manusia dalam proses mengintegrasikan bahasa visi dengan modalitas lain yang biasanya diperlukan [224], meskipun ada sejumlah teknik yang menarik untuk menggunakan struktur yang dihasilkan dari teks yang terkait dengan koleksi gambar untuk bantuan pencarian dalam konteks terbatas [7]. Tetapi selalu mungkin untuk mengeluarkan lebih banyak sumber daya pada analisis suatu gambar (katakanlah) untuk menghasilkan pertandingan yang lebih baik untuk pencarian kata kunci, jika kecepatan tidak merupakan faktor utama [293]. Dalam analisis fitur tersebut, sebuah isu yang penting adalah kepentingan relatif dari fitur tingkat rendah seperti 'Dominan warna', dan tingkat tinggi, fitur abstrak atau konsep, seperti sebagai 'Madonna' atau 'masih hidup'. Cari pada fitur-fitur tingkat rendah mungkin cepat dan lebih akurat, namun pengguna cenderung ingin pencarian cukup abstrak istilah [121].
Sebagai hybrid menarik telah disarankan bahwa kesenjangan semantik bisa diisi dengan ontologi dari visual yang mencakup istilah tingkat rendah dan memberikan semacam pemetaan konsep-konsep abstrak ke tingkat yang lebih tinggi disajikan dalam query dan metadata [229]. Infrastruktur tersebut telah telah dibuat, dengan menggunakan (i) ontologi descriptor visual berdasarkan RDF representasi dari MPEG-7 deskripsi visual, (ii) struktur-multimedia mendatang ontologi berdasarkan skema deskripsi-7 multimedia MPEG dan (iii) pemodelan ontologi inti primitif pada akar con- kecuali bahwa hierarki yang dimaksudkan untuk bertindak sebagai jembatan antara ontologi, semua ditambah dengan ontologi domain [260]. A penting yang lebih jauh terbuka adalah isu interoperabilitas teknologi Semantic Web dengan non-RDF berbasis metadata seperti metadata EXIF ​​di file JPEG atau tag gambar informal dibuat di Flickr [279]. Pekerjaan lebih lanjut diperlukan pada hubungan antara kebutuhan manusia dan sistem temu kembali citra kemungkinan otomatisasi [156, 206], termasuk lebih dalam di bawah- berdiri dari kemampuan relatif folksonomi dan ontologi (lihat Bagian 3.1.4-3.1.5). Tentu saja, media di sini tergambar adalah foto dan video; terbuka pertanyaan penelitian tetap tidak hanya tentang seberapa jauh orang bisa masuk pencarian dengan pendekatan semacam, tetapi juga tentang berapa banyak media akan SUC- cumb sedemikian pendekatan dengan cara yang terintegrasikan.
Pengolahan bahasa alami Akhirnya, ada masalah substansial yang berkaitan dengan bahasa alami pro- cessing (NLP), analisis komputasi data tidak terstruktur dalam teks-teks untuk menghasilkan pemahaman mesin (pada tingkat tertentu) dari teks yang. NLP berhubungan dengan Web dalam beberapa cara. Di tempat pertama, nat- bahasa Ural adalah domain yang sangat jarang, dalam kalimat yang paling diucapkan atau tertulis hanya terjadi sekali atau sangat jarang, dan skala raksasa Web menyediakan sebuah korpus menarik untuk penalaran NLP. Sebuah terbaru guessti- mate untuk ukuran dari Web adalah dua ribu miliar kata, yang 71% adalah bahasa Inggris, Jepang 6,8% dan 5,1% Jerman. Banyak yang relatif bahasa umum seperti Slovenia atau Melayu yang memegahkan diri kata 100m online, ukuran yang sama dengan Nasional Inggris digunakan secara luas dan dihormati Corpus. Ada argumen tentang bagaimana wakil Web adalah sebagai 50 Rekayasa Web korpus, tapi gagasan tentang apa yang harus mewakili corpus - harus itu termasuk pidato, menulis, bahasa latar belakang seperti bergumam atau berbicara dalam tidur seseorang, atau kesalahan misalnya? - Sulit untuk dijabarkan dengan presisi setiap [167]. Kedua, mengingat masalah skala Web, teknik NLP akan menjadi penting dalam tugas-tugas seperti summarisation (lihat, misalnya, Dokumen Memahami tahunan Konferensi - http://duc.nist.gov/ dan [69]), yang dapat memberikan dukungan yang berguna untuk bagian-bagian manusia tugas pencarian. Ketiga, NLP memiliki potensi besar untuk pembangunan jenis-jenis antarmuka intuitif yang heterogen dan tidak selalu komputer komunitas pengguna melek Web membutuhkan. Memang mungkin membantu menjembatani kesenjangan antara visi SW Web terdiri dari data dimanipulasi secara logis, dan visi yang lebih tradisional dari Web sebagai tempat yang berguna dokumen diambil. Sebagai contoh, dapat digunakan teknik NLP untuk menemukan dan mengekspresikan metadata [153]? Teks yang mengandung tidak terstruktur data sekarang dapat dipetakan ke sumber daya yang ada seperti ontologi untuk menyediakan markup dan penjelasan, setelah sesi pelatihan awal. ontologi Computing seperti yang kita jumpai berbeda dalam tujuan dan struktur dari thesaurus dan taksonomi dari NLP dunia, meskipun ada perdebatan tentang tingkat dan sifat dari perbedaan [125, 289]. WordNet, misalnya, bukanlah ontol- ogy ketat, misalnya yang mengandung unsur leksikal dengan pengertian yang berbeda di mana suatu ontologi mencoba untuk memastikan interpretasi yang unik untuk istilah yang digunakannya. Tapi sama WordNet memang mengandung hubungan ontologis seperti diatur inklusi dan keanggotaan di dalamnya. sumber daya NLP juga memiliki beberapa- hal yang sama dengan folksonomi dan sejenisnya, serta pentingnya perbedaan. Dari sudut pandang Web Sains, pertanyaan terbuka yang penting ada untuk hubungan antara NLP dan Web, adalah statisti- kal teknik yang digunakan dalam NLP bertentangan atau saling melengkapi dengan logis dan semantis berdasarkan teknik interogasi data yang digunakan oleh SW masyarakat? Atau alternatif ada divisi optimal ana- tenaga kerja lytical antara dua jenis pendekatan yang kita dapat memanfaatkan? Banyak tergantung pada bagaimana kita menafsirkan pengembangan Web. Untuk Misalnya, jika seseorang melihat tugas utama sebagai untuk membubuhi keterangan dan memberikan
kaya konteks untuk konten dan struktur ('menjinakkan Web', seperti yang dijelaskan di [196]), maka NLP akan memainkan peran penting dalam hal itu, termasuk pemetaan drift dalam arti dari waktu ke waktu [290]. Jika kita memahami Semantic Web sebagai berfokus pada data dan model database relasional, maka logis syarat dan URI gigih menjadi pusat. NLP bekerja dengan baik statistik, SW, sebaliknya, membutuhkan logika dan belum menggunakan substansial statistik. Bahasa alami demokratis, seperti yang diungkapkan dalam slogan 'artinya adalah menggunakan' (lihat Bagian 5.1 untuk diskusi lebih dari ini). Setara dalam SW kata-kata bahasa alami adalah istilah-istilah logis, yang URI yang menonjol. Demikian kita memiliki disanalogy langsung antara NLP dan SW, yang yang URI, tidak seperti kata-kata, mempunyai pemilik, dan sehingga dapat diatur. Yang bukan untuk mengatakan bahwa peraturan tersebut akan menjamin kekebalan dari makna drift bahwa linguis mendeteksi, tetapi juga dapat memberikan stabilitas yang cukup selama jangka pendek medium.

Tidak ada komentar:

Poskan Komentar