Senin, 18 April 2011

Web Sains sebagai ilmu pengetahuan

Kita mungkin parafrase Web Sains sebagai ilmu dari Web. Sementara ini kesetaraan mungkin jelas kita akan mulai dengan memecah frase dan membuat sketsa komponen yang memungkinkan Web berfungsi sebagai informasi yang efektif sistem yang terdesentralisasi. Kami akan meninjau dasar prinsip-prinsip arsitektur dari Web, yang dirancang untuk mendukung pertumbuhan dan nilai sosial perilaku berbagi informasi dan dapat dipercaya dalam Bagian 2.1. Bagian 2.2 akan menawarkan beberapa refleksi metodologis pada penyelidikan ilmiah dari Web.
Arsitektur dari Web eksploitasi teknologi sederhana yang menghubungkan efisien, untuk mengaktifkan ruang informasi yang sangat fleksibel dan bermanfaat, dan yang paling penting, skala. Web adalah sudah menjadi mengesankan platform tempat ribuan bunga telah mekar,

dan harapan itu dapat tumbuh lebih lanjut, meliputi bahasa lebih lanjut, lebih media dan kegiatan lebih, hosting informasi lebih lanjut, serta menyediakan alat dan metode untuk menginterogasi data yang keluar sana. Dalam bagian ini membuka kita akan meninjau secara singkat prinsip utama mendasari arsitektur Web; bagian ini adalah berhutang budi kepada [155], dan untuk detail lebih lanjut, lihat dokumen itu. Web adalah ruang di mana sumber daya yang diidentifikasi oleh Seragam Resource Identifier (URI - [33]). Ada protokol untuk mendukung interaksi antara agen, dan format untuk mewakili informasi sumber daya. Ini adalah bahan dasar dari Web. Pada desain mereka tergantung utilitas dan efisiensi interaksi Web, dan desain yang tergantung pada gilirannya pada sejumlah prinsip, beberapa di antaranya merupakan bagian dari konsepsi asli, sementara yang lain harus belajar dari pengalaman. Identifikasi sumber daya penting untuk dapat berbagi informasi tentang mereka, alasan tentang mereka, memodifikasi atau pertukaran mereka. sumber daya tersebut dapat berupa apa saja yang dapat dihubungkan atau dibicarakan; banyak sumber daya adalah murni informasi, tetapi yang lain tidak. Selanjutnya, tidak semua sumber daya yang di Web, di bahwa mereka mungkin dapat diidentifikasi dari Web, tetapi tidak mungkin dapat diambil dari itu. Sumber daya yang pada dasarnya informasi, dan yang karenanya dapat diberikan dengan keluar abstraksi dan dicirikan sepenuhnya dalam pesan disebut informasi sumber daya. Untuk penalaran dan fungsi mengacu terjadi pada global skala, sistem identifikasi diperlukan untuk menyediakan satu global standar; URI menyediakan sistem itu. Akan mungkin bagi alterna- sistem tive untuk URI untuk dikembangkan, tetapi nilai tambah satu global sistem pengidentifikasi, memungkinkan menghubungkan, bookmark dan lainnya fungsi berbagai aplikasi heterogen, tinggi. Sumber Daya telah URI terkait dengan mereka, dan setiap URI idealnya mengidentifikasi satu sumber daya secara konteks-independen. URI bertindak sebagai nama (dan alamat - lihat Bagian 3.1.2 di bawah ini untuk pembahasan masalah ini), dan sebagainya apakah mungkin untuk menebak sifat sumber daya dari perusahaan URI, yang merupakan Hal kontingen, dalam URI umumnya lihat opaquely. Prinsip-prinsip hubungan antara URI dan sumber daya yang diinginkan tetapi tidak tegas dilaksanakan, biaya gagal mengaitkan URI dengan sumber daya adalah ketidakmampuan untuk merujuk ke sana, sedangkan biaya penempatan dua sumber ke URI akan error, sebagai data tentang salah satu sumber daya akan diterapkan ke lainnya. URI juga menghubungkan Web dengan dunia sosial offline, di mereka mewajibkan lembaga. Mereka berada di bawah skema didefinisikan tertentu,
yang mungkin yang paling umum dipahami adalah HTTP, FTP dan mailto, skema tersebut terdaftar dengan internet Ditugaskan Nomor Authority (IANA - http://www.iana.org/assignments/uri- skema). Skema ini harus dioperasikan pada jalur berprinsip pada Agar efektif. Jadi jika kita ambil HTTP sebagai contoh, HTTP URI dimiliki dan dis- bursed oleh orang atau organisasi, dan maka dapat dialokasikan bertanggung sibly atau tidak bertanggung jawab. Sebagai contoh, sebuah URI HTTP harus mengacu ke sumber tunggal, dan dialokasikan untuk pemilik tunggal. Hal ini juga diinginkan untuk suatu URI untuk merujuk kepada sumber daya yang permanen, dan tidak mengubah referensi dari waktu ke waktu (lihat Bagian 5.4.6 di bawah). Komunikasi melalui Web melibatkan pertukaran pesan yang dapat berisi data atau metadata tentang sumber daya. Salah satu tujuan umum dari komunikasi adalah mengakses sumber daya melalui URI, atau untuk dereference URI. Jika sumber daya telah diberi sebuah identifier, sumber daya harus dalam beberapa cara-recov erable dari pengenal agar bisa nilai. Dereferencing biasanya melibatkan menemukan indeks yang tepat untuk mencari pengenal. Ada sering petunjuk dalam pengenal, atau penggunaan bantuan identifier, yang di sini, terutama jika pihak berwenang penamaan memiliki semacam hierar- chical struktur. Sebagai contoh, alamat pos memiliki struktur hirarkis yang memungkinkan sebuah bangunan tertentu yang akan berada. Satu akan berkonsultasi dengan indeks AZ London untuk menemukan jalan tertentu yang namanya satu tahu dan yang satu tahu terletak di London, tapi ada lagi tentang hal itu. Demikian pula, Domain Name System (DNS) eksploit hierar- struktur chical untuk membantu dengan dereferencing, sehingga untuk menghubungi server "Foo.cs.bar.edu" melibatkan pengiriman pesan dari beberapa macam beberapa server dikendalikan oleh Bar University di Amerika Serikat. Semakin banyak informasi tion yang tersedia dalam nama atau identifier dari sumber daya, semakin mudah itu adalah untuk dereference, walaupun tentu saja dalam hal sumber daya yang membatasi nama perlu mengandung ada informasi sama sekali untuk membantu dereferencing itu (Kadang-kadang ini adalah titik nama). Selanjutnya, identifikasi sistem sering harus dipertahankan oleh otoritas untuk dereferencing menjadi mungkin - jika AZ London tidak diperbarui setiap begitu sering, itu akan menjadi mustahil untuk menggunakannya (edisi terbaru) untuk mencari topik tertentu- ular rumah, dengan cara yang sama bahwa perubahan di server Universitas Bar
program pemeliharaan dapat berarti bahwa beberapa sumber daya yang diselenggarakan pada nya server yang unlocatable. Apa mengakses sumber informasi memerlukan bervariasi dari konteks konteks, tapi mungkin pengalaman yang paling umum adalah menerima representasi dari (keadaan) sumber daya pada browser. Tentu tidak perlu kasus yang dereferencing URI otomatis mengarah ke agen mendapatkan akses istimewa ke sumber daya. Ini mungkin bahwa tidak ada representasi dari sumber daya tersedia, atau bahwa akses ke sumber daya aman (misalnya kata sandi terkontrol), tetapi mungkin untuk merujuk ke sumber daya menggunakan perusahaan URI tanpa memaparkan sumber daya yang untuk umum tampilan. Pengembangan Web sebagai spasi, bukan yang besar dan papan pengumuman kompleks, mengikuti dari kemampuan agen untuk menggunakan interaksi untuk mengubah negara dari sumber daya, dan menanggung kewajiban dan tanggung jawab. Mengambil representasi adalah contoh dari apa yang disebut interaksi yang aman di mana perubahan tidak terjadi, sementara posting daftar adalah interaksi yang tidak aman di mana negara-negara sumber daya 'dapat diubah. Perhatikan bahwa sifat universal URI membantu identifikasi dan pelacakan kewajiban yang timbul secara online melalui interaksi yang tidak aman. Tidak semua URI dimaksudkan untuk memberikan akses kepada perwakilan reaksi yang diharapkan dari sumber daya yang mereka mengidentifikasi. Misalnya, mailto ini: skema mengidentifikasi sumber daya yang dicapai dengan menggunakan Internet mail (misalnya mailto: romeo@example.edu mengidentifikasi kotak surat tertentu), tetapi mereka sumber daya yang tidak dapat dipulihkan dari URI dengan cara yang sama sebagai web- halaman. Sebaliknya, URI digunakan untuk surat langsung ke mail tertentu- kotak, atau alternatif untuk menemukan mail dari itu. Web mendukung berbagai format file, yang paling terkenal adalah HTML. Beberapa format yang diperlukan, dan format perlu fleksibel, karena sifat heterogen dari interaksi selama Web. Konten dapat diakses melalui segala macam perangkat, paling sering PC atau perangkat mobile, dan nilai lebih dapat diekstraksi dari Web jika penyajian konten adalah perangkat-independen sejauh pos- jawab (idealnya kompatibel dengan perangkat yang belum bermimpi). Memisahkan representasi dari isi dari keprihatinan presentasi dan interaksi adalah praktik yang baik di sini; bawah seperti konten, rezim, presen- tation dan perlu interaksi menjadi direkombinasi dengan cara yang maksimal
berguna, yang umumnya dilakukan sebagian oleh server dan sebagian oleh klien, rasio yang tepat antara kedua tergantung pada konteks interaksi. Kekuatan Web berasal dari mengaitkannya memungkinkan. sumber daya dapat berisi referensi ke sumber lain dalam bentuk tertanam URI yang dapat digunakan untuk mengakses sumber daya kedua. Ini Link memungkinkan navigasi asosiatif dari Web. Untuk memfasilitasi menghubungkan, untuk- tikar harus mencakup cara-cara untuk membuat dan mengidentifikasi link ke sumber daya lainnya, harus memungkinkan link ke setiap sumber daya di mana saja melalui Web, dan harus tidak membatasi penulis konten untuk menggunakan skema tertentu URI. Sebuah tujuan penting dari Web Ilmu adalah untuk mengidentifikasi aspek-aspek penting identifikasi, interaksi dan representasi yang membuat Web kerja, dan untuk memungkinkan pelaksanaan sistem yang dapat mendukung atau mempromosikan perilaku yang diinginkan. Pengalaman menghubungkan dokumen dan, semakin, data rilis kekuatan besar, baik untuk penulis dan pengguna. Kemungkinan kembali kebetulan konten memberdayakan penulis oleh meningkatkan pengaruh mereka, dan pengguna dengan menyediakan akses lebih informasi dari yang dimungkinkan dengan menggunakan teknologi lainnya. Secara khusus, tiga fungsi identifikasi, interaksi dan representasi harus dipisahkan. Mengubah atau menambahkan skema untuk identifikasi, misalnya, seharusnya tidak berpengaruh pada skema untuk interaksi atau representasi, memungkinkan independen, evolusi modular Web arsitektur sebagai teknologi baru dan aplikasi baru mulai beroperasi (Yang tidak berarti bahwa spesifikasi ortogonal tidak mungkin co-berevolusi siklis dengan satu sama lain). Demikian pula, teknologi harus diperluas, yaitu mereka harus mampu berkembang secara terpisah tanpa mengancam mereka interoperabilitas dengan teknologi lainnya. Akhirnya, prinsip penting arsitektur Web yang error harus ditangani secara sederhana dan fleksibel. Kesalahan sangat penting - dalam informasi an- mation ruang yang ukurannya dapat diukur dalam ribuan terabyte, dan jumlah pengguna dalam ratusan juta, heterogenitas tujuan dan kualitas beragam kepengarangan berarti bahwa akan ada banyak sekali kesalahan desain. Keberadaan link menjuntai (link menggunakan URI tanpa sumber daya di akhir itu), konten yang tidak baik-formed atau lainnya kesalahan ditebak seharusnya tidak menyebabkan sistem crash, tuntutan
interoperabilitas mensyaratkan bahwa agen harus dapat pulih dari kesalahan, tanpa, tentu saja, kompromi kesadaran pengguna bahwa kesalahan telah terjadi. Sebagai Web tumbuh dan berkembang untuk memenuhi situasi baru dan pur- pose, arsitektur harus berkembang. Tapi evolusi perlu bertahap dan hati-hati (yang lambat dan selalu telaten negosiasi standar komite adalah cara yang baik untuk menggabungkan gradualisme dengan fit- ness untuk tujuan), dan prinsip menjaga perkembangan ortogonal terpisah berarti bahwa evolusi di satu daerah tidak boleh mempengaruhi evolusi tempat lain. evolusi perlu menghormati invariants penting Web, seperti ruang URI, dan penting bahwa pengembang setiap saat bekerja untuk melestarikan aspek-aspek Web yang perlu diawetkan. Ini merupakan bagian dari misi dari W3C Teknis Archi- tecture Group [154], meskipun standar dapat hanya pernah menjadi bagian dari cerita. prinsip-prinsip arsitektur Web akan selalu diperdebatkan di luar W3C, cukup baik, serta di dalamnya.
Jika penyelidikan dari Web yang akan dihitung sebagai benar scien- tific, maka pertanyaan segera adalah bagaimana metode ilmiah harus berlaku ini domain tertentu. Bagaimana seharusnya peneliti dan insinyur Web pendekatan untuk memahami dan hubungannya dengan lebih luas masyarakat, dan untuk berinovasi? Berbagai aspek dari Web relatif baik dipahami, dan sebagai sebuah contoh rekayasa blok bangunan yang dibuat, tidak phe alam nomena. Namun demikian, sebagai Web telah berkembang dalam kompleksitas dan jumlah dan jenis interaksi yang terjadi telah membengkak, itu tetap kasus yang kita tahu lebih banyak tentang beberapa phe alam yang kompleks nomena (contoh jelas adalah genom manusia) daripada kita lakukan yang satu ini rekayasa tertentu. Namun itu benar-benar berkembang, ada Web Ilmu layak nama perlu memenuhi beberapa kondisi yang jelas. Ada perlu menjadi falsifiabilty hipotesis dan pengulangan penyelidikan. Ada akan perlu prinsip-prinsip independen dan standar untuk menilai ketika hipotesis telah dibentuk. Ada masalah nyata untuk
bagaimana prinsip-prinsip dan standar harus tiba di. Dan tentu saja harus ada metode untuk bergerak dari penilaian dari Web dan yang evolusi untuk pengembangan dan pelaksanaan inovasi. Untuk mengambil satu contoh, ada sejumlah teknologi dan meth- ods untuk pemetaan Web dan menandai keluar topologi nya (lihat Bagian 4.1 bawah). Apa peta seperti kepada kita (lih. misalnya [80])? The visualisasi seringkali sangat mengesankan, dengan interpretasi tiga-dimensi dan warna-kode link antara node. Tapi bagaimana diverifikasi adalah peta seperti itu? Dalam indra apa yang mereka katakan kami 'bagaimana Web adalah'? Apa keterbatasan? Aplikasi jelas, dalam hal metodologis, peta dan grafik struktur Web adalah untuk langsung sampling, dengan menentukan properti yang model dan sampel dari Web seharusnya. Yang cepat pertumbuhan Web membuat survei yang lengkap dari tahun-tahun pertanyaan lalu, dan ilmuwan kebutuhan informasi statistik yang cepat dan tepat waktu tentang isi sastra Web tersedia. Perwakilan sampling adalah kunci untuk metode tersebut, tapi bagaimana seharusnya sebuah sampel dikumpulkan dalam rangka secara tepat disebut wakil [188]? Untuk menjadi benar bermanfaat, sam a- Misalnya harus acak; 'keacakan' biasanya ditetapkan untuk tertentu domain, dan pada umumnya berarti bahwa semua individu dalam domain memiliki kemungkinan yang sama yang dipilih sebagai sampel. Tapi untuk Web yang memerlukan, misalnya, memahami apa yang individu, karena Misalnya, apakah kita peduli dengan website atau halaman Web? Jika mantan, maka orang bisa membayangkan kesulitan karena tidak ada pencacahan lengkap mereka. Dan metode sampling berdasarkan, mengatakan, alamat IP-komplikasi berdedikasi oleh penduduk tentu jarang dari ruang alamat [219]. Selanjutnya, begitu murah adalah operasi di Web bahwa num kecil ber dari operator bisa miring namun hati-hati hasil sampel adalah dipilih. Sebuah survei melaporkan secara lebih rinci di bawah ini [99] tampaknya dis- ditutupi bahwa 27% dari halaman dalam domain de. diubah setiap minggu, sebagai dibandingkan dengan 3% untuk Web secara keseluruhan. Penjelasan ternyata tidak menjadi kerajinan khas Jerman, melainkan di atas juta URL, sebagian tetapi tidak semua pada server Jerman, yang memutuskan untuk suatu satu alamat IP, yang secara otomatis dihasilkan dan terus berubah situs pornografi. Web memiliki banyak sifat yang tidak biasa yang membuat sampling rumit; bagaimana bisa rasa hormat metode sampling apa yang tampaknya papan nama prima signifikan 14 Web dan Ilmu nya sifat seperti, misalnya, persentase halaman diperbarui setiap hari, mingguan, dll? Bagaimana kita bisa faktor dalam isu-isu seperti kemerdekaan mendasari sumber data? Apakah kita memiliki banyak pemahaman dari distribusi bahasa di seluruh Web (dan istilah dalam bahasa -. cf [167]), dan bagaimana meningkatkan kepandaian dalam memberikan mempengaruhi hal-hal [138]? Dan bahkan jika kita senang dengan metodologi sampling kami, di tengah-tengah bagaimana semua suara bisa kita menemukan struktur menarik efisien [191]? Selanjutnya, meskipun untuk banyak tujuan Web dapat diobati sebagai ruang informasi statis, tentunya dinamis dan berkembang. Jadi segala upaya untuk memahami longitudinal Web akan membutuhkan untuk mengambil evolusi itu ke dalam account [218], dan model idealnya memiliki pertumbuhan sistem (dalam hal penambahan konstan baru titik dan sisi ke grafik), bersama-sama dengan struktur link yang tidak invarian dari waktu ke waktu, dan hubungan domain hirarkis yang selalu rentan terhadap revisi, dibangun ke dalam mereka (lih. misalnya [253]). Analytic pemodelan dikombinasikan dengan data empiris yang dikumpulkan dengan hati-hati dapat digunakan untuk menentukan probabilitas halaman Web yang sedang diedit (Mengubah konten informasi mereka) atau tidak dihapus. Satu percobaan pengawasan ratusan ribu halaman selama beberapa bulan Hasil menarik yang dihasilkan: setiap putaran satu waktu sekitar 20% dari web- halaman di bawah 11 hari tua, sedangkan 50% muncul di sebelumnya tiga bulan. Di sisi lain, 25% lebih dari berumur tahun - usia yang didefinisikan di sini sebagai perbedaan antara waktu modifikasi terakhir tion ke halaman dan waktu download [43]. Percobaan lain terlibat merayapi 150m halaman HTML sekali seminggu selama 11 minggu, dan menemukan, misalnya, kuat hubungan antara tingkat-top domain dan frekuensi perubahan (. halaman com diubah lebih fre- paling sering dari gov atau.. halaman edu), dan bahwa dokumen-dokumen besar (mungkin counterintuitively) diubah lebih sering dari yang kecil. Frekuensi perubahan terakhir adalah prediktor yang baik di masa depan perubahan, hasil potensial penting bagi perayap Web incremental [99]. Perkembangan metode sampling feed Web yang sangat cepat ke dalam pengembangan pencarian lebih efisien dan akurat. Metode untuk menemukan informasi secara online, baik logis atau heuristik, apakah data-berpusat atau pada model sistem temu kembali informasi, memerlukan akurat pemetaan.
Jadi salah satu aspek dari Web Ilmu adalah investigasi Web dalam untuk tempat ancaman, peluang dan invariants untuk pengembangannya. Lain adalah rekayasa yang baru, mungkin metode tak terduga berurusan dengan informasi, yang menciptakan ekstensi non-konservatif Web. teknik tersebut dapat berbasis penelitian, atau industri berbasis. Sintesis sistem baru, bahasa, algoritma dan alat-alat adalah kunci untuk pengembangan koheren dari Web, seperti, misalnya, dengan studi tentang sistem kognitif, dimana banyak kemajuan beberapa tahun terakhir tahun telah datang dengan teknik eksplorasi serta analisis dan deskripsi (lih. misalnya [51]). Jadi, misalnya, satu-satunya cara untuk menemukan dampak dari file sharing radikal desentralisasi adalah untuk mengembangkan peer to peer sistem dan operasi mereka amati pada skala semakin besar. Seperti upaya rekayasa perintis sangat penting untuk pengembangan Web, melainkan adalah setelah semua konstruksi. Hal ini penting untuk Web secara keseluruhan yang implementasi sistem berinteraksi dan tidak mengganggu, yang mana badan standar memainkan peranan penting. Oleh karena itu Web Sains adalah kombinasi dari sintesis, analisis dan pemerintah- kelola. Dalam sisa teks ini, kami akan mengambil tiga aspek pada gilirannya, dimulai dengan sintesis, maka analisis, dan kemudian isu-isu sosial yang berdampak pada pengembangan Web, sebelum berakhir dengan diskusi masalah pemerintahan.

Tidak ada komentar:

Posting Komentar