Internet as a Source of Research: Access to Archived Web Resources and Possibilities of Their Processing

Zdenko Vozár, Marie Haškovcová, Andrea Prokopová

DOI: https://doi.org/10.46938/tv.2022.552

Abstract


The Internet has become a natural communication platform for modern society. Web archives, which began in the 1990s to capture and preserve changing web content, have thus become key sources for research in the recent past. The analysis of their data is complicated by, for example, insufficient competencies of researchers, the need for computing resources or legislation. One way to meet the needs of users is to develop tools and research interfaces that allow to work with data without the need for technological knowledge of advanced extraction and thus open it to researchers. The study addresses the issue of access to archival web data, approaches efforts to formulate a theoretical and methodological framework and proposes a design for access and further data processing, which is applied in a unique research interface for extracting large data from web archives using advanced machine learning to generate and categorization of text outputs.

Keywords


web archiving; Webarchiv; data mining; data analysis; research interfaces; Hadoop

Full Text:

PDF (Čeština)

References


Aarhaus University, School of Communication and Culture. „About WARCnet: Web Archive Studies Network Researching Web Domains and Events.“ Navštíveno 2. listopadu 2021. https://cc.au.dk/en/warcnet/about.

Aschenbrenner, Andreas, and Andreas Rauber, „Mining Web Collections.“ In Web Archiving, edited by Julien Masanès, 155–61. Berlin: Springer, 1998.

Aplikace ODok. „Návrh zákona, kterým se mění zákon č. 257/2001 Sb., o knihovnách a podmínkách provozování veřejných knihovnických a informačních služeb (knihovní zákon), ve znění pozdějších předpisů, zákon č. 37/1995 Sb., o neperiodických publikacích, ve znění pozdějších předpisů, a zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon), ve znění pozdějších předpisů.“ 2019. Navštíveno 2. listopadu 2021. https://apps.odok.cz/veklep-detail?pid=KORNBBXEMCL0.

Arquivo.pt. „Information about the Arquivo.pt Service.“ Navštíveno 2. listopadu 2021. https://sobre.arquivo.pt/en.

Bailey, Jefferson, and Vinay Goel. „Program Models for Research Services.“ University of North Texas Libraries, UNT Digital Library. Publikováno 14. dubna 2016. https://digital.library.unt.edu/ark:/67531/metadc1477166.

Baevski, Alexei, Henry Zhou, Abdelrahman Mohamed, and Michael Auli. „wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations.“ Preprint, submitted June 20, 2020. https://arxiv.org/abs/2006.11477.

Brügger, Niels, and Ralpf Schroeder, eds. The Web as History. London: UCL Press, 2017. https://doi.org/10.2307/j.ctt1mtz55k.1.

Brügger, Niels, Janne Nielsen, and Ditte Laursen. „Big Data Experiments with the Archived Web: Methodological Reflections on Studying the Development of a Nation’s Web.“ First Monday 25, no. 3 (2020). https://doi.org/10.5210/fm.v25i3.10384.

Costa, Miguel, Daniel Gomes, and Mário J. Silva. „The Evolution of Web Archiving.“ International Journal on Digital Libraries 18, no. 3 (2017): 191–205. https://doi.org/10.1007/s00799-016-0171-9.

Costea, Maria-Dorina. Report on the Scholarly Use of Web Archives. Aarhus: NetLab, 2018.

Cubr, Ladislav. Autenticita a digitální informace. Praha: Univerzita Karlova v Praze, 2017.

EUR-Lex. „Proposal for a DIRECTIVE OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on copyright in the Digital Single Market COM/2016/0593 Final – 2016/0280 (COD).“ 2016. Navštíveno 2. listopadu 2021. https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52016PC0593.

Fritz, Samantha. „Archives Unleashed and Archive-It to Support Web Archival Research at Scale.“ Archives Unleashed. Navštíveno 31. prosince 2021. https://news.archivesunleashed.org/archives-unleashed-and-archive-it-to-support-web-archival-research-at-scale-30e81a41f1d3.

Haškovcová, Marie a Zdenko Vozár. „Tematická kolekce webových zdrojů COVID-19 jako součást Webarchivu.“ Bulletin SKIP 29, č. 1 (2020).

Hartmanová, Pavla, and Paulina Czwordon-Lis. „The Reflection of Literary Activities in Digital Space.“ In 11th Conference on Grey Literature and Repositories, edited by Hana Vyčítalová. Prague: National Library of Technology, 2018.

IIPC. „International Internet Preservation Consortium.“ Navštíveno 2. listopadu 2021. https://netpreserve.org/.

Internet Archive. Navštíveno 2. listopadu 2021. https://archive.org.

ISO 28500:2009. „Information and Documentation – WARC File Format.“ Navštíveno 2. listopadu 2021. https://www.iso.org/standard/44717.html.

Kvasnica, Jaroslav, Andrea Prokopová, Zuzana Kvašová a Zdenko Vozár. „Analýza českého webového archivu: Provenience, autenticita a technické parametry.“ ProInflow 11, č. 1 (2019): 3–21. https://doi.org/10.5817/ProIn2019-1-2.

Kvasnica, Jaroslav, Barbora Rudišinová, Marie Haškovcová, Monika Holoubková a Markéta Hrdličková. „Strategie budování sbírky Webarchivu. Aktualizované znění.“ Národní knihovna České republiky, 2019. https://www.webarchiv.cz/static/www/download/collection-policy.pdf.

Kvasnica, Jaroslav, Barbora Rudišinová a Rudolf Kreibich. „Vědecké využití dat z webových archivů.“ Knihovna: knihovnická revue 27, č. 2 (2016): 23–34.

Kvasnica, Jaroslav. „Budoucnost českého webového archivu.“ In Inforum 2015: 21. ročník konference o profesionálních informačních zdrojích. Praha: Albertina icome Praha, 2015. https://docplayer.cz/1001491-Budoucnost-ceskeho-weboveho-archivu.html.

Kvasnica, Jaroslav a Rudolf Kreibich. „Formátová analýza sklizených dat v rámci projektu WebArchiv NK ČR.“ ProInflow 5, č. 2 (2013): 168–77.

Kvasnica, Jaroslav, Zdenko Vozár, Marie Haškovcová a Monika Kodad Holoubková. Metodika pro tvorbu, uložení a zpřístupnění technických a administrativních metadat z webového archivu. Praha: Národní knihovna ČR, 2020.

Lin, Jimmy, Ian Milligan, Jeremy Wiebe, and Alice Zhou. „Warcbase: Scalable Analytics Infrastructure for Exploring Web Archives.“ ACM Journal on Computing and Cultural Heritage 10, no. 4 (2017): 1–30. http://dx.doi.org/10.1145/3097570.

Masanes, Julien. „Web Archiving Methods and Approaches: A Comparative Study.“ Library Trends 54, no. 1 (2005): 72–90. https://doi.org/10.1353/lib.2006.0005.

Milligan, Ian. „Lost in the Infinite Archive: The Promise and Pitfalls of Web Archives.“ International Journal of Humanities and Arts Computing 10, no. 1 (2016): 78–94.

Milligan, Ian. „You Shouldn’t Need to be a Web Historian to Use Web Archives: Lowering Barriers to Access Through Community and Infrastructure.“ WARCnet Papers, 2020. https://cc.au.dk/fileadmin/user_upload/WARCnet/Milligan_You_shouldn_t_Need_to_be__2_.pdf.

Národní knihovna České republiky. „Webarchiv.“ Navštíveno 2. listopadu 2021. https://www.webarchiv.cz/cs.

Pilnáček, Matouš, Paulína Tabery a Martin Vávra. „Webové archivy a sociální vědy: příležitosti, problémy a řešení.“ Naše společnost 17, č. 1 (2019): 43‒58. https://doi.org/10.13060/1214438X.2019.1.17.495.

Rosenzweig, Roy. „Scarcity or Abundance? Preserving the Past in a Digital Era.“ The American Historical Review 108, no. 3 (2003): 739.

Ruest, Nick, Jimmy Lin, Ian Milligan, and Samantha Fritz. „The Archives Unleashed Project: Technology, Process, and Community to Improve Scholarly Access to Web Archives.“ In JCDL ‘20: Proceedings of the ACM/IEEE Joint Conference on Digital Libraries in 2020, edited by Ruhua Huang, Dan Wu, Gary Marchionini, Daqing He, Sally Jo Cunningham, and Preben Hansen, 157–66. New York, NY: Association for Computing Machinery, 2020. https://doi.org/10.1145/3383583.3398513.

Shein, Ester. „Preserving the Internet.“ Communications of the ACM 59, no. 1 (2016): 26–28. https://doi.org/10.1145/2843553.

Schafer, Valérie, and Jane Winters. „The Values of Web Archives.“ International Journal of Digital Humanities 2 (2021): 129–44. https://doi.org/10.1007/s42803-021-00037-0.

Svoboda, Luboš. „Webarchiv spolupracoval na projektu Český literární internet.“ E-zpravodaj Národní knihovny ČR 8, č. 4 (2021): 6.

Švec, Jan, Luboš Šmídl, Jan Lehečka, Pavel Ircing a Vlasta Radová. NAKI-NK-AUDIO: nástroj pro analýzu audiosouborů. Plzeň: Západočeská univerzita v Plzni, 2020.

The Archives Unleashed Project. Navštíveno 31. prosince 2021. https://archivesunleashed.org.

The Royal Library of Belgium. „Besocial.“ Navštíveno 2. listopadu 2021. https://www.kbr.be/en/projects/besocial.

UK Web Archive. „SHINE.“ Navštíveno 27. prosince 2021. https://www.webarchive.org.uk/shine.

University of London. „Big UK Domain Data for the Arts and Humanities.“ Navštíveno 2. listopadu 2021. https://buddah.projects.history.ac.uk.

Webarchiv. „Nechte se Webrachivovat!“ Navštíveno 2. listopadu 2021. https://www.webarchiv.cz/cs/smlouva.

Zákony pro lidi. „Zákon č. 121/2000 Sb.: Zákon o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon).“ Navštíveno 2. listopadu 2021. https://www.zakonyprolidi.cz/cs/2000-121.
Copyright (c) 2022 Zdenko Vozár, Marie Haškovcová, Andrea Prokopová

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

TEORIE VĚDY / THEORY OF SCIENCE – journal for interdisciplinary studies of science is published twice a year by the Institute of Philosophy of the Czech Academy of Sciences (Centre for Science, Technology, and Society Studies). ISSN 1210-0250 (Print) ISSN 1804-6347 (Online) MK ČR E 18677 web: http://teorievedy.flu.cas.cz /// email: teorievedy@flu.cas.cz