Polska Izba Książki

Jesteś w: www.pik.org.pl strona główna polski katalog składowy książki założenia projektu marzec 2008

założenia projektu marzec 2008

Polski Katalog Składowy Książek

Opis funkcjonalny (skrócony)
1      Wstęp   3
2      Proces przetwarzania danych   4
2.1        Etapy 4
3      Składowanie i udostępnianie danych w BN   5
4      Prezentacja danych w katalogu PKSK   5
4.1        Dane bibliograficzne (Faza 1, zob. Rozdział 7)5
4.2        Okładka (Faza 1)5
4.3        Treść książki (Faza 1)5
4.4        Taksonomie 6
5      Funkcjonalność serwisu   6
5.1        Pełnotekstowe przeszukiwanie zasobów  (Faza 1)6
5.2        Dla klienta końcowego  (Faza 1)6
5.2.1     Katalog Książek (Faza 1)6
5.2.2     Geo-Info (Faza 3)7
5.3        Dla księgarza  (Faza 2)7
5.3.1     Funkcjonalność podstawowa 7
5.3.2     Import danych bibliograficznych 7
5.3.3     Kolekcje książek 7
5.3.4     Generowanie zamówienia 7
5.4        Dla dystrybutora  (Faza 2)7
5.4.1     Funkcjonalność podstawowa 8
5.4.2     Import danych bibliograficznych 8
5.4.3     Kolekcje książek 8
5.5        Dla wydawnictwa  (Faza 2)8
5.5.1     Dane bibliograficzne (Faza 1)8
5.5.2     Dane do prezentacji książki (Faza 1)8
5.6        Dla bibliotek - Biblioteki Narodowej (Faza 2)9
6      Oprogramowanie   9
7      Harmonogram   9
7.1        Faza 1 - Przygotowanie wersji demonstracyjnej z ograniczoną funkcjonalnością 10
7.2        Faza 2 - Wersja pilotażowa 10
7.3        Faza 3 - Wersja pilotażowa - końcowa 10
7.4        Rozbudowa systemu 10
7.5        Serwis 10
1         Wstęp
PIK, IKP, BN sa inicjatorami budowy elektronicznego systemu Polski Katalog Składowy.
 
W budowę systemu zaangażowane są firma Neurosoft – dostawca technologii, Wydawcy – dostawcy danych, Biblioteka Narodowa – dostawca danych.
 
Odbiorcami systemu są: Wydawcy, BN, Hurtownicy/dystrybutorzy, Księgarze, Czytelnicy. System, w zależności od grupy odbiorców, oferuje różne funkcjonalności.
 
W dalszej części opisu przedstawione są procesy dostarczania danych oraz opisane są funkcjonalności z punktu widzenia grup odbiorców. Ponadto opisane są zagadnienia technologiczne oraz przedstawiony jest harmonogram prac nad elektronicznym Polskim Katalogiem Składowym Ksiązki.
 
Ogólną funkcjonalność systemu przedstawia diagram.
 
Organizacji zarządzająca PKSK otrzymuje od Wydawców: ksiązki w formacie PDF A, informacje od Wydawcy o warunkach prezentowania książek w katalogu PKSK dla Czytelników (warunki od bardzo ograniczonych do bardzo szerokich). Wydawcy, którzy nie mają książek w tym formacie mogą skorzystac z usłgi certyfikowanych przez PIK firm, które takie pliki mogą przygotować. Pliki PDF A trafiają za pośrednictwem organizacji zarzadzającej PKSK do Repozytorium Biblioteki Narodowej, która przesyla metadane bibliograficzne w ustalonym formacie do PKSK, zas sama (tzn. BN) wprowadza otrzymane pliki PDF do zamkniętego obiegu bibliotecznego na warunkach ustalonych z Wydawcą. Istota systemu działającego w BN jest, że system jest odpowiednio zabezpieczony przed wypływem danych z systemu. Organizacja zarządzająca PKSK: konwertuje pliki PDF A do własnego systemu BIP, podlącza metadane bibliograficzne do plików BIP, wprowadza ograniczenia na prezentacje książek w systemie PKSK, i tak przygotowane zasoby wprowadza do systemu PKSK. System PKSK wyposażony jest m.in. w przeszukiwanie pełnotekstowe (jest to możliwe, gdyż system dysponuje pełna treścią książek), prezentacje książek zgodne sa natomiast z ograniczeniami wprowadzonymi przez Wydawców. System PKSK wyposażony jest w System do ochrony praw autorskich DRM.

2         Proces przetwarzania danych
Proces przetwarzania danych służy przygotowaniu dla każdej książki zestawu plików i informacji, które umożliwią import książki do katalogu. W ramach procesu przetwarzania przygotowywane są dwa podstawowe typy danych:
- dane cyfrowe - (na podstawie różnych wersji PDF'A) 
- książki w wersji papierowej.  
2.1        Etapy

1. Wydawnictwo przekazuje certyfikowanemu przez PIK podmiotowi, oferującemu usługi konwersji danych do formatu PKSK,  wersję źródłową pozycji wydawniczej (książka w formacie cyfrowym PDF lub w wersji papierowej). Szczegółowy opis niezbędnych do funkcjonowania katalogu danych przygotowany będzie w pierwszej fazie realizacji projektu. 
Docelowo udostępnienie będzie związane z przekazaniem "elektronicznego" egzemplarza sygnalnego 


Jednoczesnie Plik PDF przekazany przez wydawcę musi byc zaopatrzony w minimalny opis (rodzaj klucza, może być to jakaś sekwencja metadanych, np. ISBN), w celach identyfikacji. 
Ponadto plik PDF przekazany przez Wydawcę powinien zawierać sekwencję zezwoleń dla użytkownika końcowego (czytelnika) w zakresie możliwości oglądania wersji elektronicznej.

2. Organizacja zarządzająca PKSK po dokonaniu kontroli jakości wprowadza dane do systemu automatycznej synchronizacji danych między BN i PKSK. Zasoby te są regularnie synchronizowane (co godzinę). Po synchronizacji system generuje alert w formie emaila do osoby odpowiedzialnej za podjęcie odpowiednich działań.

Przekazany Bibliotece Narodowej przez PKSK plik PDF archiwizowany jest w repozytorium  BN i z tego repozytorium na restrykcyjnych zasadach (do ustalenia) udostepniany jest w czytelni BN czytelnikom i innym Bibliotekom 

3. BN dowiązuje do pliku PDF przekazanego przez PKSK pełny (?) lub skrócony (?) (trzeba zdecydowac się) opis bibliograficzny w formacie (Marc21) i taki plik wraz z sekwencjami zezwoleń umieszcza w systemie automatycznej synchronizacji zasobów. 

4. Instytucja zarządzajaca PKSK umieszcza w serwisie przygotowane dane. 
Dane te są odpowiednio zabezpieczone przed nieuprawnionym ich powielaniem i kopiowaniem. Są one udostępniane  zgodnie z sekwencją zezwoleń od Wydawcy czytelnikowi koncowemu. Jednoczesnie serwis udostepnia caly plik PDF (zabezpieczony DRM) ksiegarzowi. 
 
3         Składowanie i udostępnianie danych w BN

Pliki dostarczone do Biblioteki Narodowej (harvestowane z serwerów wydawców?) przez Wydawców będą przechowywane w tzw. bezpiecznym repozytorium cyfrowym (Narodowe Repozytorium Dokumentów Elektronicznych) i opatrzone metadanymi w formacie Dublin Core, które umożliwią ich wyszukiwanie. Będą udostępniane wyłącznie w czytelniach BN, na komputerach skonfigurowanych do przeglądania dokumentów będących pod ochroną prawa autorskiego tzn. nie dających użytkownikowi możliwości kopiowania całości lub części dokumentu, wysyłania go pocztą elektroniczną oraz drukowania. Czytelnik może zamówić wydruk fragmentu tekstu (zgodnie z Ustawą o prawie autorskim) poprzez Biuro Zamówień BN. Taki system funkcjonuje w BN od grudnia 2007 roku dla publikacji cyfrowych z CBN Polona pozostających pod ochroną prawa autorskiego. 

4         Prezentacja danych w katalogu PKSK

W katalogu prezentowane będą tnastępujące typy informacji: 
1. Dane bibliograficzne
2. Okładka
3. Treść książki
4.1        Dane bibliograficzne (Faza 1, zob. Rozdział 7)
Dane bibliograficzne wstępnie definiuje wydawca, uzupełnia BN i publikuje obsługa serwisu.
BN udostępnia w ramach współpracy pełny katalog opisów bibliograficznych  do użycia w PKSK.
4.2        Okładka (Faza 1)
Okładka prezentowana jest w formacie JPG.
4.3        Treść książki (Faza 1)
Zakres prezentowanych w serwisie danych definiuje Wydawca. Opis parametrów znajduje się w punkcie "Funkcjonalność dla wydawcy"  (zob. 5.5.3)

Treść książki prezentowana jest w formie zdjęć stron. Do tego celu zastosować można co najmniej trzy różne formaty. Neurosoft proponuje rozwiązanie, w ramach którego strony będę prezentowane w formacie Neurosoft BIP oraz PNG (ewentualnie JPG). 

Neurosoft BIP (Faza 1)
Zalety:
- duża kompresja - strona w formacie BIP jest wieloktronie mniejsza od JPG lub PNG
- zintegrowane wyszukiwanie pełnotekstowe z podświetlaniem słów kluczowych
- wysoka jakość (600 DPI w porównaniu do 150 DPI JPG)
- zintegrowana synteza mowy
- zintegrowany DRM
Wady
Wymaga instalacji przeglądarki formatu (Java applet)

JPG/PNG (Faza 3)
Zalety
- nie wymaga instalacji przeglądarki formatu
Wady
- słaba jakości przy dużej objętości dokumentu
- utrudnione pełnotektsowe przeszukiwanie  z podświetlaniem słów kluczowych
- brak DRMu

Neurosoft proponuje dualne rozwiązanie z zastosowaniem obydwu formatów. W fazie pilotażowej (Faza1 i Faza 2) wykorzystywany będzie jednak wyłącznie format BIP.
 
4.4        Taksonomie
Katalog tematyczny - hierarchiczny (Faza 2)
W ramach opracowywania książek BN przygotowuje katalog tematyczny książek.  W ramach współpracy BN udostępni w/w katalog do użycia w  projekcie PKSK.
 
5         Funkcjonalność serwisu 

5.1        Pełnotekstowe przeszukiwanie zasobów  (Faza 1)
Przy realizacji pełnotekstowe przeszukiwanie zasobów w portalu PKSK wykorzystane zostanie oprogramowanie NeuroScope?
Opis oprogramowania dostępny jest na stronie Neurosoftu.
5.2        Dla klienta końcowego  (Faza 1)

Pod terminem „klient końcowy” rozumiany jest potencjalny końcowy odbiorca książek. Po wprowadzeniu adresu internetowego np. www.pkks.pl klient końcowy otrzymuje podstawowe uprawnienia dostępu do zawartości serwisu. Serwis nie oferuje personalizacji dostępu dla klienta końcowego (nie ma możliwości zakładania konta w ramach serwisu) .

Strona tytułowa serwisu zawiera następujące kategorie informacji:
1. Zapowiedzi wydawnicze (Faza 2)
2. Nowości (Faza 2)
3. Prezentacje autorów  (Faza 2)
4. Prezentacje dystrybutorów (Faza 2) 
5. Prezenta witryn internetowych (Faza 2)
6. Prezentacje wydawnictw (Faza 2)
7. Prezentacje księgarni (Faza 2)
8. Katalog książek  (Faza 1)
9. Geo-Info (Faza 3)
5.2.1        Katalog Książek (Faza 1)
Podstawową funkcjonalnością serwisu jest możliwość przeszukiwania udostępnianych w serwisie zasobów książkowych. W zależności od zakresu  udostępnianych przez wydawnictwa danych, przeszukiwane mogą być tylko podstawowe dane bibliograficzne lub pełna treść książek. Po wprowadzeniu słowa kluczowego (słów kluczowych), wyboru odpowiedniej kategorii (na podstawie przygotowanej taksonomii), użytkownik otrzymuje listę pozycji zawierających poszukiwaną sentencję, a po wyborze konkretnej pozycji otrzymuje dostęp do treści książki. Wyszukane pojęcia są w pokazywanym wycinku tekstu odpowiednio podświetlone. 
5.2.2        Geo-Info (Faza 3)

Użytkownik podając miejsce pobytu (zamieszkania) otrzymuje listę księgarni w danej lokalizacji
5.3        Dla księgarza  (Faza 2)
 
Księgarze uzyskują dostęp do pełnej zawartości serwisu, a szczególności do pełnego katalogu książek. Aby uzyskać dostęp do serwisu, użytkownik „Księgarz” musi się zarejestrować w serwisie. W ramach procesu rejestracji, na urządzeniu (np. PC) wykorzystywanym przez księgarza do przeglądania serwisu, instalowany jest odpowiedni certyfikat, służący zarówno do jednoznacznej identyfikacji, jak i do szyfrowania pzeglądaych dokumentów.  Użytkownik „Księgarz” otrzymuje tylko prawo do odczytu informacji i nie mam możliwości ich aktualizacji. 
5.3.1        Funkcjonalność podstawowa
Po zalogowaniu użytkownik "księgarz" posiada rozszerzony dostęp do treści książek. Uprawnienia są zależne i definiowane na poziommie wydawnictwa i książki.
5.3.2        Import danych bibliograficznych
Możliwy jest eksport danych bibliograficznych z serwisu do użytkowanego przez księgarza systemu ERP. Dane generowane są w formacie XML. Możliwe, że funkcjonalność ta powinna być odpłatna (np. na zasadzie abonamentu).Import metadanych powinien być możliwy na zasadzie odznaczania wybranych pozycji z opcją wyboru: ze skanem okładki lub bez.
5.3.3        Kolekcje książek
Księgarz może tworzyć własne kolekcje książek.Wydaje się, że funkcjonalność ta jest przejęciem roli sklepu internetowego. Proszę o rozwinięcie problemu.
5.3.4        Generowanie zamówienia
Wyobrażam sobie, że księgarz odwiedzający PKSK w wyniku wyszukiwania i filtrowania tworzy listę tytułów będących podstawą zamówienia. Poszczególne pozycje z listy można edytować do zamówienia. Mam na myśli to, że przy każdej pozycji z listy powinna być możliwość wyboru Dostawcy jak i ilości. Dostawca powinien być wybierany z podręcznego menu. W miarę możliwości przydatna byłaby informacja o wielkości stoku tytułu u dostawcy (coś takiego mają w Hiszpanii) i oczywiście cena. Na jednej liście powinno być możliwe generowanie zamówienia do wielu Dostawców w tym samym czasie z uwzględnieniem warunków minimum logistycznego. Zamknięcie listy zamówienia powinno wygenerować strumień dokumentów do poszczególnych Dostawców. Pozostaje jeszcze problem potwierdzenia przyjęcia zamówienia do realizacji. Opis ten pasuje bardzo dobrze do generowania zamówienia tytułów o dużej rotacji (kasowych, typowych i podobnych). Problem pojawia się w przypadku zamówień nietypowych, dotyczących produktów niszowych. W takim przypadku, o ile Dostawca nie jest Wydawcą, może okazać się, że od informacji o wielkości stoku ważniejszy będzie termin realizacji zamówienia. Taka informacja może decydować o wyborze Dostawcy. Możliwość wyboru odbioru zamówionych książek: odbiór własny lub wysyłka.
 
5.4        Dla dystrybutora  (Faza 2)
 
Dystrybutorzy uzyskują dostęp do pełnej zawartości serwisu, a szczególności do pełnego katalogu książek. Tak jak w wypadku „Księgarza” końcową decyzję, co i w jakim zakresie będzie udostępniane, podejmują wydawcy.
Aby uzyskać dostęp do serwisu, dystrybutor musi się w serwisie zarejestrować. W ramach procesu rejestracji, na urządzeniu (np. PC) wykorzystywanym przez dystrybutora do przeglądania serwisu, instalowany jest odpowiedni certyfikat, służący zarówno do jednoznacznej identyfikacji, jak i do szyfrowania dokumentów.  Użytkownik „Dystrybutor” otrzymuje tylko prawo do odczytu informacji i nie ma możliwości ich aktualizacji.
5.4.1        Funkcjonalność podstawowa
Po zalogowaniu użytkownik "dystrybutor" posiada rozszerzony dostęp do treści książek. Uprawnienia są zależne i definiowane na poziommie wydawnictwa i książki.
5.4.2        Import danych bibliograficznych
Możliwy jest eksport danych bibliograficznych z serwisu do użytkowanego przez dystrybutora systemu ERP. Dane generowane są w formacie XML.
5.4.3        Kolekcje książek
Dystrybutor może tworzyć własne kolekcje książek.
 
5.5        Dla wydawnictwa  (Faza 2)
Grupa użytkowników nazywana „Wydawcy” posiada szczególne uprawnienia. Tylko wydawca może dodawać nowe pozycje do katalogu czy też aktualizować już wprowadzone (tylko własne).
Tak jak w wypadku innych grup użytkowników, aby uzyskać dostęp do serwisu, Wydawca musi się w nim zarejestrować. W ramach procesu rejestracji, na urządzeniu (np. PC) wykorzystywanym do przeglądania serwisu, instalowany jest odpowiedni certyfikat służący zarówno do jednoznacznej identyfikacji, jak i do szyfrowania dokumentów.
5.5.1        Dane bibliograficzne (Faza 1)
1. Tytuł  
2. Autor 
3. Data wydania
4. ISBN
5. DOI
6. Kategoria zgodnie z taksonomią
7. Typ dokumentu (zapowiedż, nowość, książka składowa, ....)
 
5.5.2        Dane do prezentacji książki (Faza 1)
1. Obraz okładki 
2. Struktura książki (?)
     2.1. Wstęp
     2.2. Spis treści
     2.3. Katalog rzeczowy
     2.4. Indeks 
     2.5. Tekst na okładce
3. Treść książki
 
5.5.3    Definicja zasobów dostępnych do przeglądania (Faza 1)
Parametry określające prawa dostępu do książek definiowane są na poziomie, grupy użytkowników (klient-czytelnik, księgarz, dystrybutor) oraz książka (lub jej cżęść : wstęp, katalog rzeczowy, ...) lub kolekcja książek. 

Możliwe są następujące uprawnienia:
1. Blokada pozycji - książka nie jest nigdzie prezentowana - dostępna tylko dla wydawnictwa (F2)
2. Dostępne są następujące elementy - prezentacja (F2)
    książka - dane bibliograficzne (?)
    książka - wstęp (?)
    książka - spis treści (?)
    książka - katalog rzeczowy (?)
    książka - indeks (?)
    książka - tekst na okładce  (?)
    książka - strona-od:strona-do;...;strona-od:strona-do  (F1)
    książka - % treści książki
3. Do płenotekstowego przeszukiwania udostępniana jest cała treść (F1)
 
5.6        Dla bibliotek - Biblioteki Narodowej (Faza 2)
 
Budowa NRDE
Budowa Czytelni zasobów cyfrowych
 
6         Oprogramowanie

W ramach projektu wykorzystane będzie następujące oprogramowanie:

- Linux Debian - system operacyjny
- Neurosoft NeuroLib? - workflow do prezentacji dokumentów elektronicznych
- NeuroScope? - wyszukiwarka internetowa
- NeuroTransformer? - workflow do przetwarzania i generowania dokumentów elektronicznych
- oprogramowanie przygotowane specjalnie dla projektu w języku Java
 
7         Harmonogram

Projekt realizowany będzie w trzech fazach: Faza 1, Faza 2, Faza 3.
7.1        Faza 1 - Przygotowanie wersji demonstracyjnej z ograniczoną funkcjonalnością 
1. Podstawowa funcjonalność dla użytkownika końcowego  (zob. rozdział 5.1, 5.2) 
2. Książki będą prezentowane w formacie BIP i BW (bez koloru)
3. Maksymalna liczba prezentowanych w serwisie książek - 100 
4. Przetwarzane będą książki tylko z wybranych formatów PDFa (najchetniej PDF/A)
5. Import danych bibliograficznych z BN
6. Wyszukiwanie z uwzględnienem morfologii języka polskiego


Termin realizacji 3 miesiące od dnia uruchomienia projektu 
7.2        Faza 2 - Wersja pilotażowa
1. Implementacja pozostałej funkcjonalności  (zob. 5.3, 5.4, 5.5, 5.6)
2. Integracja kolorowych książek
3. Maksymalna liczba książek prezentowanych w serwisie książek - 500 

Termin realizacji 3 miesiące od dnia zakończenia fazy 1 
7.3        Faza 3 - Wersja pilotażowa - końcowa
 1. Implementacja prezentacji danych w alternatywnym formacie graficznym (JPG lub PNG)
2. Maksymalna liczba książek prezentowanych w serwisie książek - 1000
3. Określenie zasad certyfikacji podmiotów oferujących uslugi konwersji
4. Przygotowanie szczegółowych reguł wymiany danych wydawca-usługodawca-PKSK-BN (regulamin)
5. Przygotowanie systemu automatycznej synchronizacji zasobów Usługodawca-PKSK-BN
 Termin realizacji 3 miesiące od dnia zakończenia fazy 2 
7.4        Rozbudowa systemu
Rozbudowę systemu należy rozpatrywać w dwóch perspektywach:
- funkcjonalność
- wydajność.
Wydajność systemu zależna jest od stosowanego  sprzętu, oprogramowania zarządzającego zasobami (baza danych i wyszukiwarka) oraz przyłacza intenetowego.
7.5        Serwis
Neurosoft udziela rocznej gwarancji na dostarczone oprogramowanie oraz sprzęt. Oferowany jest specjalny serwis 24/7 w którym gwarantowany czas reakcji na awarie to 4 godziny.