Wpisy otagowane ‘open knowledge’

Polska dbpedia

wtorek, 7 Czerwiec 2011

Uprzejmie donoszę, że koledzy z KnowledgeHives odpalili polską dbpedię. Bardzo się cieszę i gratuluję! Pewnie wkrótce przestawimy się na konsumowanie wiedzy z polskiej dbpedii. Zachęcam do odwiedzin tutaj.

Access to Knowledge in the Age of Intellectual Property – ciekawa książka

piątek, 12 Listopad 2010

Trafiłem dzisiaj na świeżutką książkę dotyczącą powszechnego dostępu do wiedzy, patentów software’owych, patentów w dziedzinie medycyny, ograniczeń w dostępie do wiedzy wynikających z prawa itp. Książka zatytułowa jest “Access to Knowledge in the Age of Intellectual Property” (Dostęp do wiedzy w czasach własności intelektualnej”) opracowanej przez Gaëlle Krikorian i Amy Kapczynski.
Nie przeczytałem jej jeszcze oczywiście :) więc nie zamierzam jej w ciemno polecać. Jednak po pierwszym przejrzeniu wydała mi się bardzo interesująca. Przede wszystkim dlatego, że odnosi się do problematyki dostępu do wiedzy z wielu różnych perspektyw co pozwala zainteresowanym dokonać szerszego oglądu tematyki. Sprzyja temu również forma – książka jest kompilacją 60 esejów napisanych przez aktywistów, teoretyków, myślicieli. Dzięki tej formule myślę, że każdy sprawnie znajdzie dla siebie interesujące treści.
O książce można też przeczytać tutaj. Na tej samej stronie, na dole, można znaleźć link do wersji pdf na licencji CC.

A tak trochę “off-topic”, przypomniała mi się ciekawa prezentacja, którą jakiś czas temu oglądałem na TED.com. Pozornie luźno związana z zasadniczym, jak mi się wydaje, tematem książki, o której napisałem, ale jednak w tle pojawia się ta sama sfera – własność intelektualna. Tyle, że w tym przypadku bardziej w odniesieniu do twórczej aktywności użytkowników internetu.

Moja Polis – warto zajrzeć – dobre przykłady wykorzystania otwartych danych #2

sobota, 6 Listopad 2010

W serii dobrych przykładów wykorzystania otwartych danych polecam serwis MojaPolis.pl tworzony przez Stowarzyszenie Klon/Jawor. Choć to dopiero wczesna wersja beta, sporo już można zobaczyć. Proste i ciekawe wizualizacje danych pozyskanych chyba na razie głównie z GUS. Trzymam kciuki i życzę rozwoju.

Podsumowanie ogólne Open Access Week przez SPARC

piątek, 29 Październik 2010

Zakończył się światowy Open Access Week. Globalne podsumowanie i wnioski znajdują się tutaj na stronach SPARC.

Postaram się zachęcić polskich uczestników/organizatorów wydarzeń w ramach tygodnia otwartego dostępu do opublikowania podsumowań. Warto od czasu do czasu zajrzeć tutaj.

Open Access Week 2010

czwartek, 14 Październik 2010

Już po raz czwarty, od 18 do 24 października, ruszy globalne wydarzenie pod nazwą Open Access Week. Celem akcji jest budowanie świadomości w kwestii wartości jaką tworzy otwarte dzielenie się wynikami badań naukowych. Koordynatorzy projektu wzywają do powszechnego, otwartego, wolnego/darmowego (tu mam wątpliwość, bo używają angielskiego słowa “free”) dostępu online do wyników badań oraz do prawa do ponownego wykorzystania (re-use) tych wyników w dowolny sposób. O projekcie można przeczytać więcej tutaj.

Inicjatywa polega na organizowaniu konferencji, seminariów, spotkań, dyskusji i wszelkich innych małych i dużych form aktywności zmierzających do popularyzacji postulatu “Open Access”. Polacy też utworzyli póki co małą grupkę, która stara się w miarę możliwości wesprzeć akcję w Polsce. To dobry czas – sporo zaczyna się w Polsce mówić o otwartości danych i ponownym ich wykorzystaniu. Niech Open Access Week 2010 będzie kolejnym bodźcem.

O tym jak istotne mogą być otwarte dane dla rozwoju np. nauk medycznych pisałem już wcześniej tutaj. Kolejnym dobrym przykładem jest inicjatywa gromadzenia i upowszechniania rzetelnych zbiorów danych i wiedzy na temat raka piersi, którą można znaleźć tutaj i przeczytać krótki komentarz do tej inicjatywy tutaj.

SISP – odpowiedź z GUS

poniedziałek, 6 Wrzesień 2010

Kilka dni temu otrzymałem odpowiedź z GUS na moje pytania dotyczące projektu SISP, o którym napisałem w jednym z niedawnych wpisów.

Oto ona:

1. jaki jest bieżący stan realizacji projektu SISP szczególnie w kontekście zadań z pierwszego obszaru (http://www.stat.gov.pl/cois/114.htm) ?

W chwili obecnej dostępne jest Studium Wykonalności obejmujące wszystkie 13 zadań projektu SISP. W zakresie obszaru pierwszego przygotowany został SIWZ dla systemu SMS (System Metadanych Statystycznych), co pozwoli na przeprowadzenie w najbliższym okresie przetargu na wspomniany system. W kolejnych miesiącach tego roku będą przygotowywane dokumenty SIWZ dla innych systemów. W obszarze pierwszym zakładamy następującą kolejność realizacji tych systemów: HDS (Hurtownia Danych Statystycznych), SWAiD (System Wspomagania Analiz i Decyzji), PHD (Publiczna Hurtownia Danych).

Powstał także portal edukacyjny: http://www.edustat.com.pl/.

2. jaki będzie konkretny rezultat projektu w ramach zadań z pierwszego obszaru (http://www.stat.gov.pl/cois/114.htm)? Z czego konkretnie będzie mógł skorzystać np. student? Jakie interfejsy użytkownika, narzędzia filtrujące itp. zostaną zaproponowane – jeśli w ogóle. W jakich formatach przewidujecie Państwo udostępnianie zbiorów danych?

Celem projektu SISP było m.in. umożliwienie dostępu do informacji statystycznych podmiotom życia społeczno-gospodarczego i obywatelom. Dostęp do tej informacji będzie możliwy w takim zakresie w jakim pozwala na to ustawa o statystyce publicznej uwzględniająca w szczególności konieczność zachowania tzw. „tajemnicy statystycznej”. Oznacza to, że ogólnie dostępne będą dane zgromadzone w Publicznej Hurtowni Danych (dane umieszczone w Hurtowni Danych Statystycznych – HDS – będą dostępne jedynie statystykom GUS). Częścią PHD będzie obecnie funkcjonujący i dostępny w Internecie Bank Danych Regionalnych (BDR). Bank ten zostanie rozbudowany do poziomu miejscowości i będzie funkcjonował jako Bank Danych Lokalnych (BDL).

System Wspomagania i Decyzji umożliwi łatwiejszy i przyjaźniejszy dostęp do tych danych poprzez wykorzystanie m.in. systemów klasy Business Intelligence (BI). Istotne będzie także powiązanie prezentowanych danych z metainformacją, co m.in. ułatwi dostęp do właściwych danych i umożliwi poprawną interpretację uzyskanych danych.

Pytanie o konkretne narzędzia i interfejsy użytkownika jest przedwczesne ponieważ będzie to wynikiem z jednej strony przetargu, a z drugiej realizowanego projektu. Na obecnym poziomie można mówić o pulpitach informacyjnych (dashboards) umożliwiających różnorodne zobrazowanie uzyskanych danych (tabele, grafy, diagramy, mapy).

Dane będą udostępniane przez Internet, natomiast dla wybranych użytkowników będzie możliwe zautomatyzowane pozyskiwanie danych wykorzystując usługi sieciowe (Web services), podobnie jak już obecnie jest udostępniany rejestr TERYT.

I jeszcze jedno pytanie bardziej ogólne:

3. Czy znany jest Państwu projekt data.gov.uk i czy zamysł stojący za SISP w kontekście zadań z pierwszego obszaru jest podobny do tego co zostało wykonane w ramach data.gov.uk.

Podczas budowy systemu informacyjnego będziemy korzystali z doświadczeń różnych instytucji i organizacji, także międzynarodowych. Takich przykładów jak wspomniany http://data.gov.uk/

jest więcej np. strony UN dające bezpośredni dostęp do baz danych http://w3.unece.org/pxweb/Dialog/, czy strony Eurostatu http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/.

Dziękuję.

Dopytałem jeszcze o kilka kwestii dotyczących projektu (prawne i techniczne) więc kiedy tylko dostanę odpowiedź, zamieszczę na blogu.

Czy dane z inspekcji sanitarnych mogą być udostępnione?

wtorek, 10 Sierpień 2010

W ramach zbierania pomysłów na zbiory danych, które mogłyby być opracowywane przez OpenBase.pl i udostępniane pojawił się pomysł dotyczący wyników kontroli inspekcji sanitarnych w lokalach gastronomicznych. Inspiracją z jednej strony była prywatna rozmowa o tym temacie a z drugiej przykład pochodzący z Lichfield, UK. Odnosiłem się do szerzej do projektu publikacji otwartych danych w Lichfield już we wcześniejszym poście. W Lichfield, w rezultacie otwartego udostępniania danych o wynikach kontroli sanitarnych w lokalach gastronomicznych, powstał serwis (czyli przykład o co dokładnie chodzi w koncepcji “re-use”) www.ratemyplace.org.uk . Tu można zobaczyć jak wygląda przykładowy wpis w katalogu obiektów gastronomicznych wraz z wynikami inspekcji.

Pomyślałem, że ciekawie byłoby pozyskać i udostępnić dane z inspekcji sanitarnych w obiektach gastronomicznych z dowolnego miasta. Zadzwoniłem więc do wybranego oddziału Państwowej Inspekcji Sanitarnej a w rezultacie tej rozmowy złożyłem stosowny wniosek pisemnie.

We wniosku poprosiłem o:
1. udostępnienie jednostkowych wyników przeprowadzonych inspekcji sanitarnych w lokalach gastronomicznych w roku 2009 z podaniem dokładnej nazwy obiektu
2. w przypadku odmowy udostępnienia danych poprosiłem o podstawę prawną.

Poniżej zamieszczam odpowiedź. Na razie bez żadnego komentarza. Zapraszam do dyskusji.

Państwowy Inspektor Sanitarny w ….. nawiązując do Pana pisma z dnia 26.07.2010r. informuje, ze nie udostępni danych szczegółowych na temat wyników inspekcji w lokalach gastronomicznych na terenie ……., podając nazwę obiektu i wynik kontroli z 2009r.
Do rozstrzygnięcia powyższego zagadnienia zastosowanie znajdują następujące przepisy ustawy z dnia 29 sierpnia 1997 r. o ochronie danych osobowych (Dz.U.02.101.926 z późn. zm.)
„Art. 26. 1. Administrator danych przetwarzający dane powinien dołożyć szczególnej staranności w celu ochrony interesów osób, których dane dotyczą, a w szczególności jest obowiązany zapewnić, aby dane te były:
1) przetwarzane zgodnie z prawem,
2) zbierane dla oznaczonych, zgodnych z prawem celów i niepoddawane dalszemu przetwarzaniu niezgodnemu z tymi celami, z zastrzeżeniem ust. 2,
3) merytorycznie poprawne i adekwatne w stosunku do celów, w jakich są przetwarzane,
4) przechowywane w postaci umożliwiającej identyfikację osób, których dotyczą, nie dłużej niż jest to niezbędne do osiągnięcia celu przetwarzania.
2. Przetwarzanie danych w celu innym niż ten, dla którego zostały zebrane, jest dopuszczalne, jeżeli nie narusza praw i wolności osoby, której dane dotyczą, oraz następuje:
1) w celach badań naukowych, dydaktycznych, historycznych lub statystycznych,
2) z zachowaniem przepisów art. 23 i 25.
Art. 27. 1. Zabrania się przetwarzania danych ujawniających pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub filozoficzne, przynależność wyznaniową, partyjną lub związkową, jak również danych o stanie zdrowia, kodzie genetycznym, nałogach lub życiu seksualnym oraz danych dotyczących skazań, orzeczeń o ukaraniu i mandatów karnych, a także innych orzeczeń wydanych w postępowaniu sądowym lub administracyjnym.

W zakresie odmowy udostępnienia akt wnioskodawcy zastosowanie mają także przepisy ustawy z dnia 22 stycznia 1999 r. o ochronie informacji niejawnych (Dz.U.05.196.1631 z późn. zm.)
„Art. 1. 1. Ustawa określa zasady ochrony informacji, które wymagają ochrony przed nieuprawnionym ujawnieniem, jako stanowiące tajemnicę państwową lub służbową, niezależnie od formy i sposobu ich wyrażania, także w trakcie ich opracowania, zwanych dalej “informacjami niejawnymi”, a w szczególności:

3) udostępniania informacji niejawnych;

2. Przepisy ustawy mają zastosowanie do:
1) organów władzy publicznej, w szczególności:
……..
c) organów administracji rządowej,
d) ………
e) sądów i trybunałów,
f) organów kontroli państwowej i ochrony prawa;
…………..
4) państwowych osób prawnych i innych niż wymienione w pkt 1-3 państwowych jednostek organizacyjnych;
5) przedsiębiorców, jednostek naukowych lub badawczo-rozwojowych, zamierzających ubiegać się, ubiegających się o zawarcie lub wykonujących umowy związane z dostępem do informacji niejawnych albo wykonujących na podstawie przepisów prawa zadania związane z dostępem do informacji niejawnych.
3. Przepisy ustawy nie naruszają przepisów innych ustaw o ochronie tajemnicy zawodowej lub innych tajemnic prawnie chronionych.
Art. 2. W rozumieniu ustawy:
2) tajemnicą służbową – jest informacja niejawna niebędąca tajemnicą państwową, uzyskana w związku z czynnościami służbowymi albo wykonywaniem prac zleconych, której nieuprawnione ujawnienie mogłoby narazić na szkodę interes państwa, interes publiczny lub prawnie chroniony interes obywateli albo jednostki organizacyjnej;
……….

Art. 3. Informacje niejawne mogą być udostępnione wyłącznie osobie dającej rękojmię zachowania tajemnicy i tylko w zakresie niezbędnym do wykonywania przez nią pracy lub pełnienia służby na zajmowanym stanowisku albo innej zleconej pracy.”

Jak z powyższego stanu prawnego wynika uzasadniona jest odmowa udostępnienia danych szczegółowych na temat wyników inspekcji w lokalach gastronomicznych na terenie ………., podając nazwę obiektu i wynik kontroli.

System Informacyjny Statystyki Publicznej GUS – obiecujący polski projekt

piątek, 16 Lipiec 2010

Poszukując ciekawych polskich projektów zmierzających do otwartej publikacji danych z sektora publicznego (i nie tylko) natrafiłem na interesujący projekt realizowany przez Główny Urząd Statystyczny. Projekt ten nazywa się: System Informacyjny Statystyki Publicznej. Na stronie głównej jest informacja o dacie rozpoczęcia projektu (30 czerwca), ale nie ma tam roku więc nie wiem czy to temat świeży czy już roczny, czy wieloletni. Zwrócę się pewnie wkrótce do rzecznika projektu, żeby zebrać więcej szczegółów i podzielić się nimi.

W każdym razie cele projektu brzmią obiecująco:

Cele główne projektu SISP obejmują:

- upowszechnienie wiedzy o zjawiskach i procesach objętych badaniami statystycznymi, niezbędnej dla właściwego ukierunkowania działań jednostek administracji, przedsiębiorstw i obywateli,
- udostępnianie standardów informacyjnych dla systemów informacji społecznej i gospodarczej (mierniki zjawisk i procesów społecznych i ekonomicznych, klasyfikacje, nomenklatury, typologie, statystyczne definicje pojęć oraz odpowiadające im wskaźniki statystyczne),
- umożliwienie przekazywania, przechowywania i przetwarzania sprawozdań statystycznych w postaci elektronicznej, w tym w obszarze interoperacyjności (wymiany informacji z systemami sprawozdawców),
- utworzenie kanałów komunikacyjnych pomiędzy statystyką publiczną a systemami w innych jednostkach administracji,
- zapewnienie zaplecza informacyjnego, analitycznego i metodycznego dla organów państwa i innych jednostek sektora publicznego, w tym na potrzeby budżetowania zadaniowego oraz polityki regionalnej,
- edukację statystyczną społeczeństwa, jako jedno z działań na rzecz rozwoju społeczeństwa informacyjnego.

Bank Światowy udostępnia otwarte dane – dobre przykłady publikowania #2

czwartek, 15 Lipiec 2010

Czas na kolejny wpis pokazujący dobry przykład z zakresu publikacji otwartych danych.

20 kwietnia 2010 Bank Światowy utworzył na swoich stronach internetowych dział zawierający mnóstwo otwartych danych. W swoim opisie projektu Bank napisał m.in.:

The World Bank recognizes that transparency and accountability are essential to the development process and central to achieving the Bank’s mission to alleviate poverty. The Bank’s commitment to openness is also driven by a desire to foster public ownership, partnership and participation in development from a wide range of stakeholders. As a knowledge institution, the World Bank’s first step is to share its knowledge freely and openly.

czyli

Bank Światowy zauważa, że przejrzystość danych i odpowiedzialność za nie są fundamentalne dla rozwoju oraz kluczowe dla osiągnięcia misji Banku jaką jest walka z ubóstwem. Zaangażowanie Banku w otwartość wynika również z potrzeby zwiększenia publicznej własności, partnerstwa i uczestnictwa w rozwoju ze strony różnych zainteresowanych podmiotów. Pierwszym krokiem Banku Światowego, jako instytucji opartej na wiedzy, jest swobodne i otwarte dzielenie się tą wiedzą.

Zachęcam do eksploracji potężnych ilości danych. Przy okazji, zwraca uwagę mnogość formatów w jakich dostarczane są dane oraz udostępnienie API dla developerów.

Poniżej komunikat Prezesa Banku Światowego Roberta B. Zoellick’a na temat otwarcia danych Banku Światowego.

Miejmy nadzieję, że już wkrótce będziemy oglądać takie serwisy w Polsce.

Co można zrobić z otwartymi danymi? #1

wtorek, 13 Lipiec 2010

Tym razem postanowiłem pokazać co można zrobić jeśli dane są dostarczane w sposób otwarty. Na głównego bohatera tego wpisu wybrałem Profesora Hansa Roslinga, o którym wspomniałem już w jednym z wcześniejszym postów. Podobnie jak w przypadku poprzedniego posta, temu nadałem numer jeden, bo mam nadzieję :) rozpocząć nim serię postów poświęconych dobrym przykładom korzystania z otwartych danych.

Po raz pierwszy zetknąłem się z jego pracą i pasją oglądając jego świetne prezentacje na TED.com. W porywający sposób, używając świetnych narzędzi do wizualizacji przedstawił “the best stats you’ve ever seen” (tu na TED.com). Zaciekawiony tym co zobaczyłem podczas prezentacji postanowiłem dowiedzieć się więcej o Hansie Roslingu i jego pracy. I w ten sposób dotarłem do jego fundacji o nazwie Gapminder.
Za drugim razem zetknąłem się z prof. Roslingiem kiedy okazało się, że jest członkiem zespołu doradczego w fundacji Open Knowledge Foundation – organizatora konferencji OKCon, o której pisałem wcześniej i na której byłem w tym roku.
Fundacja Gapminder została założona w Sztokholmie w 2005 roku. Początkowym celem działania fundacji był rozwój aplikacji o nazwie Trendalyzer. Aplikacja ta służy do dynamicznych prezentacji zmian wartości danych lub zbiorów danych statystycznych w czasie w ich kontekście geograficznym. Narzędzie okazało się tak interesujące, że w 2007 roku odkupił je od fundacji, wraz z zespołem developerów, Google.
Obecnie Gapminder skupia się na, jak sami o sobie piszą, na byciu “zbiornikiem danych” i “promowaniu obrazu świata opartego na faktach”. Dzięki gromadzeniu i sięganiu po różne zbiory danych Gapminder dostarcza świetnych wizualizacji oraz zbiorów danych do swobodnego, ponownego wykorzystania pod warunkiem udzielenia informacji o źródle ich pochodzenia.

Serdecznie zachęcam do pobawienia się Gapminder World.

Ponadto na stronie Fundacji można dotrzeć do świetnych zbiorów danych , a dla tych, którzy sami chcieliby pobawić się wizualizacjami na własnym komputerze, Fundacja przygotowała oprogramowanie Gapminder Desktop

Natomiast tym, których interesuje wykorzystuje sieciowego narzędzia Trendalyzer, a właściwie obecnie Google Visualisation API, polecam ten link.

Zainteresowanych głównym bohaterem tego wpisu, Hansem Roslingiem, zachęcam też do odwiedzenia poświęconej mu strony na TED.com. Tam znajdziecie również linki do jego prezentacji na TED. Dla zmęczonym nowoczesnymi metodami wizualizacji danych przy użyciu komputera chwilą wytchnienia będzie ta prezentacja (kliknij). :)

Czas na dobre przykłady z zakresu publikowania PSI – #1

środa, 30 Czerwiec 2010

Żeby pomóc komuś zrobić coś dobrze, dobrze jest pokazać dobre przykłady. I tak sobie pomyślałem, że zamiast marudzić, że w Polsce PSI nie zyskuje uznania rządzących i tym samym może potencjalnie stanowić istotny problem rozwoju społecznego (uargumentuję tę tezę w jednym z nadchodzących wpisów), postaram się wybrać kilka dobrych przykładów z zakresu PSI.

W tytule dałem #1, ponieważ zakładam, że zrobi się z tego cykl postów – czas pokaże :) . Na początek przyjrzę się przykładowi z Wielkiej Brytanii.

Pisałem już wcześniej o sporym sukcesie wspieranego przez Tim’a Berners’a-Lee projekcie data.gov.uk. Ale nie od niego chcę zacząć. Zależy mi na pokazaniu inicjatyw dużo skromniejszych, ale jednocześnie bardzo interesujących i ważnych. Tym bardziej, że osobiście wierzę w lokalność dostarczania otwartych danych i na tej podstawie kompilowania danych regionalnych, krajowych itd. Moim zdaniem, kluczową kwestią w tworzeniu społeczeństwa otwartej wiedzy jest odpowiedzialność jednostki wobec najbliższych terytorialnie ludzi (sąsiedzi, mieszkańcy mojego miasta itp.) za rzetelność publikowanych danych. Z drugiej zaś strony, lokalne kwestie są mimo wszystko zazwyczaj dużo bardziej interesujące, zrozumiałe i istotne dla człowieka niż problemy państwa czy narodu, nie wspominając o kwestiach międzynarodowych.

Dlatego wybrałem Lichfield District a dokładniej zbiór danych umieszczonych w sekcji Open Data tutaj.

Zbiór danych podzielony jest na kilka kategorii m.in. Edukacja, Wiadomości bieżące i wydarzenia, Planowanie i rozwój. Dzięki portalowi można “dobrać się” do danych o nadchodzących wydarzeniach importując je bezpośrednio dzięki plikowi wymiany ical lub subskrybując plik RSS. Dane dotyczące ostatnich kontroli ichniejszego Sanepid’u można pobrać/przejrzeć w formacie georss-xml. Wyniki wyborów można pobrać w bardziej semantycznym formacie tj. RDFa. Wydatki na różne wynagrodzenia radnych można pobrać w pliku csv podobnie jak listy radnych i dane kontaktowe do nich. Mamy tam również informacje o ważnych miejscach różnego rodzaju publikowane w formacie KML (w uprzoszczeniu, jest to XML Google’a służący do wymiany informacji geolokalizacyjnych).

To zaledwie kilka prostych przykładów. Zainteresowanych odsyłam do źródła. Chyba próżno szukać tego typu danych w otwartym formacie w BIPach. :) Jeśli się mylę, bardzo się cieszę :) i czekam na komentarze z linkami. Naprawdę z przyjemnością usłyszę komentarz “cudze chwalicie… ”

Co do wykorzystania tego typu danych, pozastawiam to wyobraźni. Ze swojej strony mógłbym zacząć od prostego wykorzystania danych wprost do publikacji gazetowych i internetowych lub zestawianiu ich ze sobą w dowolnej, istotnej z punktu widzenia badacza/reportera/obywatela, konfiguracji.

Drodzy Państwo z województw, powiatów, gmin, miast, miasteczek i wsi – opublikujcie miesięcznie chociaż jeden plik w formacie CSV lub XML lub RDFa lub … innym otwartym z jakimiś istotnymi danymi. Choćby nawet z populacją swojego obszaru, rozkładem populacji według płci, danymi osób sprawujących władzę według czasu, wydatkach itp..

Po konferencji OKCon 2010

czwartek, 13 Maj 2010

Cieszę się, że wziąłem udział w tej konferencji. Spośród wielu prezentacji wybrałem kilka, które najbardziej mnie interesowały. Dotyczyły one praktycznych zastosowań technologii semantic web w publikacji danych z sektora publicznego, aspektów prawnych (model licencjonowania) oraz społecznych konsekwencji otwartości danych.

Dla Brytyjczyków jest to rok sporego sukcesu w tym zakresie ponieważ uruchomili data.gov.uk. Pisałem o tym w jednym z wpisów na blogu SemWeb.pl. Wiele osób podczas swoich prezentacji odnoszących się do PSI (public sector information) wspominało o tym projekcie i o dostępie do zsemantyzowanych danych z domeny publicznej. Ciekawym aspektem poruszanym przez osoby, które opowiadały o swoich projektach związanych z publikowanie danych PSI, był opór ze strony urzędników oraz słabo jeszcze zbadany wpływ społeczny zapewnienia dostępu i możliwości ponownego wykorzystania danych.

“Open data” stało się mantrą przewijającą się w prezentacjach, dyskusjach, debatach, rozmowa prywatnych. Kilkakrotnie przywoływano potrzebę stworzenia prawa, które zapewniałoby otwartość (openness), dostępność (accessibility) i możliwość ponownego wykorzystania (re-usability) danych – stąd propozycja nazwy “Freedom of data” będąca oczywista analogią do “freedom of speech”.

Kolejnym interesującym zbiorem prezentacji były prezentacje poświęcone zastosowaniu otwartych form publikacji danych w świecie nauki. W tej działce wiodącym tematem były okryte ostatnimi czasy złą sławą dane z zakresu zmian klimatycznych. I tu pojawiła się bardzo ciekawa konkluzja, której najprościej ujmując brzmiała następująco: ważne jest nie tylko otwarte publikowanie danych wejściowych i wyjściowych różnych analiz naukowych (tu w kontekście danych klimatycznych), ale również otwartość kodu programistycznego aplikacji, które te dane przetwarzają i generują. Postulat bardzo ważny i jednocześnie wielkie wyzwanie.

Moja prezentacja dot. projektu Open Natura 2000, choć krótka (5 min.), spotkała się z dobrym przyjęciem. Miałem wrażenie, że na początku słuchaczy zaintrygował fakt, że program Natura 2000 jest tak dużą inicjatywą europejską, a oni nic o nim nie wiedzą. :) W kilku rozmowach, które przeprowadziłem po prezentacji moi rozmówcy docenili konstrukcje projektu (zaangażowanie uczelni, instytucji samorządowej i firmy komercyjnej) oraz jego merytorykę jednocześnie sugerując, żebyśmy możliwie szybko starali się o pozyskania zewnętrznego finansowania dla tego przedsięwzięcia. :) Już o tym myślimy.

Co jeszcze… A, może trochę informacji praktycznych. Materiały pokonferencyjne można znaleźć zarówno tutaj na stronie Open Knowledge Foundation jak i w Archiwum Internetowym.

Konferencja “Wiedza otwarta” w Londynie

poniedziałek, 22 Marzec 2010

Fundacja The Open Knowledge Foundation organizuje po raz piąty konferencję poświęconą różnym koncepcjom i projektom służącym propagacji udostępniania i wykorzystywania tzw. wiedzy otwartej. O samej wiedzy otwartej pisałem już jakiś czas temu.

Za Fundacją stoi ciekawi ludzie zaangażowani w propagowanie technologii semantycznych i nie tylko. Można o nich poczytać tutaj. Są wśród nich np. autorzy projektu Dbpedia. Świetnym gościem jest Hans Roslin, którego prace poznałem dzięki jego prezentacjom na TED.com – świetnie pokazuje jakie pouczające wizualizacje można opracować na podstawie otwartych danych dotyczących różnych zagadnień społecznych.

Program konferencji znajduje się tutaj. Wybieram się na tę konferencję. Zgłosiłem tam nawet krótki speech, który został przyjęty do programu. Podczas mojej prezentacji zatytułowanej Providing open data for non-commercial and commercial purposes – an outline of ‘Open Natura 2000′ project (Udostępnianie otwartych danych dla celów nikomercyjnych i komercyjnych – zarys projektu Open Natura 2000) opowiem o opisanym przeze mnie tutaj przedsięwzięciu dotyczącym semantyzowania danych  ze standardowych formularzy danych obszarów Natura 2000.

Debata “Polska Otwarta” i co to jest “re-use”…

piątek, 5 Marzec 2010

1 marca w Collegium Civitas w Warszawie odbyła się debata Ośrodka Badań nad Przyszłością Collegium Civitas i Instytutu Obywatelskiego PO RP pod nazwą “Polska Otwarta”.

Zainteresowała mnie ponieważ kluczowym tematem debaty była kwestia tzw. domeny publicznej. Temat domeny publicznej zainteresował mnie z kolei w kontekście projekt OpenNatura2000, o którym pisałem w poprzednim poście. Idąc tym tropem po rozmowie z kilkoma osobami zaangażowanymi w temat (przy okazji dziękuję tym, którzy w ostatnich dniach poświęcili mi parę chwil) dotarłem do zagadnienia o tajemniczej etykiecie “re-use”.

O co w tym wszystkim chodzi? Gdzie leży interesujący mnie punkt styku pomiędzy tymi tematami. Krótko:

a. public domain, czyli domena publiczna to, syntetyzując jej definicję, wszelkie wytwory, z których można korzystać swobodnie bez ograniczeń wynikających z praw autorskich. Temat oczywiście jest bardzo obszerny a zainteresowanych zachęcam póki co do własnych poszukiwań – za słabo jeszcze czuję się w temacie, żeby coś konkretnego sugerować. Można zacząć od Wikipedii, w której jest kilka ciekawych linków np. do stanowiska UNESCO w tym temacie. Dla mnie na razie kluczowe było to, że dane należące do sektora publicznego w znacznej części powinny znaleźć się w domenie publicznej. W projekcie OpenNatura2000 takimi danymi są moim zdaniem dane zawarte w standardowych formularzach danych.

b. “re-use” to termin wchodzący w skład nazwy dyrektywy unijnej odnoszącej się do ponownego wykorzystania informacji z sektora publicznego. Dyrektywa ta zawiera wskazówki i zobowiązania dla państw członkowskich odnośnie do kwestii udostępniania informacji z sektora publicznego. I tu znowu zwróciło to moją uwagę w kontekście obecnie interesujących mnie danych na temat obszarów Natura2000, ale oczywiście zakres tych danych jest gigantyczny. Ministerstwo Spraw Wewnętrznych i Administracji prowadzi obecnie projekt ustawy o ponownym wykorzystaniu informacji z sektora publicznego – szczegóły założeń oraz zbiór uwag można znaleźć tutaj. Tu z kolei można sprawdzić stan wdrożenia tej dyrektywy unijnej. Tematyce “re-use” sporo miejsca poświęca również Piotr Waglowski w swoim serwisie prawo.vagla.pl.

c. Kilka krajów traktuje temat upubliczniania danych z sektora publicznego bardzo poważnie. Dwa świetne przykłady to amerykański data.gov i brytyjski data.gov.uk.  Warto zajrzeć. W obydwu przypadkach uzyskujemy dostęp do olbrzymich ilości zbiorów danych upublicznionych w otwartych formatach (csv, xml). Genialne! Z mojej perspektywy bardzo interesujące jest to, że Brytyjczycy udostępnili końcówkę do składania zapytań w SPARQL czyli witamy w świecie Semantic Web (nic dziwnego – maczał w tym palce Tim Berners-Lee – znany orędownik standardów SW).

Otóż generalnie o technologie mi chodzi. To świetnie, że kierunek “Give me raw data now!” został wyraźnie obrany przez instytucje unijne i odpowiednie organy w wielu państwach. Bardzo ważne jest jednak, ale walczyć o świadomość technologiczną wśród ustawodawców pokazując im jaką wartość ma “re-use” plików jpg czy zamkniętych pdf’ów ze skanami dokumentów, a jaką ma wartość  kiedy wystawimy dane choćby w zwykłym csv.

OpenNatura2000 – semantyzujemy wybrane dane o obszarach Natura 2000

wtorek, 2 Marzec 2010

Rozpoczęliśmy pracę nad prototypem semantycznej bazy wiedzy o obszarach Natura 2000. Robocza nazwa projektu to OpenNatura2000. Wybraliśmy obszary Natura 2000 do naszego projektu ponieważ chcemy w ten sposób przetestować użyteczność udostępniania danych z domeny publicznej w formatach typowych dla technologii Semantic Web.

Cele nadrzędne projektu:

1. Udostępnienie wybranych danych o obszarach Natura 2000 w technologii Semantic Web

2. Wykazanie, że dzięki udostępnianiu baz wiedzy w technologii Semantic Web i łączeniu jej z innymi bazami wiedzy powstaje nowa jakość w sposobach prezentacji danych usprawniająca pozyskiwanie informacji, analizowanie danych, wnioskowanie itp. zarówno przez człowieka jak i aplikacje komputerowe.

3. Sprawdzenie użyteczności technologii/standardów Semantic Web jako “narzędzia” udostępniania wiedzy należącej do domeny publicznej.

Cele operacyjne:

1. zbudować bazę wiedzy na podstawie wybranych danych o obszarach Natura 2000 w Polsce i powiązać ją z innymi bazami wiedzy

2. wykonać aplikację agentową udzielającą dynamicznie odpowiedzi wywnioskowanych z faktów pochodzących z co najmniej trzech baz wiedzy w tym co najmniej jednej zewnętrznej (np. dbpedia – semantyczna wersja wikipedii).

Sposób realizacji:

1. zamodelowanie ontologii w języku OWL do reprezentowania wybranych danych pochodzących ze Standardowych Formularzy Danych obszarów Natura 2000

2. spopulowanie ontologii danymi zaimportowanymi z SDF

3. udostępnienie bazy wiedzy jako triplestore, prawdopodobnie z końcówką do składania zapytań w języku SPARQL

4. powiązanie bazy wiedzy z innymi bazami wiedzy (np. dbpedia, linked life data itp.)

5. stworzenie aplikacji agentowej wnioskującej na podstawie wiedzy pochodzącej z co najmniej trzech baz wiedzy (o aplikacji i stawianych przed nią zadaniach napiszę wkrótce)

6. wykonanie prototypowej aplikacji edukacyjnej udostępnionej poprzez stronę internetową obrazującą potencjał rozwiązania.

Zaangażowane podmioty:

1. zespół badawczo-rozwojowy mediaSELF.pl – autor i główny wykonawca projektu

2. Wydział Elektroniki i Informatyki Politechniki Koszalińskiej - współpraca naukowa

3. Słowiński Park Narodowy – współpraca merytoryczna.

Jako ciekawostkę warto dodać, że w trakcie realizacji projektu powstaną 3 prace magisterskie. Będą one pisane przez dyplomantów WEiI Politechniki Koszalińskiej.