Попри трендовість у низці країн, в Україні пряма дискусія навколо принципу Open by default не є активною. Водночас, члени середовища відкритих даних, незалежно одні від одних, говорять про це як про актуальний виклик, на який вже варто визначатися із відповіддю.

Наш наступний співрозмовник з циклу “Друзі відкритих даних” - аналітик Transparency International у проекті ProZorro Сергій Павлюк. І він - категорично проти Open by default.

Чому у нього така позиція, як потрапив у професію, з якими труднощами стикався у третьому секторі, бізнесі і як воно - співпрацювати із владою, читайте далі в інтерв’ю.Сергій Павлюк


Хто такий Сергій Павлюк

Сергій Павлюк - народився 1989 року. Аналітикою даних цікавився ще зі студентства у ЛНУ імені Івана Франка. Після навчання працював у бізнесі, зокрема - аналітиком процесів у компанії HBPI і спеціалістом із business intelligence у BitImpulse. З серпня 2016 року - член команди Transparency International у проекті ProZorro.

Спочатку ще кілька слів про ProZorro. Це електронна система, що зробила відкритою інформацію про держзакупівлі. Платформа отримала від  українського експертного середовища та міжнародної спільноти великий кредит довіри. 
Керівник групи реформ Міністерства фінансів України Олександр Щелоков відзначав, що не всі дані сервісу придатні для машинного зчитування. 
 Сергій Павлюк розповів, що станом на зараз є три основні групи немашиночитних даних:

оголошення тендеру, де замовники викладають вимоги до учасників, умови доставки і оплати, деталізують вимоги до товару/роботи/послуг та ін. у форматах doc, pdf, jpeg;
документи від учасників, де вони надають свої пропозиції або папери, що підтверджують їхню кваліфікацію;
договори/додаткові угоди.

Більшість із переліченого (якщо воно буде до цього придатне) планують перевести у цифровий вигляд впродовж року-півтори.

Читати також: Друзі відкритих даних. Олександр Щелоков про гравців українського opendata-ринку.

***

Перша любов і ненависть

[про перше знайомство з відкритими даними]

 

Вперше я зіткнувся з відкритими даними ще студентом. На парах зі статистики ми тоді мали дослідити щось, пов’язане із освітою - кількість школярів і як вона змінювалася з роками, здається. І для цього використати інформацію із сайту Державного комітету статистики. Тоді почалося моє знайомство з відкритими даними. І з того часу я зненавидів Держкомстат, зокрема їх сайт (сміється. - авт.). Було враження, ніби на цьому сайті зробили все, що лиш можна зробити поганого з відкритими даними. 

Але я після цього досвіду дані не закинув. Наприкінці навчання чи одразу після закінчення університету вирішив підівчити  цю тему більш детально. Знайшов курси на Coursera. Там в рамках навчальної програми пропонувались для аналізу вже готові набори даних. На відміну від Держкомстату, тут набори були добре структоровані та почищені.  Завдяки цьому я зрозумів, як дані мають виглядати і як їх використовують у інших країнах. Так продовжилася моя особиста  історія стосунків з відкритими даними. Я не зневірився і отримав уявлення, що з ними можна зробити і для чого вони є.

***

Підступний третій сектор

[про теперішню роботу]


До своєї теперішньої посади у Transparency International  я працював тільки у бізнесі. Навіть не думав, що колись буду у третьому секторі. Не розумів, що роблять громадські організації  і навіщо вони потрібні. Зараз думаю, що мій прихід у це середовище - це заслуга Макса Нефьодова. Бо члени його команди дуже класно розповідали про ProZorro. Про те, як воно змінить систему, усю країну і як можна стати частиною цього процесу. Отже, після презентації у Львові остаточно вирішив,  що треба долучатися. Зв'язався з ними, попросився поволонтерити. А потім з’явилися дві вакансії - у Transparency і у державному підприємстві ProZorro. Подався на обидві. Вибрав Transparency, тому що тут мені пропонували більше можливостей та ширші повноваження. Також це був шанс відкрити для себе нову царину і зрозуміти нарешті, що ж це таке - цей третій сектор.  

Так я отримав роботу. Думав, тут буде як у бізнесі, коли є проект і ти доводиш свою роботу до кінця. Але ні! Тепер я вже знаю, наскільки він підступний - цей третій сектор. Тут все заплутано і стільки бюрократії, що навіть не снилось. У бізнесі набагато простіше. 

А, ще важливий штрих - політичний контекст.  Для команди необхідність якихось змін може бути очевидною, але все гальмується на етапі Верховної Ради. Наприклад, один з принципово важливих для ProZorro законів не приймали більш ніж півроку. І от ти сидиш та чекаєш, бо без законодавчого підкріплення твоя робота не може бути завершеною. 

Читати також: Друзі відкритих даних. Катерина Оніліогву про людяність і машиночитність у роботі з OPEN DATA

***

Будні аналітика

[про поточний проект]  
 
Я зараз займаюся розвитком модуля аналітики для ProZorro. Це інструмент, розроблений для того, щоб замовники, проаналізувавши себе за низкою критеріїв: конкуренції, економії, кількості успішних торгів тощо, могли чіткіше побачити, де у них проблемні зони у закупівлях, що можна покращити, який досвід запозичити. 

Бізнесу цей інструмент також корисний. Потенційні учасники закупівель можуть знайти собі ніші із низькою конкуренцією або узагалі незайняті. Оцінити, із якими замовниками (тобто, держустановами) варто працювати, а яких слід уникати.  

Модуль аналітики можна також використати для аналізу своїх конкурентів або пошуку потенційних надійних контрагентів (які успішно виконали багато договорів у системі). 

Тут про всяк нагадаю, що замовник - це державна установа/підприємство, що має певну потребу і для її задоволення оголошує тендер (або укладає прямий договір). Учасник - підприємство/ФОП, що подали свою пропозицію для участі у тендері. 

Якісна робота модуля аналітики дуже залежить від оновлень, які впроваджує державне підприємство ProZorro (далі ДП. - авт.) Тому вкрай важливо знати, що колеги роблять - аби максимально швидко вносити зміни. Раніше були ситуації, коли вони щось додали, а ми навіть ні сном, ні духом. Зіткнувшись із проблемами в комунікації раз, налагодили нормальну співпрацю. Тепер системно тримаємо зв’язок і мушу сказати, що це досить цікаво - час від часу  зануритися з ними у процес. Подивитись, як наша робота виглядає з точки зору державного підприємства.  

Так само тісно спілкуємося із департаментом закупівель Міністерства економічного розвитку. Там теж класні люди, справді професіонали, з якими можна порадитися, обговорити поточні проблеми. Тож поки я цілком задоволений цією співпрацею. Якби ще у ДП було більше грошей  на реалізацію задуманого і закони швидше приймалися  - було б взагалі супер. 


 

 

 

 

 

Фото з особистого архіву Сергія Павлюка


***

Друга любов і ненависть

[про найяскравішу історію успіху]

Якщо спробувати виокремити якийсь один продукт з уже зроблених, то це, напевно, прототип ієрархії населених пунктів України, над яким я працював у BitImpulse. Довелось розібратись із структурою КОАТУУ (Державний класифікатор об'єктів адміністративно - територіального устрою України. - авт.), придумати, як логічно сформувати ієрархію і з'єднати населені пункти із даними перепису (зі всіма неточностями, перейменуваннями, змінами структури підпорядкування).

Ось як усе було. Ми запропонували одному клієнту розробити модуль, за допомогою якого він би зміг аналізувати відсоток ринку, який покривають його товари у кожному регіоні та у кожному населеному пункті. 

Для цього довелося витягувати класифікацію усіх населених пунктів із даних КОАТУУ  та структурувати їх в ієрархію. Базова структуризація - це область, потім район, потім місто. І тут почались перші сюрпризи. Довелося вирішувати, як у цю систему вплести райони міст, міста обласного значення чи села, підпорядковані міським радам, наприклад. 

Справилися. Новий виклик - як видобути із КОАТУУ додаткову інформацію, що могла допомогти у подальшому аналізі. Наприклад, виокремлення типу населеного пункту дозволило б порівнювати між собою подібні одиниці - села із селами, обласні/районні центри - із обласними/районними центрами.
На все це я витратив близько місяця часу.  

Наступний крок - прив’язати до кожного населеного пункту кількість мешканців. Така інформація є лише в Держкомстаті за результатами перепису населення станом на 2001 рік. Трохи кращою, ніж деінде, була ситуація із містами - дані про них оновлюються частіше.

Основною проблемою було те, що в нас немає єдиного унікального коду-ідентифікатора населеного пункту. Тому доводилось зв’язувати дані КОАТУУ із переписом населення за назвою населеного пункту Коли я над цим працював, почалася масова декомунізація.  Потім з’ясовую, що у межах району або області можуть бути населені пункти з однаковісінькою назвою.   Виявилося, наприклад, що у нас в Україні є декілька сіл, які називаються Безіменне! 

Якби кожному місту було присвоєно єдиний для всіх держреєстрів унікальний код, то ні декомунізація, ні повтори назв не стали б проблемою. Але такого в нас нема. 

Виправляти та перевіряти, про яке саме, умовно, Безіменне йдеться у різних базах, довелося вручну. Шукав частково на сайті Верховної Ради, дивився у Вікіпедії історію перейменувань. Це була ще та робота. 

Але -   ми це зробили! І, якщо чесно, працювати над цим було круто. Ну і після цього проекту я зненавидів ще один держреєстр - це КОАТУУ. 

Замість постскриптуму в цій історії ще додам, що клієнт лишився задоволений. Наш продукт давав змогу на базі реальних даних вираховувати  частку ринку, споживання на душу населення у кожному населеному пункті тощо,  а отже - знаходити цільовий ринок, куди треба більше постачати свою продукцію і предметно будувати стратегію просування. 

Читати також: Транспортні дані Лондона. Модель, яка реально спрацювала.

***

Ефект метелика

[про наслідки відкриття даних]

Щоб пояснити, чому так важливо відкривати дані, розповім одну історію. Крім публічного модулю аналітики (про нього йшлося раніше у розділі “Будні аналітика” - авт.), ми розробили ще  закритий. Він потрібен тим, хто готує глибшу або унікальну аналітику. Зокрема, мова йде про спеціалістів, які працюють з міністерствами. У цьому випадку дані використовуються для рекомендацій або законотворчості. На їх основі досліджують статус-кво у певній сфері і прогнозують потенційний вплив регуляторних актів.   

Раніше, навіть якщо ви б працювали у Міністерстві економічного розвитку і торгівлі, довелося б розіслати десятки запити до різних державних органів. А відповіді ви мали б оцифровувати у ручному режимі і лише тоді можна було братися за аналіз і прогнозування. На це, мабуть, йшли місяці. Зараз на увесь процес експерти витрачають два тижні

Висновок - відкриття даних у рази спрощує життя і навіть впливає на державну політику. Ви можете й не знати, що той чи інший набір потім використали у рекомендаціях, але саме так воно і працює.  

Також якісно впроваджена політика Open data - це можливість створити додаткове джерело прибутків чи спростити життя мешканцям міст. Або захистити свій бізнес. Можливостей багато. 

***

Я проти Open by default

[критика принципу Open by default]

Я проти підходу, який передбачає, що має бути відкрито усе і одразу. Open by default, як на мене, не враховує дещо важливе, а саме - у якому форматі і які дані потрібні. Розпорядники даних, що займаються їх відкриттям, не до кінця розуміють, для чого вони потім знадобляться. Тому можуть викладати інформацію неакуратно. Тоді набори не мають чіткої структури чи абияк заповнені. Дані стають брудними. Такими неліквідними набрами засмічують, наприклад, той самий data.gov.ua. Там багато інформації, непридатної для використання. 

Ще цей підхід створює передумови для відмовок з боку чиновників. Мовляв, ми відкрили дані - що вам ще потрібно?! Закону ніби дотримались, дані відкрили. Але менше шансів, що розпорядники прислухатимуться до людей і їх реальних потреб. Нагадаю, разове відкриття даних не виключає, що згодом не доведеться додати якісь показники чи додаткові поля. 

Open by default часто означає, що дані викладаються у тому вигляді, в якому вони збиралися ще з часів Радянського Союзу. Ті, хто мали б в подальшому користуватися ними, до кінця не розуміють, звідки така інформація, як вона генерується і чи їй варто довіряти. Якщо викладати все як є, Open by default - це не варіант. 

Читати також: Новини світу: аналітики дослідили, які бар’єри стримують розвиток відкритих даних

***

А що, якби

[про бачення найкращого варіанту розвитку політики відкритих даних]

Якщо спробувати уявити ідеальний розвиток подій із впровадженням відкритих даних в Україні, то мені здається, що у держорганах дуже потрібна фахівець чи відділ, відповідальний предметно за відкриття даних. 

Щоб коли користувач запитує додаткову інформацію, то в державній чи муніципальній структурі було б кому вести такі звернення, аналізувати їх і думати, як реалізувати те, на що є попит. Аби був зворотній зв’язок і можна було подзвонити чи написати, що от, я користуюсь вашим датасетом і там системна помилка. 

Важливо, щоб цей відділ чи спеціаліст мали стратегію, змогу її розвивати і розуміння, як найкраще відкривати дані: доречніше дати API чи завантажити раз на місяць Excel, бо користувачів небагато.

Також потрібно виробити політику про те, платною чи безкоштовною має  бути інформація. Бо, як я вже казав, не підтримую концепції, що всі дані мають бути відкритими за замовчуванням. Якщо це унікальна інформація і вона потрібна кільком людям, то, можливо, доречно було б просто час від часу вивантажувати дані таблицею. Чи, якщо люди готові платити за певний спеціальний датасет, зробити набір платним за зрозумілими та прозорими тарифами. Щоб користувачі бачили, чому була встановлена саме така ціна за доступ.

Наприклад, для мене дуже незрозумілі ціни Єдиного державного реєстру. В сенсі, чому воно узагалі платне, хоча ці дані потрібні великій кількості людей. Ця база економить державі багато грошей. Якби вона підтримувалася державним коштом, а не за рахунок прямих надходжень від користувачів, то окупилась би у сотні разів ефективніше. Також мені цікаво, яким  обґрунтуванням користувалися при ціноутворенні. Адже, попри великий попит, ціни на абонплату тут немалі. 

За логікою,  Єдиний державний реєстр допомагає захищати бізнес. Бізнес захищений законом і менше грошей вкладає у власну безпеку. Ці гроші будуть витрачені на розвиток і генерацію, скажімо, десяти нових робочих місць. Десять хоча б на кожну область  - і цей ланцюжок через надходження з податків уже покривав би собівартість утримання цієї бази. 

Якби щодо кожного реєстру були отакі обґрунтування і від них би відштовхувалось ціноутворення, це взагалі було б ідеально.

***

Історія наостанок

[про чорний список Антимонопольного комітету]

Ще згадав історію. Існує так званий чорний список Антимонопольного комітету (АМКУ). Туди входять підприємства, що вчинювали змови на тендерах. Ці підприємства позбавляються права протягом трьох років брати участь у подібних державних конкурсах.

Управлінці Антимонопольного комітету викладали цей документ в публічний доступ (хоча й не були зобов'язані) у табличній формі, але  - у PDF-форматі, що створювало незручності у роботі із цим документом.

Нам із того документу було потрібно лише 2 поля і ми розуміли, що для АМКУ робота із відкриттям у машиночитному форматі узагалі не пріорітет. Тому ми пішли шляхом найменшого супротиву і попросили, щоб вони вели свій чорний список у Excel, не перетворювали в PDF і розміщували у себе на сайті за постійним лінком.

Так вдалось отримати більш-менш актуальну інформацію у форматі відкритих даних без значних зусиль. Якщо знайти прийнятний для всіх варіант, все може бути доволі просто. 

Розмову підготувала команда Громадянської мережі ОПОРА  ініціативи “Дані міст”