chibrikin (chibrikin) wrote,
chibrikin
chibrikin

Category:

Управление данными. Записки начинающего.

Вместо вступления.

Стать менеджером данных в ООО «СеверЭнергия» она же бывшая компания ООО «Энинефтегаз» мне пришлось, в общем-то, случайно. Дав свое согласие, я очень смутно себе представлял себе, что именно мне предстоит делать. Но те, кто брал меня на работу, как выяснилось потом, представляли еще меньше. Сейчас, через три с лишним года, кое-какое понимание сложилось и именно поэтому я и пишу этот текст. Хочется поделиться своим опытом, дабы он мог быть полезен кому-нибудь еще. Ничего, кроме личных воспоминаний и решений, к которым я пришел, в нем нет. И еще – все приводимые факты, имена и события следует считать выдуманными даже при случайном совпадении с действительностью.



Поговорим об аксиомах

[Всякая наука имеет одну или несколько систем аксиом, составляющих ее суть.]

Всякая наука имеет одну или несколько систем аксиом, составляющих ее суть. Хотя далеко не всегда они четко формулируются и приводятся в начале соответствующих учебников. Можно сформулировать одну такую аксиому и в нашем случае:

Если необходимые документы или данные невозможно найти за время, меньше критического, то можно считать, что их не существует, что они исчезли.

Под критическим следует понимать то время, пока производственная необходимость не перевесит здравый смысл. И вместо конкретных значений, найти которые все никак не удается, будут взяты какие-нибудь среднепотолочные. От соседней скважины или с другого месторождения, не важно какие, лишь бы они были. И никто бы не раздражался.

Так вот, процесс управления данными можно определить как создание такой системы организационных и программно-технических решений, что бы данные и документы не исчезали. В смысле приведенной аксиомы, разумеется.



Разговоры с главными геологами

[За эти три года на проекте сменился не один главный геолог...]

За эти три года на проекте сменился не один главный геолог и даже не два. И со всеми, за единственным исключением, у меня были разговоры о том, чем я занимаюсь и для чего это нужно. В наиболее концентрированном виде все они могут быть сформулированы так:

Менеджер данных: Вот смотрите, если мы сделаем такой проект, стоимость которого совсем небольшая, то любой документ в электронном виде, скажем отчет по керну, можно будет найти, с любого компьютера, с вашего например, менее чем за одну минуту.

Главный геолог: А зачем она нужна, такая система? Я могу позвонить и, через пятнадцать минут, и этот отчет в распечатанном виде окажется у меня на столе.

Тут трудно что-либо возразить, потому, что и такая система тоже работает. Более того, она складывается совершенно естественно и не требует никаких затрат. Сотрудники начинают специализироваться на хранении всего, что касается определенного направления, каждый создает себе такую систему, какая ему удобна, в которой он ориентируется с закрытыми глазами, и по которой он быстро находит требуемое. Такая специализация очень быстро становится известна, все знают к кому с каким вопросом обращаться. К этому мы еще вернемся.

Единственное исключение звали Абдель-Хаким Бубазин и был он французским арабом, приехавшим к нам из Пакистана. Он сразу сделал управление данными одним из основных видов работ и потребовал от меня создать на корпоративном сервере структурированную файловую систему, куда бы все сотрудники по определенным и общим для всех правилам выкладывали бы данные и документы, как получаемые от подрядчиков, так и создаваемые ими самими. И еще добавил, что у них в Пакистанском отделении ENI такая практика была обязательной, а отступления от нее наказывались.

Когда рассказал все это приятелю, несколько раз бывавшему в Пакистане, он не удивился, пожал плечами и сказал: «Ну да, они там, в Пакистане, по жизни строем ходят».

Как бы там не ходили по жизни в Пакистане, именно с подачи Бубазина и с его помощью я стал понимать важность публикации всех результатов работ, т.е. отчуждения результата, созданного специалистом от самого специалиста и передачи его в общий доступ. На Западе, насколько это известно мне, подобные представления были впервые сформулированы Кавендишем в форме трех правил научной работы: 1. To work 2. To finish 3. To publish. (Работать, завершать работу, публиковать результаты работы). Ничего аналогичного у нас, мне, к сожалению, встретить не пришлось.



Немного о роли личности

[Все, что мне приходилось видеть у нас, строится на неотчуждаемости результата работ от ее автора. Более того, людям свойственно искренне не любить обезличенные сервисы...]

Все, что мне приходилось видеть у нас, строится на неотчуждаемости результата работ от ее автора. Более того, людям свойственно искренне не любить обезличенные сервисы. Ну казалось бы, чего проще – зайти на тот самый корпоративный сервер, и положить данные на всеобщее пользование. Или наоборот, скачать их оттуда. Минутное, в общем-то, дело. Нет, доминирует другой подход. Надо обратиться к соответствующему специалисту. Обсудить с ним постановку задачи. Выслушать его мнение. Поговорить о жизни или, в крайнем случае, о погоде. Попросить нужное непосредственно у него, получить просимое на свою электронную почту. Потратить на все десять-пятнадцать минут. А может и больше.

Но дело тут не только и не столько во времени. Нежелание отказываться от простой и естественной неотчуждаемости приводит к тому, что возможности производственного подразделения сводятся к возможностям его конкретных сотрудников – гуру. Что они делают, и делают ли они вообще что-либо, становится понять очень сложно. Одна такая гуру по петрофизике почти за два года работы выложила на корпоративный сервер обработку всего по двенадцати скважинам. При том, что на нее работала целая группа подготовки данных и у нее была личная помощница. Может быть, она и делала что-то еще, но это «что-то» стало недоступным в момент ее перехода на повышение в другую компанию. И это еще далеко не самый худший случай. Но даже самый трудолюбивый и самоотверженный сотрудник может уволиться, заболеть, уехать в командировку. Перевестись в другое подразделение, стать руководителем. И все. Созданное и сделанное им исчезает вместе с автором. Остается забитый непонятно чем локальный диск, в котором разобраться может только сам автор. Если появиться новый гуру, то начинать он будет с нуля, с чистого диска. С теми же самыми перспективами. На сегодня мне представляется, что главный результат, который компания получает от деятельности прикладного специалиста, это несколько гигабайт неструктурированного файлового архива и это происходило на моих глазах уже около десятка раз. Если среди читающих эти строки есть работодатели, которые хотели бы получить указанный результат сразу, и не нанимая кого-либо, то я могу предоставить даже несколько таких архивов. На выбор.

Таким образом, порядок, складывающийся сам собой вполне работоспособен, пока все хорошо. Но ему присуща неустойчивость, являющаяся прямым продолжением его достоинств. То, что строится на ключевых людях, будет давать сбои, когда что-либо с этими людьми случается.



Немного о технологиях

[Людям как-то свойственно стремиться к устойчивости создаваемых ими конструкций, как технических, так и гуманитарных...]

Людям как-то свойственно стремиться к устойчивости создаваемых ими конструкций, как технических, так и гуманитарных. В конце концов, увольнение водопроводчика не приводит к необходимости прокладывать каждый раз новый водопровод. Если нечто подобное не происходит в добывающих компаниях, то это проблема самих компаний, а не дефект мироздания. Нежелание формализовать управление данными и превратить его в индустриальную технологию, тем более странно, что главное, с чем работает нефтяная компания – это информация и деньги. Которые, если и не информация в чистом виде, то нечто очень близкое к ней. Ведь техническая работа по большей части выполняется силами подрядных организаций.

Отсутствие жесткого регламентирования и индустриализации в управлении данными, или, шире, в управлении знаниями, несет еще и одну угрозу, которая не очень осознается, но никуда от этого не исчезает. Ее можно, в модных сегодня терминах, назвать информационным сепаратизмом. Известна транспортная теорема, формулировку которой я впервые увидел у Переслегина, хотя я не думаю, что авторство принадлежит ему. Звучит оно примерно так: «Товарооборот между колонией и метрополией должен возрастать быстрее, чем благосостояние колонии. Иначе в ней возникнут и начнут укрепляться сепаратистские настроения. Появится значительно число людей, которые будут искренне считать, что жить отдельно от метрополии им будет выгоднее».

В области информации можно сформулировать полный аналог: «Объем обмена данными между общекорпоративной и локальными информационными системами отдельных служб и пользователей должен быть хотя бы сопоставим с объемом данных, накапливаемых в локальных системах. Иначе информационное пространство внутри компании начнет распадаться на плохо связанные между собой кластеры».

Как ни странно, но за всю свою карьеру я встретил всего двух людей, которые четко осознавали эту угрозу. Самое сильное впечатление у меня оставил руководитель службы имущества в компании «Ямбуггаздобыча», которые в течение примерно полутора часов объяснял мне свое видение проблемы, в основе которого лежала жесткая централизация, обязательный контроль целостности и достоверности, внедрение систем классификаторов и кодировок и так далее. Говорили, что до «Ямбурггаздобычи» он был генералом интендантской службы.

Опасность информационного сепаратизма проявится во всей красе, как только потребуется решать задачи на стыке двух служб, например когда нужно будет оценить финансовые затраты на единицу прироста запасов.



О том, с чего можно было бы начать

Наше время принято называть постиндустриальным. Строго определения у этого понятия нет, что-то типа «когда работа информационная составляющая в производстве превысит по значимости материальную составляющую». Как можно наблюдать воочию нам до этого еще далеко. Очень далеко. Но двигаться вперед все равно ведь надо, правильно?


[Так вот, начинать вполне можно с такого простого и очевидного, как...]

Так вот, начинать вполне можно с такого простого и очевидного, как публикация результатов работ, чему меня учил Бубазин. Тешу себя скромной надеждой, что мне удалось превзойти своего учителя, хотя и не на много. Поскольку я нашел для себя ответы на два вполне закономерных вопроса: Публикацию чего? И публикацию где?.

Ответ в моей формулировке звучит так: «В практику работы производственных служб компании должно быть введена обязательная публикация окончательных версий электронных документов в корпоративной информационно-поисковой системе».

Мой опыт показывает, что мы - все-таки не пакистанцы и структурированная файловая система для нас сложна. Даже если она снабжена подробным описанием и каталогом. Все равно никто туда не полезет, ведь для этого нужно разобраться в картине мира, отличной от своей собственной. Так делать никто не будет, гораздо проще обвинить менеджера данных, в том, что он придумал все очень сложно и запутанно и пойти к профильному специалисту. Попросить то, что нужно, поговорить о жизни или, в крайнем случае, о погоде… Но даже в нашу жизнь все-таки вошел Яндекс и Google. Поэтому поисковой системой пользоваться будут. Не всегда и не все, но будут. Достаточно удивительным для меня открытием было то, что легче всего осваивают такую систему две категории сотрудников: молодежь сразу после института и пожилые, которым хорошо за пятьдесят. Люди среднего возраста наиболее консервативны.



Что такое электронный документ?

Спросите вашего коллегу, что за папки валяются у него на столе второй месяц. Вы услышите что-то типа «А-а-а, ну, это сибнацевский отчет по подсчету запасов валанжина Самбурга за девятый год». Как ни странно, подобная формулировка вполне работоспособна с точки зрения проектирования прикладной системы. Я принял для себя следующее определение: Электронным документом является некоторый объем информации, который характеризуется уникальным сочетанием следующих атрибутов:


[Атрибуты и еще о документах]
  1. Автора, в качестве которого почти всегда выступает организация.

  2. Названия.

  3. Пространственной привязки. (Лицензионный участок, месторождение, скважина, пласт, этаж нефтегазоносности)

  4. Даты создания.

  5. Типа (отчет, проект, протокол, докладная записка и т.д)

Поэтому понятие электронного документа шире, чем привычное нам понятие документа бумажного. К нему можно отнести и каротажную диаграмму и геологическую модель и цифровую карту.

Как связано понятие электронного документа и, более привычные нам, файлы и каталоги? Вообще говоря, никак или, что несколько точнее, каждый раз по-разному. Один документ может состоять из одного файла, из нескольких или даже из нескольких каталогов с тысячами файлов. Более формализовано, это можно сказать так: «Электронный документ является понятием логическим, виртуальным».

Документ в свою очередь может состоять, а может и не состоять из частей. Глав, разделов, томов, приложений. Объектом поиска чаще всего являются именно части – редко кто читает производственные документы как приключенческие романы – от первой строчки до последней. Еще обязательно следует упомянуть понятие представлений. Если мы имели документ в виде файла Word, а потом преобразовали его к формату PDF, стал ли он от этого другим документом? Нет, конечно. А если его перевели на другой язык? Тоже нет. Документ был и остался тем же самым, просто он существует в разных вариантах, в разных представлениях. Несколько представлений могут возникнуть как для всего документа целиком, так и для отдельной его части или нескольких частей.

Еще надо обязательно сказать, что документы редко существуют поодиночке. Обычно они собираются в группы: за отчетом по подсчету запасов последует протокол защиты, экспертизы и так далее. Названия групп должны быть формализованы и увязаны с технологическими операциями, повторяющимися в производственной деятельности: проектирование разведки, подсчет запасов, изучение коллекторских свойств, деловая переписка и т.д.

Таким образом, информационно-поисковая система в качестве объекта для публикации должна использовать электронные документы, объединенные в группы. Интерфейс при этом - обеспечивать поиск документа по каждому из атрибутов, а также контекстный поиск по названию. Пользователь должен быть предоставлен доступ к конкретному представлению конкретной части документа. Для начала можно этим и ограничиться. Уже лучше, чем ничего.



И еще немного о данных

Данные поддаются формализации еще хуже, чем документы. Больше и объема и разнообразия. Разумеется, можно потратить кучу сил и каталогизировать все, скажем LAS-файлы. Вот только толку от этого будет немного.


[Почему так?]

Мало когда требуется один-единственный LAS по одной скважине. Обычно – все LAS-файлы по всем скважинам. Для потоковой загрузки в какую-либо прикладную программную систему. Но под такую задачу исходную россыпь файлов придется преобразовать. Хотя бы унифицировав имена кривых, ведь в некоторых исходных файлах может использоваться обозначение ПС а в некоторых СП, или PS. Скорее всего преобразования этим не ограничатся, потребуется как-то проверить и улучшить увязку, кое-где слить несколько кривых в одну и т.д. Результат такой работы уже ценен сам по себе и достоин сохранения как электронный документ отдельного вида – набор данных.

Более формализовано, набор данных можно определить как результат сбора, проверки и преобразования исходной информации выполняемый с заданной целью, одним коллективом и в рамках одного технического задания. Набор должен иметь минимум одно представление, допускающие загрузку в прикладное программное обеспечение. Наборы данных должны обязательно каталогизироваться и снабжаться наименованиями по определенной системе. Кроме того, необходимо отслеживать совместимость наборов данных между собой. Например, конкретный набор данных по керну может быть увязан только с одним каротажным набором данных. И для построения зависимостей «керн-ГИС» должен быть использован только он и никто кроме него.

Результаты всех геологических построений становятся воспроизводимыми и совместимыми, только если точно известны наборы исходные данных, на основании которых они были сделаны.

Очень велик соблазн свести все многообразие данных до одного набора по каждому направлению – один по инклинометрии, один по керну один по каротажу и так далее. Мой опыт говорит, что, скорее всего, этого сделать не получится. Требования к данным для различных задач различны, иногда противоречивы. Подготовка таких единых наборов займет значительное время, но ведь никто не остановит производственную жизнь в ожидании того, когда она будет завершена. Значит, появится какое-нибудь временное решение, которое будет жить своей жизнью… Много значат и чисто личностные мотивы. Любой петрофизик первым делом начнет править увязку кривых, считая, что все, что сделано не им – сделано неправильно и так далее.

Так, что любой объект природного мира, скважина, пласт, месторождение и т.д. с точки зрения информации всегда будет существовать в виде множества «отражений» - различных наборов данных и россыпи данных не унифицированных. Это можно представить себе как отражение одной свечи во множестве зеркал, каждое из которых имеет собственные свойства и искажения. Такой вот принцип неопределенности. Все, что мы можем сделать – это каталогизировать их все, и, если на то будет воля руководителя, сделать некоторые из них обязательными к использованию. Если получится.





Вместо выводов

Я пишу эти строки в балке на буровой в ожидании начала цикла геофизических исследований. Пару часов назад супервайзер по бурению, пожилой и много видевший мужик, рассказывал мне, как он работал с архивными данными по параметрической скважине на нефть в Якутии, пробуренной еще во времена Сталина. Архив представлял собой несколько ящиков тщательной, подробной и качественной документации. Был даже сделан точный химический анализ рапы, поскольку для района характерны рапопроявления. В наши дни, при бурении новой разведочной скважины, примерно в тех же местах, делать такие анализы уже никому в голову не пришло.

Избыток и переизбыток информации «вообще», легкость ее генерации, копирования и пересылки, привел к резкому снижению ее ценности. В результате, возможности легко и просто получить доступ к ненужному изобилию мирно соседствуют с невозможностью получить нужное в отведенное для этого время.

Разрешение этого противоречия лежит в области создания индустриальных систем управления данными, корпоративных информационно-поисковых систем (электронных библиотек) и, а потом, видимо, уже и индустриальных систем управления знаниями.

Пожелаем же себе удачи на этом пути.

Tags: Записки начинающего
Subscribe
  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 8 comments