Агрегация и интеллектуальный анализ проектов фриланс-бирж



Скачать 60.25 Kb.
Дата05.09.2014
Размер60.25 Kb.
ТипДокументы
АГРЕГАЦИЯ И ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ПРОЕКТОВ ФРИЛАНС-БИРЖ

И.И.Савин

кафедра Информационно-Коммуникационных Технологий
Аннотация

Данная работа посвящена разработке программного комплекса, целью которой является сбор, анализ и представление проектов фриланс-бирж, а также предоставление инструментов поиска подходящего заказа и оперативной реакции на проект. Система ориентирована на фрилансеров, позволяя им преодолевать частые проблемы, возникающие в начале их деятельности и дающая конкурентное преимущество.



Введение

Одной из острых проблем для современного молодого специалиста является наличие опыта работы. Фриланс, то есть разовая зачастую удаленная работа, способен решить эту проблему, позволяя накапливать портфолио не отвлекаясь от учебы. Таким образом, основной целью фриланса является молодому специалисту возможности проявить себя и получить опыт. [1]

В настоящее время существует ряд фриланс-бирж, на которых заказчики могут предложить проект и подобрать исполнителя, однако биржи имеют ряд существенных недостатков:


  • Одной из важных особенностей фриланса является оперативность реакции на проект, так как в более чем 50% заказчик выбирает исполнителя среди первых 1-3 отправивших заявки на выполнение.

  • Крупных бирж более двух десятков. Обход всех бирж занимает много времени.

  • Недостаточная фильтрация проектов (только выбор широкой тематики работ).

  • Высокая конкуренция. Для взятия хорошего заказа требуется умение быстро проанализировать реальную стоимость, сложность и риски мошенничества.

Существует несколько сервисов агрегации бирж. Эти сервисы производят сбор проектов с крупных бирж. Однако, фильтрация агрегированных проектов по-прежнему остается актуальной проблемой. Кроме того, большинство сервисов не ассоциируют между собой категории проектов различных бирж, что лишь усложняет поиск подходящего проекта. Анализа текста, не производит ни один из подобных сервисов.

Данная работа посвящена разработке программного комплекса для решения всех актуальных проблем фриланса и предоставления пользователю удобного и оперативного инструмента для выбора подходящих ему проектов.

Основные требования к сервису обозначены следующим образом:


  • Сбор информации о проектах со всех крупных русскоязычных фриланс-бирж в реальном времени;

  • Анализ текста агрегированных проектов с целью извлечения ключевых слов, технологий, особенностей заказа;

  • Анализ набора проектов с целью определения адекватной цены для различных видов работ, оценки сложности проектов и рисков мошенничества;

  • Механизм оперативной реакции на проект, позволяющий отправить заявку на выполнение на биржу прямо с ленты агрегированных проектов данного комплекса.


  • Предоставление пользователю средств мощной и гибкой фильтрации поступающих проектов;

  • Предоставление статистики популярных навыков и технологий.

Агрегация проектов

Рассмотрим подробнее подзадачи и особенности реализации агрегатора. Большинство современных сайтов имеют RSS-трансляцию, формат которой стандартизирован. Используя парсер для выявление нужным блоков информации, есть возможность создать универсальный агрегатор бирж. Однако, спецификация RSS не стандартизует передачу бюджета проекта. Это обстоятельство привело к тому, что каждая биржа размещает этот важный в данной работе атрибут в разных местах, что требует индивидуальной доработки, которая была произведена в рамках разработки данного компонента.



Нормализация текстовых документов

В задачу данной работу входит глубокий анализ всех собранных проектов, поэтому необходимо провести нормализацию, то есть приведение текстовых данных к виду, удобному для анализа. Основной задачей на данном этапе будет выявление ключевых слов, которые станут метками проектов, тем самым уменьшив время самостоятельной оценки пользователем проекта и увеличив возможности фильтрации проектов.

В данном компоненте производятся следующие этапы определяющие значимость слов:


  • Разбиение документа (проекта) на зоны различной значимости: заголовок, списки, блок контактной информации и тд;

  • Разбиение текста на отдельные слова и леммизация для определения нормальной формы слова;

  • Отсев стоп-слов и проставление дополнительных коэффицентов значимости в зависимости от части речи;

  • Вычисление значимости слов по метрике, основанной на tf-idf.

Полученная из текста структура данных называется векторной моделью документа (VSM) [2]. Результаты работы нормализатора позволяют:

  • Значительно более узко определить тематику проекта;

  • Реализовать поиск по навыкам и другим ключевым словам;

  • Использовать VSM для более глубокого анализа.

Кластерный анализ

Следующим этапом анализа набора проектов является более глубокий анализ с помощью алгоритма кластеризации ROCK (Robust Clustering Using Links) [3]. Выбор метода анализа обусловлен неизвестностью количества групп, на которые можно разделить проекты по определенным ключевым словам.

Основной идеей алгоритма ROCK является рассмотрение количества общих соседей у двух объектов данных в качестве основного критерия схожести этих объектов. Данный алгоритм является наиболее подходящим для анализа VSM, так как он:


  • способен находить сходство текстов, изложенных разными словами, но схожих по тематике;

  • значительно менее чувствителен к выбросам

В качестве функции определения соседства двух объектов используется метрика Джаккарда. Метрика работает с множествами, что позволяет быстро и с хорошей достоверностью определять соседство VSM.

Хотя данный алгоритм имеет вычислительную сложность больше, чем многие другие алгоритмы кластеризации, в данной работе такие особенности как небольшой объем текста и сложная нормализация позволяют ощутимо снизить время вычислений. [4]

Основным результатом работы кластеризатора является группировка наиболее схожих по тематике проектов с целью дальнейшего прогнозирования свойств объектов в одном кластере. В данный момент этот механизм используется для предсказания бюджета проекта.

Особенности реализации OLAP системы

На наиболее крупных русскоязычных биржах в сумме появляется не более 1500 проектов в сутки. Сервис на данном этапе разработки позволяет нормализовать со средней скоростью 200 проектов в минуту, что позволяет избегать скопления очереди на нормализацию и своевременно проставлять метки проектам. Программу запускает сборщик, если ему удалось найти новые проекты, что позволяет экономить системные ресурсы. Программа кластеризации при различных настройках работает 5-7 минут для набора в 1500 проектов, что позволяет производить оперативную кластеризацию для проектов за последние 24 часа. Эта кластеризация позволяет предварительно определить бюджет проекта. Также данный вид анализа позволяет наиболее достоверно определить тенденции роста востребованности отдельных технологий и их комплексов.



Особенности реализации веб-интерфейса

Веб-интерфейс приложения организован максимально просто и снабжен инструментами фильтрации и механизмом быстрой реакции на проект. Наиболее значимыми его функциями являются:



  • Возможность настройки ленты на оповещение только о новых проектах, где требуются введенные пользователем навыки и/или задан определенный диапазон бюджета.

  • Механизм быстрой реакции на проект, позволяющий написать заявку на выполнение не уходя с ленты, позволяющий оперативно реагировать на несколько новых проектов.

Заключение

Разработанный программный комплекс универсален для сбора и анализа любой текстовой информации: новостные ленты, электронные библиотеки, хранилища документов. Одним из вариантов применения данной системы рассматривается анализатор госзаказов.



Приоритетными направлениями развития данного программного являются:

  • Увеличение точности прогнозирования бюджета;

  • Дополнительное определение сложности и рисков мошенничества на основании анализа всей коллекции проектов;

  • Внедрение индивидуального анализа, позволяющего настроить систему под нужды специалиста различных уровня и навыков.

Список литературы

  1. Агрегация и интеллектуальный анализ проектов фрилас-бирж / И.И.Савин //МИЭМ-2011: Сборник научи.трудов -М.,2011.

  2. G. Salton, A. Wong, and C. S. Yang, "A Vector Space Model for Automatic Indexing," Communications of the ACM, — 1975 — T. 18. — № 11. — C. 613–620.

  3. Sudipto G., Rajeev R., Kyuseok S. "ROCK: A Robust Clustering Algorithm for Categorical Attributes", KAIST, 2000

  4. Кластеризация алгоритмом ROCK / И.И.Савин //Телематика-2010: Сборник научи.трудов ИПМ.-СПб.,2010. С.111-115.

Похожие:

Агрегация и интеллектуальный анализ проектов фриланс-бирж iconСравнительный анализ социально-сетевых проектов
Представлен сравнительный анализ социальных Интернет-проектов, а именно популярных социальных сетей коммерческого назначения, сетей...
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconПрограмма дисциплины «введение в интеллектуальный анализ данных»

Агрегация и интеллектуальный анализ проектов фриланс-бирж iconУтвержден общим собранием членов Ассоциации 20 апреля 2000 года устав международной ассоциации бирж стран содружества независимых государств
Международная ассоциация бирж стран Содружества Независимых Государств (в дальнейшем Ассоциация) является международной некоммерческой...
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconОценка портфелей национальных проектов
Гэф на национальном уровне. Анализ портфелей национальных проектов (онп) проводится для решения следующих трех основных задач
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconНаправления нир кафедры «Техническая кибернетика»
Системный анализ сложных технических и организационных систем, экспертный анализ научных и технических проектов
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconИнтеллектуальный капитал организации: проблемы регулирования
Интеллектуальный капитал "система капитализированных интеллектуальных знаний, созидательное использование которых обеспечивает производство...
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconИнтеллектуальный анализ сейсмологической информации в сетевых гис1
...
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconТесты для психологической диагностики детей и взрослых Универсальный интеллектуальный тест 1 Подростковый интеллектуальный тест 3
Методика применима для лиц, свободно владеющих русским языком, без выраженных интеллектуальных дефектов
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconИнтеллектуальный клиентский модуль поисковой системы
Такой интеллектуальный модуль позволит облегчить поиск информации в сети Интернет, соответствующей потребностям пользователя с учетом...
Агрегация и интеллектуальный анализ проектов фриланс-бирж iconДиалог как интеллектуальный бозон Хиггса
И здесь ключевым моментом (инструментом) в понимании и в активном продвижении этих процессов выступил диалог, как гуманитарный (интеллектуальный)...
Разместите кнопку на своём сайте:
ru.convdocs.org


База данных защищена авторским правом ©ru.convdocs.org 2016
обратиться к администрации
ru.convdocs.org