Моя компания вкладывает большие средства в стек MS BI (службы отчетов SQL Server, службы анализа и службы интеграции), но я хочу взглянуть на то, на что похожа, казалось бы, наиболее обсуждаемая альтернатива с открытым исходным кодом Pentaho.
Я установил версию и безболезненно установил ее и запустил. Так что хорошо. Но на самом деле у меня нет времени начать использовать его в реальной работе, чтобы получить полное представление о пакете.
Есть ли у кого-нибудь из вас какое-либо представление о преимуществах и недостатках Pentaho и MS BI или какие-либо ссылки на такие сравнения?
Очень признателен!





Я не могу предложить какой-либо вклад в MS BI Stack, но на самом последнем Баркемп Орландо люди из Pentaho были там и рассказывали о своих продуктах, и это была чрезвычайно впечатляющая демонстрация.
Тот факт, что это проект с открытым исходным кодом, который вы можете расширить, а также платный пакет для действительно хорошего обслуживания, оставляет вам множество вариантов. Они продемонстрировали некоторую оплачиваемую работу, которую они сделали для клиента, и определенно поразили толпу.
У меня также была возможность немного поболтать с разработчиком, работающим над хранилищем данных для Pentaho, он был чрезвычайно проницателен, был очень открыт для предложений и без проблем отвечал на любые вопросы.
Что касается компании, Pentaho действительно впечатлил меня как своей работой, так и тем, насколько дружелюбны и доступны все их разработчики.
Я просмотрел несколько стеков Bi, когда собирался выйти из Business Objects. Многие из моих комментариев - предпочтения. Оба набора инструментов отличные. В некоторых вещах я предпочитаю шоколадное мороженое с шоколадной помадкой, чем простой шоколад.
С Pentaho работают по-настоящему умные ребята, но Microsoft шла по хорошо финансируемому и хорошо спланированному пути. Имейте в виду, что MS по-прежнему проигрывают на рынке баз данных. Oracle здесь король. Чтобы быть конкурентоспособным, MS при покупке базы данных раздавала много плюсов и пару раз была вынуждена заново изобретать свою платформу. Я знаю, что дело не в базе данных, но битва с БД заставила MS много отдавать, чтобы повысить ценность своего стека.
1.) Платформа
SQL-сервер не работает под Unix или Linux, поэтому они автоматически исключаются из этого рынка. Windows сейчас примерно такая же цена, как некоторые версии или Unix. Windows довольно дешевая и теперь отлично работает. Это доставляет мне примерно столько же проблем, сколько и Linux.
2.) OLAP
Службы анализа были заново изобретены в 2005 году (текущая версия - 2008 год) по сравнению с версией 2000 года. Он на порядок сильнее, чем 2000. Пентахо (Мондриан) не так быстр, когда вы становитесь большим. У него также есть несколько функций. Это неплохо, но инструментов меньше. Оба поддерживают Excel как платформу, которая важна. Версия MS более надежна.
3.) ETL
MS - DTS заменен SSIS. Опять же, увеличение скорости, мощности и способностей на порядок. Он контролирует любое перемещение данных или управление программой. Если он не может этого сделать, вы можете написать сценарий на Powershell. Наравне с Informatica в версии 2008 года.
Пентахо - Намного лучше, чем раньше. Не так быстро, как хотелось бы, но я могу делать практически все, что хочу.
4.) приборная панель
Пентахо улучшил это. Это вроде как неудобно и недружелюбно разрабатывать, но на самом деле нет настоящего эквивалента для MS.
5.) сообщает
Отчеты MS действительно эффективны, но не так уж сложны в использовании. Мне это нравится сейчас, но сначала я ненавидел, пока не узнал немного лучше. Я использовал кристальные отчеты, а построитель отчетов MS намного мощнее. В MS легко делать сложные дела, но немного труднее - легкие.
Пентахо немного неуклюжий. Мне это совсем не нравилось, а тебе могло бы быть. Я обнаружил, что это слишком сложно. Хотелось бы, чтобы это было больше похоже на построитель отчетов Crystal или построитель отчетов MS, но он похож на яшму. Я считаю, что это сложно. Это может быть предпочтение.
6.) ad hoc
М.С. - это был для меня настоящий победитель. Я протестировал его со своими пользователями, и они сразу же полюбили конструктор отчетов пользователей MS. Разница заключалась в том, что он был не только простым в использовании, но и продуктивным.
Пентахо - хорошая, но довольно старая школа. Он использует более типичную модель, основанную на мастерах, и имеет мощные инструменты, но мне это не нравится. Это отличный инструмент, но мы отошли от этого стиля, и никто не хочет возвращаться. Та же проблема, что и с logiXML. Интерфейс работал хорошо, но не сильно отличается от того, что мы использовали 12 лет.
http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of+Interactive+Reporting
Есть несколько опытных людей, которые могут заставить Pentaho действительно хорошо работать, я просто обнаружил, что пакет MS более продуктивен.
Страдас, вы предоставляете отличную информацию всему сообществу. Хорошо написанные, ваши предупреждения о вещах, которые могут быть неточными из-за ваших собственных предпочтений и организации контента, служат отличной отправной точкой. Спасибо, что нашли время для этого.
НагаМенш, можешь быть более конкретным? Кривая обучения немного длиннее по сравнению с DTS, но я считаю SSIS хорошо продуманным инструментом. Informatica - самое близкое сравнение. Есть и другие хорошие инструменты, которые также просты в использовании, но большинство из них не столь надежны.
Спасибо, bonCodigo, согласен. Похоже, что бизнес-аналитика достаточно выросла, чтобы оправдать создание сайта. Существует множество уникальных вопросов программирования, теории и концептуального подхода, связанных с бизнес-аналитикой, которые отличаются от того, с чем имеют дело транзакционные программисты. Я часто создаю собственные аналитические приложения, в основном BI, аналогичные инструменты, но, как правило, они отличаются от обычных настольных и веб-приложений.
SQL Server теперь работает в Linux.
Если вы ищете надежную и недорогую альтернативу большим мальчикам, у LogiXML есть информационные панели и специальные отчеты на платформе .NET. Мы используем их с конца 2006 года, когда Pentaho только начинал свою деятельность, но я давно не смотрел на них.
Я начал использовать MS Reporting Services много лет назад, и мне это очень нравится. Я не пробовал решение для отчетности Penaho, поэтому не могу его комментировать. Я также не пробовал ни службы Analysis Services, ни альтернативу Pentaho.
Недавно мне понадобилось решение ETL, и, будучи знакомым с MSSQL и MSRS, казалось очевидным, что я изучу и, вероятно, выберу MS Integration Service. Но для меня MSIS была ужасной. В основном потому, что это было не интуитивно. Потратив пару дней на изучение этого инструмента, я решил поискать альтернативу и наткнулся на Pentaho Data Integration, ранее известную как Kettle. Я запустил его в считанные минуты и сразу же создал свою первую трансформацию. Просто работает.
По общему признанию, мои потребности довольно просты, но производительность была отличной, и сообщество кажется очень полезным.
Предупреждение - существует множество сайтов, на которых перечислены многочисленные недостатки, ошибки и неприятности, связанные с SSIS. Не уверен, почему SSIS занял первое место в этом посте, но прежде чем ставить на него ставку в своем проекте, посмотрите, что люди говорят в блогосфере. По моему опыту, это примерно 20: 1 разглагольствования о том, как ужасно работать с SSIS - я тоже могу согласиться, в настоящее время ищу любую альтернативу.
SSIS имеет очень хороший (быстрый / мощный) движок, но у него один из самых дерьмовых дизайнеров, с которыми я работал в своей жизни. Есть бесчисленное множество мелких неприятностей, например, у него есть функция RIGHT (), но нет LEFT ()!
Проблема SSIS - это кривая обучения - это похоже на удар о кирпичную стену. Однако, как только вы его изучите, это станет проще, хотя отладка все еще довольно сложна - я бы позаботился о том, чтобы у вас был дизайн основного / дочернего пакета и чтобы каждый пакет был как можно меньше (в пределах разумного).
@adolfgarlic: Конечно, есть «левый». Это называется SUBSTRING ()
Недавно я попробовал Pentaho с открытым исходным кодом BI. Мне это показалось крайне неуклюжим. Это было не очень интуитивно, и разработка заняла намного больше времени.
Он сильно отличается от решений Oracle или MS BI. Может быть, корпоративная версия лучше.
Я использовал SSIS и Pentaho Kettle, и я настоятельно рекомендую использовать Pentaho Kettle для вашего инструмента ETL вместо SSIS.
Мои причины: -Поток SSIS - это задача к задаче. Чайник заставляет задуматься о строках данных, проходящих через систему. Подход Кеттла мне кажется более интуитивным. -SSIS плохо документирована. Это случилось. Но, похоже, много случайных щелчков и установки переменных. Очень сложный. В Пентахо есть очень полезный форум сообщества. -Я доверяю Pentaho возможность интеграции с несколькими типами баз данных, включая SQL Server. Вы также можете использовать JDBC, что приятно. Кроме того, я использовал его для переключения между SQL Server и Oracle с одной стороны и Vertica с другой. Для него на Vertica есть оптовый загрузчик. Это неплохо. - Я обнаружил, что очень, очень сложно, если говорить, запустить пакет SSIS на сервере. Это просто не стоило моего времени. -Я обнаружил, что Пентахо довольно легко отправить предупреждение или сообщение об ошибке человеку или списку людей. -Pentaho позволяет выполнять задачи на JavaScript для вещей, требующих некоторой логики. Просто и легко делается на языке, с которым сталкивается большинство из нас.
Здесь отличная информация? Я не пробовал Пентахо, но планирую проверить его. Я опытный консультант по MS BI, использую его с 1998 года. SSIS очень быстрый и мощный, но критика уместна. Я обнаружил следующие проблемы со службами SSIS:
(1) Трудно отлаживать, вы получаете загадочные ошибки, которые могут не дать вам ни малейшего намека на то, в чем и где на самом деле проблема.
(2) Согласно предыдущему комментарию, это самая дерьмовая среда разработки! Я понятия не имею, о чем они думают.
(a) Создайте таблицу со 100 или более столбцами и наложите на нее соединение слиянием. Теперь вернитесь и попробуйте обновить соединение слиянием (например, протащить новый столбец). Это может занять несколько минут, даже на самом быстром компьютере, после того, как вы нажмете ОК на объединении слиянием, чтобы сохранить изменения. У меня огромный поток данных с множеством широких записей и множеством объединений слиянием. Добавление одного столбца в поток данных занимает более половины дня. Я обновляю соединение слиянием, а затем должен заняться чем-то еще и через 5-10 минут проверить, выполнено ли это. В ответ Microsoft на это разбивает ваш пакет на несколько пакетов, помещая данные в таблицу или двоичный файл между ними. Что ж, если вы собираетесь записывать диск между всеми этапами, вы можете сделать все это на SQL! Одна из основных целей инструмента ETL - хранить все это в памяти и избегать дискового ввода-вывода.
(b) Дизайнер иногда вылетает из строя, теряя всю вашу работу с момента последнего сохранения (из-за этого я сейчас нажимаю Ctrl-S во сне)
(c) Мне пришлось придумать взлом и сгенерировать XML пакета SSIS в Excel для широких записей. У меня есть клиент из сферы здравоохранения, где более 600 записей в столбцах являются обычным явлением. Если вы попытаетесь определить формат файла с 600 столбцами в SSIS, вам придется вводить каждый столбец по отдельности !!! Даже доступ MS позволяет вырезать и вставлять макет из электронной таблицы в макет файла, но не SSIS. Поэтому мне пришлось сгенерировать XML из макета и вставить XML-код в нужное место пакета. Уродливый способ сделать это, но он сэкономил целые дни работы и избавил от множества ошибок.
(d) Аналогично пункту (c), если вам нужно обрезать все столбцы, а у вас их более 600, угадайте, что? В производном компоненте столбца вы должны набрать trim (column1) более 600 раз! Теперь я выполняю все простые преобразования, подобные этому, в запросе SQL, чтобы получить данные, поскольку их можно легко сгенерировать из таблицы Excel.
(e) Есть много причудливых вещей, компонентов, которые становятся невидимыми, иногда вы открываете пакет, и все компоненты полностью перестраиваются бессвязно.
(f) Функция FTP, возможно, одна из наиболее распространенных вещей, которые вам нужны в ETL, слаба и поддерживает только обычный FTP, который никто не использует. В наши дни все используют SFTP, FTPS, https и т. д. Таким образом, почти каждая реализация требует использования стороннего приложения для передачи файлов, управляемого строкой, которое пакет должен вызывать.
(g) Пытаясь использовать CYA, подобно нелепой безопасности в Windows Vista, Microsoft чрезвычайно усложнила фактическое продвижение пакета SSIS из одной среды в другую. По умолчанию используется эта дурацкая вещь - «шифрование конфиденциальной информации с помощью ключа пользователя», что означает, что он должен работать под той же учетной записью в среде, в которую вы ее перемещаете, и в среде, в которой вы ее разработали, что случается редко. Есть более эффективные способы настройки, но он всегда пытается вернуться к этой совершенно бесполезной защите.
(h) Наконец, большинство из этих проблем теперь в третьей версии, что явно указывает на то, что Microsoft не планирует их исправлять.
(i) Отладка не так проста, как другие языки.
SSIS по-прежнему имеет множество преимуществ, но не без серьезной боли.
Это ценная информация, спасибо.
Я согласен со многими из упомянутых выше вопросов о SSIS. Я озадачен тем, почему MS приложила так много усилий для создания совершенно нового продукта, который заменит DTS, еще в 2005 году, а затем фактически оставила все как есть. Одной из многих вещей, которые меня разочаровали, было отсутствие коннекторов для других продуктов MS, например, нет встроенного коннектора источника данных SharePoint, несмотря на то, что это очень распространенный источник данных в наши дни (что более странно, MS опубликовала неподдерживаемое соединение SharePoint как образец кода, но никогда не прилагал усилий, чтобы сделать его частью основного продукта).
пара очков, чтобы добавить
Вопросы об инструментах необходимо решать с точки зрения более широких культурных вопросов - какие магазины используют инструменты с открытым исходным кодом? По своему опыту я обнаружил, что хотя магазины Microsoft кажутся более жесткими, когда у вас проблемы со строкой подключения в магазине Microsoft, вы можете получить помощь ... в магазинах Pentaho и Linux - больше DYI.
Кстати, остерегайтесь продавцов Pentaho, которые делают демонстрации - все то, что они показывают, намного сложнее заставить работать, чем кажется! :)
Отлично и хорошо написано, спасибо!