Рейтинг

Почему у Wechat нет и не может быть конкурентов

01.07.2020 16:06:10 |

Автор: admin

Возможно, меня можно обвинить в предвзятости и безмерном обожании Wechat. Обоснованно ли пусть судят другие. В любом случае, Wechat это уникальное явление среди всех IT-проектов всего времени. И тут я попытаюсь раскрыть вопрос What makes it special

В статье в равной мере будут упоминаться Wechat(продукт корпорации Tencent) и Alipay(продукт корпорации Alibaba). Пусть это не вводит вас в заблуждение. Это два кита, это два краеугольных камня китайского интернете и китайского общества, и если что-то появилось у одного это появится и у другого в самом скором времени.
Alipay принадлежит 53.8% рынка платежей, а Wechat 39.9%.
Вы скажете а как же карты. Ну, предлагаю вам найти на сайте одного из крупнейших экваеров Китая Meituan хоть одно решение кассы, где можно использовать карту. Все, абсолютно все заточено под Alipay и Wechat.
В этом плане, кстати, мудрые китайцы всецело понимают важность конкуренции. Авиакомпаний с государственным капиталом было создано 3. Сотовых операторов 3. Банков 4. Китайцы прекрасно знают, чем чревата государственная(или иная) монополия и стремятся их разделить. Когда China Southern начала слишком уж выделяться из конкурентов ей было предложено в добровольно-принудительном порядке выделить часть капитала на создание дочки Xiamen Airlines. Точно так же из China Eastern выделили Shanghai Airlines. Air China Shenzhen Airlines.
Точно так же дело обстоит и в онлайн-платежах. Пускай Alipay и Wechat( которым государство одинаково способствует) вечно догоняют друг друга. Всем от этого только благо.
Но вернемся к теме. И рассмотрим ее на практическом примере.
Недавно я ездил в командировку. И так как из-за пандемии встречается довольно много параноиков, которые хотят подтверждения, что я не болен коронавирусом я решил взять справку о том, что я им не болен. Что я для этого сделал? Ну, сходил в ближайшую больницу, сдал мазок. А дальше?
Зафолловил аккаунт больницы в вичате, нажал на результаты анализов

Ввел телефон, ФИО, номер ID, получил СМС

И нажал на скачать справку

Не заметили здесь секурности? А она есть(с)
В предыдущей статье я писал, что одним из методов аутентификации пользователя является его мобильный телефон. Сим-карту в Китае возможно заиметь только после предоставления биометрии лица. И после ввода эти данных можно отправить запрос соответствует ли ФИО и ID. Если ФИО пациента соответствует с ФИО, на которые был зарегистрирован номер, на который отправили СМС с кодом это 99%, что результаты анализов хочет получить сам пациент.
Wechat и Alipay доверяют. Доверяют все без исключения. Прекрасным примером служит их рейтинг.
У Wechat это Wechat Pay Points, у Alipay Sesame Credit. Высчитывается он тайными алгоритмами, которые никому не известны, но их результат и его влияние на себя может испытать каждый
1) он выше 350 можешь им нормально пользоваться
2) он выше 550 можешь без залога брать в аренду павербанки, зонтики, велосипеды
3) он выше 600 можешь получать chargeback мгновенно. Вот буквально не понравились тебе купленные на Таобао туфли и ты жмешь возврат. Деньги мгновенно возвращаются, а у тебя есть уведомление отправьте нам товар обратно на протяжении 15 дней
4) выше 700 брать авто в аренду без залога. Буквально оставил заявку на авто в аэропорту и тебе скинули его геолокацию. Пришел, отсканил QR-код и поехал
5) выше 900 это основание подать в банк заявку на снижение процента по ипотеке. Взял ты ее под стандартные 3,8%, отправил справку из Wechat о своем >900 рейтинге тебе ее снизили до 2,5%. Одна моя знакомая(в рамках программы поддержки социально значимых профессий она учитель, снизила ее себе до 0,1% годовых. Но справку из Wechat/Alipay тоже потребовали
6) 1000(максимально теоретически возможный) не знаю, что там разблокируется за функционал.
Опять же, реальный пример аренда жилья. Когда я регистрировался в Ziroom, они какой-то внутренней магией посчитали, что мой рейтинг такой-то.
Как я снял квартиру? Выбрал в приложении понравившиеся и нажал посмотреть. После этого мне выдало время и 15-минутный код от замка. Я посмотрел, выбрал, год пожил. Потом переезжал в Шеньчжень и возвращал ее. Я нажал в приложении вернуть квартиру

И уехал. Уже в поезде меня догнало сообщение подтверждаете ли вы баланс счетчиков

Я нажал да и ехал дальше. Наутро я получил полный расчет и 400 юаней переплаты вернулись на счет.

При этом не путайте Ziroom с шарагами вроде AirBNB. На основании контракта с Ziroom я без лишних движений оформил себе налоговый вычет на аренду жилья(скрин из приложения налоговой). Для этого мне понадобился только номер контракта и мое ФИО/ID

Я вообще к чему Подобный уровень доверия сервиса к пользователю, немыслимый, невозможный уровень доверия возможен только тут.
И именно на основе Wechat/Alipay
Именно поэтому все конкуренты жалкое подобие.
Можно как угодно говорить, но Alipay и Wechat доверяю и я. Да, они параноидальны, да, они могут заблочить аккаунт до подтверждения чего-то там, да, они нещадно отслеживают ненормальные транзакции и блокируют всяких менял, да, они могут отрапортовать в банк и ваш счет закроют(на эту тему чаще всего слышен вой со стороны нелегальных менял и обнальщиков). Но если вы спросите меня я верю им на 100%.
Вы можете спросить любого китайца доверяет ли он им. Вы услышите много жалоб на тему привязал карту и потребовали подтвердить, настучали в банк на тему большого перевода без обоснования, потребовали скинуть распечатку транзакций из банка. Но оборвав их и спросив веришь? каждый ответит да.
И именно на стыке доверия к Alipay/Wechat со стороны государства, населения, банков и сервисов и рождается нечто подобного масштаба.
Говорите, что хотите, но именно Wechat первое, чего мне не хватает за границей.
Спасибо за внимание

Подробнее..

Категории: Информационная безопасность , Законодательство в it , Финансы в it , Будущее здесь , Wechat , Alipay , Рейтинг , Доверие

Что почитать (НаучПоп Научная Фантастика)

16.02.2021 10:21:44 |

Автор: admin

Как это появилось?

Некоторые время назад сильно увлёкся потреблением информации с научно-популярным уклоном. Но как не заблудиться в миллионах книг? Ресурс то ограничен. А значит придётся выбирать.

Как сузить поле выбора? Я решил взять рейтинги и подборки. Стал копать в этом направлении. С насмотренностью начало приходить понимание, что в рейтингах где хоть кого-то выкидывают, в основном одни и те же. И вот те, кто наблюдаются в приличных местах, связаны несколькими маркерами.

Какие маркеры мне на данный момент кажутся ярко перспективными:
- Топы книг в Дигитеке (ребята кстати сделали проект по бесплатной раздаче топового научпопа в электронном виде)
- Попадание на книгу вот этого деревца фонда Династия от Дмитрия Зимина. Ну и конечно попадание в шорт листы премии Просветитель.
- Попадание на обложку книги вот этих обезьянки и человека, причиляющее его к библиотеке фонда Эволюция.

Библиотека

Раздел 1. Законы науки и мышление
(Математика, Рациональность, Научный метод, Когнитивные искажения, Нейрофизиология, Ошибки мышления, Доказательная медицина)

Защита от темных искусств Александр Панчин
Рациональность: От ИИ до зомби Элиезер Юдковский
Вы конечно шутите мистер Фейнман Ричард Фейнман
Объясняя религию Паскаль Буайе
Думай медленно решай быстро Каннеман
Мир полный демонов Карл Саган
Гедель, Эшер, Бах: эта бесконечная гирлянда Дуглас Хофштадтер
Как не ошибаться. Сила математического мышления Джордан Элленберг
Недоверчивые умы: чем нас привлекают теории заговоров Роб Бразертон
Как работает разум Стивен Пинкер
Неприродная природа науки Льюис Уолперт
Предистория разума Стивен Митен
Фактологичность Ханс Рослинг
Сигнал и шум Нейт Сильвер
0,05 доказательная медицина Пётр Талантов
Пациент разумный Алексей Водовозов
Укрощение бесконечности. История математики от первых чисел до теории хаоса Иэн Стюарт
Математика для гуманитариев Алексей Савватеев
Математика космоса Иэн Стюарт

Раздел 2. Законы природы
(Физика, Теория относительности, Квантовая механика, Астрофизика, Астрономия, Изобретения и открытия)

Космос Карл Саган
Краткая история времени Стивен Хокинг
Краткие ответы на Большие вопросы Стивен Хокинг
В поисках кота Шредингера. Квантовая физика и реальность Джон Гриббин
Элегантная Вселенная. Суперструны, скрытые размерности и поиски окончательной теории Брайан Грин
Суперобъекты Сергей Попов
Темная сторона вселенной Владимир Сурдин
Теория всего Стивен Хокинг
Мир в ореховой скорлупке Стивен Хокинг
Астрономия. Популярные лекции Владимир Сурдин
Голубая точка. Космическое будущее человечества Карл Саган
Ткань космоса. Пространство, время и текстура реальности Брайан Грин
Всё из ничего: Как возникла Вселенная Краусс, Лоуренс Максвелл
Фейнмановские лекции по физике Сэндс; Фейнман; Лейтон

Раздел 3. Законы жизни
(Абиогенез, Теория эволюции, Химия жизни (Клетки, ДНК), Антропогенез)

Эгоистичный ген Ричард Докинз
Происхождение жизни: От туманности до клетки Михаил Никитин
Эволюция человека Марков
Достающее звено Станислав Дробышевский
Сумма биотехнологии Панчин Александр
Лестница жизни Ник Лейн
Вопрос жизни Ник Лейн
От атомов к древу Ястребов
Расширенный фенотип Ричард Докинз
Слепой часовщик Ричард Докинз
Самая главная молекула. От структуры ДНК до биомедицины 21 века Максим Франк-Каменецкий
Она смеется, как мать: могущество и причуды наследственности Карл Циммер
Хлопок одной ладонью Николай Кукушкин

Раздел 4. Художественный научпоп / Научная фантастика

Гарри Поттер и методы рационального мышления Элиезер Юдковский
Апофения Александр Панчин
Понедельник начинается в субботу Стругацкие
Я - робот Айзек Азимов
Гарвардский Некромант Александр Панчин
Драконы Эдема Карл Саган
Праща Давида Марк Стиглер
Звёздные дневники Ийона Тихого Станислав Лем
Конец Вечности Айзек Азимов
Анафем Нил Стивенсон
Политика и английский язык Оруэлл
Пасынки Вселенной Роберт Хайнлайн
Марсианин Клиффорд Саймак
Гиперион Дэн Симмонс
За миллиард лет до конца света Стругацкие
Квантовый Вор Ханну Райаниеми
Ложная слепота Питер Уотс
Мошка в зенице господней Нивен и Пурнель
Принц Хаоса Роджер Желязны

Запрос

Большая часть книг из списка не прочитана. Часть книг, которые были в списке, улетели из него после прочтения. В связи с чем, вопрос к Вам. Читали ли Вы что-то из списка? Можете ли сказать про какую то из книг что-то конкретно плохое? Может что-то в списке смотрится не в тему? И конечно главный вопрос. Какой книги там точно не хватает?

Из научной фантастики интересует больше всего Твёрдая.

Псс. А ещё у меня естьканал в телеграмме. Данную библиотеку планирую регулярно "допиливать" у себя втелеграмме. А Ваши рекомендации вынесу в UPD данной статьи.

UPD

Место для ваших рекомендаций.

Здесь грустно и одиноко путник.

Раздел 3. Законы жизни
(Абиогенез, Теория эволюции, Химия жизни (Клетки, ДНК), Антропогенез)

Здесь грустно и одиноко путник.

Раздел 4. Художественный научпоп / Научная фантастика

Здесь грустно и одиноко путник.

Подробнее..

Категории: Мозг , Научно-популярное , Мышление , Физика , Читальный зал , Научная фантастика , Наука , Книги , Рейтинг , Подборка , Научпоп , Научный метод

Очередной Хабро-хак для накрутки ретинга на сайте

26.03.2021 12:06:50 |

Автор: admin

Почему очередной? Потому что первую мою статью о найденном способе обхода правил Хабра, прилетевшее НЛО принудительно скрыто в черновики, где она остается и по сей день.

Но тот способ можно было применять деструктивно, поэтому с таким решением НЛО я полностью согласен. Да и сама статья предназначалась в первую очередь для привлечения его внимания (практически ловил на живца :-) ), т.к. мое обращение в поддержку сайта насчет потенциальной уязвимости было проигнорировано.

Но текущая ситуация совершено другая. Уязвимости для ресурса нет, но есть определенные особенности расчета рейтинга у пользователей и компаний, которые можно иногда эксплуатировать в собственных интересах.

Поэтому, данная статья предназначена в первую очередь для предотвращения злонамеренной (и постоянной) эксплуатации данной особенности, т.к. для обычных пользователей это может доставлять определенные неудобства.

Особенности начисления рейтинга

Точная формула расчета рейтинга на Хабре мне не известна. Но по косвенным признакам можно сделать вывод о том, что уже накрученный рейтинг не приклеивается к блогу, например, если к высокорейтинговой публикации добавить блог компании.

Из-за этой особенности есть предположение, что формула вычисления рейтинга учитывает только фактическое голосование читателей без учета старых голосов, которые были отданы за публикацию ранее.

В принципе, это нормальный алгоритм, т.к. не позволяет накручивать рейтинг за счет редактирования списка блогов у не очень старых публикаций. Хотя с другой стороны, если уже успели наловить минусов за статью, то они скорее всего тоже никуда не денутся, даже если её скрыть в черновики.

Как злоупотреблять?

Злоупотреблять этой особенностью очень просто. Кому-то может показаться хорошей идеей, публиковать хорошо выстрелившую статью несколько раз. И так же несколько раз словить за нее плюсики в карму и в повышение рейтинга.

А если развивать эту ситуацию до абсурда, то в голову может придти гениальная идея публиковать старые статьи по новой с некоторой периодичностью (например, каждый месяц), тем самым удерживая рейтинг на высоком уровне.

Но к счастью, ~~НЛО~~ создатели Хабра уже подумали о таком развитии событий. Ведь внимательные читатели это быстро заметят и сразу сообщат о повторе. А в случае игнорирования сообщений, такого бешеного принтера сами читатели будут приводить в сбалансированную норму с помощью голосов за карму.

Но вот если стараться хитрить и скрывать предыдущие публикации, чтобы повторы постов не бросались в глаза, тогда такой финт какое-то время будет работать. Если предположить, что рейтинг за прошлые статьи никуда не девается даже после их скрытия в черновики, то новая публикация принесет новую порцию рейтинга (хоть это и будет фактический повтор ранее публиковавшегося материала, но формула расчета об этом ничего не узнает).

Как НЕ злоупотреблять?

Напрашивающееся так не делать, будет слишком простым. Иногда реально бывают ситуации, когда нужно сделать повторную публикацию. И причин для этого может быть множество, начиная от переделки старого материала под определенное событие или случайного нажатия на кнопку Опубликовать, вместо В черновики (ведь после этого изменить дату публикации и позицию в ленте уже нельзя).

Уважаемые авторы! Пожалуйста, не забывайте о своих читателях! Хотя бы напишите, что это повторная публикация по такой-то причине, чтобы у внимательных посетителей сайта не случалось дежавю при чтении новой статьи.

И еще большая просьба, если вы делаете повторный пост, то по возможности не скрывайте предыдущий вариант в черновиках, особенно, если он сохранен у кого-то в закладках. А то бывает крайне обидно, когда помнишь, что сохранял на память полезный материала, а его уже нет в отложенных публикациях.

P.S.

Я намеренно не привожу примеры таких публикаций, т.к. во первых, сами статьи мне нравятся и у меня нет цели подставлять конкретных авторов или блоги компаний. А во вторых, я искренне верю, что у авторов не было цели накручивать таким способом рейтинг. Ведь случайности иногда происходят действительно случайно :-)

Подробнее..

Категории: Копирайт , Алгоритмы , Habr , Контент-маркетинг , Рейтинг , Рейтинги , Хаброхак , Хабродвижок

Хабрарейтинг 2020 Авторы vs Корпоративные Блоги

20.12.2020 16:19:50 |

Автор: admin

Привет, Хабр.

Наверное, практически все постоянные читатели и авторы сайта знают, что статьи здесь на сайте могут публиковаться как индивидуальными авторами, так и корпоративными аккаунтами. Невольно возникает детский вопрос какие лучше? Какие статьи получают больше оценок и комментариев? К чему ближе корпоративные блоги к надоедливой рекламе, которую можно лишь пролистать, или к полезной информации? Попробуем разобраться.

Для тех кому интересно, продолжение под катом.

Для начала, традиционный disclaimer: все приведенные данные неофициальные, и я не исключаю что нигде не ошибся. Вся информация была собрана парсером с помощью Python и обрабатывалась с помощью Pandas и Matplotlib.

Кто выиграет, авторы или корпоративные блоги? Поехали.

Количество публикаций

Для начала ответим на самый простой вопрос каких материалов публикуется больше?

За 2020 год на момент написания текста в корпоративных блогах было опубликовано 9066 статей, индивидуальными авторами чуть больше 9151. Но в принципе, эти числа можно считать более-менее одинаковыми, погрешность порядка 1%.

Пока счет 1:1.

Рейтинг

Посмотрим, как обстоят дела с рейтингом. На графике по горизонтали расположен рейтинг, по вертикали количество статей с данным рейтингом.

Результат довольно любопытный, и для меня неожиданный. Как можно видеть, статьи в корпоративных блогах в среднем получают более высокие оценки. Особенно это видно по заминусованным статьям, имеющим негативный рейтинг, у индивидуальных авторов таких больше. Думаю, причина в том, что для блогов приглашают авторов с уже высокими рейтингами, пишущих более-менее качественные тексты. Плюс у компаний все же больше технических ресурсов создавать интересный материал (например, индивидуальные авторы не будут делать обзоры железа т.к. им его никто не оплачивает).

Но есть и другая сторона: если рассматривать правую часть графика, то можно видеть, что среди статей с самым высоким рейтингом (100 и выше) индивидуальных авторов все же больше:

В общем, корпоративные блоги в среднем выдают стабильно-качественный материал, но уникальных материалов у индивидуальных авторов таки больше. Но в среднем, я думаю, и здесь ничья. Общий счет 2:2.

Ожидаем результат имхо потому, что у индивидуальных авторов больше возможностей писать про что-то необычное, типа катушек Тесла, лазеров или электронных микроскопов, такими темами корпорации заниматься не будут. Но разница, честно говоря, незначительная. Больше удивил другой факт примерно 1100 статей от индивидуальных авторов и 1700 статей корпоративных блогов имеют 0 комментариев, т.е. оказались либо совсем незамеченными, либо комментировать там, увы, нечего. С противоположной стороны распределения самая комментируемая статья автора mrtux набрала 2401 комментарий, а самая комментируемая статья из блога vdsina_m набрала 2028 комментариев.

Так или иначе, по комментируемости индивидуальные авторы впереди, счет 3:2.

Количество просмотров

Аналогичную гистограмму можно сделать по количеству просмотров:

Здесь какой-либо значимой разницы я не вижу вообще, можно предположить, что для читателей несущественно, кому принадлежит статья, отдельному автору или блогу. Опять ничья, окончательный счет 4:3.

Общий итог: по большому счету, победила дружба :) Разница в целом весьма незначительная, обе стороны показали примерно равные результаты. Но формально индивидуальные авторы все же чуть впереди, что меня как автора радует есть еще немало людей, делающих что-то интересное в плане хобби.

Бонус

Как бонус, пара интересных закономерностей, о которых спрашивали в комментариях и которые мне показались любопытными.

Время публикации

Все вполне очевидно, с корпоративных аккаунтов больше материалов публикуется в рабочее время с 10 до 18, индивидуальные авторы более активны вечером и ночью:

С днями недели ситуация аналогичная:

Неудивительно, что в выходные публикаций от индивидуальных авторов больше.

Заключение

Если честно, результаты для меня оказались несколько удивительными. Я был уверен, что материалы корпоративных блогов окажутся статистически где-то на уровне назойливой рекламы во время фильма, и их оценки будут заметно ниже. Теперь могу честно признать, что ошибался в обоих случаях публикуется много качественных материалов, однозначно достойных прочтения.

Всем желаю творческих успехов.

Подробнее..

Категории: Социальные сети и сообщества , Визуализация данных , Научно-популярное , Анализ и проектирование систем , Статистика , Веб-аналитика , Рейтинг , Хабр

Хабрарейтинг 2020 Лучшие корпоративные блоги

23.12.2020 22:19:01 |

Автор: admin

Привет, Хабр.

Это завершающая, третья часть неофициального рейтинга лучших статей Хабра 2020 года. В этот раз мы рассмотрим корпоративные блоги. Различными компаниями на Хабре было опубликовано около 9000 статей, и разумеется, среди них можно найти немало интересного.

Продолжение под катом.

На всякий случай напомню, что рейтинг является неофициальным, и строится с помощью парсинга на Python. Никакой инсайдерской информации у меня нет, ни с какими блогами или их авторами я не связан. Вся опубликованная информация строится лишь на базе статистики, что как мне кажется, дает весьма интересные результаты, которыми хочется поделиться с читателями. Я не исключаю, что я нигде не ошибся, если я кого-то пропустил пишите, добавлю вручную.

Количество публикаций

Начнем с самого простого, количества публикаций. Всего на Хабре различными компаниями было опубликовано примерно 9000 статей, или примерно 25 в день, что весьма немало. Графически это можно изобразить примерно так, на диаграмме отмечены названия компаний, имеющих > 50 публикаций в этом году, остальные просто не влезли:

На первом месте в этом году оказалась компания RUVDS, которая опубликовала 602 статьи. На втором месте OTUS с 512 статьями, третье, четвертое и пятое места занимают Selectel (248 публикаций), VDSina (229 публикаций) и SkillFactory (211 статья).

Если взять из каждой компании 2 статьи с наибольшим количеством просмотров, то получаем следующий топ-10:

ruvds:
Что такое Windows PowerShell и с чем его едят? Часть 1: основные возможности от ru_vds, 123000 просмотров, 27 комментариев, рейтинг +49.0/-5.0
Как я использую AirDrop вместо Тиндера от zhovner, 120000 просмотров, 172 комментария, рейтинг +294.0/-14.0
otus:
Что такое CI/CD? Разбираемся с непрерывной интеграцией и непрерывной поставкой от MaxRokatansky, 25400 просмотров, 1 комментарий, рейтинг +5.0/-8.0
Машинное обучение столкнулось с нерешенной математической проблемой от MaxRokatansky, 24600 просмотров, 11 комментариев, рейтинг +24.0/-7.0
selectel:
Как найти скрытую камеру в съемной квартире или номере отеля от Seleditor, 130000 просмотров, 164 комментария, рейтинг +112.0/-17.0
Что нового в Ubuntu 20.04 от mingulov, 122000 просмотров, 203 комментария, рейтинг +96.0/-0.0
vdsina:
Почему об этом стоит задуматься всем: ответы на самые актуальные вопросы о коронавирусе Covid-19 от vdsina_m, 181000 просмотров, 612 комментариев, рейтинг +119.0/-15.0
Крушение Intel состоялось от ragequit, 145000 просмотров, 770 комментариев, рейтинг +167.0/-43.0
skillfactory:
Почему японский веб-дизайн настолько другой? от honyaki, 47100 просмотров, 44 комментария, рейтинг +49.0/-36.0
450 бесплатных курсов от Лиги Плюща от MagisterLudi, 39600 просмотров, 5 комментариев, рейтинг +24.0/-1.0

Количество просмотров

Рейтинг по количеству довольно-таки очевиден, перейдем к более интересным рейтингам. По просмотрам первое место у компании geltek, статьи которой набрали в среднем около 50 тыс просмотров на каждую. На втором месте dcmiran, habr, lamptest и analogbytes, статьи которых набирают в среднем 25 тыс просмотров. На третьем месте tuturu, статьи которой набирают в среднем 21 тыс.

Посмотрим лучшие статьи этих компаний.

geltek:
Проект 'Горижопа' разработка изделия 'гель Thermo-Intensive' от elena_pastukhova, 73100 просмотров, 205 комментариев, рейтинг +115.0/-48.0
Что будет с вашей кожей от постоянного ношения перчаток от elena_pastukhova, 49800 просмотров, 157 комментариев, рейтинг +89.0/-3.0
dcmiran:
Зачем принтеры ставят невидимые точки на документах от Data_center_MIRAN, 113000 просмотров, 212 комментариев, рейтинг +153.0/-1.0
Современные принтеры HP отказываются работать без подписки на чернила от Data_center_MIRAN, 109000 просмотров, 548 комментариев, рейтинг +134.0/-5.0
habr:
Сервисы, которые стали бесплатными на время карантина: курсы, радио, книги, кино и сериалы от baragol, 370000 просмотров, 61 комментарий, рейтинг +62.0/-2.0
Коронавирус COVID-19: только факты, без паники от baragol, 293000 просмотров, 220 комментариев, рейтинг +105.0/-13.0
lamptest:
Первые в мире серийные лампы с солнечным спектром от AlexeyNadezhin, 99900 просмотров, 304 комментария, рейтинг +145.0/-1.0
Большое красно-синее надувательство от AlexeyNadezhin, 73200 просмотров, 111 комментариев, рейтинг +119.0/-1.0
analogbytes:
ДИТ Москвы при проверке пропуска получает разрешение на отправку рекламы на следующие 10 лет от AnalogBytes, 176000 просмотров, 354 комментария, рейтинг +286.0/-7.0
Медуза, паспорта и говнокод почему номера паспортов всех участников интернет-голосования попали в Интернет от alexeishch, 56000 просмотров, 399 комментариев, рейтинг +130.0/-16.0
tuturu:
Вирус и антибиотики: нежный ликбез для паникующих от Milfgard, 93700 просмотров, 291 комментарий, рейтинг +243.0/-8.0
Новый плацкарт как капсульный отель от Milfgard, 81800 просмотров, 548 комментариев, рейтинг +209.0/-5.0

Рейтинг

Количество добавлений в закладки

Количество комментариев

Бонус

В качестве бонуса приведу небольшой антирейтинг. В отличие от рейтинга положительного, компании я здесь называть не буду. По наихудшему рейтингу можно отметить компанию p*** которая опубликовала единственную статью с рейтингом +7.0/-22.0. Больше они ничего не публиковали, а сейчас статья удалена в черновики. Одним из самых унылых блогов можно признать блог компании t***, которые опубликовали около 50 статей со средним рейтингом +2 (впрочем, другая компания o*** опубликовала несколько сотен статей со средним рейтингом +7). Блог с наименее просматриваемыми статьями принадлежит компании s***, статьи которой в среднем набирают лишь 1000 просмотров. Наименее комментируемый блог принадлежит компании t***, которая опубликовала 60 статей со средним числом комментариев 1.3.

Во 2й части рейтинга я публиковал несколько гистограмм распределения рейтингов, просмотров и прочих параметров, так что авторы могут сравнить свои значения со средними и подумать, что же они делают не так

Заключение

На этом я заканчиваю статистический обзор Хабра этого, 2020 года (если кто пропустил, 1я и 2я части). Надеюсь, читателям есть что пересмотреть на длинных новогодних праздниках, ну а авторам желаю успехом и попадания в рейтинг в следующем, 2021 году.

Подробнее..

Категории: Социальные сети и сообщества , Научно-популярное , Анализ и проектирование систем , Статистика в it , Статистика , Веб-аналитика , Рейтинг , Хабр

Recovery mode Социальный эксперимент порядок из хаоса

14.05.2021 08:04:13 |

Автор: admin

Бывало ли такое, что вы вас ограничивали за ваши мысли, так, что вы больше не могли высказаться в ответ? Весьма досадное чувство, не так ли? Как выстрел завершает жизнь человека, так и набор минусов способен лишить вас права существования на площадке.
Что будет если попытаться устроить общение по новым принципам, без администраторов, модераторов, без системы кармы, и даже без владельцев хоста? Сохранить свободу высказываний и при этом оградиться от хаоса? Я убежден что благодаря техническому прогрессу это стало возможно уже сегодня, и предлагаю на деле убедиться в этом, поучаствовав в эксперименте!

В чем суть?

Высшее дао рождает тьму вещей, но ею не владеет; творит многообразные изменения, но над ними не господствует. Те, что бегают и дышат, летают и пресмыкаются, наступает время и рождаются, но не из-за его благоволения; наступает время и умирают, но не из-за его вражды. Приобретая с пользой, оно не может быть восхваляемо; тратя и терпя убыток, оно не может быть порицаемо. Делает раздачи и одаряет, а не скудеет

(Лао-цзы)

Представьте себе затерянный телеграм чат, где нет владельца, и никто не был назначен модератором. У всех участников чата в фоновом режиме майнится некая валюта, просто по факту присутствия в чате, без регистрации. Благодаря встроеному в чат UX, валютой можно обмениваться и передавать друг другу, быстрее чем перевод в банке.
Ее также можно потратить чтобы закрепить свое сообщение на определенное время... или чтобы заблокировать спамера. Блокировка не удаляет человека, а лишь убирает ему поле ввода на время, в зависимости от затраченной на блокировку валюты. Система была бы несовершена без возможности отменить блокировку пользователю, точно также потратив на это часть своей накопленной валюты.

Звучит интересно, в чем отличие от кармы?

Каждый может делать это! Нет инвайтов и все только в ваших и ваших друзей руках, нет централизованной точки отката, нет модератора который может затереть ваш пост или ограничить. Когда нет владельца, то нет и возможности для злоупотреблений "по праву владельца".
Валюта майнится в фоновом режиме безусловно от мнения о вас других пользователей. Это можно сравнить с безусловным базовым доходом. Сверх этого, ее можно увеличивать добровольными переводами, никак привязанными к содержанию и рейтингу ваших высказываний.
Каждый "из коробки" обладает банхаммером, но его мощность ограничивается накопленной (и полученной от других пользователей) валютой. Поэтому систему не получится использовать для злоумышленного канселинга.
Каждый может разбанить любого другого если у него достаточно валюты. Нет тотальной отмены с глубоким минусом, нет минуса которого нельзя отменить (как -100 на Хабре), нет лимитов прощения, было бы только желание подождать немного или попросить любого пользователя помочь вернуться сразу!

В чем цели эксперимента?

Проверить возможны ли новые, горизонтальные подходы во взаимодействии пользователей? Возможен ли отказ от иерархии? Можно ли общаться в интернете без концепции владения хостом? Можно ли автоматизировать модерацию? Успех эксперимента может стать толчком к расцвету таких систем. Эксперимент абсолютно некоммерческий, нет никакой рекламы, нет механизма извлечения выгоды. Я делаю это ради интереса посмотреть что получиться (и удовольствия пронаблюдать вышеописанную механику в действии).

Как поучаствовать?

Зайти в чат где все это реализовано: t.me/habr_experimental
В чате нет владельцев и админов, а вместо них подлючена и ждет наплыва пользователей вышеописанная система. Полагаю что тематика обсуждений может быть любая, на интересные целевой аудитории Хабра темы, и помните что никто ни в чем не может ограничить вас, кроме вас самих и таких же как вы людей.

Исходный код чата

Эта статья о социальном эксперименте, однако она была бы не для Хабра без технических деталей. Поэтому для тех кому это интересно, подробные принципы работы валюты и UX описаны в этой статье: habr.com/ru/post/556292/
Исходный код системы доступен на GitHub: github.com/demidko/timecobot
Для бекенда использован один из лучших виданных мною языков - Kotlin, за что хочу сказать здесь спасибо его разработчикам.

Возможно эта статья обрушит мою карму здесь, а возможно мы увидим как появится новый мир свободных интернет-систем. Напоследок хочу пожелать всем читавшим, эксперементируйте чаще и делайте это ради интереса!

Подробнее..

Категории: It-стандарты , Kotlin , Программирование , Управление сообществом , Мессенджеры , Карма , Telegram , Рейтинг , Свобода слова , Демократия , Валюты , Банхаммеры , Зачем вообще теги когда есть хабы

Самые популярные языки программирования. Хабратоп 2020 года

04.12.2020 18:08:20 |

Автор: admin

Мы тут решили подбить предварительные итоги года и проанализировать рейтинги популярности языков программирования. Как менялась популярность ЯП и какие языки в 2020 году считаются топовыми, читайте в этой статье.

Ситуация с ЯП очень похожа на события этого фильма. Узнали же из какого?

Рейтинги субъективны

Начать стоит с того, что популярность языков программирования понятие весьма субъективное. Для объективного анализа банально не хватает данных. Просто невозможно отследить даже примерное количество программистов, которые начали учить конкретный язык, или отдельных проектов, в которых он используется.

В основном для расчёта популярности ЯП используют данные поисковой выдачи крупных поисковиков. Но даже при единых исходных данных результаты аналитики иногда различаются кардинально.

Индекс TIOBE

Индекс TIOBE один из самых известных рейтингов языков программирования. Для анализа используются запросы в поисковиках, которые включают название языка. Например, python для новичков. Но уже здесь имеется несколько нюансов, которые потенциально могут повлиять на место ЯП в рейтинге.

Рейтинг не учитывает качество и количество написанного кода на конкретном языке. По сути для анализа используются косвенные данные.

TIOBE не учитывает поиск Яндекса. То есть как минимум половина запросов из русскоговорящих стран вылетает в трубу. Также не учитывается китайский поисковик Baidu. Тем не менее рейтинг остается одним из самых популярных.

Теперь непосредственно о языках программирования.

На первом месте оказался С. С начала года он стабильно занимает примерно 16% рынка.

Java, который ещё в январе был лидером, стремительно обваливается. Он потерял треть пунктов и опустился на третье место. Эксперты считают, что падение Java и подъем Python, который поднялся на второе место, это следствие пандемии.

Популярность Python также подстёгивает значительный рост сферы Data Science, где Python считается приоритетным языком. К разочарованию поклонников R, Python требуют в 81% вакансий на позицию аналитика больших данных (читайте об этом в нашем материале), а R (без Python) нужен только в 3% случаев.

Впрочем, активное изменение рейтинга в 2020 году могло быть вызвано и майскими изменениями алгоритмов Google. Ведь именно в мае начались резкое падение рейтинга Java и рост Python.

Немного странной кажется низкая позиция JavaScript. 2 % рейтинга, и 7-е место слишком заниженный результат, по нашему мнению. Ведь по количеству пулреквестов в GitHub JavaScript уверенно лидирует. Больше 20 % всех пулреквестов это JavaScript. Для сравнения: Python на втором месте с показателем 15,9 %.

Активность сообщества разработчиков говорит куда больше, чем количество ключей в поисковой выдаче. И, несмотря на крепкую позицию JavaScript на GitHub, в TIOBE JavaScript за всю историю существования не поднимался выше 6-й позиции.

Вот, например, сравнение рейтинга JavaScript и C даже без учёта С++:

По рейтингу TIOBE, все шансы стать языком 2020 года есть у С. Если за декабрь не случится никаких серьезных изменений, то этот титул будет у языка второй год подряд таким ранее мог похвастаться лишь Objective-C.

PYPL рейтинг от GitHub

PYPL это ещё один рейтинг популярности языков программирования. И он использует совершенно другую систему анализа.

TIOBE учитывает общее количество страниц, которые относятся к конкретному языку. Собственно, это одна из причин, почему С стабильно находится в лидерах, ведь многие популярные ЯП появились значительно позже.

Рейтинг PYPL использует для анализа Google-тренды. С их помощью оценивают, насколько часто пользователи ищут туториалы по конкретному языку. Ведь, по мнению создателей рейтинга, именно поиск туториалов показывает, насколько популярен язык конкретно сейчас.

PYPL показывает удивительную стабильность. Первая десятка позиций за последний год абсолютно не изменилась. А ведь именно на них приходится 85,94% всех запросов.

Уверенно лидирует Python, индекс которого почти в 2 раза выше, чем у Java с его вторым местом. При этом отрыв второго от третьего места тоже почти в 2 раза. Так что в сумме Python и Java занимают почти половину всех запросов по туториалам. А это значит, что именно их активнее всего изучают в 2020 году.

По всем рейтингам Python в топе (хоть и на втором месте после Java). Сохранится ли тенденция? Какие у языка перспективы?

Python не просто останется в топе еще много лет, но и поднимется по позициям. Если мы говорим о России, то это во многом обусловлено экономическими факторами. Люди поняли, что их профессии уже не такие нужные, да и денег приносят не так много. Поэтому многие начинают штурмовать IT-сферу и изучать программирование. А Python имеет очень низкий порог входа из-за простоты синтаксиса и, конечно же, сахара.

Тут мы приходим к другой причине. Python позволяет написать рабочий прототип скрипта с помощью нескольких десятков строк кода, в отличие от других языков, где будет уже сотня-другая. Тем самым разработка на Python гораздо быстрее. А для многих компаний нужно быть первыми, чтобы не потеряться на рынке.

Семён Березовский, ментор курса SkillFactory Python для веб-разработки

Среди других ЯП активный рост демонстрируют Go, Rust, Ada, Lua и Dart. Их можно рассматривать как перспективные языки, но пока что интерес к ним слишком мал, чтобы с ними считаться в глобальных масштабах. Отметку в 1% преодолел только Go.

Если обобщить, то рейтинг PYPL дает хорошее понимание, какие языки программирования сейчас активно изучают либо ищут для них решение конкретных задач.

Но при этом он не показывает, на каких языках работают программисты. Ведь для выполнения рабочих задач совсем не обязательно искать туториалы в Интернете.

Опрос программистов на постсоветском пространстве

В начале 2020 года на DOU были опубликованы результаты опроса почти 10 000 программистов из постсоветских стран. И на основе их ответов был составлен рейтинг языков на которых сейчас пишут больше всего.

Да, выборка в 10 000 анкет это мало по сравнению с анализом миллионов запросов поисковиков. Но при этом она дает более полное видение о истинной популярности языков. Ведь используются не косвенные данные, а вполне себе прямые.

В первую очередь нас интересует вопрос На каком языке вы пишете сейчас? Ведь именно он показывает, насколько распространен язык именно в рабочей сфере, а не в обширности теории или популярности обучения.

Первая пятёрка с небольшими изменениями повторяет рейтинг PYPL. Разве что нет такого огромного отрыва Python от остальных ЯП. А разброс первого места с 18,4 % и пятого с 10,8 % нельзя считать слишком уж большим.

При этом первые пять позиций покрывают 71,5 % рынка, что также коррелирует с рейтингом PYPL. Но тут тоже есть изменения. По сравнению с 2019 годом JavaScript и Python растут, а вот рейтинги Java, C# и PHP постепенно падают.

Особенно активно растёт Python. Количество разработчиков, которые считают Python своим основным ЯП, выросло на 21,1% по сравнению с 2019 годом.

В целом Python растёт практически во всех аспектах. Он лидирует по личностным предпочтениям программистов. Также его планирует изучать как второй язык наибольшее количество респондентов. А в качестве дополнительного языка программирования он занимает почётное второе место.

Учитывая темпы роста, Python через несколько лет вполне может вырваться в лидеры и крепко оккупировать первое место. Тем более что разрыв между ним и лидером составляет всего чуть больше 5 %.

При этом очень активно растёт TypeScript, что в целом имеет смысл. Ведь разработка мобильного софта на TypeScript за последние несколько лет выросла многократно. Поэтому программистам, которые планируют разрабатывать софт для смартфонов, стоит обратить внимание на этот ЯП. Ну а для тех, кто уже знает JavaScript, сам Билл Гейтс велел.

Заключение

Если обобщить информацию из всех рейтингов, то складывается следующая картина.

Python, JavaScript, Java и С# и PHP это элита. Их активно изучают, на них программируют, пишут и читают туториалы. Сообщество языков живо, они развиваются и процветают. Можно посоветовать любой из этих языков новичку, который хочет войти в IT и не ошибётесь. Они действительно востребованны и популярны.

Что касается С/С++, то в Интернете просто огромное количество информации по ним. Несмотря на возраст, они все ещё сильны, хоть и понемногу теряют аудиторию.

Что касается перспективных языков программирования, которые могут хорошо выстрелить в будущем, то здесь стоит упомянуть TypeScript, Kotlin, Rust и Dart. На них стоит обратить внимание, если ищете перспективный второй язык программирования.

Но в целом стоит помнить, что любые рейтинги такого плана субъективны и во многом зависят от того, как именно проводится анализ данных. Так что если хочется учить С++ вперед. И даже если интересен Whitespace (тьфу-тьфу-тьфу), то можно и его. Успехов вам в ваших начинаниях! Тем кто надумает изучать язык мы всегда готовы в этом помочь. А промокод HABR, добавит 10 % к скидке на баннере.

Eще курсы

Google Books Ngram Viewer как инструмент для ретроспективных исследований

08.02.2021 00:09:10 |

Автор: admin

Активность использования термина "transistor" c 1800 года и до наших дней

Для принятия правильных решений в различных жизненных ситуациях очень полезно иметь адекватную модель мира. В частности, бывает полезна возможность сопоставить популярность различных предметов и оценить динамику этой популярности. Например, вы издатель, и вам предлагают перевести и издать книгу по языку программирования Fortran. Его ведь всё ещё используют, издаётся англоязычная литература, а у нас давно ничего не выходило. Или, скажем, по языку Julia. Книжек по актуальной версии языка на русском ещё нет. Можно взять какую-нибудь самую популярную английскую, перевести, издать и сорвать куш. В подобных ситуациях полезно иметь возможность подглядеть, какова популярность этих языков относительно других и какова динамика этой популярности. Пример с языками программирования приведён просто для наглядности, подобные задачи возникают и при анализе популярности различных программ, технологий, научных концепций.

Пример с языками программирования удобен ещё и потому, что для них имеются различные официальные рейтинги. Этих рейтингов много, они используют разные способы оценки популярности и естественно дают различающиеся результаты. Эти результаты к тому же подвержены достаточно сильному случайному дрейфу. Если посмотреть результаты разных рейтингов на какую-то конкретную дату, то создаётся впечатление, что мы ничего толком не знаем, и мир непостижим. Но ситуация немного меняется, если рассмотреть всё в динамике. В динамике становится видно, где дрейф, а где проглядывают какие-то реальные закономерности.

Одним из способов составления рейтингов популярности является анализ частоты поисковых запросов. Такой способ при всей его кажущейся наивности, при разумном использовании позволяет получать довольно устойчивые оценки. На этом, например, построен рейтинг языков программирования PYPL. Рейтинг строится на основе анализа запросов для поиска мануалов по тем или иным языкам. Но никакой общепит не сравнится с авторской кухней. Иногда хочется чего-то особенного, чего в существующих рейтингах может не быть. Например, рейтинг PYPL не включает в себя Fortran. Да, этот язык явно не лидер, хотя из других рейтингов известно, что он стабильно входит в верхние 50 строчек по популярности. Не проблема. Аналогичную картинку можно получить самостоятельно, не прибегая к помощи сторонних агентств, используя инструмент Google Trends. Вот, например, если посмотреть в динамике, можно увидеть хвост популярности Fortran (синий) и для масштаба относительно стабильный, хотя и немного снижающийся спрос на Matlab (красный). У Matlab, кстати, отчётливо видны сезонные пики два раза в год. По всей видимости перед зимней и весенней сессиями:

Глядя на такие картинки, невольно обращаешь внимание на левую границу, глубже которой невозможно копнуть, а именно на 2004 год. Поскольку анализируются запросы в Google, заглянуть в более древние периоды истории с помощью этого инструмента не получится. А ведь так любопытно взглянуть на период, когда Fortran был ещё на пике популярности. Но увы, наша машина времени туда попасть не может. Она была запущена на полную мощность только в 2004 году и все более ранние периоды для неё закрыты.

Из-за отсутствия информации по каким-либо другим инструментам ретроспективного поиска, я всегда думал, что возможность заглянуть в более ранние периоды отсутствует. Но, как оказалось, такая возможность имеется, причём инструмент предлагает всё та же компания Google. Называется он Google Books Ngram Viewer. Это инструмент статистического анализа информации, содержащейся в массиве книг из Google Books. В некотором смысле это гениальное решение, ведь печатные книги существуют уже несколько столетий, и имея их полные оцифрованные тексты, вполне можно использовать их как источник статистической информации о прошлых исторических периодах. Теперь хотя бы понятно, зачем Google создал и поддерживает проект Google Books. Общая цель здесь та же, что и поиска, и у сервисов: владение информацией. Но, к счастью, с нами готовы поделиться какой-то её частью.

Что предлагается:

Предлагается поисковая строка, куда нужно вводить запрос. Вводим запрос получаем график популярности данного слова в книгах. Начиная с 1800 (!!) года и до нашего времени. Поисковые запросы можно вводить через запятую тогда мы получим несколько линий на графике, соответствующих данным понятиям, и сможем оценить их динамику. Вот, например, тот же Fortran:

По умолчанию поиск чувствителен к регистру, то есть Fortran (написание названия для современных версий языка) и FORTRAN (написания названия для старых версий) это будут два разных слова. Можно выключить чувствительность к регистру, либо использовать арифметические выражения над введёнными поисковыми запросами, то есть написать FORTRAN+Fortran:

Инструмент статистический, не абсолютно точный, про это не стоит забывать. Например, для того же Фортрана мы увидим какие-то микровсплески ещё до публикации первой версии языка:

Также, как и упоминание о транзисторах ещё до их официального появления:

Любопытно было бы иметь возможность увидеть эти аномальные публикации, они могут представлять интерес. Но пока что такой возможности не предусмотрено.

Если не придираться к деталям, а смотреть какие-то общие тенденции, то в целом всё выглядит довольно реалистично. Например, можно увидеть, как упоминание Fortran в литературе сменяется на MATLAB:

Поскольку поиск по умолчанию выдаёт все вхождения заданного слова, забота о корректном учёте синонимов лежит на пользователе. В некоторых случаях провести такое разделение невозможно. Так, например, поиск просто по слову chip очевидно выдаёт слишком много случаев, когда слово употреблялось в других значениях, а поиск по слову microchip, хотя и явно точнее, не учитывает всех вариаций наименования предмета и не может использоваться для корректного количественного сопоставления с другими сущностями:

Например, если мы решим таким образом сопоставить популярность в литературе таких слов как Fortran+FORTRAN, MATLAB и Julia, то для первых двух это явно будет название языка программирования, а в последнем случае в первую очередь что-то совсем другое, включая различные имена собственные:

В этой смеси выделить именно язык программирования Julia проблематично. Введя дополнительное слово, мы сильно урежем допустимые вариации его использования, а не вводя получим неразделимую смесь. На данном этапе это неустранимое ограничение данного сервиса. В будущем конечно хотелось бы иметь возможность поиска понятий с учётом их смысла, примерно как в Google Trends. Искренне надеюсь, что прямо сейчас ведётся работа в этом направлении, просто результат ещё недостаточно хорош для показа.

Но всё-таки, даже с учётом различающейся вариативности контекстов сравниваемых слов, какую-то картину всё же можно получить. Например, сравнивая выдачу по таким понятиям, как electric, software и experiment мы увидим чёткую картину по использованию понятия software, которое не применялось до середины XX века, немного размытую картину по понятию electric поскольку оно могло использоваться в различных смыслах и контекстах, вплоть до художественной литературы, и примерно одинаковый уровень для experiment. Видимо, эксперименты производили и обсуждали на страницах книг с 1800 года и до наших дней с примерно одинаковой частотой. В последние десятилетия даже чуть реже, чем раньше:

Гораздо более чёткую картину даёт использование уникальных слов-маркеров, для которых известно, в связи с чем и в какое время их могли употреблять, а в какое ещё не могли. Таким образом, кстати, можно ещё и проверить адекватность выдачи. Вот пример для Stalingrad, Sputnik и perestroyka:

Ну что же, все пики вроде бы на своих местах. Интереса к перестройке в мировой литературе было явно меньше, чем к первым запускам спутников Земли. Похоже на правду.

Если взять какие-то более размытые понятия, например, genetic и neural, то даже несмотря на какой-то шум от возможного использования этих слов в других смыслах, виден явный подъём с середины XX века:

Интересно также оценить отражение вклада отдельных личностей в совокупность мировых печатных материалов. Но получится это далеко не со всеми деятелями, а только с имеющими какие-то необычные фамилии и не имеющими других известных однофамильцев. Вот, например, вклад Циолковского (одного из основоположников космонавтики и выдающегося философа-космиста) и Вистелиуса (основоположника математической геологии). Циолковский явно имеет большую известность и цитируемость в западной литературе:

Но даже если взять какую-то уникальную персоналию, то выдача будет зашумлена всем, что потом назвали в её честь. Вот пример по ключевому слову Lomonosov:

Явно в начале здесь вклад самого Михаила Васильевича (наверное, какие-то ссылки на его работы), потом названного в честь него университета, а потом ещё города и суперкомпьютера.

Для кириллических понятий можно осуществлять поиск по массиву русскоязычной литературы, но поскольку в Google Books пока что не очень большой её охват, а также есть риск, что распознавание текста выполнено не настолько качественно, как и для англоязычной, данную возможность пока скорее стоит рассматривать как демо-версию будущих возможностей сервиса.

По настройкам:

Можно сужать период охвата, можно менять набор текстов, по которым ведётся поиск, включать-выключать чувствительность регистра, менять степень сглаживания графиков. Есть некоторые выражения для поисковой строки, позволяющие реализовать некоторые специальные приёмы при поиске, наподобие арифметических действий над запросами. Есть и другие, они описаны на специальной странице.

Можно задавать только часть слова или искать по корням, учитывая его различные формы, можно указывать, какой частью речи должно являться искомое слово, осуществлять логические операции, чтобы отфильтровывать что-то лишнее. В принципе, возможности сервиса достаточны даже для каких-то лингвистических исследований, например, для анализа изменений норм языка.

Какие на данный момент есть проблемы:

1) Не учитывается контекст запроса. С одной стороны это хорошо, заставляет исследователя самого строить модель возможного использования слова. Поиск идёт более осознанно. С другой стороны, некоторые сущности без контекста разделить просто нельзя, то есть сейчас некоторые операции анализа просто нельзя выполнить, так как поиск по слову выдаёт неразделимую смесь нескольких понятий.

2) Нельзя перейти к конкретным текстам. И просто ради любопытства, и для проверки качества распознавания и поиска было бы интересно увидеть аномальные встречи заданного слова, когда его по идее ещё не должно было возникнуть. Возвращаясь к тому же Фортрану увидеть его упоминания до выхода первой версии.

3) Есть риск смещённости оценок из-за возможной неоднородности охвата оцифрованной литературы. Например, если имеется неоднородность по охвату различных областей знания, языков, исторических периодов. Было бы интересно увидеть какое-то процентное соотношение базы поиска к общей информации, хранимой в данный момент всеми библиотеками.

4) В принципе невозможно искать неразделимые термины и персоналии. Например, если будем искать по фамилии Толстой, то очевидно встретим след как от Льва Толстого, так и от Алексея Толстого, а также других выдающихся носителей этой фамилии. И начиная с какой-то даты их уже невозможно будет разделить. Для идеальной поисковой системы будущего, поисковая машина должна не просто учитывать контекст, а понимать запрос.

Какие промежуточные выводы можно сделать:

1) Объекты с уникальными и неизменными именами гораздо проще найти и оценить. Создавая новый язык программирования, программу или какое-то другое произведение давайте ему уникальное имя и старайтесь потом не менять.

2) Носители уникальных фамилий находятся в более выигрышном положении в плане обнаружения их заслуг (и в проигрышном в плане маскировки среди однофамильцев). Если у вас неоднозначно записываемая фамилия, то чем раньше вы определитесь с её эталонным написанием, тем проще будет потом найти ваши работы.

3) Практика наименования одного объекта в честь другого в долгосрочной перспективе может приводить к сложности оценки вклада как первого, так и второго. По крайней мере, при использовании поисковых машин, не умеющих понимать контекст вопроса

На этом всё. Надеюсь, данная заметка была полезна. Инструмент работает, и при осознанном использовании позволяет лучше понимать мир и его динамику. При не очень осознанном использовании может просто использоваться как игрушка. Но игрушка всё-таки развивающая. Почему бы и нет.

В ходе работы пришла пара интересных мыслей:

1) Наверное, примерно так и должна быть устроена мировая библиотека будущего. Фактически, это уже её прототип.

2) Сервис позволяет оценивать вклад отдельных понятий в общую совокупность всех записанных человеческих текстов, то есть фактически когда-либо высказанных мыслей представителей нашей цивилизации. Но как назвать эту совокупность?

Подробнее..

Категории: Визуализация данных , Научно-популярное , Julia , Matlab , Будущее здесь , История , Поисковые технологии , Google , Анализ данных , Книги , Открытые данные , Рейтинг , Библиотека , Fortran

SQL HowTo рейтинг-за-интервал

11.01.2021 16:10:01 |

Автор: admin

Одним из наиболее частых требований-"хотелок" бизнеса является построение всяких разных рейтингов -"самые оборотистые клиенты", "самые продаваемые позиции", "самые активные сотрудники", - любимая тема разных дашбордов.

Но просто "самые" за весь доисторический период обычно неинтересны - продал ты 3 года назад вагон валенок, и теперь он у тебя в "самых" продажах вечно. Поэтому обычно хочется видеть"топ" на каком-то ограниченном последнем интервале- например, "за последний год" (точнее, за последние 12 календарных месяцев).

Традиционно, есть два подхода к этой задаче: запрос по требованию по "сырым" данным или предварительная агрегация. И если "просто посчитать" такой отчет по первичке - упражнение для SQL-новичка, но очень "тяжелое" для производительности СУБД, то вариант сделать так, чтобы он строился практически мгновенно при большом количестве активных аккаунтов независимых бизнесов, как у нас в СБИС, без необходимости пересчитывать агрегированную статистику каждого 1-го числа месяца судорожно по всем клиентам - интересная задача.

Структура хранения

Для начала поймем, что "быстро" может быть только в том случае, когда мы можем простопройти по "верхушке" нужного индексаи извлечь искомые TOP-10 записей - без всяких суммирований и пересортировок.

То есть для решения задачи нам достаточно таблицы с единственным индексом (рассмотрим только вариант сортировки по сумме, для количества все будет аналогично):

CREATE TABLE item_stat(  item -- товар    integer, sum    numeric(32,2));CREATE INDEX ON item_stat(sum DESC);

Наполнять ее данными мы можем легко и просто -инкрементом в триггерепри проведении продажи. Но как все-таки сделать эффективное "вычитание" данных при завершении месяца?..

"Нужно больше золота"

Чтобы быстро что-то вычесть, нужно четко понимать, что именно.

В нашем случае - это продажи за 12-й месяц "назад" при пересечении границы. То есть наступил июнь - из общих счетчиков нужно вычесть все данные за июнь прошлого года. А для этого их нам нужно хранить отдельно от "годичных", из-за чего таблица принимает структуру:

CREATE TABLE item_stat(  interval_id -- 0 - текущие счетчики, 202001 - январь 2020, 202002 - февраль, ...    integer, item    integer, sum    numeric(32,2), UNIQUE(interval_id, item));CREATE INDEX ON item_stat(interval_id, sum DESC);

Момент обновления

Чтобы понять, что вот прямо сейчас надо "вычесть" какой-то месяц, достаточно оперироватьединственным дополнительным параметромтипа"месяц последней актуализации рейтинга продаж". Хранить его можно даже в служебной записи в этой же таблице (если это не помешает Foreign Key, который вы можете захотеть добавить на item):

INSERT INTO item_stat(  interval_id, item, sum)VALUES  (0, 0, 202012) -- служебный ключ (0, 0), значение - 2020'12 вместо суммыON CONFLICT(interval_id, item)  DO UPDATE SET    sum = EXCLUDED.sum; -- всегда заменяем значение

Теперь при операции над продажей (отгрузка/аннулирование) вызываем, можно асинхронно, инкремент/декремент сразудля двух записей - "годичной" и текущего месяца:

INSERT INTO item_stat(  interval_id, item, sum)VALUES  (202001, 1, 100) -- + в рейтинг за январь 2020, (     0, 1, 100) -- + в текущий рейтингON CONFLICT(interval_id, item)  DO UPDATE SET    sum = item_stat.sum + EXCLUDED.sum; -- всегда добавляем в сумму

Если текущиймесяц операции разошелся с месяцем из параметра,асинхронностартуем пересчет "годовых" значений, вычитая показатели за ставшие избыточными месяцы, и переактуализируем значение параметра:

-- "новый" месяц актуальностиWITH next AS (  SELECT 202101)-- предыдущий месяц актуальности, prev AS (  SELECT    sum::integer  FROM    item_stat  WHERE    (interval_id, item) = (0, 0))-- все продажи за период, ставший неактуальным, в разрезе товаров, diff AS (  SELECT    item  , sum(sum) sum  FROM    item_stat  WHERE    interval_id BETWEEN (TABLE prev) - 100 AND (TABLE next) - 100  GROUP BY    1)UPDATE  item_stat dstSET  sum = dst.sum - diff.sumFROM  diffWHERE  (dst.interval_id, dst.item) = (0, diff.item);UPDATE  item_statSET  sum = 202101WHERE  (interval_id, item) = (0, 0);

При построении отчета

Если текущий месяц совпадает с месяцем из параметра, то все значения в "годичном" интервале актуальны - просто выводим топ по индексу:

SELECT  *FROM  item_statWHERE  interval_id = 0 -- текущий "годичный" интервалORDER BY  sum DESCLIMIT 10;

Если не совпадает (то есть наступил новый месяц, но продаж еще не было) -синхроннопересчитываем, как было описано выше (немного потупит, но всего один раз за месяц) и потом показываем, как описано выше.

Подробнее..

Категории: Postgresql , Sql , Администрирование баз данных , Блог компании тензор , Sql tips and tricks , Erp-системы , Рейтинг , Сбис , Интервал

Перевод Самые популярные базы данных 20062021гг

31.05.2021 18:12:13 |

Автор: admin

(статья обновлена в мае 2021г.)

Какие системы управления базами данных (СУБД) распространены в мире больше всего? Как они изменились с 2006года и какие входят в десятку самых популярных? В этой статье мы проанализируем базы данных, которые были на пике популярности с 2006 по 2021год. Данные обновляются каждый месяц. Подробнее в индексе ведущих баз данных TOPDB. Итак, рассмотрим самые популярные базы данных с 2006 по 2021год.

15 самых популярных баз данных с 2006 по 2021год

Какая база данных стала самой популярной в 2021году? Согласно рейтингу БД, это Oracle. Этой базой данных пользуются 30,2% респондентов. В два раза меньше респондентов используют MySQL (16,65%) и SQL Server (13,21%) второе и третье места соответственно. В совокупности на долю этих трех СУБД приходится более 62% общего числа пользователей. На четвертой строчке расположилась СУБД Microsoft Access 9%. На долю баз данных, занявших пятое и последующие места, приходится менее 5%.

При этом Oracle занимает то же положение, что и 15лет назад. В мае 2006года этой СУБД пользовались 31,8% респондентов. На втором месте была MySQL 24,5%. В совокупности этими двумя базами данных в 2006году пользовались более 55% респондентов. Третью строчку в 2006году занимала СУБД Microsoft Access. Тогда ее использовали 17,6% респондентов, но в 2021году их количество сократилось почти вдвое и составило 9,07%. СУБД SQL Server с тех пор поднялась на одну позицию, и хотя ее показатель по-прежнему составляет около 13%, ей удалось обойти Access.

Рейтинг баз данных DB-Engines май 2021года

В мае 2021года лидером рейтинга DB-Engines остается Oracle. За ней следует MySQL, которая набрала 1236баллов, и Microsoft SQL Server 992,66балла.

Рейтинг DB-Engines март 2021года: Визуализация данных через платформу Flourish

Мы рассмотрели самые популярные базы данных в рейтинге TOPDB. TOPBD рассчитывает показатель так: Индекс ведущих баз данных TOPDB основывается на анализе частоты поисковых запросов в Google, содержащих названия баз данных. Но какие базы данных наиболее популярны в мире по версии DB-Engines?

На первых трех строчках размещаются все те же СУБД. Лидирует Oracle (1321,73балла), на втором месте MySQL (1254,83балла), далее Microsoft SQL Server (1015баллов). Но начиная с четвертой строки рейтинг меняется: по версии DB-Engines четвертой самой популярной в мире СУБД стала PostgreSQL, которая набрала 549,29балла.

Рейтинг DB-Engines Топ 10 наиболее популярных баз данных март 2021года: Визуализация данных через платформу Flourish

Еще один интересный пример: в TOPDB Microsoft Access занимает четвертое место, но в рейтинге DB-Engines Access набирает 118,14балла. В десять раз меньше, чем Oracle. (Подробнее о том, как рассчитываются показатели БД в этом рейтинге, можно прочитать по ссылкеhttps://db-engines.com/en/ranking_definition.)

Самые быстрорастущие базы данных в прошлом году

Какие из 50 баз данных проявили себя лучше других в прошлом году, а какие не продемонстрировали блестящих результатов? Начнем с хорошего. Microsoft Azure SQL Database, PostgreSQL, Mongo DB и Snowflake показали высокий рост. Из них наибольший рост продемонстрировала СУБД Microsoft Azure (35,44%), а наименьший Snowflake (+20,77%). Показатели неплохо поднялись у Google BigQuery, Redis и Amazon DynamoDB. Среди них самый высокий рост наблюдался у BigQuery (+8,51%), а наименьший у Amazon DynamoDB (+6,38%).

Рейтинг DB-Engines Топ 50 наиболее популярных баз данных март 2021года: Визуализация данных через платформу Flourish

Наибольшую отрицательную динамику показали три базы данных: Microsoft SQL Server (82,55%), Oracle (18,91%) и Hive (9,34%). Однако некоторые из баз данных, показатели которых ухудшились по сравнению с показателями марта, по-прежнему занимают лидирующие позиции в общем рейтинге. Oracle, MySQL и Microsoft SQL самые популярные в мире базы данных в среднем потеряли по 35,55%.

Выше представлена интерактивная таблица рейтинга DB-Engines (ссылки на официальные данные можно найти здесь: https://db-engines.com/en/ranking). Вы можете посмотреть данные для разных столбцов.

Источники и полезные ссылки

Работая над этой статьей, я использовал несколько источников, в том числе рейтинги TOPDB и DB-Engines. Ссылки на источники указаны в статье.

Видео о самых популярных базах данных с 2006 по 2021год: https://youtu.be/thuG2PXVbBU

Статья о самых популярных игровых консолях: https://statisticsanddata.org/data/best-selling-consoles-in-history-1972-2021/

Перевод материала подготовлен в рамках курса Базы данных. Если вам интересно узнать о курсе больше, приглашаем вас на день открытых дверей онлайн на этой встрече сможете узнать подробнее о программе курса и особенностях обучения, а также познакомиться с преподавателем.

Подробнее..

Категории: Администрирование баз данных , Базы данных , Рейтинг , Субд , Блог компании otus

	Русский
	English

Рейтинг

Как это появилось?

Библиотека

Запрос

UPD

Особенности начисления рейтинга

Как злоупотреблять?

Как НЕ злоупотреблять?

P.S.

Количество публикаций

Рейтинг

Комментарии

Количество просмотров

Бонус

Заключение

Количество публикаций

Количество просмотров

Рейтинг

Количество добавлений в закладки

Количество комментариев

Бонус

Заключение

В чем суть?

Звучит интересно, в чем отличие от кармы?

В чем цели эксперимента?

Как поучаствовать?

Исходный код чата

Рейтинги субъективны

Индекс TIOBE

PYPL рейтинг от GitHub

Опрос программистов на постсоветском пространстве

Заключение

Рекомендуемые статьи

Структура хранения

"Нужно больше золота"

Момент обновления

При построении отчета

15 самых популярных баз данных с 2006 по 2021год

Рейтинг баз данных DB-Engines май 2021года

Самые быстрорастущие базы данных в прошлом году

Категории

Последние комментарии