Умпутун
👤 SpeakerAppearances Over Time
Podcast Appearances
Я подозреваю, что это все в виде капшин дается. Они все же с картинками, правильно? И, видимо, весь текст это капшин картинки. Я так подозреваю. А поскольку он форвард, а не просто месседж, мы понимаем, в общем, там можно представить себе вот этот путь, который именно в такой ситуации сработает. Ксюша, ты вернулась к нам? Все еще нет?
Я подозреваю, что это все в виде капшин дается. Они все же с картинками, правильно? И, видимо, весь текст это капшин картинки. Я так подозреваю. А поскольку он форвард, а не просто месседж, мы понимаем, в общем, там можно представить себе вот этот путь, который именно в такой ситуации сработает. Ксюша, ты вернулась к нам? Все еще нет?
Да, конечно. Мы тут с Лехой объясняли, что такое мейнсплейнинг без тебя. Вот это все.
Да, конечно. Мы тут с Лехой объясняли, что такое мейнсплейнинг без тебя. Вот это все.
Я вчера в эту тему читал статью, по-моему, на Hacker News, где чувак принес свою модель, которую он сам сделал маленькую, натренировал, Исключительно для одной задачи. Его задача – доставать текст статьи с любого произвольного веб-сайта типа блога. Ну, то есть, где есть, собственно, статья. Не просто такой новостной сайт, где куча все идет, а где заходишь по ссылке, и там статья.
Я вчера в эту тему читал статью, по-моему, на Hacker News, где чувак принес свою модель, которую он сам сделал маленькую, натренировал, Исключительно для одной задачи. Его задача – доставать текст статьи с любого произвольного веб-сайта типа блога. Ну, то есть, где есть, собственно, статья. Не просто такой новостной сайт, где куча все идет, а где заходишь по ссылке, и там статья.
У статьи есть артикл, там автор, вот это все есть. И как человек, близкий к этой задаче, который пытался разными методами, ну, самый популярный метод – это то, что Мазило придумал, не знаю, 15 лет назад, наверное, редабилити-алгоритм, и так с тех пор и делают. Но особо выдающиеся люди делают регексами, все это парсят, или особыми правилами, там, стоит машина… Как правило, оно все вместе завязано.
У статьи есть артикл, там автор, вот это все есть. И как человек, близкий к этой задаче, который пытался разными методами, ну, самый популярный метод – это то, что Мазило придумал, не знаю, 15 лет назад, наверное, редабилити-алгоритм, и так с тех пор и делают. Но особо выдающиеся люди делают регексами, все это парсят, или особыми правилами, там, стоит машина… Как правило, оно все вместе завязано.
А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.
А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.
Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.
Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.
Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.
Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.
В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.
В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.
Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.
Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.
В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?
В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?