Умпутун
👤 SpeakerAppearances Over Time
Podcast Appearances
А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.
А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.
Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.
Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.
Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.
Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.
В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.
В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.
Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.
Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.
В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?
В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?
Он до последнего времени с этим очень плохо справлялся. То есть иногда справлялся, иногда коллекционировал вплоть до того, что дописывал статью, которая там не была. Вот это 4О и 4О мини оба совершенно замечательно с этим справляются.
Он до последнего времени с этим очень плохо справлялся. То есть иногда справлялся, иногда коллекционировал вплоть до того, что дописывал статью, которая там не была. Вот это 4О и 4О мини оба совершенно замечательно с этим справляются.
Я немного экспериментов проводил, но все мои промты, которые я им давал, во-первых, текст не портили, во-вторых, очищали его правильно, и мало того, они маркдаун делали Я даже ему не говорил сделать красивый маркдаун по главам, по параграфам. Он все это сам красиво сделал.
Я немного экспериментов проводил, но все мои промты, которые я им давал, во-первых, текст не портили, во-вторых, очищали его правильно, и мало того, они маркдаун делали Я даже ему не говорил сделать красивый маркдаун по главам, по параграфам. Он все это сам красиво сделал.
Это дело двигается в сторону, когда обработка данных вот такая, прямо скажем, нетривиальная, уже при помощи черных ящиков становится возможной. Вот так вот. Вот примерно так. А о чем мы говорим-то? Какая у нас тема выбрана? Про OpenAI. Про Reasoning Mode. Но то, что она медленно работает, она реально медленно работает. Вы видели?
Это дело двигается в сторону, когда обработка данных вот такая, прямо скажем, нетривиальная, уже при помощи черных ящиков становится возможной. Вот так вот. Вот примерно так. А о чем мы говорим-то? Какая у нас тема выбрана? Про OpenAI. Про Reasoning Mode. Но то, что она медленно работает, она реально медленно работает. Вы видели?